Rạng sáng 10/6, Anthropic ra mắt Claude Fable 5 với hàng loạt kết quả benchmark ấn tượng. Nhưng thứ khiến cộng đồng AI tranh cãi gay gắt nhất lại không phải con số, không phải giá cả – mà là một đoạn văn nhỏ nằm khuất trong bản tài liệu kỹ thuật (system card) 319 trang đính kèm.
Chuyện gì đang xảy ra
Để hiểu vấn đề, cần biết Claude Fable 5 có nhiều lớp bảo vệ khác nhau. Với các chủ đề nhạy cảm như an ninh mạng hay hóa học, khi model phát hiện câu hỏi liên quan, nó sẽ chuyển sang xử lý bằng model yếu hơn (Claude Opus 4.8) và thông báo rõ ràng cho người dùng biết chuyện gì đang xảy ra. Người dùng không thích thì thôi, nhưng ít nhất họ biết.
Vấn đề nằm ở một lớp bảo vệ thứ tư, ít được nhắc đến hơn. Khi Claude Fable 5 phát hiện người dùng đang dùng nó để phát triển hoặc huấn luyện các model AI khác, model sẽ không chuyển sang Opus 4.8, không từ chối trả lời, và cũng không thông báo gì. Thay vào đó, Anthropic thừa nhận trong tài liệu kỹ thuật rằng họ sẽ can thiệp vào model bằng các kỹ thuật kỹ thuật để câu trả lời kém hiệu quả hơn – người dùng vẫn nhận được phản hồi từ Fable 5, nhưng chất lượng đã bị giảm mà họ không biết.
Tại sao Anthropic làm điều này
Để hiểu lý do, cần nhìn lại tháng 2 năm 2026. Anthropic khi đó công khai cáo buộc ba công ty AI của Trung Quốc – DeepSeek, Moonshot AI và MiniMax – tiến hành các chiến dịch có tổ chức để khai thác Claude theo quy mô công nghiệp. Theo Anthropic, các công ty này tạo ra hơn 16 triệu cuộc hội thoại từ 24.000 tài khoản giả, dù Anthropic đã chặn quyền truy cập thương mại từ Trung Quốc.
Mục đích là distillation (hay còn gọi là chưng cất tri thức) – một kỹ thuật trong đó một model AI nhỏ hơn học cách bắt chước model lớn hơn bằng cách hỏi hàng loạt câu hỏi có chủ đích và dùng câu trả lời làm dữ liệu huấn luyện. Hiểu đơn giản: thay vì tự nghiên cứu từ đầu, một công ty có thể hút tri thức từ Claude rồi nhét vào model của mình – với chi phí thấp hơn nhiều và không có bất kỳ biện pháp an toàn nào kèm theo.
Anthropic cho rằng dùng Claude để phát triển model cạnh tranh vốn đã vi phạm điều khoản sử dụng. Nhưng thực thi điều khoản bằng lệnh cấm thông thường không hiệu quả – vì người cố tình lách chỉ cần tạo tài khoản mới là xong. Cơ chế âm thầm giảm chất lượng, theo lý luận của Anthropic, sẽ triệt tiêu động cơ mà không để lộ điểm kích hoạt bảo vệ cho đối tượng xấu biết và tìm cách vượt qua.
Anthropic ước tính cơ chế này chỉ ảnh hưởng đến khoảng 0,03% lưu lượng toàn hệ thống.
Tranh cãi nằm ở chỗ nào
Lập luận phản đối không phải là Anthropic không được phép bảo vệ model của mình – mà là không minh bạch với người dùng trả tiền là sai về mặt nguyên tắc.
Nhà nghiên cứu AI Andrej Karpathy nhận định chất lượng model rất xuất sắc, nhưng cho rằng các biện pháp bảo vệ đang được chỉnh quá mức và cần điều chỉnh lại. Nhà phân tích Dean W. Ball cảnh báo cơ chế này có thể thu hút sự chú ý của cơ quan chống độc quyền. Một số giọng nói mạnh hơn trong cộng đồng gọi đây thẳng thắn là hành vi không trung thực với khách hàng đang trả tiền cho dịch vụ.
Vấn đề mấu chốt: làm sao người dùng biết câu trả lời họ nhận được là Fable 5 thật sự, hay là Fable 5 đã bị can thiệp? Trong các lớp bảo vệ khác, ít nhất có thông báo. Với cơ chế này, không có dấu hiệu nào để nhận ra.
Một số tiếng nói trung lập hơn cho rằng Anthropic có thể thực sự tin đây là biện pháp cần thiết cho an toàn AI, dù cách thực hiện chưa tốt. Một số khác nhận định thẳng đây đơn giản là phân khúc thị trường – Anthropic không có nghĩa vụ cung cấp năng lực AI hàng đầu cho tất cả mọi người – chứ không hẳn là vì lý do an toàn.
Người dùng thông thường có bị ảnh hưởng không
Câu trả lời ngắn: hầu như không. Cơ chế này nhắm vào đối tượng rất cụ thể – các kỹ sư và nhà nghiên cứu AI đang xây dựng hệ thống huấn luyện model, thiết kế hạ tầng AI quy mô lớn, hoặc cố tình khai thác Claude để phát triển model cạnh tranh.
Với người dùng thông thường làm việc văn phòng, viết lách, lập trình ứng dụng, hay học tập – Anthropic xác nhận các biện pháp này không ảnh hưởng đến đại đa số công việc thông thường.
Vấn đề tranh cãi không phải là ai đang bị ảnh hưởng, mà là tiền lệ đang được tạo ra: một AI thương mại được thiết kế để có thể cố ý trả lời kém hơn mà người dùng không có cách nào biết.
Chi tiết tài liệu kỹ thuật của Claude Fable 5 tại đây.
Nguồn: GenK


