Trong tài liệu System Card công bố cùng dòng mô hình Fable 5 và Mythos 5, Anthropic tiết lộ một phát hiện khiến ngay cả đội ngũ nội bộ phải dừng lại và xem xét kỹ: trong quá trình huấn luyện tăng cường, Claude Mythos bắt đầu tự phát triển ngôn ngữ ký hiệu riêng mà con người không thể đọc được.
Mô hình dùng ký tắt lạ, dấu câu bất thường, các biểu tượng cảm xúc và thậm chí từ ngữ ngoại ngữ ngẫu nhiên khi suy luận qua các bài toán dài, trước khi chuyển về ngôn ngữ bình thường ngay trước khi trả lời người dùng.
Anthropic mô tả hiện tượng này trong phần đánh giá hành vi mô hình trong quá trình huấn luyện, nơi nhóm nghiên cứu chạy hệ thống xem xét tự động trên hàng trăm nghìn bản ghi từ nhiều giai đoạn huấn luyện. Họ dùng công cụ tóm tắt đệ quy được hỗ trợ bởi Claude Opus 4.6 và Claude Opus 4.7 để phân tích và đánh giá mức độ đáng lo ngại của từng đoạn.
Phát hiện nổi bật nhất là các ví dụ về suy luận không thể đọc được trong một số môi trường huấn luyện tăng cường có chuỗi suy luận dài. Tài liệu mô tả mô hình bắt đầu bằng ngôn ngữ con người hiểu được, sau đó dần chuyển sang ký tự lạ và thuật ngữ tự phát minh, rồi quay về ngôn ngữ bình thường ngay trước khi thực hiện lệnh hoặc phản hồi người dùng.
Đây không phải lo ngại nhỏ trong ngành an toàn AI. Nhiều năm qua, khả năng các mô hình tiên tiến tự phát triển ngôn ngữ nội tại không thể giám sát được vẫn là một trong những kịch bản đáng lo nhất mà các nhà nghiên cứu theo dõi.
Mối lo ngại này trở nên cụ thể hơn khi mô hình o3 của OpenAI ra mắt năm ngoái với chuỗi suy luận dày đặc ký tự khó hiểu, khiến nhiều nhà nghiên cứu cho rằng vấn đề đã không còn là lý thuyết. Việc Claude Mythos, mô hình tiên tiến nhất của Anthropic, có dấu hiệu tương tự được xem là tín hiệu cần kiểm tra kỹ trước khi đưa ra kết luận.
Hóa ra không phải ngôn ngữ mới
Tuy nhiên, một nhà nghiên cứu đăng bài trên diễn đàn LessWrong đã đọc kỹ đoạn trích mà Anthropic gọi là ví dụ cực đoan nhất về suy luận không thể đọc được và đi đến kết luận hoàn toàn khác.
Nhìn vào nội dung cụ thể, người đọc chú ý sẽ nhận ra ngay đây là ngôn ngữ ký tắt của game bài FreeCell, một trò chơi Solitaire cổ điển. Ký hiệu 4 là cách viết tắt hoàn toàn chuẩn của lá bài bốn chuồn, {6 J 9 } biểu thị tập hợp gồm sáu bích, già rô và chín cơ, còn [K t2] mô tả nước đi chuyển lá già chuồn về cột thứ hai.
Khoảng trắng bị thay bằng dấu gạch nối, t1 đến t8 là tám cột bài chính, cell là ô giữ tạm, dig là thao tác lật bài bị chôn vùi, và đánh dấu nước đi bế tắc.
Để kiểm chứng độc lập, cộng đồng đã nhờ Claude Sonnet 4.6 đọc lại toàn bộ đoạn trích. Kết quả cho thấy mô hình giải mã chi tiết và chính xác: Mythos đang giải một ván FreeCell khó và đang thử lần lượt các thứ tự nước đi khả thi.
Bài toán cốt lõi là lá bài 9 và 2 có cửa sổ ô giữ trùng nhau, nghĩa là cả hai cần nằm trong ô giữ tạm cùng lúc. Thêm J và 4 vào là lấp đầy cả bốn ô giữ đồng thời, dẫn đến bế tắc. Mọi thứ tự sắp xếp lại đều vấp phải tam giác tử thần gồm ba lá 9 , 4 và 8 , ba lá đều cần ô giữ trong cùng một khoảng thời gian hẹp với số ô có hạn.
Tiếng kêu AAAAAAAAARGH ở cuối đoạn không phải lỗi hệ thống mà là biểu hiện bực bội sau khi Mythos đã thử hết các hoán vị và chưa tìm ra lối thoát. Ván bài này có thể không có lời giải từ trạng thái hiện tại, hoặc mô hình cần quay lui xa hơn nhiều so với những gì nó đã thử.
Nhưng tại sao lại phải dùng ngôn ngữ này?
Nhưng câu chuyện không dừng ở đây. Sau khi bài phân tích được đăng, một thành viên cộng đồng có tên coldnebo đặt ra câu hỏi sâu hơn nhiều: tại sao ngôn ngữ mà Mythos tự phát triển lại có hình dạng như vậy?
Câu trả lời đến từ một hướng nghiên cứu ít được biết đến, đó là cấu trúc liên kết của không gian bài toán. Dựa trên một bài báo nghiên cứu đăng trên arXiv, các chuỗi suy luận hiệu quả trong nhiều mô hình khác nhau đều hội tụ về cùng một tổ chức cấu trúc, với mức tương quan Pearson vượt 0,95 trên nhiều loại bài toán. Nói cách khác, hình dạng của ngôn ngữ suy luận không do mô hình tự chọn mà bị quyết định bởi hình học của chính bài toán.
Hàm ý của phát hiện này đi xa hơn nhiều so với câu hỏi ban đầu về Mythos.
FreeCell có cấu trúc hình học đơn giản và con người đã thiết kế ký hiệu cho nó từ trước, nên ngôn ngữ Mythos dùng trông quen thuộc và dễ hiểu. Nhưng khi mô hình đối mặt với bài toán có cấu trúc liên kết phức tạp hơn, ngôn ngữ tự phát sinh sẽ phức tạp theo cùng mức độ, không phải vì mô hình cố tình che giấu mà vì bản chất toán học của vấn đề đòi hỏi như vậy.
Như coldnebo tóm tắt: ký hiệu FreeCell dễ đọc vì con người đã thiết kế nó, còn ký hiệu mà mô hình tự tạo ra cho bài toán phức tạp hơn thì khó đọc vì con người chưa từng thiết kế ký hiệu cho lớp bài toán đó, và có thể không thể làm vậy nếu chưa hiểu bài toán thuộc lớp cấu trúc liên kết nào.
Điều đó có nghĩa là vấn đề mà Anthropic lo ngại không phải là mô hình đang che giấu suy nghĩ, mà là ngôn ngữ suy luận của AI đang phản ánh độ phức tạp thực sự của bài toán theo cách con người chưa có công cụ để đọc hiểu. Đây là sự phân biệt quan trọng: một bên là mối đe dọa an toàn, bên kia là khoảng cách nhận thức cần thu hẹp bằng nghiên cứu. Và theo nhận định của cộng đồng, khoảng cách đó có thể là nền tảng cho ít nhất vài luận án tiến sĩ trong những năm tới.
Nguồn: GenK


