Đầu năm 2026, ba tên tuổi lần lượt bị cáo buộc thực hiện cùng một hành vi trên các model AI lớn nhất thế giới: DeepSeek, Moonshot AI và MiniMax bị Anthropic tố cáo hồi tháng 2; Google tiếp tục công bố phát hiện chiến dịch tương tự nhắm vào Gemini chỉ 11 ngày sau; rồi tháng 6, đến lượt Alibaba với quy mô còn lớn hơn tất cả cộng lại. Kỹ thuật tất cả đều dùng có cùng một cái tên: distillation, hay chưng cất model AI.
Vậy thực ra chưng cất là gì, tại sao nó lại là mối đe dọa với hàng tỷ USD đầu tư nghiên cứu AI, và tại sao các hãng lớn như Anthropic và Google gần như không thể ngăn chặn hoàn toàn?
Kỹ thuật xuất phát từ nghiên cứu hàn lâm, không phải tội phạm
Chưng cất, hay đầy đủ hơn là chưng cất tri thức, là kỹ thuật nén model AI được nhà nghiên cứu Geoffrey Hinton và cộng sự mô tả từ năm 2015. Ý tưởng cốt lõi rất đơn giản: thay vì train một model nhỏ từ đầu với dữ liệu thô, hãy để nó học từ một model lớn đã được train sẵn.
Trong hệ thống này, model lớn đóng vai thầy giáo (teacher model), còn model nhỏ hơn đóng vai học sinh (student model). Thầy giáo nhận câu hỏi và trả lời – học sinh quan sát, ghi lại cặp câu hỏi-trả lời đó và dùng để tự train. Sau đủ nhiều lần lặp lại, học sinh dần học được cách phản hồi tương tự thầy giáo, kể cả với những câu hỏi chưa từng gặp.
Kỹ thuật này không chỉ hợp pháp mà còn rất phổ biến. Google thậm chí cung cấp dịch vụ chưng cất trên nền tảng đám mây của mình. Phần lớn các model AI nhỏ gọn chạy trên điện thoại ngày nay đều được tạo ra theo cách tương tự.
Từ học thuật thành vũ khí cạnh tranh
Ranh giới giữa chưng cất hợp lệ và chưng cất tấn công nằm ở hai yếu tố: sự cho phép và quy mô.
Khi một công ty dùng model của chính mình làm thầy giáo để train model nhỏ hơn – hợp lệ. Khi một công ty dùng API công khai của đối thủ, trả phí đàng hoàng nhưng với mục đích thu thập dữ liệu training theo quy mô công nghiệp – đó là vi phạm điều khoản sử dụng của gần như tất cả các nhà cung cấp AI lớn.
Vấn đề về quy mô quan trọng vì nó quyết định giá trị của dữ liệu thu được. Một lập trình viên thử nghiệm Claude với vài trăm câu lệnh mỗi ngày không thể tạo ra tập dữ liệu đủ lớn để train bất cứ thứ gì có nghĩa. Nhưng 28,8 triệu cuộc hội thoại trong 44 ngày – con số Alibaba bị tố thực hiện – là một câu chuyện khác hoàn toàn.
Đặc biệt, các chiến dịch này không hỏi ngẫu nhiên. Theo mô tả của Anthropic hồi tháng 2/2026, Moonshot AI tập trung cụ thể vào khả năng suy luận agentic và tool use (tức model tự biết cần phải sử dụng công cụ gì để thực hiện tác vụ), đây là những năng lực đắt giá nhất, khó train nhất, và cũng là thứ làm Claude Code có giá trị thương mại. MiniMax thì tiến hành thu thập diện rộng (broad-spectrum extraction), hỏi cực kỳ rộng để lập bản đồ toàn bộ năng lực của Claude.
Tại sao không thể ngăn chặn hoàn toàn
Đây là nghịch lý cốt lõi: model AI nào càng dễ truy cập, càng hữu ích cho người dùng thông thường, thì càng dễ bị khai thác theo cách này.
Anthropic mô tả ba lớp phòng thủ đang triển khai: nhận diện hành vi bất thường (behavioral fingerprinting) để phát hiện các prompt có dấu hiệu chưng cất, siết chặt xác minh tài khoản tại các kênh hay bị lợi dụng như chương trình giáo dục và startup, và điều chỉnh đầu ra của model để giảm giá trị chiết xuất mà không ảnh hưởng đến người dùng thực.
Nhưng theo Erik Cambria, giáo sư AI tại Đại học Công nghệ Nanyang (Singapore), ranh giới giữa dùng hợp lệ và tấn công chưng cất thường rất mờ nhạt. Một lập trình viên chạy 50.000 câu hỏi để test hiệu năng model không khác gì về mặt kỹ thuật so với một lab AI thu thập dữ liệu training – sự khác biệt nằm ở ý định, và ý định không thể đọc được từ log API.
Google thậm chí thừa nhận điều này một cách thẳng thắn hơn: Mặc dù đã có cơ chế phát hiện và chặn, các model AI lớn về cơ bản vẫn dễ bị distillation vì chúng mở cho bất kỳ ai trên internet.
Distillation và tiền đang đặt ra câu hỏi lớn
John Hultquist, nhà phân tích chính của Google Threat Intelligence Group, đưa ra một kịch bản đáng lo ngại hơn tất cả những gì đã xảy ra: Giả sử model AI của bạn được train trên 100 năm bí quyết kinh doanh. Về lý thuyết, kẻ tấn công có thể chưng cất phần đó ra.
Điều đó có nghĩa là rủi ro không chỉ dừng lại ở các hãng AI lớn. Bất kỳ công ty nào xây dựng model riêng trên dữ liệu độc quyền – hồ sơ y tế, chiến lược tài chính, bí quyết sản xuất – đều đang phải đối mặt với một vector tấn công mà phòng thủ truyền thống không được thiết kế để xử lý.
Trong khi Anthropic và Google đang xây dựng thêm lớp phòng thủ, toàn bộ ngành đang chứng kiến một xu hướng rõ ràng: kể từ khi DeepSeek R1 ra mắt đầu năm 2025 và được nhiều người tin rằng được phát triển một phần nhờ distillation từ các model Mỹ, kỹ thuật này đã trở thành công cụ cạnh tranh địa chính trị trong ngành AI – không còn đơn thuần là học thuật hay kỹ thuật nén model thuần túy nữa.
Nguồn: GenK


