Suốt vài năm qua, hàng tỷ người dùng trên thế giới đã hình thành một thói quen gần như phản xạ: mở ứng dụng, gõ câu hỏi, chờ AI trả lời, rồi gõ câu hỏi tiếp theo. Toàn bộ cuộc đua giữa các hãng công nghệ lớn đều xoay quanh một mục tiêu duy nhất là làm cho chatbot trả lời nhanh hơn, chính xác hơn, tự nhiên hơn. Tại hội nghị Google I/O diễn ra ngày 19 và 20 tháng 5 ở Mountain View, California, Google cho thấy cuộc đua đó đã lỗi thời.
Vấn đề không nằm ở chỗ chatbot trả lời kém. Vấn đề là người dùng vẫn phải đặt câu hỏi, vẫn phải theo dõi từng bước, vẫn phải tự ghép kết quả vào công việc thực tế. Nói cách khác, AI vẫn đang ngồi chờ con người chỉ đường thay vì tự tìm đường đi. Đây chính là giới hạn mà Google xác định cần phá vỡ, và Gemini 3.5 Flash là câu trả lời của họ.
Về tốc độ và chi phí, con số mà Google công bố khiến giới công nghệ phải chú ý. Ông Koray Kavukcuoglu, giám đốc công nghệ của DeepMind, cho biết Gemini 3.5 Flash xử lý nhanh hơn 4 lần so với các frontier model cùng thế hệ.
Phiên bản tối ưu hóa đặc biệt còn đạt tốc độ nhanh hơn 12 lần với chất lượng tương đương. Chi phí vận hành thấp hơn 50% so với các frontier model khác trên thị trường, tức là doanh nghiệp có thể triển khai nhiều agent hơn với cùng ngân sách. Trên các bài kiểm tra kỹ thuật, Gemini 3.5 Flash đạt 76,2% trên Terminal-Bench 2.1, 83,6% trên MCP Atlas và 84,2% trên CharXiv Reasoning, vượt qua chính Gemini 3.1 Pro là flagship trước đó của Google.
Thế nhưng con số chỉ là một phần. Phần thuyết phục hơn đến từ demo trực tiếp trên sân khấu I/O. Kỹ sư Varun Mohan của Google trình diễn cảnh các agent tự tách ra, mỗi agent nhận một phần việc riêng, rồi phối hợp ghép lại để tạo ra một hệ điều hành hoàn chỉnh từ đầu mà không có lập trình viên nào can thiệp.
Môi trường để quá trình đó diễn ra là Antigravity 2.0, nền tảng phát triển phần mềm thế hệ mới vừa ra mắt song song, được Google xây dựng theo triết lý agent-first thay vì chat-first như các IDE truyền thống. Ông Kavukcuoglu mô tả Antigravity là môi trường sống và làm việc bản địa của các agent, nơi chúng lên kế hoạch, thực thi và lặp lại mà không cần thoát ra ngoài để xin phép người dùng từng bước nhỏ.
Không dừng lại ở đó, Google còn tiết lộ cách hai mô hình sẽ phối hợp khi Gemini 3.5 Pro ra mắt trong những tuần tới. Bà Tulsee Doshi, giám đốc cấp cao phụ trách sản phẩm tại Google, mô tả cơ chế phân tầng như sau: Pro đảm nhận vai trò lên kế hoạch tổng thể và điều phối, còn Flash triển khai các tác vụ cụ thể với tốc độ cao.


