Trong hơn nửa thế kỷ qua, con trỏ chuột gần như không thay đổi. Dù máy tính cá nhân, Internet hay smartphone liên tục định hình lại ngành công nghệ, biểu tượng mũi tên nhỏ trên màn hình vẫn chỉ thực hiện một nhiệm vụ quen thuộc: xác định vị trí người dùng đang nhắm tới.
Tuy nhiên trong tuần này, Google DeepMind công bố một loạt thử nghiệm mới cho thấy hãng đang muốn thay đổi hoàn toàn cách con người tương tác với máy tính trong kỷ nguyên AI.
Theo bài viết trên blog của DeepMind, Google đang phát triển “AI-enabled pointer”, tức con trỏ chuột tích hợp Gemini có khả năng không chỉ hiểu người dùng đang chỉ vào đâu, mà còn hiểu vì sao họ quan tâm tới nội dung đó.
Trong mô hình máy tính truyền thống, con trỏ chỉ theo dõi tọa độ trên màn hình. Nếu người dùng muốn AI xử lý nội dung, họ thường phải sao chép văn bản, mở chatbot riêng rồi nhập prompt mô tả yêu cầu. Theo Google, quy trình này khiến trải nghiệm AI bị tách khỏi luồng làm việc tự nhiên của người dùng.
Với hệ thống mới, Google muốn đảo ngược cách tiếp cận đó. Thay vì bắt người dùng “mang dữ liệu tới AI”, hãng muốn AI xuất hiện ngay bên trong mọi thao tác thường ngày.
Trong các đoạn demo được công bố, người dùng chỉ cần rê chuột lên một đoạn văn rồi nói “hãy tóm tắt phần này”, hoặc chỉ vào một chiếc ghế trong trang bán hàng rồi yêu cầu AI đặt thử món đồ đó vào phòng khách của mình. Ở một ví dụ khác, người dùng khoanh tròn một nhà hàng xuất hiện trong video du lịch và lập tức nhận được thông tin đặt bàn.
Điểm quan trọng nhất nằm ở chỗ hệ thống không còn phụ thuộc hoàn toàn vào prompt dài như chatbot hiện nay. Google cho rằng con người trong đời sống thực hiếm khi giao tiếp bằng các câu lệnh đầy đủ và cứng nhắc. Thay vào đó, chúng ta thường dùng cử chỉ, ngữ cảnh và các cụm từ ngắn như “cái này”, “cái kia” hay “sửa chỗ này”.
Ông Ansh Mehra, nhà giáo dục AI và nhà sáng lập The Cutting Edge Group, cho rằng công nghệ mới của Google đang cố bắt chước đúng bản năng giao tiếp tự nhiên đó của con người. Ông nói các máy tính truyền thống chỉ hiểu vị trí con trỏ, trong khi hệ thống mới của Google bắt đầu hiểu “ý định” phía sau hành động của người dùng.
Theo ông Mehra, đây là bước chuyển lớn hơn nhiều so với việc bổ sung thêm một tính năng AI cho trình duyệt. Ông nhắc lại rằng Google từng đặt nền móng cho nhiều công nghệ cốt lõi của Internet hiện đại như Chromium hay kiến trúc Transformer trong bài nghiên cứu “Attention Is All You Need”, nền tảng tạo ra làn sóng mô hình ngôn ngữ lớn hiện nay.
Lần này, Google tiếp tục nhắm tới một lớp nền khác của ngành máy tính: giao diện tương tác giữa con người và AI.
Trong bài công bố, DeepMind đưa ra bốn nguyên tắc thiết kế cho hệ thống mới. Trước hết, AI phải hoạt động xuyên suốt mọi ứng dụng thay vì buộc người dùng liên tục chuyển sang cửa sổ chatbot riêng. Tiếp đó, hệ thống cần tự hiểu ngữ cảnh xung quanh con trỏ thay cho việc yêu cầu người dùng viết prompt chi tiết.
Google cũng muốn AI tận dụng sức mạnh của các cụm từ ngắn như “this” và “that”, tức “cái này” và “cái kia”, để biến giao tiếp với máy tính thành trải nghiệm gần với đời thực hơn. Cuối cùng, hãng muốn AI chuyển đổi các pixel trên màn hình thành những thực thể có ý nghĩa như địa điểm, đồ vật, ngày tháng hay đoạn mã lập trình để người dùng tương tác trực tiếp.
Ông Srinivas Padmanabhuni, Giám đốc công nghệ của AiEnsured, cho rằng đây là một phần của xu hướng “ambient AI”, tức AI hoạt động âm thầm trong nền thay vì tồn tại như một công cụ tách biệt. Theo ông, con trỏ chuột đang chuyển từ vai trò bộ theo dõi tọa độ sang dạng cảm biến AI hiểu ngữ cảnh và hành vi người dùng.
Google cho biết một phần công nghệ này đã bắt đầu xuất hiện trong Chrome và dự án laptop “Googlebook”. Trong tương lai, người dùng có thể tương tác trực tiếp với Gemini bằng thao tác rê chuột và giọng nói thay cho việc liên tục gõ prompt như hiện nay.
Nếu hướng đi này thành công, thay đổi lớn nhất của AI có thể không nằm ở chatbot hay mô hình ngôn ngữ, mà nằm ở cách con người sử dụng máy tính mỗi ngày. Sau hơn 50 năm gần như bất biến, con trỏ chuột có thể đang bước vào cuộc chuyển đổi lớn nhất kể từ khi giao diện đồ họa ra đời.
Nguồn: GenK


