Google đang triển khai một công cụ mới mang tên “Select from screen” (Chọn từ màn hình) cho trợ lý Gemini trên trình duyệt Chrome. Tính năng này cho phép người dùng nhanh chóng thêm bất kỳ văn bản hoặc hình ảnh nào trên tab hiện tại vào khung hỏi đáp của Gemini, mà không cần phải chụp màn hình hay sao chép thủ công. Khi người dùng nhấp vào công cụ này, tab hiện tại sẽ được làm sáng lên, sau đó có thể khoanh vùng nội dung muốn Gemini phân tích. Tính năng này đang được triển khai dần như một phần của bản cập nhật Chrome 149. Nếu chưa thấy tùy chọn, người dùng có thể khởi động lại trình duyệt để kích hoạt.
Đồng thời, Google thông báo rằng mô hình Gemini 3.5 Flash hiện đã được tích hợp khả năng tương tác với máy tính. Nhà phát triển có thể gọi khả năng này thông qua Gemini API, cho phép mô hình điều khiển trực tiếp giao diện màn hình để phân tích. Ví dụ minh họa cho thấy 3.5 Flash có thể tự động mở ứng dụng Gemini, duyệt qua các chức năng và trả về danh sách tính năng được phân loại rõ ràng. Bước đột phá này có nghĩa là trợ lý AI không chỉ hiểu văn bản hay hình ảnh mà còn có thể “thao tác” phần mềm như con người, mở ra tiềm năng mới cho kiểm thử tự động, tác tử thông minh và các kịch bản RPA. Mô hình này đã có sẵn để sử dụng qua Gemini API kể từ hôm nay.

