Gemini trên Chrome thêm tính năng "Chọn từ màn hình", 3.5 Flash có khả năng điều khiển máy tính

Google đang triển khai công cụ mới "Select from screen" (Chọn từ màn hình) cho Gemini trong trình duyệt Chrome. Người dùng chỉ cần nhấp vào nút bên cạnh hộp nhập liệu Gemini để làm nổi bật tab hiện tại và tự do chọn bất kỳ văn bản hoặc hình ảnh nào trên màn hình, nội dung được chọn sẽ tự động thêm vào cuộc trò chuyện. Tính năng này được triển khai dần với phiên bản Chrome 149, nếu chưa thấy ngay, hãy khởi động lại trình duyệt để kích hoạt. Điều này giúp đơn giản hóa quá trình nhập thông tin từ màn hình vào trợ lý AI, phù hợp để đặt câu hỏi nhanh hoặc phân tích các phần tử trên trang.

Đồng thời, Google thông báo mô hình Gemini 3.5 Flash hiện đã tích hợp công cụ "điều khiển máy tính" (computer use) từ bên trong. Các nhà phát triển có thể gọi khả năng này thông qua Gemini API, cho phép mô hình trực tiếp thao tác giao diện – ví dụ tự động phân tích ứng dụng Gemini và trả về danh sách các tính năng đã được phân loại. Điều này có nghĩa là AI không chỉ hiểu nội dung màn hình mà còn có thể mô phỏng hành vi người dùng để thực hiện các tác vụ phức tạp. Hiện tại, khả năng điều khiển máy tính của 3.5 Flash đã được mở cho người dùng API.

Hai bản cập nhật này nhắm đến người dùng thông thường và nhà phát triển, cùng hướng đến một mục tiêu: giúp AI hòa nhập tự nhiên hơn vào môi trường kỹ thuật số của người dùng. Từ việc chụp màn hình đến chủ động thao tác, Gemini đang tiến hóa từ một trợ lý trả lời câu hỏi thành một "đại lý số" thực thụ. Với việc triển khai rộng rãi Chrome 149 và mở khả năng API, nhiều kịch bản tự động hóa trong tương lai đáng để mong đợi.

Tìm kiếm bài viết

Bài viết phổ biến

Các Prompt ChatGPT Tốt Nhất: Cách Dùng Để Tăng Hiệu Suất Gấp 10 Lần

Tổng hợp mã lỗi phát nhạc Spotify và cách khắc phục nhanh chóng