Gemini trên Chrome bổ sung công cụ chọn màn hình, 3.5 Flash có khả năng điều khiển máy tính

Google đang giới thiệu một tính năng hữu ích mới cho trợ lý Gemini trong trình duyệt Chrome – công cụ "Chọn từ màn hình" (Select from screen). Khi người dùng nhấp vào công cụ này, tab hiện tại sẽ được làm nổi bật và hiển thị hướng dẫn "Chọn bất kỳ văn bản hoặc hình ảnh nào để đặt câu hỏi cho Gemini". Nội dung đã chọn sẽ tự động được thêm vào ô nhập hội thoại dưới dạng hình ảnh, giúp người dùng nhanh chóng truy vấn thông tin trên màn hình. Tính năng này đang được triển khai dần theo phiên bản Chrome 149; nếu bạn chưa thấy ngay, hãy khởi động lại trình duyệt để kích hoạt.

Đồng thời, Google công bố mô hình Gemini 3.5 Flash hiện đã được tích hợp công cụ "sử dụng máy tính" (computer use), cho phép các nhà phát triển gọi qua Gemini API hoặc Gemini Enterprise Agent Platform. Công cụ này giúp mô hình phân tích trực tiếp giao diện ứng dụng trên desktop và thực hiện các thao tác – ví dụ trong bản demo chính thức, 3.5 Flash đã dùng khả năng này để "phân tích ứng dụng Gemini và trả về danh sách chức năng đã được phân loại". Đây là bước tiến quan trọng khi mô hình AI không chỉ tạo văn bản mà còn chủ động tương tác với môi trường xung quanh.

Cả hai bản cập nhật đều nâng cao tính thực tiễn của Gemini ở phía người dùng lẫn nhà phát triển: công cụ chọn màn hình đơn giản hóa quy trình nhập hình ảnh, trong khi sử dụng máy tính mở ra khả năng mới cho tự động hóa tác vụ và tác nhân thông minh. Khi hệ sinh thái Chrome và mô hình AI ngày càng hòa quyện, kiểu tương tác "thấy gì hỏi đó" này hứa hẹn sẽ trở thành tiêu chuẩn trong tương lai của cộng tác người-máy.

Tìm kiếm bài viết

Bài viết phổ biến

Các Prompt ChatGPT Tốt Nhất: Cách Dùng Để Tăng Hiệu Suất Gấp 10 Lần