Chrome Gemini bổ sung tính năng chọn từ màn hình, 3.5 Flash có thể điều khiển máy tính

Google đang mang đến một tính năng hữu ích mới cho trợ lý Gemini trong trình duyệt Chrome – “Chọn từ màn hình” (Select from screen). Công cụ này cho phép người dùng nhanh chóng đưa bất kỳ văn bản hoặc hình ảnh nào trên tab hiện tại vào ô nhập liệu. Chỉ cần nhấp vào “Chọn từ màn hình” trong menu, làm nổi bật tab hiện tại và chọn vùng mong muốn, nội dung sẽ tự động được điền vào ô hỏi đáp của Gemini. Tính năng này đang được triển khai dần theo phiên bản Chrome 149, nếu chưa thấy ngay, bạn chỉ cần khởi động lại trình duyệt để kích hoạt.

Đồng thời, Google công bố mô hình Gemini 3.5 Flash hiện đã được tích hợp khả năng “điều khiển máy tính” (computer use). Lập trình viên có thể gọi khả năng này qua Gemini API, cho phép mô hình thực hiện các thao tác như phân tích, phân loại trong môi trường ảo. Trong ví dụ chính thức, 3.5 Flash sử dụng tính năng này để “phân tích ứng dụng Gemini và trả về danh sách phân loại chức năng”. Đây đánh dấu bước tiến quan trọng từ AI phản hồi thụ động sang AI chủ động thao tác giao diện, mở ra khả năng mới cho các lĩnh vực như kiểm thử tự động, thu thập dữ liệu.

Nhận xét: Từ chọn màn hình đến điều khiển máy tính, Google đang từng bước nâng cấp Gemini từ “trợ lý đối thoại” thành “trợ lý nhận thức môi trường”. Tính năng trước cải thiện sự tiện lợi trong tương tác hàng ngày của người dùng, tính năng sau mang đến cho lập trình viên giải pháp tự động hóa gần với thao tác của con người hơn. Khi những công cụ này trở nên hoàn thiện, sự tích hợp giữa AI và hệ sinh thái desktop sẽ ngày càng chặt chẽ.

Tìm kiếm bài viết

Bài viết phổ biến

Các Prompt ChatGPT Tốt Nhất: Cách Dùng Để Tăng Hiệu Suất Gấp 10 Lần

Tổng hợp mã lỗi phát nhạc Spotify và cách khắc phục nhanh chóng