Công cụ chọn màn hình mới của Chrome Gemini - 3.5 Flash có khả năng thao tác máy tính - Gemini | Titikey

Google đang giới thiệu một công cụ mới có tên "Chọn từ màn hình" (Select from screen) cho trợ lý Gemini trong trình duyệt Chrome. Tính năng này cho phép người dùng nhanh chóng thêm bất kỳ văn bản hoặc hình ảnh nào từ tab hiện tại vào câu lệnh trò chuyện. Chỉ cần tô sáng tab hiện tại, chọn "Chọn từ màn hình" và khoanh vùng nội dung mong muốn, Gemini sẽ tự động điền hình ảnh hoặc văn bản đã chọn vào ô nhập. Hiện tại, tính năng này đang được triển khai dần cùng với phiên bản Chrome 149. Nếu chưa thấy ngay, hãy khởi động lại trình duyệt để kích hoạt. Bản cập nhật này đơn giản hóa đáng kể quy trình truy vấn trực quan, giúp người dùng không cần phải chụp màn hình hay sao chép-dán thủ công, mà vẫn để AI hiểu được các thành phần cụ thể trên trang đang duyệt.

Đồng thời, Google cũng thông báo mô hình Gemini 3.5 Flash hiện đã tích hợp công cụ sử dụng máy tính (computer use). Các nhà phát triển có thể gọi khả năng này trực tiếp trong Gemini API, cho phép mô hình mô phỏng thao tác giao diện người dùng, ví dụ như duyệt qua giao diện ứng dụng và thực hiện các tác vụ phân tích. Trong ví dụ chính thức, 3.5 Flash đã sử dụng công cụ này để "phân tích ứng dụng Gemini và trả về danh sách tính năng được phân loại theo nhóm". Điều này có nghĩa là mô hình không còn giới hạn ở việc hiểu văn bản, mà có thể "nhìn" và "thao tác" giao diện đồ họa giống như con người, mở ra những khả năng mới cho các kịch bản như kiểm thử tự động, trợ lý thông minh. Tính năng sử dụng máy tính của Gemini 3.5 Flash có hiệu lực ngay trên Gemini API từ hôm nay.

Từ "Chọn từ màn hình" đến "Sử dụng máy tính", Google đang nâng cấp AI từ một "người bạn đối thoại" thành một tác nhân "bản địa hóa màn hình". Công cụ đầu tiên giúp giảm rào cản thao tác cho người dùng phổ thông khi tương tác với AI, trong khi công cụ thứ hai mở ra cánh cửa mới cho các nhà phát triển trong việc tự động hóa các giao diện đồ họa phức tạp. Với sự tích hợp sâu giữa trình duyệt Chrome và mô hình Gemini, trong tương lai, AI có thể duyệt web, điền biểu mẫu hay thậm chí thực hiện các tác vụ nhiều bước giống như con người – đây có thể là một bước tiến quan trọng hướng tới trợ lý số toàn năng. Tuy nhiên, làm thế nào để cân bằng giữa hiệu quả tự động hóa và quyền riêng tư của người dùng vẫn là vấn đề cốt lõi cần được quan tâm liên tục.

Công cụ chọn màn hình mới của Chrome Gemini - 3.5 Flash có khả năng thao tác máy tính

Tìm kiếm bài viết

Bài viết phổ biến

Các Prompt ChatGPT Tốt Nhất: Cách Dùng Để Tăng Hiệu Suất Gấp 10 Lần

Tổng hợp mã lỗi phát nhạc Spotify và cách khắc phục nhanh chóng