Chrome Gemini 新增螢幕選取工具，3.5 Flash 獲得電腦操作能力

Google 正在為 Chrome 瀏覽器中的 Gemini 助手引入一項名為「從螢幕選取」(Select from screen) 的新工具。該功能允許用戶快速將目前標籤頁中的任意文字或圖片添加到對話提示中。用戶只需選取目前標籤頁，選擇「從螢幕選取」並框選目標內容，Gemini 便會自動將所選圖片或文字填充至輸入框。目前，該功能隨 Chrome 149 版本逐步推送，若未立即可用，重新啟動瀏覽器即可啟用。這一更新顯著簡化了視覺化查詢流程，讓用戶無需手動截圖或複製貼上，即可讓 AI 理解目前瀏覽頁面中的具體元素。

與此同時，Google 還宣布 Gemini 3.5 Flash 模型現已內建電腦使用 (computer use) 工具。開發者可直接在 Gemini API 中呼叫該能力，讓模型模擬人類操作介面，例如瀏覽應用介面並執行分析任務。官方範例中，3.5 Flash 利用這一工具「分析 Gemini 應用，並回傳按類別整理的功能列表」。這意味著模型不再侷限於文字理解，而是能像人類一樣「看」並「操作」圖形介面，為自動化測試、智慧助手等場景提供了新的可能性。Gemini 3.5 Flash 的電腦使用功能即日起在 Gemini API 中可用。

從「從螢幕選取」到「電腦使用」，Google 正在將 AI 從「對話夥伴」升級為「螢幕原生」的智能體。前者降低了普通用戶與 AI 互動時的操作門檻，後者則為開發者打開了自動化複雜圖形介面的新大門。隨著 Chrome 瀏覽器與 Gemini 模型的深度整合，未來 AI 或許將像人類一樣瀏覽網頁、填寫表單甚至執行多步驟任務——這或許是邁向通用數位助手的又一關鍵步。不過，如何平衡自動化效率與用戶隱私，仍是需要持續關注的核心議題。

搜尋文章

熱門文章

ChatGPT 最好用的幾個提示詞（Prompt），真正能提升 10 倍效率的用法

Claude Code 安裝總是報錯　手把手教你三步搞定配置難題

ChatGPT Claude Gemini Midjourney輸出翻車的排錯清單和提示詞KISS技巧

高效整合 ChatGPT、Claude、Gemini 與 Midjourney：解決內容輸出不一致與改稿崩潰的工作流程

Spotify播放錯誤代碼總整理與解決攻略