Chrome版Gemini新增螢幕選取工具 3.5 Flash獲得電腦操控能力

Google正在為Chrome瀏覽器中的Gemini助手引入一項實用新功能——「Select from screen」（螢幕選取）工具。用戶點擊該工具後，當前標籤頁將被高亮，並提示「選擇任意文字或圖片向Gemini提問」。選定內容會以圖片形式自動添加到對話輸入框中，方便用戶快速針對螢幕上的資訊發起查詢。該功能隨Chrome 149版本逐步推送，如果暫時未看到，重新啟動瀏覽器即可啟用。

與此同時，Google宣布Gemini 3.5 Flash模型現已內建「computer use」（電腦使用）工具，開發者可透過Gemini API或Gemini Enterprise Agent Platform呼叫。該工具讓模型能夠直接分析桌面應用介面並執行操作，例如官方範例中，3.5 Flash利用電腦使用能力「分析Gemini應用並返回分類後的功能列表」。這標誌著AI模型從單純的文字生成向主動與環境互動邁出重要一步。

兩項更新分別在用戶端和開發者端提升了Gemini的實用性：螢幕選取簡化了圖像輸入流程，而電腦使用則為自動化任務和智慧代理開闢了新的可能。隨著Chrome生態與AI模型的不斷融合，這類「所見即所得」的互動方式有望成為未來人機協作的常態。

搜尋文章

熱門文章

ChatGPT 最好用的幾個提示詞（Prompt），真正能提升 10 倍效率的用法

Claude Code 安裝總是報錯　手把手教你三步搞定配置難題

ChatGPT Claude Gemini Midjourney輸出翻車的排錯清單和提示詞KISS技巧

高效整合 ChatGPT、Claude、Gemini 與 Midjourney：解決內容輸出不一致與改稿崩潰的工作流程

ChatGPT與Claude總是答非所問？掌握3個提問技巧，讓AI秒懂你的需求