Gemini在Chrome新增「螢幕選取」功能，3.5 Flash模型獲得電腦操控能力

Google正在為Chrome瀏覽器中的Gemini助手推出一項名為「Select from screen」的新工具。該功能允許用戶快速將當前標籤頁中的任意文字或圖像直接添加到Gemini的提問框中，無需手動截圖或複製貼上。當用戶點擊該工具後，當前標籤頁會被高亮，隨後即可框選想要Gemini分析的內容。這項功能作為Chrome 149版本更新的一部分逐步推送，如果用戶尚未看到該選項，重新啟動瀏覽器即可啟用。

與此同時，Google宣布Gemini 3.5 Flash模型現已內建電腦使用能力。開發者可以透過Gemini API呼叫該能力，讓模型直接操控螢幕介面進行分析。範例顯示，3.5 Flash能夠自動開啟Gemini應用程式，遍歷其功能介面，並回傳一份分類清晰的功能列表。這一突破意味著AI助手不再僅能理解文字或圖片，還能像人類一樣「操作」軟體，為自動化測試、智能代理與RPA場景提供了新可能。該模型即日起在Gemini API中開放使用。

隨著「Select from screen」降低互動成本，以及3.5 Flash獲得電腦操控能力，Google正在將Gemini從單純的問答助手升級為更主動的桌面智能體。未來，使用者或許能直接讓Gemini代替自己完成跨應用程式的複雜任務，例如整理檔案、填寫表單或分析報表。這一方向也與其他廠商正在推進的「AI代理」概念不謀而合，值得密切關注其實際落地效果。

搜尋文章

熱門文章

ChatGPT 最好用的幾個提示詞（Prompt），真正能提升 10 倍效率的用法

Claude Code 安裝總是報錯　手把手教你三步搞定配置難題

ChatGPT Claude Gemini Midjourney輸出翻車的排錯清單和提示詞KISS技巧

高效整合 ChatGPT、Claude、Gemini 與 Midjourney：解決內容輸出不一致與改稿崩潰的工作流程

Spotify播放錯誤代碼總整理與解決攻略