Gemini在Chrome新增屏幕选取 3.5 Flash获计算机操控

谷歌正在为Chrome浏览器中的Gemini助手推出一项名为“Select from screen”的新工具。该功能允许用户快速将当前标签页中的任意文本或图像直接添加到Gemini的提问框中，无需手动截图或复制粘贴。当用户点击该工具后，当前标签页会被高亮，随后即可框选想要Gemini分析的内容。这项功能作为Chrome 149版本更新的一部分逐步推送，如果用户尚未看到该选项，重启浏览器即可启用。

与此同时，谷歌宣布Gemini 3.5 Flash模型现已内置计算机使用能力。开发者可以通过Gemini API调用该能力，让模型直接操控屏幕界面进行分析。示例显示，3.5 Flash能够自动打开Gemini应用，遍历其功能界面，并返回一份分类清晰的功能列表。这一突破意味着AI助手不再仅能理解文字或图片，还能像人类一样“操作”软件，为自动化测试、智能代理和RPA场景提供了新可能。该模型即日起在Gemini API中开放使用。

随着“Select from screen”降低交互成本，以及3.5 Flash获得计算机操控能力，谷歌正在将Gemini从单纯的问答助手升级为更主动的桌面智能体。未来，用户或许能直接让Gemini代替自己完成跨应用的复杂任务，例如整理文件、填写表单或分析报表。这一方向也与其他厂商正在推进的“AI代理”概念不谋而合，值得密切关注其实际落地效果。

搜索文章

热门文章

ChatGPT 最好用的几个提示词（Prompt），真正能提升 10 倍效率的用法

Claude Code安装总是报错手把手教你三步搞定配置难题

ChatGPT Claude Gemini Midjourney输出翻车的排错清单和提示词KISS技巧

ChatGPT Claude Gemini加Midjourney联动的高效工作流解决输出不统一和改稿崩溃

Spotify播放错误代码汇总与解决指南