谷歌正在为Chrome浏览器中的Gemini助手推出一项名为“Select from screen”的新工具。该功能允许用户快速将当前标签页中的任意文本或图像直接添加到Gemini的提问框中,无需手动截图或复制粘贴。当用户点击该工具后,当前标签页会被高亮,随后即可框选想要Gemini分析的内容。这项功能作为Chrome 149版本更新的一部分逐步推送,如果用户尚未看到该选项,重启浏览器即可启用。
与此同时,谷歌宣布Gemini 3.5 Flash模型现已内置计算机使用能力。开发者可以通过Gemini API调用该能力,让模型直接操控屏幕界面进行分析。示例显示,3.5 Flash能够自动打开Gemini应用,遍历其功能界面,并返回一份分类清晰的功能列表。这一突破意味着AI助手不再仅能理解文字或图片,还能像人类一样“操作”软件,为自动化测试、智能代理和RPA场景提供了新可能。该模型即日起在Gemini API中开放使用。

