Google正在为Chrome浏览器中的Gemini助手引入一项名为“从屏幕选择”(Select from screen)的新工具。该功能允许用户快速将当前标签页中的任意文本或图片添加到对话提示中。用户只需高亮当前标签页,选择“从屏幕选择”并框选目标内容,Gemini便会自动将所选图片或文字填充至输入框。目前,该功能随Chrome 149版本逐步推送,若未立即看到,重启浏览器即可启用。这一更新显著简化了可视化查询流程,让用户无需手动截图或复制粘贴,即可让AI理解当前浏览页面中的具体元素。
与此同时,Google还宣布Gemini 3.5 Flash模型现已内置计算机使用(computer use)工具。开发者可直接在Gemini API中调用该能力,让模型模拟人类操作界面,例如浏览应用界面并执行分析任务。官方示例中,3.5 Flash利用这一工具“分析Gemini应用,并返回按类别整理的功能列表”。这意味着模型不再局限于文本理解,而是能像人类一样“看”并“操作”图形界面,为自动化测试、智能助手等场景提供了新的可能性。Gemini 3.5 Flash的计算机使用功能即日起在Gemini API中可用。

