谷歌近日为Chrome浏览器中的Gemini助手推出了一项实用的“Select from screen”(从屏幕选取)工具。用户只需点击该工具,即可高亮当前标签页并自由选择任意文本或图像,被选中的内容将自动添加到Gemini的提示框中。这一功能目前作为Chrome 149的一部分逐步推送,若未立即看到,重启浏览器即可体验。它极大简化了将屏幕信息导入AI对话的流程,让提问更加直观高效。
与此同时,谷歌宣布Gemini 3.5 Flash模型现在内置了计算机使用(computer use)能力。开发者可通过Gemini API调用该模型,使其能够像人类一样操作界面、分析应用内容。例如,3.5 Flash可以自动打开Gemini应用并返回分类后的功能列表。这一进展标志着AI代理(AI Agent)能力的进一步落地,为自动化测试、智能助手等场景打开了新可能。

