Chrome Gemini新增屏幕选择工具 3.5 Flash获计算机操作能力

Google正在为Chrome浏览器中的Gemini助手引入一项名为“从屏幕选择”(Select from screen)的新工具。该功能允许用户快速将当前标签页中的任意文本或图片添加到对话提示中。用户只需高亮当前标签页，选择“从屏幕选择”并框选目标内容，Gemini便会自动将所选图片或文字填充至输入框。目前，该功能随Chrome 149版本逐步推送，若未立即看到，重启浏览器即可启用。这一更新显著简化了可视化查询流程，让用户无需手动截图或复制粘贴，即可让AI理解当前浏览页面中的具体元素。

与此同时，Google还宣布Gemini 3.5 Flash模型现已内置计算机使用(computer use)工具。开发者可直接在Gemini API中调用该能力，让模型模拟人类操作界面，例如浏览应用界面并执行分析任务。官方示例中，3.5 Flash利用这一工具“分析Gemini应用，并返回按类别整理的功能列表”。这意味着模型不再局限于文本理解，而是能像人类一样“看”并“操作”图形界面，为自动化测试、智能助手等场景提供了新的可能性。Gemini 3.5 Flash的计算机使用功能即日起在Gemini API中可用。

从“从屏幕选择”到“计算机使用”，Google正在将AI从“对话伙伴”升级为“屏幕原生”的智能体。前者降低了普通用户与AI交互时的操作门槛，后者则为开发者打开了自动化复杂图形界面的新大门。随着Chrome浏览器与Gemini模型的深度整合，未来AI或将像人类一样浏览网页、填写表单甚至执行多步骤任务——这或许是迈向通用数字助手的又一关键步。不过，如何平衡自动化效率与用户隐私，仍是需要持续关注的核心议题。

搜索文章

热门文章

ChatGPT 最好用的几个提示词（Prompt），真正能提升 10 倍效率的用法

Claude Code安装总是报错手把手教你三步搞定配置难题

ChatGPT Claude Gemini Midjourney输出翻车的排错清单和提示词KISS技巧

ChatGPT Claude Gemini加Midjourney联动的高效工作流解决输出不统一和改稿崩溃

Spotify播放错误代码汇总与解决指南