Claude 3.5 这次更新最吸睛的是「电脑操作」(Computer Use)能力:它不只会对话,还能看懂屏幕内容,并模拟鼠标移动、点击与键盘输入。对需要跑流程、填表、在软件里多步操作的人来说,Claude 3.5 更接近一位能动手的助理。
Claude 3.5 的「电脑操作」到底是什么
所谓 Claude 3.5 电脑操作,是让模型像人一样与桌面应用或网页界面互动:先识别屏幕上的元素,再决定移动光标、点按钮或输入文本。它并不是“直接读你的系统数据”,而是基于你提供的屏幕画面与指令来执行步骤。
官方也强调 Claude 3.5 的电脑操作仍处在公开测试阶段,偶尔会卡住、点错或步骤不稳定。把它当作能加速的“半自动操作”,会比期待一次全程无误更现实。
哪些任务会被 Claude 3.5 明显提速
当任务需要几十步重复点击时,Claude 3.5 的价值会更直观,比如:在后台系统逐条录入信息、跨页面复制粘贴、按固定规则下载/整理文件、在表单里按字段填写。只要界面元素相对清晰、流程可复用,Claude 3.5 往往能把“体力活”变成“监督活”。
对团队来说,Claude 3.5 也适合做流程验证:让它按SOP走一遍,快速暴露哪一步最容易出错、哪一页文案不清晰或按钮引导不合理。
如何用上 Claude 3.5 电脑操作(开发者视角)
目前 Claude 3.5 的电脑操作能力主要面向开发者,在 API 侧提供测试版接入,也可在 Amazon Bedrock 与 Google Cloud Vertex AI 上构建。常见做法是把“屏幕截图/界面状态”与“下一步目标”一并交给 Claude 3.5,让它输出可执行的点击与输入动作序列。
