Claude 最近把“会看屏幕、会点鼠标”这件事推进了一大步:不止回答问题,而是尝试直接操作电脑界面完成任务。本文用更偏实操的角度,讲清楚 Claude 电脑操作能力是什么、适合做什么,以及落地时要注意的坑。
Claude 电脑操作能力到底新增了什么
根据公开报道,Anthropic 为 Claude 3.5 Sonnet 提供了一个让模型“感知电脑界面并与之互动”的 API 思路:Claude 能读取屏幕截图,推断当前界面状态,再把目标拆成连续动作去执行。
你可以把它理解为“看图 + 多步操作”的组合:Claude 先理解截图里有哪些窗口、按钮、表格,再决定下一步点哪里、输入什么、如何跳转页面。
哪些工作适合交给 Claude 直接做
最适合的,是规则明确、步骤重复、但人工很耗时间的电脑流程,例如:打开浏览器检索资料、把结果整理到表格、在后台系统里按字段录入。
当你需要“别只给我答案,顺便把这套流程跑完”时,Claude 的价值就出来了:它能在同一条任务上下文里规划、执行、再修正,而不是让你在多个工具间复制粘贴。
