Claude自主执行任务新功能：AI操控电脑操作指南

Anthropic近期为Claude 3.5 Sonnet模型带来了重磅更新，新增了直接操控电脑的自主执行任务功能。这意味着Claude不再是单纯的对话助手，它能像人类一样“看”屏幕并操作界面，为自动化办公和编程带来全新可能。

Claude自主执行任务功能带来哪些变化

这项新功能的核心在于Anthropic专门打造的API，让Claude能够感知电脑界面并与之互动。开发者只需将指令输入，Claude就能将其转化为具体的计算机操作，比如打开浏览器、填写表格或检查试算表。

根据官方数据，这项功能在OSWorld标准测试中，Claude 3.5 Sonnet在理解屏幕截图方面取得了14.9%的成绩，虽然低于人类水平的70%-75%，但已领先其他AI模型。执行更多步骤时，成绩还能提升至22%。

对于普通用户来说，Claude的电脑操控能力可以显著减少繁琐的手动操作。例如，当你需要从多个数据源整理信息时，只需告诉Claude你的需求，它就能自动打开相关软件、查找信息并完成填充。

目前，包括Replit、Canva和DoorDash在内的多家公司已开始测试这一功能。Replit甚至利用它开发了专门的应用检查工具，在编程过程中自动评估代码表现。这种自主执行任务的能力，让Claude非常适合处理重复性高、步骤多的工作流。

除了电脑操作能力，本次更新还大幅提升了Claude的编码实力。在SWE-bench Verified测试中，Claude 3.5 Sonnet的得分从33.4%跃升至49%，超越了包括OpenAI o1-preview在内的所有公开模型。

在TAU-bench零售领域测试中，Claude的得分也从62.6%提升到69.2%。GitLab和Cognition等企业的早期反馈显示，新模型在长期任务和多步骤软件开发流程中表现出色，能持续稳定工作数小时。对于开发者和需要高效处理复杂任务的用户而言，Claude的这次升级无疑是值得关注的。