Anthropic最近给Claude 3.5 Sonnet带来了一项颠覆性更新——它不再只会打字聊天,而是可以像人一样看屏幕、移动鼠标、敲键盘,真正帮你操作电脑。如果你还在手动填表、复制粘贴数据,这次升级可能会彻底改变你的工作方式。下面一起来看看这个新增的“计算机操作”能力到底有多强,以及它还能在哪些场景派上用场。
Claude如何像人类一样操控电脑?
Anthropic专门为Claude打造了一套API,让它能“感知”电脑界面——说白了就是看截图、理解按钮和输入框的位置,然后直接生成鼠标移动、点击、打字等命令。开发者接入这套API后,可以要求Claude帮你完成这类任务:“打开我桌面上的Excel表格,把B列的数字复制到网页表单里,然后提交”。Claude会一步步检查屏幕、移动光标、操作浏览器,整个过程就像你在远程指挥一个实习生干活。
在评测模型计算机使用能力的OSWorld基准测试中,新版的Claude 3.5 Sonnet仅靠截图就能取得14.9%的得分,远超第二名Cradle BAAI的7.8%。如果给它更多操作步骤,成绩还能提升到22%。虽然和人类70%以上的水平还有差距,但它已经是目前AI里最会“用电脑”的一个了。
编码能力大幅提升,写代码更靠谱
除了操作电脑,新版Claude 3.5 Sonnet在编程方面的进步同样惊人。SWE-bench Verified(一个衡量AI解决实际软件问题能力的基准)上,它的得分从之前的40.6%跃升至49%,超越了包括OpenAI o1-preview在内的所有公开模型。GitLab测试后发现,Claude在多步骤软件开发流程中的推理能力提升了10%,而且延迟没有增加。换句话说,让它帮忙写一个完整的Web应用模块,或者调试复杂的代码逻辑,都比以前更可靠。

