Anthropic近期对Claude 3.5 Sonnet进行了重大更新,这不是一次小修小补,而是让AI具备了直接操作电脑的能力。简单来说,Claude现在能看见你的屏幕,移动鼠标,甚至打字。同时,全新的Claude 3.5 Haiku模型也以闪电般的速度亮相,在多项基准测试中表现抢眼。这次更新为开发者和普通用户都打开了新的想象空间。
Claude 3.5 Sonnet新功能:像人一样使用电脑
这次更新的核心亮点是Claude 3.5 Sonnet新增的电脑操作能力。Anthropic专门打造了一个API,让Claude能够感知屏幕界面的像素信息,并像人一样与之互动。开发者可以集成这个API,让Claude执行诸如“打开浏览器,登录邮箱,发送邮件”这类多步骤任务。在OSWorld基准测试中,Claude 3.5 Sonnet在仅凭屏幕截图的情况下获得了14.9%的得分,远超第二名。
当然,这项功能目前还在测试阶段,Claude在滚动、拖拽等精细操作上还有待提升。例如,它可能会在长时间录屏时中断任务。但包括Canva、DoorDash在内的多家公司已经开始测试这项Claude功能,用于自动化重复性工作流程,比如Replit就利用它来构建能自动检查应用的Agent。
编码性能飞跃:编程能力行业领先
除了操作电脑,Claude 3.5 Sonnet的编码能力也有了质的飞跃。它在SWE-bench Verified测试中的得分从之前的33.4%提升至49.0%,这个成绩直接超越了众多公开模型,包括一些专门的推理模型。GitLab的测试表明,新版Claude在不增加延迟的情况下,为DevSecOps任务提供了更强的推理能力。

