Anthropic近期对旗下Claude 3.5 Sonnet模型进行了全面升级,新增了操控电脑的功能,并在编码能力上再次取得突破。这次更新还包括全新推出的Claude 3.5 Haiku模型,进一步丰富了其产品线。本文将为读者解析这些值得关注的新特性。
Claude 3.5 Sonnet新增电脑操作能力
新版Claude 3.5 Sonnet最引人注目的更新是具备了操控电脑的能力。Anthropic为此构建了一个专用API,使模型能够感知计算机界面并像人类一样与之交互。开发者可以集成该API,让Claude执行诸如移动光标、点击按钮、填写表格等操作。
在OSWorld基准测试中,Claude 3.5 Sonnet在仅屏幕截图模式下取得了14.9%的得分,明显优于其他AI系统。尽管目前其电脑操作仍存在滚动或拖拽方面的挑战,但已有多家知名企业如Asana和Replit正在测试这一功能。这项能力为自动化重复性工作流程提供了全新可能。
编码能力显著提升与性能优化
新的Claude 3.5 Sonnet在编码性能上实现了质的飞跃。在SWE-bench Verified测试中,其得分从前代的33.4%提升至49.0%,超越了包括o1-preview在内的一众推理模型。早期客户反馈显示,GitLab在使用该模型进行DevSecOps任务时,推理能力提升了10%,且未增加延迟。

