Titikey
首页实用技巧ClaudeClaude 3.5新功能:电脑操作与编码能力全面升级

Claude 3.5新功能:电脑操作与编码能力全面升级

2026/6/23
Claude

Anthropic近期对Claude 3.5 Sonnet进行了重大更新,这不是一次小修小补,而是让AI具备了直接操作电脑的能力。简单来说,Claude现在能看见你的屏幕,移动鼠标,甚至打字。同时,全新的Claude 3.5 Haiku模型也以闪电般的速度亮相,在多项基准测试中表现抢眼。这次更新为开发者和普通用户都打开了新的想象空间。

Claude 3.5 Sonnet新功能:像人一样使用电脑

这次更新的核心亮点是Claude 3.5 Sonnet新增的电脑操作能力。Anthropic专门打造了一个API,让Claude能够感知屏幕界面的像素信息,并像人一样与之互动。开发者可以集成这个API,让Claude执行诸如“打开浏览器,登录邮箱,发送邮件”这类多步骤任务。在OSWorld基准测试中,Claude 3.5 Sonnet在仅凭屏幕截图的情况下获得了14.9%的得分,远超第二名。

当然,这项功能目前还在测试阶段,Claude在滚动、拖拽等精细操作上还有待提升。例如,它可能会在长时间录屏时中断任务。但包括Canva、DoorDash在内的多家公司已经开始测试这项Claude功能,用于自动化重复性工作流程,比如Replit就利用它来构建能自动检查应用的Agent。

编码性能飞跃:编程能力行业领先

除了操作电脑,Claude 3.5 Sonnet的编码能力也有了质的飞跃。它在SWE-bench Verified测试中的得分从之前的33.4%提升至49.0%,这个成绩直接超越了众多公开模型,包括一些专门的推理模型。GitLab的测试表明,新版Claude在不增加延迟的情况下,为DevSecOps任务提供了更强的推理能力。

这意味着开发者可以更放心地将复杂的多步骤软件开发任务交给它。在另一项评估编程能力的HumanEval测试中,Claude 3.5 Sonnet的得分达到了93.7%,处理实际软件问题的能力大幅增强。对于需要频繁与AI协作写代码的用户来说,这次的Claude更新确实带来了实实在在的效率提升。

Claude 3.5 Haiku:速度与智能的最佳平衡

与Claude 3.5 Sonnet一同亮相的,还有新一代快速模型Claude 3.5 Haiku。它的最大优势在于成本和速度,与上一代Haiku持平,但智能水平却大幅提升,甚至能与上代旗舰模型Claude 3 Opus相媲美。在编码任务上,Claude 3.5 Haiku在SWE-bench Verified上拿下了40.6%的分数,超越了包括GPT-4在内的许多模型。

从产品定位来看,Claude 3.5 Haiku非常适合对延迟敏感的实时应用,比如面向用户的产品、子代理任务,或是需要从大量数据中生成个性化体验的服务。如果你对响应速度要求极高,又不想牺牲太多智能水平,这款新模型会是极具性价比的选择。

首页商品订单