Anthropic 近期對旗下 Claude 3.5 Sonnet 模型進行了全面升級,新增了操控電腦的功能,並在編碼能力上再次取得突破。這次更新還包括全新推出的 Claude 3.5 Haiku 模型,進一步豐富了其產品線。本文將為讀者解析這些值得關注的新特性。
Claude 3.5 Sonnet 新增電腦操作能力
新版 Claude 3.5 Sonnet 最引人注目的更新是具備了操控電腦的能力。Anthropic 為此建立了一個專用 API,使模型能夠感知電腦介面並像人類一樣與之互動。開發者可以整合該 API,讓 Claude 執行諸如移動游標、點擊按鈕、填寫表單等操作。
在 OSWorld 基準測試中,Claude 3.5 Sonnet 在僅螢幕截圖模式下取得了 14.9% 的得分,明顯優於其他 AI 系統。儘管目前其電腦操作仍存在滾動或拖拽方面的挑戰,但已有多家知名企業如 Asana 和 Replit 正在測試這項功能。這項能力為自動化重複性工作流程提供了全新可能。
編碼能力顯著提升與性能優化
新的 Claude 3.5 Sonnet 在編碼性能上實現了質的飛躍。在 SWE-bench Verified 測試中,其得分從前代的 33.4% 提升至 49.0%,超越了包括 o1-preview 在內的一眾推理模型。早期客戶回饋顯示,GitLab 在使用該模型進行 DevSecOps 任務時,推理能力提升了 10%,且未增加延遲。

