Anthropic 近期對 Claude 3.5 Sonnet 進行了重大更新,這不是一次小修小補,而是讓 AI 具備了直接操作電腦的能力。簡單來說,Claude 現在能看見你的螢幕,移動滑鼠,甚至打字。同時,全新的 Claude 3.5 Haiku 模型也以閃電般的速度亮相,在多項基準測試中表現搶眼。這次更新為開發者和普通用戶都打開了新的想像空間。
Claude 3.5 Sonnet 新功能:像人一樣使用電腦
這次更新的核心亮點是 Claude 3.5 Sonnet 新增的電腦操作能力。Anthropic 專門打造了一個 API,讓 Claude 能夠感知螢幕介面的像素資訊,並像人一樣與之互動。開發者可以整合這個 API,讓 Claude 執行諸如「打開瀏覽器,登入郵箱,發送郵件」這類多步驟任務。在 OSWorld 基準測試中,Claude 3.5 Sonnet 在僅憑螢幕截圖的情況下獲得了 14.9% 的得分,遠超第二名。
當然,這項功能目前還在測試階段,Claude 在滾動、拖曳等精細操作上還有待提升。例如,它可能會在長時間錄製螢幕時中斷任務。但包括 Canva、DoorDash 在內的多家公司已經開始測試這項 Claude 功能,用於自動化重複性工作流程,比如 Replit 就利用它來構建能自動檢查應用的 Agent。
編碼性能飛躍:程式設計能力行業領先
除了操作電腦,Claude 3.5 Sonnet 的編碼能力也有了質的飛躍。它在 SWE-bench Verified 測試中的得分從之前的 33.4% 提升至 49.0%,這個成績直接超越了眾多公開模型,包括一些專門的推理模型。GitLab 的測試表明,新版 Claude 在不增加延遲的情況下,為 DevSecOps 任務提供了更強的推理能力。

