Anthropic 最近為 Claude 3.5 Sonnet 帶來了一項顛覆性更新——它不再只會打字聊天,而是可以像人一樣看螢幕、移動滑鼠、敲鍵盤,真正幫你操作電腦。如果你還在手動填表、複製貼上數據,這次升級可能會徹底改變你的工作方式。下面一起來看看這個新增的「電腦操作」能力到底有多強,以及它還能用在哪些場景。
Claude 如何像人類一樣操控電腦?
Anthropic 專門為 Claude 打造了一套 API,讓它能「感知」電腦介面——說白了就是看截圖、理解按鈕和輸入框的位置,然後直接生成滑鼠移動、點擊、打字等指令。開發者接入這套 API 後,可以要求 Claude 幫你完成這類任務:「打開我桌面上的 Excel 表格,把 B 列的數字複製到網頁表單裡,然後提交」。Claude 會一步步檢查螢幕、移動游標、操作瀏覽器,整個過程就像你在遠端指揮一個實習生做事。
在評測模型電腦使用能力的 OSWorld 基準測試中,新版的 Claude 3.5 Sonnet 僅靠截圖就能取得 14.9% 的得分,遠超第二名 Cradle BAAI 的 7.8%。如果給它更多操作步驟,成績還能提升到 22%。雖然和人類 70% 以上的水準還有差距,但它已經是目前 AI 裡最會「用電腦」的一個了。
編碼能力大幅提升,寫程式更可靠
除了操作電腦,新版 Claude 3.5 Sonnet 在程式設計方面的進步同樣驚人。SWE-bench Verified(一個衡量 AI 解決實際軟體問題能力的基準)上,它的得分從之前的 40.6% 躍升至 49%,超越了包括 OpenAI o1-preview 在內的所有公開模型。GitLab 測試後發現,Claude 在多步驟軟體開發流程中的推理能力提升了 10%,而且延遲沒有增加。換句話說,讓它幫忙寫一個完整的 Web 應用模組,或者除錯複雜的程式碼邏輯,都比以前更可靠。

