Claude 近期在「會看螢幕、會點滑鼠」方面取得重大進展:不僅能回答問題,更能直接操作電腦介面完成任務。本文從實務角度,詳細解析 Claude 電腦操作能力的定義、適用場景以及落地時需注意的事項。
Claude 電腦操作能力到底新增了什麼
根據公開報導,Anthropic 為 Claude 3.5 Sonnet 設計了一套 API,讓模型能夠「感知電腦介面並與之互動」:Claude 可以讀取螢幕截圖,推斷當前介面狀態,並將目標分解為連續動作執行。
這項功能可視為「看圖與多步操作」的結合:Claude 首先解析截圖中的視窗、按鈕、表格等元素,接著規劃下一步點擊位置、輸入內容或頁面跳轉方式。
哪些工作適合交給 Claude 直接做
最適合交由 Claude 處理的,是規則明確、步驟重複且耗時的電腦流程,例如:開啟瀏覽器搜尋資料、將結果整理至表格、或在後台系統中依欄位輸入資料。
當你需要的不僅是答案,而是完整執行一套流程時,Claude 的價值便顯現出來:它能在同一任務上下文中進行規劃、執行與修正,無需你在多個工具間複製貼上。


