Claude 3.5 的最新更新中,最引人注目的是「電腦操作」(Computer Use)能力:除了對話外,它還能理解螢幕內容,並模擬滑鼠移動、點擊以及鍵盤輸入。對於需要處理繁瑣流程、填寫表格或在軟體中進行多步驟操作的使用者而言,Claude 3.5 更像是一位能夠實際動手協助的助理。
Claude 3.5 的「電腦操作」到底是什麼
所謂 Claude 3.5 電腦操作,是讓模型像人一樣與桌面應用或網頁界面互動:先識別螢幕上的元素,再決定移動游標、點擊按鈕或輸入文字。它並非「直接讀取你的系統資料」,而是基於你提供的螢幕畫面與指令來執行步驟。
官方也強調 Claude 3.5 的電腦操作仍處在公開測試階段,偶爾會卡住、點錯或步驟不穩定。把它當作能加速的「半自動操作」,會比期待一次全程無誤更現實。
哪些任務會被 Claude 3.5 明顯提速
當任務需要幾十步重複點擊時,Claude 3.5 的價值會更直觀,例如:在後台系統逐條錄入資訊、跨頁面複製貼上、按固定規則下載/整理檔案、在表單裡按欄位填寫。只要界面元素相對清晰、流程可重複使用,Claude 3.5 往往能把「體力活」變成「監督活」。
對團隊來說,Claude 3.5 也適合做流程驗證:讓它按 SOP 走一遍,快速暴露哪一步最容易出錯、哪一頁文案不清晰或按鈕引導不合理。
如何用上 Claude 3.5 電腦操作(開發者視角)
目前 Claude 3.5 的電腦操作能力主要面向開發者,在 API 側提供測試版接入,也可在 Amazon Bedrock 與 Google Cloud Vertex AI 上構建。常見做法是把「螢幕截圖/界面狀態」與「下一步目標」一併交給 Claude 3.5,讓它輸出可執行的點擊與輸入動作序列。


