Claude 3.5 Sonnet 近期最值得關注的更新,是從「會回答」推進到「會操作」。它透過一套讓模型能夠感知電腦畫面並執行步驟的能力,將理解截圖、介面導航與填寫表格等動作串聯成一個完整流程。本文將依循實際使用邏輯,為您詳細拆解 Claude 3.5 Sonnet 究竟能做什麼、適合哪些人使用,以及需要注意的能力邊界。
Claude 3.5 Sonnet「操作電腦」到底改變了什麼
過去,您請 Claude 3.5 Sonnet 撰寫方案後,往往仍需自行開啟網頁、複製內容、切換工具再貼上。現在的發展方向是:Claude 3.5 Sonnet 不僅能理解螢幕截圖,還能將您的自然語言指令拆解成具體的電腦操作步驟。對開發者而言,這意味著能將「看懂介面—執行動作—回傳結果」的鏈結整合到產品之中。
這不僅是多了一個按鈕,而是能讓任務在同一個上下文情境中連續推進,減少來回切換與打斷。尤其在需要多步驟操作、反覆校對的工作流程裡,Claude 3.5 Sonnet 所帶來的價值會更加顯著。
能做哪些事:表格、網頁、資料整理更順暢
從已公開的資訊來看,Claude 3.5 Sonnet 的典型應用場景包括:讀取您電腦上的資料來填寫表格、在瀏覽器中導航至相關頁面、將資訊整理成結構化輸出。您可以將其理解為一位「具備視覺的助手」,先看懂截圖內容,再依照指令繼續操作。對於需要重複執行固定操作的團隊,例如營運數據錄入、報表彙總、資料核對等,將更容易看見效率的提升。
如果您希望 Claude 3.5 Sonnet 協助完成研究類任務,這種模式也更為適合:先定位資料來源,再提取關鍵要點,最後生成可交付的表格或說明文件。


