今回のClaude 3.5 Sonnetで最も注目すべき新しい変化は、モデルが「画面を理解し、マウスを動かせる」ようになり、自然言語の指示を実際のPC操作手順へ変換し始めたことです。表計算の自動化、Web入力、資料整理を必要とする人にとって、Claude 3.5 Sonnetの活用可能な範囲は明らかに大きく広がりました。
Claude 3.5 Sonnetの「PC操作能力」とは結局何か
Claude 3.5 Sonnetには、開発者向けにPC操作に関するAPIの考え方が新たに追加されました。まずPC画面(例:スクリーンショット/画面状態)を認識し、その後あなたの要望を実行可能な手順に分解します。「ブラウザを開く—ページに移動する—入力欄を特定する—フォームに入力する—送信する」といった一連の流れを手順どおりに完了でき、タスクが文字による助言だけで終わらなくなります。
この種の能力の要点は「ネットができるか」ではなく、「画面に沿って作業できるか」にあります。Claude 3.5 Sonnetは、複数ステップのプロセスの中で継続的に選択と誤り修正を行えるよう設計されており、反復的で細かく、ミスが起きやすい操作を自動化に任せるのに向いています。
どんな場面により適しているか:表計算、管理画面、テスト、反復フロー
仕事がしばしば「コピペ+画面の行き来」で詰まるなら、Claude 3.5 Sonnetはより価値があります。ローカル資料から項目を抽出してオンラインフォームやスプレッドシートに入力する、管理画面のシステムで決まった手順に沿って情報を登録する、同じ一連のフローを顧客ごと/データのバッチごとに繰り返し実行するといった用途です。
開発チームにとっても、Claude 3.5 Sonnetは「ツール付きの実行者」としてより適しています。たとえばテスト環境で手順どおりにクリックし、ページ状態を検証し、結果を記録し、異常点をリストとして書き戻す、といった使い方です。
プログラミングとツール利用も同時に強化
PC操作に加えて、Claude 3.5 Sonnetはプログラミングおよびツール利用のタスクも強化されており、公式にはHumanEvalやSWE-bench Verifiedなどの評価で大きく向上したとされています。あなたにとって最も直感的な影響は、Claude 3.5 Sonnetが制約に従って実行可能なコードを出力しやすくなり、インターフェース形式をより守り、多段の要件でも脱線しにくくなったことです。
