Anthropic は最近、Claude 3.5 Sonnet に大規模なアップデートを施しました。これは単なるマイナー修正ではなく、AI が直接コンピュータを操作できる機能を実現したものです。簡単に言えば、Claude があなたの画面を見て、マウスを動かし、タイピングまで行えるようになりました。同時に、完全新作の Claude 3.5 Haiku モデルも超高速で登場し、複数のベンチマークテストで優れた結果を示しています。このアップデートにより、開発者と一般ユーザーの双方に新たな可能性が広がっています。
Claude 3.5 Sonnet の新機能:人間のようにPCを操作
今回のアップデートの中核は、Claude 3.5 Sonnet に追加されたコンピュータ操作機能です。Anthropic は専用の API を開発し、Claude が画面上のピクセル情報を認識し、人間と同じようにインタラクションできるようにしました。開発者はこの API を統合することで、「ブラウザを開いてメールにログインし、メールを送信する」といった複数ステップのタスクを Claude に実行させることが可能です。OSWorld ベンチマークでは、Claude 3.5 Sonnet がスクリーンショットのみの状態で 14.9% のスコアを獲得し、2位以下を大きく引き離しました。
ただし、この機能は現在テスト段階であり、スクロールやドラッグ&ドロップといった細かい操作についてはまだ改善の余地があります。例えば、長時間の画面録画中にタスクが中断されることがあります。それでも、Canva や DoorDash など複数の企業がこの Claude の機能をテストし、反復作業の自動化に活用し始めています。Replit はこれを利用して、アプリを自動チェックするエージェントを構築しています。
コーディング性能の飛躍:業界トップクラスのプログラミング能力
コンピュータ操作に加え、Claude 3.5 Sonnet のコーディング能力も大きく進化しました。SWE-bench Verified テストでは、スコアが従来の 33.4% から 49.0% に向上。この結果は、専用の推論モデルを含む多くの公開モデルを直接上回るものです。GitLab のテストによると、新版 Claude はレイテンシーを増やすことなく、DevSecOps タスクに対してより強力な推論能力を提供します。

