Anthropicは先日、Claude 3.5 Sonnetに画期的なアップデートを実施しました。これまでのチャット型AIから一歩進み、画面を見て、マウスを動かし、キーボードを打つ——人間と同じようにPCを操作できるようになったのです。もしあなたが今なお手作業でフォーム入力やデータのコピー&ペーストを行っているなら、このアップデートがあなたの働き方を根本から変えるかもしれません。さっそく、新機能「コンピューター操作」の実力と、どのようなシーンで役立つのかを見ていきましょう。
Claudeはどのように人間のようにPCを操作するのか?
AnthropicはClaude専用のAPIを構築し、AIがPC画面を「認識」できるようにしました。具体的には、スクリーンショットを取得してボタンや入力フィールドの位置を理解し、マウスの移動、クリック、キーボード入力などのコマンドを直接生成します。このAPIを組み込めば、例えば「デスクトップ上のExcelファイルを開いて、B列の数値をWebフォームにコピーし、送信する」といったタスクをClaudeに指示できます。Claudeは画面を確認しながらカーソルを動かし、ブラウザを操作する—まるで遠隔操作でインターン生に指示を出すかのような感覚です。
AIのコンピューター操作能力を評価するOSWorldベンチマークでは、新版Claude 3.5 Sonnetがスクリーンショットのみで14.9%のスコアを記録。これは2位のCradle BAAI(7.8%)を大きく上回る結果です。さらに操作ステップを増やすとスコアは22%まで向上しました。人間の70%以上には及びませんが、現時点で最も「PCを使いこなせる」AIと言えるでしょう。
コーディング能力が大幅向上、コード作成がより信頼性に
PC操作に加え、新版Claude 3.5 Sonnetはプログラミング面でも驚くべき進歩を遂げています。SWE-bench Verified(AIが実際のソフトウェア問題を解決する能力を測るベンチマーク)では、以前の40.6%から49%へとスコアが急上昇し、OpenAI o1-previewを含むすべての公開モデルを凌駕しました。GitLabのテストによると、Claudeは多段階ソフトウェア開発プロセスにおける推論能力が10%向上し、レイテンシも増加していません。つまり、本格的なWebアプリケーションモジュールの作成や複雑なコードロジックのデバッグを依頼しても、以前より信頼できる結果が得られるということです。

