Chrome版Geminiに「画面選択」ツールと3.5 Flashによるコンピューター操作機能が追加

Googleは先頃、ChromeブラウザのGeminiアシスタントに実用的な「Select from screen」（画面から選択）ツールを追加しました。ユーザーはこのツールをクリックするだけで、現在のタブをハイライトし、任意のテキストや画像を自由に選択できます。選択した内容は自動的にGeminiのプロンプトボックスに追加されます。この機能は現在Chrome 149の一部として段階的に展開されており、すぐに表示されない場合はブラウザを再起動すると利用可能になります。画面の情報をAIとの対話に取り込むプロセスが大幅に簡略化され、質問がより直感的かつ効率的になります。

同時に、GoogleはGemini 3.5 Flashモデルにコンピューター使用（computer use）機能が組み込まれたと発表しました。開発者はGemini APIを通じてこのモデルを呼び出し、人間のようにインターフェースを操作したり、アプリの内容を分析したりすることが可能です。例えば、3.5 Flashは自動でGeminiアプリを起動し、分類された機能リストを返すことができます。この進展は、AIエージェント（AI Agent）機能のさらなる実用化を示しており、自動テストやスマートアシスタントなどの分野に新たな可能性を開きます。

考察と今後の展望：Chromeの画面選択ツールからモデルの自律操作機能まで、GoogleはAIのヒューマンインタラクションの境界を二方面から拡張しています。一般ユーザーにとっては「Select from screen」が利用のハードルを下げ、開発者にとってはコンピューター使用機能がより強力な自動化アプリケーションの到来を予感させます。今後、こうしたツールはブラウザやAIアシスタントの標準機能となるかもしれません。

記事を検索

人気記事

ChatGPTの「使える」プロンプト（Prompt）厳選。効率を本当に10倍に上げる使い方

Claude Codeのインストールでいつもエラー？手取り足取り、たった3ステップで設定の悩みを解決

ChatGPT・Claude・Gemini・Midjourneyの出力が盛大にコケたときの切り分けチェックリストと、プロンプトKISSのコツ

ChatGPT・Claude・Gemini・Midjourneyを連動！出力のばらつきと改稿ストレスを解消する効率的ワークフロー

Spotifyのエラーコード一覧と解決ガイド