ChromeのGeminiに新機能「画面選択」が追加、3.5 Flashがコンピュータ操作に対応

Googleは、Chromeブラウザ上のGeminiアシスタントに向けて、「画面から選択（Select from screen）」と呼ばれる新ツールを導入しています。この機能により、ユーザーは現在のタブ内の任意のテキストや画像を、会話のプロンプトに素早く追加できます。ユーザーは現在のタブをハイライトし、「画面から選択」を選んで目的の範囲を指定するだけで、Geminiが自動的に選択した画像やテキストを入力欄に反映します。現在、この機能はChrome 149バージョンから順次提供されており、すぐに表示されない場合はブラウザを再起動することで有効化できます。このアップデートにより、ユーザーは手動でスクリーンショットを撮ったりコピー＆ペーストしたりする必要なく、AIが現在表示中のページ要素を理解できるようになり、ビジュアルクエリのプロセスが大幅に簡略化されます。

同時に、GoogleはGemini 3.5 Flashモデルにコンピュータ使用（computer use）ツールが組み込まれたと発表しました。開発者はGemini APIを通じてこの機能を呼び出し、モデルが人間のようにインターフェースを操作する動作をシミュレートできます。たとえば、アプリの画面を解析して分析タスクを実行することが可能です。公式のデモでは、3.5 Flashがこのツールを活用して「Geminiアプリを分析し、カテゴリ別に整理された機能リストを返す」という動作を行っています。これはモデルがテキスト理解にとどまらず、人間のようにGUIを「見て」「操作できる」ことを意味し、自動テストやスマートアシスタントなどのシーンに新たな可能性をもたらします。Gemini 3.5 Flashのコンピュータ使用機能は、本日よりGemini APIで利用可能です。

「画面から選択」から「コンピュータ使用」まで、GoogleはAIを「対話パートナー」から「画面ネイティブ」なエージェントへと進化させています。前者は一般ユーザーがAIとやり取りする際の操作ハードルを下げ、後者は開発者に複雑なGUIの自動化への扉を開きます。ChromeとGeminiモデルの統合が進むにつれ、将来的にはAIが人間のようにWebページを閲覧し、フォームに入力し、さらには複数ステップのタスクを実行する可能性があります。これは汎用デジタルアシスタントへの重要な一歩と言えるでしょう。ただし、自動化の効率とユーザープライバシーのバランスをどう取るかは、引き続き注視すべき核心的な課題です。

記事を検索

人気記事

ChatGPTの「使える」プロンプト（Prompt）厳選。効率を本当に10倍に上げる使い方

Claude Codeのインストールでいつもエラー？手取り足取り、たった3ステップで設定の悩みを解決

ChatGPT・Claude・Gemini・Midjourneyの出力が盛大にコケたときの切り分けチェックリストと、プロンプトKISSのコツ

ChatGPT・Claude・Gemini・Midjourneyを連動！出力のばらつきと改稿ストレスを解消する効率的ワークフロー

Spotifyのエラーコード一覧と解決ガイド