ChromeのGeminiに「画面選択」機能追加、3.5 FlashがPC操作可能に

GoogleがChromeブラウザのGeminiアシスタントに実用的な新機能「Select from screen」（画面選択）を追加しました。このツールを使うと、現在のタブ内の任意のテキストや画像を素早くプロンプトボックスに追加できます。メニューから「Select from screen」をクリックし、現在のタブをハイライトして目的の領域を選択すると、選択した内容が自動的にGeminiの質問ボックスに入力されます。この機能はChrome 149バージョンで段階的に展開されており、すぐに表示されない場合はブラウザを再起動すると有効になります。

同時にGoogleは、Gemini 3.5 Flashモデルに「コンピュータ操作」（computer use）機能が組み込まれたことを発表しました。開発者はGemini APIを介してこの機能を呼び出し、仮想環境で分析や分類などの操作をモデルに実行させることができます。公式の例では、3.5 Flashがこの機能を利用して「Geminiアプリを分析し、機能の分類リストを返す」といった処理を行っています。これはAIが受動的な応答から能動的なインターフェース操作へと進化する重要な一歩であり、自動テストやデータ収集などのシナリオに新たな可能性を開きます。

考察：画面選択からコンピュータ操作まで、GoogleはGeminiを「対話アシスタント」から「環境認識アシスタント」へと段階的にアップグレードしています。前者はユーザーの日常的な操作の利便性を高め、後者はより人間の操作習慣に近い自動化ソリューションを開発者に提供します。これらのツールの成熟に伴い、AIとデスクトップ環境の統合はさらに密接になるでしょう。

記事を検索

人気記事

ChatGPTの「使える」プロンプト（Prompt）厳選。効率を本当に10倍に上げる使い方

Claude Codeのインストールでいつもエラー？手取り足取り、たった3ステップで設定の悩みを解決

ChatGPT・Claude・Gemini・Midjourneyの出力が盛大にコケたときの切り分けチェックリストと、プロンプトKISSのコツ

ChatGPT・Claude・Gemini・Midjourneyを連動！出力のばらつきと改稿ストレスを解消する効率的ワークフロー

Spotifyのエラーコード一覧と解決ガイド