ChromeのGeminiに「画面選択ツール」追加、3.5 FlashがPC操作機能を搭載

GoogleはChromeブラウザのGeminiアシスタントに実用的な新機能——「Select from screen（画面選択）」ツールを導入しています。ユーザーがこのツールをクリックすると、現在のタブがハイライト表示され、「任意のテキストまたは画像を選択してGeminiに質問」というプロンプトが表示されます。選択したコンテンツは画像として自動的に会話入力ボックスに追加され、画面上の情報をすばやくクエリできるようになります。この機能はChrome 149バージョンで順次展開され、まだ表示されない場合はブラウザを再起動すると有効になります。

同時に、GoogleはGemini 3.5 Flashモデルに「コンピュータ使用（computer use）」ツールが組み込まれたことを発表。開発者はGemini APIまたはGemini Enterprise Agent Platformを介して呼び出すことができます。このツールにより、モデルはデスクトップアプリのインターフェースを直接分析し、操作を実行可能に。公式サンプルでは、3.5 Flashがコンピュータ使用機能を活用して「Geminiアプリを分析し、分類された機能リストを返す」というデモが行われています。これはAIモデルが単なるテキスト生成から、能動的に環境と対話する重要な一歩を示しています。

両方のアップデートにより、ユーザー側と開発者側の両方でGeminiの実用性が向上しています。画面選択は画像入力のプロセスを簡略化し、コンピュータ使用は自動化タスクやインテリジェントエージェントに新たな可能性をもたらします。ChromeエコシステムとAIモデルの融合が進むにつれ、このような「見たまま操作」のインタラクション方式は、将来的に人間と機械の協業のスタンダードとなることが期待されています。

記事を検索

人気記事

ChatGPTの「使える」プロンプト（Prompt）厳選。効率を本当に10倍に上げる使い方

Claude Codeのインストールでいつもエラー？手取り足取り、たった3ステップで設定の悩みを解決

ChatGPT・Claude・Gemini・Midjourneyの出力が盛大にコケたときの切り分けチェックリストと、プロンプトKISSのコツ

ChatGPT・Claude・Gemini・Midjourneyを連動！出力のばらつきと改稿ストレスを解消する効率的ワークフロー

ChatGPT和Claude总是答非所问三个提问技巧让AI秒懂你的需求