Gemini、Chromeに画面選択機能追加—3.5 Flashはコンピュータ操作を実現

GoogleはChromeブラウザのGeminiアシスタント向けに「Select from screen」と呼ばれる新ツールを展開しています。この機能により、ユーザーは現在のタブ内の任意のテキストや画像を、手動でスクリーンショットやコピー＆ペーストを行うことなく、直接Geminiの入力ボックスに追加できます。ツールをクリックすると現在のタブがハイライト表示され、その後、Geminiに分析させたい領域を矩形選択できます。この機能はChrome 149アップデートの一部として段階的にロールアウトされており、まだオプションが表示されない場合はブラウザを再起動することで有効になります。

同時にGoogleは、Gemini 3.5 Flashモデルがコンピュータ操作能力を内蔵したことを発表しました。開発者はGemini APIを通じてこの能力を呼び出し、モデルが画面上のインターフェースを直接操作・分析できるようになります。デモでは、3.5 Flashが自動的にGeminiアプリを起動し、その機能画面を一つ一つ巡回し、分類が明確な機能一覧を返す様子が示されました。このブレークスルーにより、AIアシスタントはテキストや画像を理解するだけでなく、人間のようにソフトウェアを「操作」できるようになり、自動化テスト、インテリジェントエージェント、RPAのシナリオに新たな可能性をもたらします。このモデルは本日よりGemini APIで利用可能です。

「Select from screen」によるインタラクションコストの低減と、3.5 Flashによるコンピュータ操作能力の獲得により、GoogleはGeminiを単なるQ&Aアシスタントから、より能動的なデスクトップエージェントへと進化させています。将来的には、ユーザーがGeminiにファイル整理、フォーム入力、レポート分析といった複数アプリにまたがる複雑なタスクを直接指示できるようになるかもしれません。この方向性は、他社が推進する「AIエージェント」のコンセプトとも合致しており、実際の導入効果を注視する価値があります。

記事を検索

人気記事

ChatGPTの「使える」プロンプト（Prompt）厳選。効率を本当に10倍に上げる使い方

Claude Codeのインストールでいつもエラー？手取り足取り、たった3ステップで設定の悩みを解決

ChatGPT・Claude・Gemini・Midjourneyの出力が盛大にコケたときの切り分けチェックリストと、プロンプトKISSのコツ

ChatGPT・Claude・Gemini・Midjourneyを連動！出力のばらつきと改稿ストレスを解消する効率的ワークフロー

Spotifyのエラーコード一覧と解決ガイド