Chrome Gemini が画面選択機能を追加、3.5 Flash はコンピュータ操作に対応

Google は Chrome ブラウザの Gemini に、まったく新しい「Select from screen」（画面から選択）ツールを導入しています。ユーザーは Gemini の入力欄横にあるボタンをクリックするだけで、現在のタブをハイライトし、画面内の任意のテキストや画像を自由に選択できます。選択した内容は自動的に会話に追加されます。この機能は Chrome 149 バージョンから順次展開されており、すぐに表示されない場合はブラウザを再起動すると有効になります。これにより、画面上の情報を AI アシスタントに入力するプロセスが大幅に簡素化され、素早い質問やページ要素の分析に最適です。

同時に Google は、Gemini 3.5 Flash モデルに「コンピュータ操作」（computer use）ツールが組み込まれたことを発表しました。開発者は Gemini API を通じてこの機能を呼び出し、モデルに直接インターフェースを操作させることができます。例えば、Gemini アプリを自動分析し、分類された機能リストを返すといった活用が可能です。これは AI が画面内容を理解するだけでなく、人間の操作を模倣して複雑なタスクを実行できることを意味します。現在、3.5 Flash のコンピュータ操作機能は API ユーザー向けに公開されています。

これら 2 つのアップデートは、一般ユーザーと開発者の両方を対象としており、共通して「AI をユーザーのデジタル環境により自然に溶け込ませる」という方向性を示しています。画面のキャプチャから能動的な操作まで、Gemini は Q&A アシスタントから真の「デジタルエージェント」へと進化しつつあります。Chrome 149 の広範な展開と API 機能の開放により、今後さらなる自動化シナリオに期待が寄せられます。

記事を検索

人気記事

ChatGPTの「使える」プロンプト（Prompt）厳選。効率を本当に10倍に上げる使い方

Claude Codeのインストールでいつもエラー？手取り足取り、たった3ステップで設定の悩みを解決

ChatGPT・Claude・Gemini・Midjourneyの出力が盛大にコケたときの切り分けチェックリストと、プロンプトKISSのコツ

ChatGPT・Claude・Gemini・Midjourneyを連動！出力のばらつきと改稿ストレスを解消する効率的ワークフロー

Spotifyのエラーコード一覧と解決ガイド