Google は Chrome ブラウザの Gemini に、まったく新しい「Select from screen」(画面から選択)ツールを導入しています。ユーザーは Gemini の入力欄横にあるボタンをクリックするだけで、現在のタブをハイライトし、画面内の任意のテキストや画像を自由に選択できます。選択した内容は自動的に会話に追加されます。この機能は Chrome 149 バージョンから順次展開されており、すぐに表示されない場合はブラウザを再起動すると有効になります。これにより、画面上の情報を AI アシスタントに入力するプロセスが大幅に簡素化され、素早い質問やページ要素の分析に最適です。
同時に Google は、Gemini 3.5 Flash モデルに「コンピュータ操作」(computer use)ツールが組み込まれたことを発表しました。開発者は Gemini API を通じてこの機能を呼び出し、モデルに直接インターフェースを操作させることができます。例えば、Gemini アプリを自動分析し、分類された機能リストを返すといった活用が可能です。これは AI が画面内容を理解するだけでなく、人間の操作を模倣して複雑なタスクを実行できることを意味します。現在、3.5 Flash のコンピュータ操作機能は API ユーザー向けに公開されています。

