GoogleはChromeブラウザのGeminiアシスタント向けに「Select from screen」と呼ばれる新ツールを展開しています。この機能により、ユーザーは現在のタブ内の任意のテキストや画像を、手動でスクリーンショットやコピー&ペーストを行うことなく、直接Geminiの入力ボックスに追加できます。ツールをクリックすると現在のタブがハイライト表示され、その後、Geminiに分析させたい領域を矩形選択できます。この機能はChrome 149アップデートの一部として段階的にロールアウトされており、まだオプションが表示されない場合はブラウザを再起動することで有効になります。
同時にGoogleは、Gemini 3.5 Flashモデルがコンピュータ操作能力を内蔵したことを発表しました。開発者はGemini APIを通じてこの能力を呼び出し、モデルが画面上のインターフェースを直接操作・分析できるようになります。デモでは、3.5 Flashが自動的にGeminiアプリを起動し、その機能画面を一つ一つ巡回し、分類が明確な機能一覧を返す様子が示されました。このブレークスルーにより、AIアシスタントはテキストや画像を理解するだけでなく、人間のようにソフトウェアを「操作」できるようになり、自動化テスト、インテリジェントエージェント、RPAのシナリオに新たな可能性をもたらします。このモデルは本日よりGemini APIで利用可能です。

