Nouvel outil de sélection d'écran pour Gemini sur Chrome, et le modèle 3.5 Flash obtient des capacités de contrôle informatique

Google introduit un nouvel outil appelé « Sélectionner depuis l'écran » (Select from screen) pour l'assistant Gemini dans le navigateur Chrome. Cette fonctionnalité permet aux utilisateurs d'ajouter rapidement n'importe quel texte ou image de l'onglet actif à leurs invites de conversation. Il suffit de mettre en surbrillance l'onglet actif, de choisir « Sélectionner depuis l'écran » et de cadrer le contenu souhaité pour que Gemini remplisse automatiquement le champ de saisie avec l'image ou le texte sélectionné. Actuellement, cette fonction est déployée progressivement avec la version Chrome 149. Si elle n'apparaît pas immédiatement, un redémarrage du navigateur permet de l'activer. Cette mise à jour simplifie considérablement le processus de requête visuelle, permettant aux utilisateurs de faire comprendre à l'IA des éléments spécifiques de la page consultée sans avoir à effectuer de capture d'écran ou de copier-coller manuels.

Parallèlement, Google annonce que le modèle Gemini 3.5 Flash intègre désormais un outil de « computer use » (utilisation de l'ordinateur). Les développeurs peuvent appeler cette capacité directement via l'API Gemini, permettant au modèle de simuler des interactions humaines avec une interface, par exemple parcourir une application et effectuer des tâches d'analyse. Dans un exemple officiel, le modèle 3.5 Flash utilise cet outil pour « analyser l'application Gemini et renvoyer la liste des fonctionnalités classées par catégorie ». Cela signifie que le modèle ne se limite plus à la compréhension textuelle, mais peut « voir » et « manipuler » des interfaces graphiques comme un humain, ouvrant de nouvelles possibilités pour les tests automatisés, les assistants intelligents et d'autres scénarios. La fonctionnalité de « computer use » de Gemini 3.5 Flash est disponible dès aujourd'hui dans l'API Gemini.

De l'outil « Sélectionner depuis l'écran » à l'« utilisation de l'ordinateur », Google fait évoluer l'IA d'un simple « partenaire de conversation » à un agent « natif de l'écran ». Le premier réduit le seuil d'interaction pour les utilisateurs ordinaires avec l'IA, tandis que le second ouvre de nouvelles portes aux développeurs pour automatiser des interfaces graphiques complexes. Avec l'intégration approfondie du navigateur Chrome et des modèles Gemini, il est possible qu'à l'avenir l'IA parcoure le web, remplisse des formulaires ou exécute des tâches en plusieurs étapes comme un humain – une étape clé de plus vers un assistant numérique universel. Cependant, l'équilibre entre efficacité de l'automatisation et confidentialité des utilisateurs reste une question centrale à suivre.

Rechercher des articles

Articles Populaires

Les meilleurs prompts (instructions) pour ChatGPT : des usages qui peuvent vraiment multiplier l’efficacité par 10

L’installation de Claude Code échoue toujours ? Tutoriel pas à pas : 3 étapes pour régler les problèmes de configuration

Checklist de dépannage et astuces KISS pour éviter les ratés dans les sorties de ChatGPT, Claude, Gemini et Midjourney

ChatGPT Claude Gemini加Midjourney联动的高效工作流解决输出不统一和改稿崩溃

Guide complet des codes d'erreur Spotify et solutions