Chrome Gemini añade herramienta de selección en pantalla: 3.5 Flash ahora puede operar como un ordenador

Google está introduciendo en Chrome una nueva herramienta para el asistente Gemini llamada "Seleccionar desde la pantalla" (Select from screen). Esta función permite a los usuarios agregar rápidamente cualquier texto o imagen de la pestaña activa al prompt de la conversación. Solo hay que resaltar la pestaña, elegir "Seleccionar desde la pantalla" y enmarcar el contenido deseado; Gemini rellenará automáticamente el campo de entrada con la imagen o el texto seleccionado. Actualmente, la función se despliega gradualmente con la versión Chrome 149. Si no aparece de inmediato, basta con reiniciar el navegador para activarla. Esta actualización simplifica significativamente el flujo de consultas visuales, permitiendo que la IA entienda elementos específicos de la página sin necesidad de capturas de pantalla ni copias manuales.

Al mismo tiempo, Google ha anunciado que el modelo Gemini 3.5 Flash ahora incluye una herramienta integrada de uso de ordenador (computer use). Los desarrolladores pueden invocar esta capacidad directamente en la API de Gemini, permitiendo que el modelo simule interacciones humanas con la interfaz, como navegar por aplicaciones y realizar tareas de análisis. En un ejemplo oficial, 3.5 Flash utiliza esta herramienta para "analizar la aplicación Gemini y devolver una lista de funciones organizadas por categorías". Esto significa que el modelo ya no se limita a la comprensión de texto, sino que puede "ver" y "operar" interfaces gráficas como un humano, abriendo nuevas posibilidades para la automatización de pruebas, asistentes inteligentes y otros escenarios. La capacidad de uso de ordenador de Gemini 3.5 Flash ya está disponible en la API de Gemini a partir de hoy.

Desde "Seleccionar desde la pantalla" hasta "uso de ordenador", Google está transformando la IA de un "compañero de conversación" a un agente "nativo de la pantalla". La primera función reduce la barrera de interacción para los usuarios comunes, mientras que la segunda abre nuevas puertas a los desarrolladores para automatizar interfaces gráficas complejas. Con la creciente integración entre Chrome y los modelos Gemini, en el futuro la IA podría navegar por páginas web, rellenar formularios e incluso ejecutar tareas de varios pasos como un humano, un paso clave hacia un asistente digital universal. No obstante, equilibrar la eficiencia de la automatización con la privacidad del usuario sigue siendo un tema central que requiere atención continua.

Buscar artículos

Artículos Populares

Los mejores prompts para ChatGPT: usos que de verdad pueden multiplicar por 10 la eficiencia

La instalación de Claude Code siempre da error: guía paso a paso para resolver el problema de configuración en tres pasos

Lista de verificación para depurar “salidas fallidas” de ChatGPT, Claude, Gemini y Midjourney, y trucos KISS para prompts

Flujo de Trabajo Eficiente: Integra ChatGPT, Claude, Gemini y Midjourney para Coherencia y Menos Estrés en Revisiones

Guía completa de errores de reproducción en Spotify y cómo solucionarlos