Gemini en Chrome añade "Seleccionar de pantalla" y 3.5 Flash obtiene control de computadora

Google está implementando una nueva herramienta llamada “Select from screen” para el asistente Gemini en el navegador Chrome. Esta función permite a los usuarios agregar rápidamente cualquier texto o imagen de la pestaña actual directamente al cuadro de preguntas de Gemini, sin necesidad de realizar capturas de pantalla manuales ni copiar y pegar. Al hacer clic en la herramienta, la pestaña activa se resalta y luego se puede seleccionar el contenido que se desea que Gemini analice. Esta función se está implementando gradualmente como parte de la actualización de Chrome 149. Si el usuario aún no ve la opción, basta con reiniciar el navegador para habilitarla.

Al mismo tiempo, Google ha anunciado que el modelo Gemini 3.5 Flash ahora cuenta con capacidad de uso de computadora. Los desarrolladores pueden invocar esta capacidad a través de la API de Gemini, permitiendo que el modelo controle directamente la interfaz de pantalla para realizar análisis. Los ejemplos muestran que 3.5 Flash puede abrir automáticamente la aplicación Gemini, recorrer su interfaz de funciones y devolver una lista de funciones clasificadas con claridad. Este avance significa que el asistente de IA ya no solo puede entender texto o imágenes, sino también “operar” software como un humano, abriendo nuevas posibilidades para pruebas automatizadas, agentes inteligentes y escenarios RPA. El modelo ya está disponible para su uso en la API de Gemini.

Con la herramienta “Select from screen” reduciendo los costos de interacción y 3.5 Flash adquiriendo capacidad de control de computadora, Google está transformando a Gemini de un simple asistente de preguntas y respuestas a un agente de escritorio más proactivo. En el futuro, es posible que los usuarios puedan pedirle directamente a Gemini que realice tareas complejas entre aplicaciones, como organizar archivos, completar formularios o analizar informes. Esta dirección coincide con el concepto de “agentes de IA” que otros fabricantes también están impulsando, y vale la pena seguir de cerca sus resultados prácticos.

Buscar artículos

Artículos Populares

Los mejores prompts para ChatGPT: usos que de verdad pueden multiplicar por 10 la eficiencia

La instalación de Claude Code siempre da error: guía paso a paso para resolver el problema de configuración en tres pasos

Lista de verificación para depurar “salidas fallidas” de ChatGPT, Claude, Gemini y Midjourney, y trucos KISS para prompts

Flujo de Trabajo Eficiente: Integra ChatGPT, Claude, Gemini y Midjourney para Coherencia y Menos Estrés en Revisiones

Guía completa de errores de reproducción en Spotify y cómo solucionarlos