Gemini 3.1 Flash Live llega: la mayor actualización en interacción por voz

Google ha anunciado oficialmente el lanzamiento de su modelo Gemini 3.1 Flash Live, al que describe como su modelo de audio y voz de más alta calidad hasta la fecha. Este modelo será el núcleo que impulse las funciones Gemini Live y Search Live, y ya está disponible en vista previa a través de la API de Gemini Live en Google AI Studio. Esta actualización está considerada como la más importante hasta ahora para el servicio Gemini Live.

En comparación con la generación anterior, Gemini 3.1 Flash Live logra avances en varios indicadores clave. El nuevo modelo identifica con mayor eficacia detalles de la voz como el tono y la velocidad del habla, y reduce significativamente la latencia. Su capacidad para filtrar el ruido ambiental se ha reforzado notablemente, permitiendo separar con más precisión la voz del usuario de sonidos de fondo como el tráfico o la televisión. En la aplicación móvil de Gemini Live, la experiencia del usuario mejora tangiblemente: las respuestas son más rápidas, se reducen las pausas incómodas y la coherencia conversacional se ha duplicado, lo que facilita que los usuarios mantengan el hilo en sesiones prolongadas de lluvia de ideas. Además, el sistema ahora puede ajustar dinámicamente la longitud y el tono de sus respuestas para adaptarse al contexto de la conversación.

Aprovechando la potencia del nuevo modelo, Google está expandiendo la función Search Live a más de 200 países y territorios en todo el mundo, cubriendo todas las regiones donde ya está disponible el modo de IA. Este hito marca la entrada de los servicios de interacción por voz y búsqueda en tiempo real de Google en una nueva fase más precisa y fluida.

Esta actualización se centra en la optimización del modelo central subyacente, lo que demuestra que Google está abordando los desafíos profundos de la IA de voz en cuanto a capacidad de respuesta en tiempo real, resistencia a interferencias y comprensión del contexto. Esto sienta una base sólida para interacciones de voz entre humanos y máquinas más naturales y confiables en el futuro.

Buscar artículos

Artículos Populares

Los mejores prompts para ChatGPT: usos que de verdad pueden multiplicar por 10 la eficiencia

La instalación de Claude Code siempre da error: guía paso a paso para resolver el problema de configuración en tres pasos

Lista de verificación para depurar “salidas fallidas” de ChatGPT, Claude, Gemini y Midjourney, y trucos KISS para prompts

Flujo de Trabajo Eficiente: Integra ChatGPT, Claude, Gemini y Midjourney para Coherencia y Menos Estrés en Revisiones

3 Técnicas para Hacer Preguntas Efectivas a ChatGPT y Claude y Obtener Respuestas Precisas