Google сегодня официально объявил о выпуске голосовой модели Gemini 3.1 Flash Live, которая, как утверждается, является «самой качественной аудио- и голосовой моделью на сегодняшний день», принося значительные обновления для сервисов Gemini Live и Search Live. Модель в настоящее время доступна для предварительного просмотра в Google AI Studio через API Gemini Live, что знаменует важный прогресс Google в технологиях интерактивного голосового взаимодействия в реальном времени.
По сравнению с предыдущим поколением 2.5 Flash Native Audio, Gemini 3.1 Flash Live более эффективно распознает акустические детали, такие как высота тона и ритм, и снижает задержку. Он значительно улучшает способность фильтрации фонового шума, лучше различая речь от фоновых звуков, таких как транспорт или телевизор. В приложении Gemini Live на Android и iOS пользователи получат более быстрый отклик, «уменьшая неловкие паузы», и продолжительность диалоговых потоков удваивается, обеспечивая последовательность мыслей во время длительных мозговых штурмов. Кроме того, Gemini Live теперь может динамически регулировать длину и тон ответов в соответствии с ситуацией.

