Google近日正式宣布Gemini 3.1 Flash Live,并将其称为迄今为止“最高质量的音频和语音模型”。该模型旨在为Gemini Live和Search Live提供核心升级,现已通过Google AI Studio中的Gemini Live API开放预览。
此次升级带来了多项显著改进:模型能更有效地识别音调、节奏等声学细节,并提供相比前代2.5 Flash Native Audio更低的延迟。它在区分相关语音与环境噪音(如交通或电视声)方面表现更佳,特别加强了背景噪音过滤能力。在Android和iOS的Gemini Live中,3.1 Flash Live实现了更快的响应速度,减少了对话中的尴尬停顿,并能将对话线程跟踪时间延长一倍,有助于在长时间头脑风暴中保持思维连贯。此外,Gemini Live现已能动态调整回答长度和语调以匹配实时情境。

