Google今日正式宣布推出Gemini 3.1 Flash Live语音模型,作为其“迄今为止最高质量的音频和语音模型”,为Gemini Live和Search Live服务带来重大升级。该模型目前已在Google AI Studio通过Gemini Live API提供预览,标志着Google在实时语音交互技术上的重要进展。
相比前代2.5 Flash Native Audio,Gemini 3.1 Flash Live更有效地识别音高、节奏等声学细节,并降低延迟。它显著提升环境噪音过滤能力,更好地区分语音与交通、电视等背景声音。在Android和iOS的Gemini Live应用中,用户将获得更快响应,“减少尴尬停顿”,且对话线程持续时间延长一倍,确保长时头脑风暴中思维连贯。此外,Gemini Live现在能动态调整回答长度和语气以匹配情境。

