Google 於近日正式宣布 Gemini 3.1 Flash Live,並將其稱為迄今為止「最高品質的音頻與語音模型」。此模型旨在為 Gemini Live 和 Search Live 提供核心升級,現已透過 Google AI Studio 中的 Gemini Live API 開放預覽。
此次升級帶來了多項顯著改進:模型能更有效地識別音調、節奏等聲學細節,並提供相比前代 2.5 Flash Native Audio 更低的延遲。它在區分相關語音與環境噪音(如交通或電視聲)方面表現更佳,特別加強了背景噪音過濾能力。在 Android 和 iOS 的 Gemini Live 中,3.1 Flash Live 實現了更快的回應速度,減少了對話中的尷尬停頓,並能將對話線程追蹤時間延長一倍,有助於在長時間腦力激盪中保持思維連貫。此外,Gemini Live 現已能動態調整回答長度和語調以匹配即時情境。

