Gemini 3.1 Flash Live:让音频 AI 更自然、更可靠
Gemini 3.1 Flash Live 现已在 Google 各项产品中提供。
Google DeepMind 今天宣布推出 Gemini 3.1 Flash Live,这是其实时多模态模型的最新版本,专为低延迟、自然且稳定的语音交互而设计。
与上一代相比,Gemini 3.1 Flash Live 在多个关键方面都有提升,包括更强的对话连贯性、更自然的语调和停顿,以及更好的长时上下文理解能力。
更自然的实时语音体验
Gemini 3.1 Flash Live 能够更好地理解用户在对话中的意图,并以更接近真人的方式回应。它还支持更丰富的语音表达,使生成的音频听起来不那么机械。
更强的对话管理能力
在多轮对话中,该模型能够更好地保持上下文,减少重复和跑题,提升整体交互体验。
更稳定的输出
Gemini 3.1 Flash Live 在响应一致性方面也有所改进,降低了实时语音应用中常见的中断、抖动和不自然停顿。
面向开发者的能力
开发者现在可以通过 Gemini API 使用 Gemini 3.1 Flash Live,将其集成到客服、助手、教育和创作等场景中。
该模型适用于需要即时反馈、自然语音和可靠上下文处理的应用。
未来展望
Google 表示,将继续推进多模态 AI 在实时音频交互中的能力,让模型在速度、自然度和可靠性之间取得更好的平衡。