Gemini 3.1 Flash Live: 音声 AI をより自然に、より安定して

Gemini 3.1 Flash Live が Google の各製品で利用可能になりました。

Google DeepMind は本日、低遅延で自然かつ安定した音声対話を実現するよう設計された、リアルタイムのマルチモーダルモデルの最新バージョン Gemini 3.1 Flash Live を発表しました。

前世代と比べて、Gemini 3.1 Flash Live は、会話の一貫性向上、より自然なイントネーションと間の取り方、長文コンテキストの理解力向上など、いくつかの重要な領域で改善されています。

より自然なリアルタイム音声体験

Gemini 3.1 Flash Live は、会話の途中でユーザーの意図をより正確に理解し、より人間らしい応答を返せるようになっています。また、より豊かな音声表現にも対応しており、生成される音声はより機械的でない印象になります。

複数ターンにわたる会話では、モデルがコンテキストをより効果的に維持できるため、同じ内容の繰り返しや話題外の応答が減り、全体的な対話体験が向上します。

Gemini 3.1 Flash Live では応答の一貫性も改善され、リアルタイム音声アプリケーションでよく見られる中断、ジッタ、不自然な間が抑えられています。

開発者は Gemini API を通じて Gemini 3.1 Flash Live を利用でき、カスタマーサポート、アシスタント、教育、クリエイティブ用途などに組み込めます。

このモデルは、即時応答、自然な発話、信頼性の高いコンテキスト処理が求められるアプリケーションに適しています。

Google は、リアルタイム音声対話に向けたマルチモーダル AI の機能強化を今後も進め、速度・自然さ・信頼性のより良いバランスを実現していくとしています。