コンテンツにスキップ

Gemini 3.1 Flash Live:音声AIをより自然に、より信頼性高く

· DeepMind 翻訳済
DeepMind

Gemini 3.1 Flash Live:音声AIをより自然に、より信頼性高く

Gemini 3.1 Flash Live は、現在 Google の各種製品で利用できます。

Google DeepMind は本日、リアルタイムのマルチモーダルモデルの最新バージョンである Gemini 3.1 Flash Live を発表しました。これは、低遅延で自然かつ安定した音声対話のために設計されています。

前世代と比べて、Gemini 3.1 Flash Live はいくつかの重要な点で向上しており、会話の一貫性の強化、より自然なイントネーションと間の取り方、そして長文コンテキストの理解力向上などが含まれます。

より自然なリアルタイム音声体験

Gemini 3.1 Flash Live は、対話の中でユーザーの意図をより適切に理解し、より人間らしい応答を返せるようになっています。また、より豊かな音声表現にも対応しており、生成される音声が機械的に聞こえにくくなっています。

より強力な会話管理能力

複数ターンの会話では、このモデルはコンテキストをよりよく維持し、繰り返しや話題の逸脱を減らして、全体的な対話体験を向上させます。

より安定した出力

Gemini 3.1 Flash Live は応答の一貫性も改善されており、リアルタイム音声アプリでよく見られる中断、揺らぎ、不自然な間を抑えています。

開発者向けの機能

開発者は現在、Gemini API を通じて Gemini 3.1 Flash Live を利用でき、カスタマーサポート、アシスタント、教育、クリエイティブなどのシーンに組み込めます。

このモデルは、即時のフィードバック、自然な音声、そして信頼できるコンテキスト処理を必要とするアプリケーションに適しています。

今後の展望

Google は、マルチモーダル AI のリアルタイム音声対話における能力を今後も強化し、速度、自然さ、信頼性のバランスをさらに高めていくとしています。