Whatが「本物」なのか……そんなこと、そもそも重要なのか？

凹非寺のJay
量子位 | WeChat公式アカウント QbitAI

AIにやられた？

証拠動画があります。人間かAIか見分けがつかなかった相手に、一発でやられました。

しかも、それはワールドモデルが生成した世界で起きたんです。

そう、グラフィックがモザイク状にぼやけた、ブラウザベースのFPSです。

背後にゲームエンジンはなく、物理演算ルールもなく、レンダリングコードもない。

目に見えるものはすべて、Agora-1というワールドモデルがリアルタイムで生成しています。

人間とAIが、同じ中で戦っている。

まずは公式の製品発表動画を見てみましょう。

何度も見返したのですが、すごく不思議な感覚でした。

これまで見たどんなデモとも違う。かなり独特な美学を持つ会社で、発表動画はまるでBlack Mirrorの世界からそのまま撮ってきたようです。

不気味の谷の感じがとにかく強い。動画の中の人までAI生成なのでは、と何度も思いました。

とにかく集中できなかったので、codexに文字起こししてもらいました。ざっくり言うと、こういう内容です。

彼らはワールドモデル駆動のマルチプレイヤーゲームを作り、最大4人が、人間とAIが混在したまま、同じAI生成世界の中で戦えるようにした。

正直、この時点でかなり試してみたくなっていました。

もういいから、早くこのゲームが何なのか見せてくれ。

そこで投稿をよく見てみると、案の定ゲームリンクがありました。

しかもチームはコメント欄でこんな一言まで。

初心者をボコボコにしてやれ！

よろしい。

他に何も言うことはない。

長年の夢が、ついに実現しました。

勤務時間中に、堂々と、しかも遠慮なく席でゲームができる（bushi）。

最初の一瞬で、動画を見たときの直感が正しかったと分かりました。

これは普通じゃない。

けなしているわけではありません。ページを開いた瞬間、BGMがもう変なんです。

今でもあのメロディが頭の中でループしています……

UIも変です。暗くて、低彩度で……ずっとBlack Mirrorっぽい空気が漂っています。

細部もかなり作り込まれていました。

ボタンにカーソルを合わせると、擬似的な効果音が鳴る。

あの古いラジオみたいな質感。ザラザラしていて、ホラーゲームっぽいです。

さて、気を取り直して始めましょう。

ゲーム開始前に、名前を決める必要があります。

私はペンネームを入れて、待機室に入りました。

フルメンバーまであと3人。早く来て、早く来て。

追記：あとで分かったのですが、実は4人ちょうどでなくてもよく、十分待てば2人でも始められるようです。

ちょっと変ですよね。AIプレイヤーがいるって話では？人数が揃わないなら、AIが埋めればいいのでは？

さっぱり分かりません。

ところで、このゲームのルールは実はとてもシンプルです。背景が分かるように少し説明しましょう。

これはGoldenEye 007へのオマージュです。

1997年のNintendo 64向け名作で、ジェームズ・ボンド映画『GoldenEye』を原作にしており、コンソールFPSのマルチプレイの出発点の一つとして広く知られています。

ルールは極めて単純。数人で画面分割し、ピストル、SMG、ロケットランチャー、ゴールデンガンで撃ち合う。要するに、他のプレイヤーを倒せばいいだけ。

純粋なデスマッチです。ストーリーも目的もなく、ひたすら追いかけて撃つだけ。

Agoraのゲームは、まさにその形式を踏襲しています。

さて、ゲーム開始です。

中に入ると、場面はこんな感じのBackrooms風。

さらに不気味なのがプレイヤーです……他のキャラクターが時々ちらっと現れるのですが、足音もなく、氷の上を滑るように移動します。

本当に、キャラクターの動きがありえない。みんなかなり不気味です。どれがAIでどれが本物のプレイヤーなのか、まったく見分けがつきませんでした。

それに、文句を言わせてください。操作性がひどすぎる！！

マウスで視点を動かせず、左右キーで調整しないといけません。

しかもラグに加えて妙な遅延まであって、動くと氷の上を滑っているみたいです。

誰がこんなのを良いと思ったんでしょう？

しかもエイムが無理！

止まりたいタイミングでまったく止まれず、カーソルが敵に乗ってくれません。

そして、やられました。

一発も当てられなかった……

相手は絶対AIでしょう。なんであんなにエイムがいいんだよ！

むかつく！！笑うな！！私のせいじゃない！！

死亡画面までイラつくデザインで、深い血の赤です。

最後には成績が表示されます。

まあ、悪くないです。要するに、初心者同士が殴り合っている感じ。

（あるいは、相手がボットだっただけかもしれませんが……）

試合そのもの以外にも、かなり面白い仕掛けが隠されています。

たとえば、情報ボタンを押すと、Odysseyの会社紹介を見ることができます。

それから、プレイヤーの話によると、ゲーム内のレンガブロックにバグで入り込めるそうです。

すると、その欠けた部分をワールドモデルが自動で補完します。

クラッシュしない。真っ黒にもならない。本来見るはずのなかった空間を、その場で即興で埋めてしまうのです。

これは本当に面白い。

従来のゲームでは、マップ外は空白です。プログラマが書いていない場所だからです。

でもワールドモデルには、境界という概念がありません。

とはいえ、本質はゲームそのものではありません。

さっきの操作感を振り返ると、従来のゲーム理論で考えれば、話はかなり単純に見えます。

でも忘れてはいけないのは、これはAI生成された世界だということです。

ハードコードされた物理ルールも、あらかじめ用意されたマップテクスチャもない。あなたが目にするすべてのフレーム、そして本来見るはずのない範囲外の場面までも、モデルがリアルタイムで計算しています。

『GoldenEye』を検証用ベンチマークに選んだのも、とても賢い選択です。

混沌とした画面分割型のゲームは、同期ずれや破綻がすぐに露呈するからです。

マルチプレイヤーFPSでは、全員が同じ世界を見ていることを保証しなければならず、この継続的にシミュレートされる環境は、常に一貫性を保たなければなりません。

さらに重要なのは、ゲーム世界がリアルタイムで相互作用するため、すぐに制御不能になりやすいことです。

複雑さと遊びやすさのバランスを取るのは、ものすごく難しい。

では、これを作ったのは誰なのでしょうか。

Odyssey、一般的なワールドモデルに全力投球

このゲームの開発元は2023年に設立されたOdysseyです。

そう、古代ギリシャ叙事詩の英雄に由来する名前です。

この名前は、会社全体の雰囲気にかなり合っています。ビジュアルデザインを見るだけでも分かります。

一般的なワールドモデルに特化したAIラボで、製品はほぼすべてワールドモデルです。

創業者の経歴も興味深く、Oliver CameronとJeff Hawkeの2人で、どちらも自動運転出身です。

2024年7月には、初めて資本市場に登場し、GV主導で900万ドルのシード調達を実施しました。

その数か月後にはさらに1800万ドルのシリーズAを完了し、累計調達額は2700万ドルに達しました。

もともとはゲームが本業だったわけではありません。当時はAI動画がトレンドでしたが、今はアクティブなインタラクションへと物語が移りつつあります。

Agora-1は彼らの最新成果です。

最大の特徴は、マルチプレイヤーであること。

これまでのワールドモデルは、どれだけすごくても、そこに入れるのは1人だけでした。

AI生成世界の中を一人で歩き回り、景色を眺め、探索することはできても、どれだけ精細でも、結局はシングルプレイ体験でしかなかったのです。

Agora-1では、最大4人が同じ生成世界の中で、リアルタイムに相互作用できます。

（とはいえ、あまり親切ではありませんが。）

では、なぜマルチプレイヤーはそんなに難しいのでしょうか。

これは実はかなり面白く、掘り下げる価値があります。

誰も試していないわけではありません。

関連する先行例としては、MultiverseとSolarisがあります。

Multiverseはかなり直感的なアプローチで、全プレイヤーの状態を画面分割画像としてつなぎ合わせ、それを1枚の画像として処理します。

動きはしますが、粗い方法で、根本的な解決にはなっていません。

一方のSolarisは、各参加者を単一の自己回帰拡散Transformerの系列次元に連結し、より堅牢な共有シミュレーションを作ります。

ただし問題も明らかで、人数が増えるとコンテキストが膨らみ、スケーラビリティが悪化します。

そして、どちらにも共通する厄介な点があります。

プレイヤー同士の視界が外れた瞬間、一貫性の維持が非常に難しくなる。

平たく言えば、モデルの脳の容量が足りなくなるのです。

負荷を下げるために、Agora-1は別の道を探っています。

シミュレーションとレンダリングの分離です。

Agora-1は2つの異なる機能を学習します。

1. シミュレーション。

世界の状態が時間とともにどう変化し、プレイヤーの操作にどう反応するかを学びます。

そのために、チームは1つまたは複数のゲームの内部状態を直接使ってモデルを学習させます。

Agora-1では、そのゲームがGoldenEyeです。モデルは、その根底にあるゲームダイナミクスと、プレイヤーの行動がどう状態遷移を引き起こすかを学習します。

2. レンダリング。

こちらでは、Agora-1がその共有状態をどのように視覚出力へ変換するかを学びます。

これはDiTベースのワールドモデルで行われ、プロンプトや画像、その他の従来型条件付け信号ではなく、共有されたゲーム状態そのものを条件にします。

大ざっぱに言えば、この分離は現代のゲームエンジンの構造に似ています。

違うのは、どちらの構成要素も手書きのゲームロジックやレンダリングルールに頼らず、モデル自身が学習している点です。

その結果、基盤となるゲーム状態を直接操作できるようになります。

つまり、Agora-1は元のゲームと同じゲームダイナミクスを保ったまま、新しいレベルを生成できるのです。

これが、マルチプレイヤーの一貫性を保つ秘訣です。

ちなみに、Agora-1が公開される前日には、別のものも発表されていました。

しかも、そちらのほうが個人的にはさらに衝撃的でした。

Starchild-1といい、彼らはこれをリアルタイムのマルチモーダル・ワールドモデルの第一号と位置づけています。

映像と音声をリアルタイムで生成し、しかもインタラクティブです。

ピアノを弾かせることもでき、鍵盤が下がると同時に音も出ます。

AIによる再構成で、結婚式のような温かい記憶をよみがえらせることもできます。

想像の余地がものすごく広がります。

AIGCのコンテンツは、記憶の隙間――どう頑張っても思い出せない断片――を埋めるために使えるのかもしれません。

現実って、本当に大事？

急に、少しぼうっとしました。

これらの製品がまだ初期段階だということは分かっています。グラフィックはぼやけ、操作性は悪く、遅延も高く、体験としては決して良くない。GPT-Image-2のように、一般の人に即座に強烈な驚きを与えられる段階には、まだ全然達していません。

でもAgora-1を遊んでいると、ある瞬間に本当に意識が飛びそうになりました。

キャラクターを狙って撃つ。相手が倒れる。

それが人間なのかAIなのか、分からない。

自分が見ている世界が、どうやって描画されているのかも分からない。

相手が見ている世界が、自分と同じものなのかすら分からない。

そのとき、ふとこう思いました。

自分が見ているものはすべて、モデルによって計算されている。

その感覚はとても奇妙です。

最近のGPTアップデート以降、みんなAI生成の偽チャット履歴を心配して、写真証拠の時代が終わるのではと騒いでいます。

でも正直、画像はまだ何とかなると思うんです。結局、静止画ですから。

ワールドモデルは違います。

それは、連続的に動き続ける、複数人で共有される、リアルタイムに変化する環境をシミュレートします。

彼らがシミュレートしているのは、時間と主観的体験

Beat Fei-Fei Li：ワールドモデルは今やマルチプレイヤーFPSプレイをサポートする

Odyssey、一般的なワールドモデルに全力投球

現実って、本当に大事？