Whatが「本物」なのか……そんなこと、そもそも重要なのか?
凹非寺のJay
量子位 | WeChat公式アカウント QbitAI
AIにやられた?
証拠動画があります。人間かAIか見分けがつかなかった相手に、一発でやられました。
しかも、それはワールドモデルが生成した世界で起きたんです。
そう、グラフィックがモザイク状にぼやけた、ブラウザベースのFPSです。
背後にゲームエンジンはなく、物理演算ルールもなく、レンダリングコードもない。
目に見えるものはすべて、Agora-1というワールドモデルがリアルタイムで生成しています。
人間とAIが、同じ中で戦っている。

まずは公式の製品発表動画を見てみましょう。
何度も見返したのですが、すごく不思議な感覚でした。
これまで見たどんなデモとも違う。かなり独特な美学を持つ会社で、発表動画はまるでBlack Mirrorの世界からそのまま撮ってきたようです。
不気味の谷の感じがとにかく強い。動画の中の人までAI生成なのでは、と何度も思いました。
とにかく集中できなかったので、codexに文字起こししてもらいました。ざっくり言うと、こういう内容です。
彼らはワールドモデル駆動のマルチプレイヤーゲームを作り、最大4人が、人間とAIが混在したまま、同じAI生成世界の中で戦えるようにした。
正直、この時点でかなり試してみたくなっていました。
もういいから、早くこのゲームが何なのか見せてくれ。
そこで投稿をよく見てみると、案の定ゲームリンクがありました。
しかもチームはコメント欄でこんな一言まで。
初心者をボコボコにしてやれ!

よろしい。
他に何も言うことはない。
長年の夢が、ついに実現しました。
勤務時間中に、堂々と、しかも遠慮なく席でゲームができる(bushi)。
最初の一瞬で、動画を見たときの直感が正しかったと分かりました。
これは普通じゃない。

けなしているわけではありません。ページを開いた瞬間、BGMがもう変なんです。
今でもあのメロディが頭の中でループしています……
UIも変です。暗くて、低彩度で……ずっとBlack Mirrorっぽい空気が漂っています。
細部もかなり作り込まれていました。
ボタンにカーソルを合わせると、擬似的な効果音が鳴る。
あの古いラジオみたいな質感。ザラザラしていて、ホラーゲームっぽいです。
さて、気を取り直して始めましょう。
ゲーム開始前に、名前を決める必要があります。
私はペンネームを入れて、待機室に入りました。

フルメンバーまであと3人。早く来て、早く来て。
追記:あとで分かったのですが、実は4人ちょうどでなくてもよく、十分待てば2人でも始められるようです。
ちょっと変ですよね。AIプレイヤーがいるって話では? 人数が揃わないなら、AIが埋めればいいのでは?
さっぱり分かりません。

ところで、このゲームのルールは実はとてもシンプルです。背景が分かるように少し説明しましょう。
これはGoldenEye 007へのオマージュです。
1997年のNintendo 64向け名作で、ジェームズ・ボンド映画『GoldenEye』を原作にしており、コンソールFPSのマルチプレイの出発点の一つとして広く知られています。
ルールは極めて単純。数人で画面分割し、ピストル、SMG、ロケットランチャー、ゴールデンガンで撃ち合う。要するに、他のプレイヤーを倒せばいいだけ。
純粋なデスマッチです。ストーリーも目的もなく、ひたすら追いかけて撃つだけ。
Agoraのゲームは、まさにその形式を踏襲しています。
さて、ゲーム開始です。
中に入ると、場面はこんな感じのBackrooms風。

さらに不気味なのがプレイヤーです……他のキャラクターが時々ちらっと現れるのですが、足音もなく、氷の上を滑るように移動します。
本当に、キャラクターの動きがありえない。みんなかなり不気味です。どれがAIでどれが本物のプレイヤーなのか、まったく見分けがつきませんでした。
それに、文句を言わせてください。操作性がひどすぎる!!
マウスで視点を動かせず、左右キーで調整しないといけません。
しかもラグに加えて妙な遅延まであって、動くと氷の上を滑っているみたいです。
誰がこんなのを良いと思ったんでしょう?
しかもエイムが無理!
止まりたいタイミングでまったく止まれず、カーソルが敵に乗ってくれません。
そして、やられました。
一発も当てられなかった……
相手は絶対AIでしょう。なんであんなにエイムがいいんだよ!
むかつく!!笑うな!!私のせいじゃない!!
死亡画面までイラつくデザインで、深い血の赤です。

最後には成績が表示されます。
まあ、悪くないです。要するに、初心者同士が殴り合っている感じ。
(あるいは、相手がボットだっただけかもしれませんが……)

試合そのもの以外にも、かなり面白い仕掛けが隠されています。
たとえば、情報ボタンを押すと、Odysseyの会社紹介を見ることができます。

それから、プレイヤーの話によると、ゲーム内のレンガブロックにバグで入り込めるそうです。
すると、その欠けた部分をワールドモデルが自動で補完します。
クラッシュしない。真っ黒にもならない。本来見るはずのなかった空間を、その場で即興で埋めてしまうのです。

これは本当に面白い。
従来のゲームでは、マップ外は空白です。プログラマが書いていない場所だからです。
でもワールドモデルには、境界という概念がありません。
とはいえ、本質はゲームそのものではありません。
さっきの操作感を振り返ると、従来のゲーム理論で考えれば、話はかなり単純に見えます。
でも忘れてはいけないのは、これはAI生成された世界だということです。
ハードコードされた物理ルールも、あらかじめ用意されたマップテクスチャもない。あなたが目にするすべてのフレーム、そして本来見るはずのない範囲外の場面までも、モデルがリアルタイムで計算しています。
『GoldenEye』を検証用ベンチマークに選んだのも、とても賢い選択です。
混沌とした画面分割型のゲームは、同期ずれや破綻がすぐに露呈するからです。
マルチプレイヤーFPSでは、全員が同じ世界を見ていることを保証しなければならず、この継続的にシミュレートされる環境は、常に一貫性を保たなければなりません。
さらに重要なのは、ゲーム世界がリアルタイムで相互作用するため、すぐに制御不能になりやすいことです。
複雑さと遊びやすさのバランスを取るのは、ものすごく難しい。
では、これを作ったのは誰なのでしょうか。
Odyssey、一般的なワールドモデルに全力投球
このゲームの開発元は2023年に設立されたOdysseyです。
そう、古代ギリシャ叙事詩の英雄に由来する名前です。
この名前は、会社全体の雰囲気にかなり合っています。ビジュアルデザインを見るだけでも分かります。

一般的なワールドモデルに特化したAIラボで、製品はほぼすべてワールドモデルです。
創業者の経歴も興味深く、Oliver CameronとJeff Hawkeの2人で、どちらも自動運転出身です。

2024年7月には、初めて資本市場に登場し、GV主導で900万ドルのシード調達を実施しました。
その数か月後にはさらに1800万ドルのシリーズAを完了し、累計調達額は2700万ドルに達しました。
もともとはゲームが本業だったわけではありません。当時はAI動画がトレンドでしたが、今はアクティブなインタラクションへと物語が移りつつあります。
Agora-1は彼らの最新成果です。
最大の特徴は、マルチプレイヤーであること。
これまでのワールドモデルは、どれだけすごくても、そこに入れるのは1人だけでした。
AI生成世界の中を一人で歩き回り、景色を眺め、探索することはできても、どれだけ精細でも、結局はシングルプレイ体験でしかなかったのです。
Agora-1では、最大4人が同じ生成世界の中で、リアルタイムに相互作用できます。
(とはいえ、あまり親切ではありませんが。)
では、なぜマルチプレイヤーはそんなに難しいのでしょうか。
これは実はかなり面白く、掘り下げる価値があります。
誰も試していないわけではありません。
関連する先行例としては、MultiverseとSolarisがあります。
Multiverseはかなり直感的なアプローチで、全プレイヤーの状態を画面分割画像としてつなぎ合わせ、それを1枚の画像として処理します。
動きはしますが、粗い方法で、根本的な解決にはなっていません。
一方のSolarisは、各参加者を単一の自己回帰拡散Transformerの系列次元に連結し、より堅牢な共有シミュレーションを作ります。
ただし問題も明らかで、人数が増えるとコンテキストが膨らみ、スケーラビリティが悪化します。
そして、どちらにも共通する厄介な点があります。
プレイヤー同士の視界が外れた瞬間、一貫性の維持が非常に難しくなる。
平たく言えば、モデルの脳の容量が足りなくなるのです。
負荷を下げるために、Agora-1は別の道を探っています。
シミュレーションとレンダリングの分離です。

Agora-1は2つの異なる機能を学習します。
1. シミュレーション。
世界の状態が時間とともにどう変化し、プレイヤーの操作にどう反応するかを学びます。
そのために、チームは1つまたは複数のゲームの内部状態を直接使ってモデルを学習させます。
Agora-1では、そのゲームがGoldenEyeです。モデルは、その根底にあるゲームダイナミクスと、プレイヤーの行動がどう状態遷移を引き起こすかを学習します。
2. レンダリング。
こちらでは、Agora-1がその共有状態をどのように視覚出力へ変換するかを学びます。
これはDiTベースのワールドモデルで行われ、プロンプトや画像、その他の従来型条件付け信号ではなく、共有されたゲーム状態そのものを条件にします。
大ざっぱに言えば、この分離は現代のゲームエンジンの構造に似ています。
違うのは、どちらの構成要素も手書きのゲームロジックやレンダリングルールに頼らず、モデル自身が学習している点です。
その結果、基盤となるゲーム状態を直接操作できるようになります。
つまり、Agora-1は元のゲームと同じゲームダイナミクスを保ったまま、新しいレベルを生成できるのです。
これが、マルチプレイヤーの一貫性を保つ秘訣です。

ちなみに、Agora-1が公開される前日には、別のものも発表されていました。
しかも、そちらのほうが個人的にはさらに衝撃的でした。
Starchild-1といい、彼らはこれをリアルタイムのマルチモーダル・ワールドモデルの第一号と位置づけています。

映像と音声をリアルタイムで生成し、しかもインタラクティブです。
ピアノを弾かせることもでき、鍵盤が下がると同時に音も出ます。
AIによる再構成で、結婚式のような温かい記憶をよみがえらせることもできます。
想像の余地がものすごく広がります。
AIGCのコンテンツは、記憶の隙間――どう頑張っても思い出せない断片――を埋めるために使えるのかもしれません。
現実って、本当に大事?
急に、少しぼうっとしました。
これらの製品がまだ初期段階だということは分かっています。グラフィックはぼやけ、操作性は悪く、遅延も高く、体験としては決して良くない。GPT-Image-2のように、一般の人に即座に強烈な驚きを与えられる段階には、まだ全然達していません。
でもAgora-1を遊んでいると、ある瞬間に本当に意識が飛びそうになりました。
キャラクターを狙って撃つ。相手が倒れる。
それが人間なのかAIなのか、分からない。
自分が見ている世界が、どうやって描画されているのかも分からない。
相手が見ている世界が、自分と同じものなのかすら分からない。
そのとき、ふとこう思いました。
自分が見ているものはすべて、モデルによって計算されている。
その感覚はとても奇妙です。
最近のGPTアップデート以降、みんなAI生成の偽チャット履歴を心配して、写真証拠の時代が終わるのではと騒いでいます。
でも正直、画像はまだ何とかなると思うんです。結局、静止画ですから。
ワールドモデルは違います。
それは、連続的に動き続ける、複数人で共有される、リアルタイムに変化する環境をシミュレートします。
彼らがシミュレートしているのは、時間と主観的体験