いわゆる「本物」って……本当に重要なの?
Jay 発自 凹非寺
量子位 | 公众号 QbitAI
AI に殺された?
動画で証拠もある。人間か AI かも分からない何かに、一発でやられた。
しかも、世界モデルが創り出した世界の中で。
そう、あの画質がひどくてモザイクみたいな Web 版 FPS だ。
裏にはゲームエンジンも、物理法則も、レンダリングコードも一切ない。
見えているものはすべて、Agora-1 という世界モデルがリアルタイムで生成している。
人間と AI が、同じ場でぶつかり合う。

まずは、この公式の製品発表動画を見てみよう。
何度も見たけれど、なんとも不思議な感覚だった。
これまで見てきた demo とはまったく違う。かなり独特な美学を持つ会社で、発表動画の撮り方がまるで 『ブラック・ミラー』 みたいだ。
しかも、あの「偽物っぽさ」が本当に強い。動画に出てくる人間すら AI 生成なんじゃないかと、ずっと疑ってしまう。
どうにも集中できなかったので、codex に逐語起こししてもらった。要するに、こういうことだ――
彼らは世界モデル駆動のマルチプレイヤーゲームを作った。最大 4 人まで、人間と AI が混ざったまま、同じ AI 生成世界の中で戦う。
正直、ここまで聞いてちょっと手がうずいた。
余計なことはいいから、早くこのゲームを見せてくれ。
と思って投稿をよく見たら、ちゃんとゲームリンクがあった。
チームはコメント欄でさらにこう付け足している。
あの雑魚どもを叩きのめせ!

よし。
もう何も言うことはない。
ついに人生の夢がかなった。
勤務時間中に、こうして机で堂々と、赤裸々にゲームをする(bushi)。
開いた最初の瞬間に、動画を見たときの直感は正しかったと分かった。
これは普通じゃない。

悪口じゃない。ブラウザを開いたその瞬間、BGM からしておかしい。
今でもあの旋律が頭の中でループしている……
UI もとにかく変だ。ダークトーンで低彩度……いつでも『ブラック・ミラー』を見ているような錯覚がある。
細かいところまで世界観がそろっている。
マウスをボタンに乗せると、模擬音が鳴る。
昔のラジオみたいな音質で、サラサラしたノイズが混じる。ホラーゲームみたいだ。
さて、前置きはこのくらいにして、いよいよ始めよう。
ゲーム開始前に、まず名前を選ばされる。
私は自分のペンネームを選んで、そのまま待機室へ入った。

3人足りない。早く来て、早く早く。
ps:あとで分かったのだが、別に必ず 4 人そろえる必要はなく、長く待てば 2 人でもそのまま始められる。
ここは少し不思議だった。AI プレイヤーがいるんじゃないの? 足りないなら AI を入れればいいのに?
よく分からない。

そうそう、このゲームのルール自体は実はかなりシンプルだ。背景を少し補足すれば、すぐ理解できる。
元ネタは 『GoldenEye 007』 だ。
これは任天堂 N64 の 1997 年の名作で、007 映画『ゴールデンアイ』を原作にしたタイトル。家庭用 FPS のマルチプレイ対戦の原点のひとつと見なされている。
ルールは極めて単純。何人かで画面分割対戦をして、拳銃、サブマシンガン、ロケットランチャー、ゴールドガンなどを使い、相手を倒せば勝ち。
純粋な殺し合い、Deathmatch だ。ストーリーも、ミッションもない。ただ追いかけて殴り合うだけ。
Agora の今回のゲーム設計は、基本的にこれを踏襲している。
さあ、ゲーム開始だ。
中に入ると、バックルーム風のステージが広がっていた。こんな感じ。

さらに不気味なのがプレイヤーだ……視界の中にときどき別のキャラクターがちらっと映るのだが、足音もなく、まるでスケートみたいに滑っていく。
本当に、このキャラクターの動きはあり得ない。みんな見た目からして偽物っぽい。どれが AI でどれが人間か、本気で見分けがつかなかった。
それに、これは文句を言いたい。操作感が本当に最悪!!
マウスで視点移動ができず、わざわざ左右キーを使わなければならない。
しかも遅延がひどく、後ろに引っ張られる感じもあって、動きが氷の上のドリフトみたいになる。
何を考えているのか分からない。
しかも、狙えない!
全然止まらないので、カーソルを敵にぴたりと合わせることができない。
そして、私は死んだ。
一発も当てられなかった……
向こうは絶対 AI だろ、なんでそっちはそんなに正確に当てられるんだよ!!
むかつく!!笑うな!!私のせいじゃない!!
この死亡画面もかなりしんどい。血のような濃い赤一色だ。

最後には戦績が表示される。
いやでも、悪くない。下手同士の殴り合いって感じではある。
(まあ、相手が bot だっただけかもしれないけど……)

対戦そのもの以外にも、このゲームには面白い仕掛けがいくつか隠れている。
たとえば information ボタンを押すと、Odyssey の会社紹介を見ることができる。

それから、プレイヤーによると、ゲーム内のレンガにバグでめり込んで中に入れるらしい。
その後、世界モデルが空白部分を自動で補完してくれる。
クラッシュもしないし、黒画面にもならない。本来見るはずのなかった空間を、その場で即興生成してしまうのだ。

これは面白すぎる。
従来のゲームでは、マップの外側は虚無だ。プログラマーが書いていない領域にすぎない。
でも世界モデルには、境界という発想がない。
ただし、本当に重要なのはゲームそのものではない。
さっきの操作を思い返すと、従来のゲームの感覚では「ただのシンプルな仕組み」に見える。
でも忘れてはいけない。これは AI が生成した世界なのだ。
ハードコードされた物理法則も、事前に用意された地形テクスチャもない。見えているすべてのフレーム、そして本来見えるはずのない越境映像までも、モデルがリアルタイムで計算している。
『GoldenEye』を試験場に選んだのも、かなり筋肉質なデモだ。
混沌とした画面分割型のゲームは、同期ズレや不連続性がすぐに露呈するから難しい。
マルチプレイヤー FPS を成立させるには、全員が同じ世界を見ていなければならない。継続的にシミュレーションされる環境が、常に整合している必要がある。
さらに重要なのは、ゲーム空間がリアルタイムで相互作用するため、簡単に制御不能になることだ。
複雑さと遊びやすさのバランスを取るのは、ものすごく難しい。
では、いったい誰が作ったのか?
Odyssey、全力で汎用世界モデルに集中する
このゲームを作った会社は 2023 年創業の Odyssey だ。
そう、古代ギリシャ叙事詩のあの英雄オデュッセウスに由来する “Odyssey”。
この名前は会社全体の雰囲気にもよく合っている。ビジュアルデザインなどを見れば、すぐ分かるはずだ。

汎用世界モデルに特化した AI ラボで、ほぼすべての製品が世界モデルだ。
創業者の経歴も面白い。Oliver Cameron と Jeff Hawke の 2 人で、どちらも自動運転出身だ。

2024 年 7 月、彼らは資本市場に初登場し、GV をリード投資家として 900 万ドルのシード資金を調達した。
その数カ月後、Odyssey はさらに 1800 万ドルのシリーズ A を完了し、累計調達額は 2700 万ドルになった。
ただし、当初の事業はゲームとは無関係で、その頃は AI 動画が流行っていたこともあり、そちらをやっていた。だが今は、物語の軸が能動的なインタラクションへと移りつつある。
Agora-1 はその最新成果だ。
最大の特徴は――
マルチプレイヤー。
従来の世界モデルは、どれだけ美しく作られていても、中にいるのは 1 人だけだった。
AI が生成した世界をひとりでぶらぶら歩き、景色を眺め、探索する。どれだけ映像がきれいでも、結局はシングルプレイ体験にとどまる。
ところが Agora-1 では、最大 4 人のプレイヤーを同じ生成世界に入れ、リアルタイムで相互作用させられる。
(とはいえ、そんなに優しくはないけれど)
では、マルチプレイはなぜそんなに難しいのか。
ここはかなり面白いので、少し掘り下げてみよう。
先に試した例がないわけではない。
参照できるものとしては Multiverse と Solaris の 2 つがある。
Multiverse の考え方は比較的直感的で、すべてのプレイヤー状態をつなぎ合わせて分割画面のような 1 枚の画像にし、それを 1 つの入力として処理する。
動くには動くが、かなり力ずくで、本質的ではない。
一方 Solaris は、各参加者を単一の自己回帰拡散 Transformer の系列次元に沿って連結し、より堅牢な共有シミュレーションを生成する。
ただし問題も明確で、人が増えるとコンテキストが破綻し、スケーラビリティがかなり悪い。
さらに、この 2 つには共通の痛点がある。
プレイヤー同士が視界から離れたとき、一貫性を安定して保つのが難しい。
要するに、脳の容量が足りなくなるのだ。
負荷を減らすために、Agora-1 が模索したのは別の路線だった――
シミュレーションとレンダリングを分離することだ。

Agora-1 は、2 つの異なる関数を学習している。
1、シミュレーション。
世界状態が時間とともにどう変化するか、そしてその変化がプレイヤーの操作にどう応答するかを学習する。
そのために、チームは 1 つ以上のゲームの内部状態を直接使ってモデルを訓練した。
Agora-1 では、そのゲームが GoldenEye だ。このモデルは、ゲームの基礎的な動作と、プレイヤーのアクションがどのように状態遷移を引き起こすかを学ぶ。
2、レンダリング。
ここでは、Agora-1 がその共有状態をどう視覚映像として描画するかを学習する。
この段階は、DiT ベースの世界モデルによって実現されている。プロンプトや画像、その他の従来型条件信号には依存せず、共有されたゲーム状態を直接条件として受け取る。
この分離は、大まかに言えば現代のゲームエンジンの構造として理解できる。
違うのは、その両方のコンポーネントをモデル自身が学習している点だ。手書きのゲームロジックやレンダリング規則には依存していない。
その結果、底層のゲーム状態を直接操作できるようになる。
つまり、Agora-1 は元のゲームと同じゲームダイナミクスを保ったまま、新しいレベルを生成できるのだ。
これが、マルチプレイヤーの一貫性を保つ秘訣である。

そういえば、Agora-1 の発表の前日には、別のものも公開されていた。
しかも率直に言って、こちらのほうがより強く心を揺さぶられた。
Starchild-1 という名前で、彼らは「初のリアルタイム・マルチモーダル世界モデル」と称している。

視覚と聴覚を同時に、リアルタイムで生成し、しかも相互作用できる。
ピアノを弾かせることもできて、鍵盤が下がるのと同時に音が出る。
あるいは、AI によって再構成された形で、もう一度あたたかい記憶をたどることもできる。たとえば――
結婚式。
これは想像がふくらむ。
AIGC コンテンツは、もしかしたら、どうしても思い出せない記憶の空白を埋めるための素材として使えるのかもしれない。
本物は、重要なのか?
なんだか急にぼんやりしてきた。
これらの製品がまだ初期段階だということは分かっている。画質は粗く、操作感は悪く、遅延も大きい。体験として素晴らしいとは到底言えない。普通の人が直感的に衝撃を受けるような、GPT-Image-2 の段階にはまだ遠い。
それでも Agora-1 を遊んでいたとき、ある瞬間だけは本当にふっと意識が遠のいた。
あるキャラクターに照準を合わせて撃ったら、相手が倒れた。
それが人間なのか AI なのか、私には分からなかった。
自分が見ている世界が、どうやってレンダリングされているのかも分からない。
ましてや、相手が見ている世界と自分が見ている世界が同じものなのかどうかすら、分からない。
そのとき、ふと思い出した。
自分が見ているものはすべて、モデルが計算した結果なのだ。
この感覚は、かなり奇妙だ。
最近の GPT の更新では、みんな AI が偽のチャット履歴を作ることを心配していて、画像が証拠として通用する時代は終わったのではないか、という話も出ている。
でも今は、画像はまだマシだと本気で思う。なにしろ静止画にすぎないから。
世界モデルは違う。
それは、継続的に動き続ける、複数人で共有される、リアルタイムに進化する環境をシミュレーションしている。
時間そのものと、主観的体験そのものをシミュレーションしているのだ。
正直なところ、今年に入ってから世界モデルが進化し続けるのを見ていると、ぼやけた映像から鮮明な映像へ、ひとりから複数人へ、映像だけの世界から音や触覚、全感覚へ――と変わってきていて、時々ぞっとするほど鳥肌が立つ。
今自分がいるこの世界が、もっと上位の世界モデルによって生成されたものではないと、どうして断言できるのだろう?
1997 年、若者たちは N64 の小さな画面の中で分割対戦しながら追いかけっこをして、それを最高にクールだと思っていた。
2026 年、AI は自分で世界を生成することを覚え、その創造主は私をその中に「おびき寄せた」。
今の AI の進化速度を考えれば、2035 年にはいったい何が起きているのだろう?

いわゆる本物って……
本当に重要なのだろうか?
ゲームリンク:
参考リンク: