Zhixiang Futureが2000億超パラメータの画像基盤モデル「HiDream-O1-Image-Pro」を公開、資金調達加速の中でリリース
世界モデルへ向かって。
5月19日、北京でZhixiang Futureは「Imaging the World」をテーマに初のOpen Dayを開催した。この場で同社は、次世代のネイティブ・オムニモーダルモデルアーキテクチャ「Unified Transformer(UiT)」を基盤とする画像基盤モデル「HiDream-O1-Image-Pro」を正式に発表した。2000億超のパラメータを持つこのネイティブ・オムニモーダル画像基盤モデルは、複数のベンチマークで新たなSOTA記録を樹立しただけでなく、Zhixiang Futureが画像・動画・テキスト・音声などのモダリティを統合的に扱う「ネイティブ・オムニモーダル」段階へと進んだことを示している。
同時にZhixiang Futureは、数億元規模の新たな資金調達ラウンドの完了も発表した。出資にはSequoia China、Jinpu Investment、Caixin Capital、Fujubi Capitalなどが参加している。これは同社にとって半月以内に完了した2回目の資金調達となり、ネイティブ・オムニモーダル基盤モデルに対する資本市場の強い期待を改めて示した。ビジュアル生成や身体知能(Embodied Intelligence)などの先端技術が加速的に融合するなか、世界モデルはAI進化の重要な方向性となっている。Zhixiang Futureが基盤モデルのアーキテクチャ、製品化能力、産業エコシステム構築で重ねてきた突破も、さらに市場の評価を高めている。
2000億超パラメータの画像基盤モデル「HiDream-O1-Image-Pro」を公開、ネイティブ・オムニモーダルアーキテクチャを全面刷新
現在、画像生成モデルは従来のU-NetアーキテクチャからDiffusion Transformers(DiT)の時代へ移行しつつある。代表的なlatent diffusion models(LDMs)は、VAEで画像を圧縮し、独立した言語モデルでテキストをエンコードする方式により、効率と生成品質の両面で大きな進歩を遂げた。しかし、画像とテキストを別々にエンコードする構造は、複雑な意味理解、高忠実度なディテール復元、精密な文字描画、マルチタスク汎化といった面で、構造的なボトルネックも生んでいる。
この課題に対応するため、Zhixiang Futureはネイティブ・オムニモーダルアーキテクチャに基づく、2000億超パラメータのクローズドソース画像基盤モデル「HiDream-O1-Image-Pro」を正式公開した。従来のような断片的な複数モジュールの寄せ集め型エンコードとは異なり、HiDream-O1-Image-Proは生の画像ピクセル、離散的なテキストトークン、タスク条件を統一された連続的な共有トークン空間に取り込み、表現レベルで画像・テキスト・マルチタスク条件を深く融合する。このアーキテクチャ上の突破により、モデルの生成能力と汎化能力はさらに引き出され、一般的なテキストから画像生成、高忠実度の文字描画、多様なシーン生成、画像編集の各分野で新たなSOTA性能を達成した。これは、Zhixiang Futureがネイティブ・オムニモーダル基盤モデルアーキテクチャの先端を切り開いていることを示している。
Zhixiang Futureの創業者兼CEOである梅涛氏は、同社がネイティブ・オムニモーダル路線を選んだのは、ビジュアル生成と物理世界の統合に対するチームの長期的な判断に基づくものだと述べた。「今あるいわゆる『マルチモーダル基盤モデル』の多くは、本質的にはまだ『単一モダリティの寄せ集め』にすぎません。これに対し、ネイティブ・マルチモダリティとは、モデルの最初から『世界のルール』を組み込むことです。つまり、物理法則、空間関係、因果関係を理解しており、単に『コンテンツを生成する』のではなく、本当に世界を理解し、推論し、再構成できるのです。だからこそ、私たちはネイティブ・オムニモダリティこそAGIへの必然的な道だと考えています。」
Zhixiang Futureの共同創業者兼CTOである姚婷氏は、つい最近、ネイティブ・オムニモーダルアーキテクチャに基づく「HiDream-O1-Image」が、オープンソース版8Bモデルで著名な独立評価プラットフォームArtificial Analysisのグローバルオープンソースランキングで首位を獲得したと紹介した。Z-Image Turbo、Qwen-Image、FLUX.2 [dev] などの主流オープンソースモデルを上回り、ランキング上位20モデルの中で公開パラメータ数が最も少ないモデルとなった。今回新たに公開された「HiDream-O1-Image-Pro」はクローズドソース版で、2000億超のパラメータを持つ。複雑な文字描画、指示ベースの編集、複数対象のパーソナライズといったタスクで新たなSOTA結果を打ち立て、アーキテクチャの高いスケーラビリティを十分に実証した。
姚婷氏は次のように述べた。「ネイティブ・オムニモーダル(UiT)アーキテクチャでは、すべてのモダリティが最初から一緒に成長します。その利点は、すべてのモダリティがつながることで、モデルが本当にAny to Anyを実現し、あらゆる入力とあらゆる出力を支えられるようになることです。まさにそれこそが世界モデルに必要な能力であり、統一されたアーキテクチャの中で現実世界のさまざまな状態を理解し、生成し、予測することなのです。」
ビジュアル生成から世界モデルへ:AGIへの鍵となる道筋を業界が議論
現在、基盤モデルの競争は、言語理解やコンテンツ生成から、現実の物理世界を理解し、生成し、予測する方向へと移りつつある。世界モデルをめぐって業界では多様な技術アプローチが登場しているが、共通する目標は同じだ。AIに単なるコンテンツ生成以上の役割を担わせ、世界の状態とその変化を支配する法則を内部表現として構築することにある。
Open Dayのラウンドテーブルでは、Orient Fusion Capitalのパートナー王冰氏、Microsoft Research Asiaの主席研究員傅建龍氏、Alibaba Cloudのシニアソリューションディレクター寧江斌氏、Zhixiang Futureのテクノロジーパートナー潘英偉氏、AI Nao創業者の洪虎氏が、「マルチモダリティからオムニモダリティへ:世界モデルを構築し、AGIへ向かう」と題して議論を行った。AI投資、身体知能、AIインフラ、ネイティブ・オムニモーダル技術の実践という観点から、登壇者たちは世界モデルの発展経路について見解を共有した。
参加者らは、AIは「コンテンツを生成する」段階から「世界を理解する」段階へ移行しているという点で一致した。ビジュアル生成、エージェント、身体知能、マルチモーダルモデルの融合は、ひとつの重要な能力を示している。すなわち、モデルが異なるモダリティをまたいで環境状態を理解し、その変化を予測し、統一されたクロスモーダル表現を形成できるかどうか、ということだ。
したがって、ビジュアル生成は単なるコンテンツ制作ツールではない。空間構造、物体間の関係、運動軌跡、状態変化を学習する必要があり、同時に世界モデルへと発展する土台も備えている。ネイティブ・オムニモーダルアーキテクチャの価値は、まさに画像・動画・テキスト・音声、さらには行動や身体データに対して統一的なモデリング枠組みを提供し、モデルを単一モダリティの能力から、より完全な世界モデリング能力へと導く点にある。
半月で複数回の資金調達を完了、3つの主要エージェント製品が商業エコシステムを拡大し続ける
つい最近、Zhixiang Futureは5億元超の資金調達完了を発表した。出資者には安徽省投資運営、合肥投資運営、Orient Fusion Capitalなどの一流投資機関が含まれている。Open Dayでは、資金調達がさらに加速しており、半月以内に新たなラウンドが完了し、Sequoia China、Jinpu Investment、Caixin Capital、Fujubi Capitalが参加したことが明らかにされた。
公開情報によると、Jinpu Investmentは上海金融発展投資基金の運営会社である。同基金の第1期では、保有先13社がIPOまたはM&Aを通じて上場した。同社は、計算基盤、基盤モデル、エージェント応用など複数の先端AI分野に深く投資している。Caixin Capitalは、常徳市傘下の国有企業であるCaixin Groupの中核産業投資プラットフォームで、資本を通じて実体経済を支え、技術革新を推進することに取り組んでいる。AIや身体知能など、産業化の見通しが明確なハードテック分野への投資を重視している。Fujubi Investmentは、先端ニッチ分野のリーディング企業における価値発掘に注力し、スマート製造、新エネルギー、新素材、バイオ医薬、人工知能などの戦略的新興産業に幅広く投資している。Sequoia China、Jinpu Investment、Caixin Capital、Fujubi Capitalといった新規投資家の参入により、Zhixiang Futureは安徽、上海、湖南、杭州の産業ファンドからの継続支援に加え、Sequoia China、Orient Fusion Capital、Fenghua Capital、Dunhong Capitalなどの有力な市場志向VCの参加も得た、多様な資本基盤を形成した。
資金調達のペースが加速するなか、Zhixiang Futureは「モデル+エージェント」の二輪駆動戦略を打ち出し、モデルを基盤、エージェントアプリケーションを商業化の牽引役として、明確な「1+1+3」の事業構造を築いている。基盤層は1つのHiDreamシリーズ基盤モデル、中間層は1つの能力プラットフォーム(HiHarness企業向けサービスプラットフォーム)、上位層のエージェントアプリケーションは商業マーケティング、映画・テレビ制作、ソーシャルメディア制作の3つの主要シーンをカバーする。
Open Dayでは、Zhixiang Futureの3人の製品責任者がエージェントアプリケーション製品の進展を紹介し、同社の「実戦投入可能」な商業化能力を余すところなく示した。商業マーケティングエージェント「HiBurst」は、越境ECコンテンツマーケティング、メディア運用、アプリのグローバル展開などの場面をカバーし、TikTok、Meta、Douyin、小紅書といった主要プラットフォームに対応している。すでにTikTok公式Top 5サービスプロバイダーとなっており、年間100万本超のECマーケティング動画を制作し、GMVは1億元超に達している。世界初のプロ向けAI映画・テレビ制作コラボレーションエージェント「Frame Praise」は、映画レベルの画像生成品質と「アイデアから絵コンテ、そして最終カットまで」というエンドツーエンドのワークフローにより、高品質と高効率を両立する制作ツールを映像制作チームに提供している。これまでに同プラットフォームは5000分超のショート漫画ドラマを制作し、1000以上のプロチームとエコシステムパートナーが参加している。ソーシャルメディア制作エージェント「vivago」は最近プロダクトアップグレードを完了し、分単位のストーリービデオ生成における安定したエンドツーエンドの長思考能力により、すぐさまProduct Huntの日次ランキング1位に躍り出た。現在、vivagoは100以上の国・地域で、4000万人超のプロユーザーおよび個人ユーザーにサービスを提供している。
イベントでは、Zhixiang Futureは上海映画集団の上海映画新視界基金、中国最大のマーケティングコミュニケーション企業であるBlueFocus、AI映画・テレビ分野のリーダー企業である北京捷成世紀、そして越境医療サービスの有力企業であるBei’er Healthと戦略的提携を発表した。各社は、基盤モデル能力の統合、エージェントアプリケーションの開発、業界シーンの共同開発などで協力し、映画・テレビ制作、商業マーケティング、越境EC、IP運営、ヘルスケアなどの分野におけるネイティブ・オムニモーダル基盤モデルの産業実装を共同で推進していく。
ビジュアル生成から世界の構築へ
HiDream-O1-Image-Proの公開から、3つの主要エージェント製品の展開、そして業界パートナーとのエコシステム連携まで、Zhixiang Futureは明確な道筋を描きつつある。ネイティブ・オムニモーダルアーキテクチャを基盤に、