2000億超のパラメータを持つ画像大規模モデル HiDream-O1-Image-Pro を智象未来が発表、資金調達も加速

世界モデルへ向けて前進する。

5月19日、北京。智象未来は初のオープンデーを開催し、テーマは「Imaging the World」だった。オープンデーでは、智象未来が新世代のネイティブ全モーダルモデルアーキテクチャ Unified Transformer（UiT）を基盤に構築した画像大規模モデル HiDream-O1-Image-Pro を正式発表した。この 2000 億超のパラメータを持つネイティブ全モーダル画像大規模モデルは、複数のベンチマークで SOTA 記録を更新しただけでなく、智象未来が画像、動画、テキスト、音声などを統合的にモデリングする「ネイティブ全モーダル」段階へ進んでいることを示している。

同時に、智象未来は新たに数億円規模の資金調達を完了したと発表し、深創投、金浦投資、財鑫資本、復聚資本など複数の機関が参加した。これは智象未来が半月以内に再び資金調達を完了したことを意味し、ネイティブ全モーダル大規模モデルの方向性に対する資本市場の継続的な期待を示している。視覚生成や具現化知能などの先端技術が加速的に融合するなか、世界モデルは AI 進化の重要な方向性となっており、智象未来が基盤モデルアーキテクチャ、プロダクト化能力、産業エコシステムの構築で続けてきた突破も、改めて市場に評価された。

2000億超パラメータの画像大規模モデル HiDream-O1-Image-Pro を発表、ネイティブ全モーダルアーキテクチャを全面刷新

現在、画像生成モデルは従来の U-Net アーキテクチャから拡散 Transformer（DiT）時代へと移行している。潜在拡散モデル（LDM）に代表される主流路線は、VAE によって画像を圧縮し、独立した言語モデルでテキストをエンコードすることで、効率と生成能力の両面で大きく進展してきた。一方で、画像とテキストを分離してエンコードする方式は、複雑な意味理解、高忠実度の細部再現、正確な文字描画、マルチタスク汎化といった面で、モデルに構造的な制約をもたらしていた。

こうした課題に対し、智象未来はネイティブ全モーダルアーキテクチャを基盤とする 2000 億超パラメータのクローズド画像大規模モデル HiDream-O1-Image-Pro を正式に発表した。従来の断片的で複数モジュールをつなぎ合わせるような符号化パラダイムとは異なり、HiDream-O1-Image-Pro は元の画像ピクセル、離散テキストトークン、タスク条件をすべて連続的な共有トークン空間に統一し、画像・テキスト・マルチタスク条件を下層表現で深く融合させている。このアーキテクチャの突破によりモデルの生成能力と汎化能力がさらに引き出され、汎用 text-to-image、高忠実度の文字描画、多様なシーン生成、画像編集などのタスクで新たな SOTA 水準に到達。智象未来がネイティブ全モーダル大規模モデルのアーキテクチャで先進的な探求を進めていることを示している。

智象未来の創業者兼 CEO である梅涛氏は、ネイティブ全モーダル路線を選んだ理由について、視覚生成と物理世界を結びつける過程での長年の判断に基づくものだと述べた。「現在の多くの『マルチモーダル大規模モデル』は、本質的には『単モーダルの寄せ集め』です。しかしネイティブなマルチモーダルは、最初から『世界のルール』をモデルに刻み込むものです。物理法則、空間関係、因果ロジックを理解しているからこそ、本当に世界を理解し、推論し、再構築できる。単に『コンテンツを生成する』だけではありません。だからこそ、ネイティブ全モーダルこそが AGI 実現への必経路だと考えています。」

智象未来の共同創業者兼 CTO の姚霆氏は、先日ネイティブ全モーダルアーキテクチャを採用した HiDream-O1-Image が、8B パラメータのオープンソース版として世界的に有名な独立評価プラットフォーム Artificial Analysis の text-to-image ランキングでオープンソースモデル世界1位を獲得し、Z-Image Turbo、Qwen-Image、FLUX.2 [dev] などの主流オープンソースモデルを上回ったこと、さらに同ランキング上位20位以内で公開パラメータ数が最小のモデルだったことを紹介した。今回発表された HiDream-O1-Image-Pro はクローズド版で、2000 億超パラメータを持ち、複雑なテキスト描画、指示編集、複数主体のパーソナライズなどのタスクで新たな SOTA を全面的に打ち立て、ネイティブ全モーダルアーキテクチャの大きなスケーラビリティを十分に実証した。

姚霆氏は次のように述べた。「ネイティブ全モーダル（UiT）アーキテクチャでは、すべてのモダリティが初期段階から一緒に育った“幼なじみ”のような関係になります。その利点は、すべてのモダリティがつながることで、Any to Any を真に実現できることです。つまり、任意の入力に対して任意の出力を返せる。これこそが世界モデルに必要な能力であり、統一アーキテクチャの中で現実世界のさまざまな状態を理解し、生成し、予測することです。」

視覚生成から世界モデルへ：業界で議論が進む AGI の重要経路

現在、大規模モデル競争の焦点は、言語理解やコンテンツ生成から、現実の物理世界の理解・生成・予測へと移りつつある。世界モデルをめぐっては業界内で複数の技術路線が登場しているが、共通の目標は一致している。AI を単にコンテンツを生成する存在にとどめず、世界の状態とその変化法則に対する内部表現能力を築かせることだ。

オープンデーの円卓フォーラムでは、東方富海のパートナー王兵氏、マイクロソフトアジア研究院主席研究員の傅建龍氏、アリババクラウド上級ソリューションディレクターの寧江彬氏、智象未来のテクノロジーパートナー潘滢炜氏、AI 闹の発起人である洪鵠氏が、「マルチモーダルから全モーダルへ、世界モデルを構築し AGI へ向かう」をテーマに対話を行った。登壇者たちは AI 投資、具現化知能、AI インフラ、ネイティブ全モーダル技術の実践など、それぞれの視点から世界モデルの発展経路について見解を共有した。

参加者たちは、AI が「コンテンツを生成する」段階から「世界を理解する」段階へと移行しつつあると考えている。視覚生成、Agent、具現化知能、マルチモーダルモデルの合流は、いずれも同じ重要能力を示している。それは、モデルが異なるモダリティにおける環境状態を理解し、状態変化を予測し、統一されたクロスモーダル表現を形成できるかどうか、という点だ。

そのため、視覚生成は単なるコンテンツ制作ツールではない。空間構造、物体関係、運動軌跡、状態変化を学ぶ必要が本質的にあり、そこから世界モデルへと発展する基盤も備えている。ネイティブ全モーダルアーキテクチャの価値は、画像、動画、テキスト、音声、さらには動作や具現化データまでを統一的にモデリングする枠組みを提供し、モデルを単一モダリティの能力から、より完全な世界モデリング能力へと進化させる点にある。

半月以内に複数回の資金調達を完了、3大 Agent 製品が商業エコシステムを継続拡大

先日、智象未来は 5 億元超の資金調達完了を発表し、安徽省産投、合肥産投、東方富海などトップクラスの投資機関が参加した。オープンデーでは、智象未来は資金調達がさらに加速していることを明らかにし、半月以内に深創投、金浦投資、財鑫資本、復聚資本などが参加した新たなラウンドを完了した。

公開情報によると、金浦投資は上海金融発展投資基金の運用会社であり、初回ファンドの投資案件のうち 13 社が IPO または M&A により上場を実現している。演算インフラ、大規模モデル、インテリジェントエージェント応用など複数の AI フロンティア領域で深く投資を進めている。財鑫資本は常徳市の国有企業である財鑫グループ傘下の中核産業投資プラットフォームで、資本の力で実体経済を支え、技術革新を推進することを掲げ、人工知能、具現化知能など産業実装の見込みが明確なハードテック領域への投資に注力している。復聚投資は先端の細分領域で先導する企業の価値発見に注力し、スマート製造、新エネルギー、新素材、バイオ医薬、人工知能などの戦略的新興産業に幅広く展開している。深創投、金浦投資、財鑫資本、復聚資本など新たな投資家の参画により、智象未来は安徽、上海、湖南、杭州など各地の産業ファンドが継続的に追随し、深創投、東方富海、峰華資本、敦鴻資本などトップクラスの市場系 VC も加わる多様な資本陣営を形成した。

資金調達のペースが加速するなか、智象未来はモデルを基盤に、インテリジェントエージェント応用を“車輪”として技術の実装と収益化を推進する「モデル＋Agent」の二輪駆動戦略を打ち出し、さらに明快な「1+1+3」事業構造を構築した。下層は 1 つの HiDream シリーズ大規模モデル、中層は 1 つの能力基盤（HiHarness 企業サービスプラットフォーム）、上層の Agent アプリケーションは商業マーケティング、映像制作、ソーシャルメディア制作の 3 つのコアシーンをカバーしている。

オープンデー当日、智象未来の3人のプロダクト責任者がそれぞれ Agent アプリケーション製品の進捗を紹介し、同社の商用化実装における“即戦力”を包括的に示した。商業マーケティング Agent の HiBurst は、越境 EC コンテンツマーケティング、メディア運営、アプリ海外展開などのシーンをカバーし、TikTok、Meta、抖音、小紅書など主要プラットフォームに対応。TikTok 公式 Top 5 サービスプロバイダーにも選ばれ、年間で電商マーケティング動画を 100 万本以上生成し、カバーする GMV はすでに 10 億元超に達している。世界初のプロフェッショナル級 AI 映像制作・共同制作 Agent「帧赞」は、映画級の画質生成と「アイデア-絵コンテ-完成映像」までの全工程をつなぐ中核能力により、専門的な映像制作チームに高品質と高効率を両立する共同制作ツールを提供している。現在までに短尺ドラマ漫画を累計 5000 分以上制作し、プラットフォームに参加する専門チームとエコシステムパートナーは 1000 社を超える。ソーシャルメディア制作 Agent の vivago は最近製品アップグレードを完了し、エンドツーエンドの長思考能力により分単位のストーリー動画を安定的に生成できることから、Product Hunt のデイリーランキングで急速に1位を獲得した。現在、vivago は 100 以上の国・地域で 4000 万人超のプロフェッショナルユーザーおよび個人ユーザーに利用されている。

イベント会場では、智象未来が映像業界のリーディング企業である上海電影集団・上影新視野基金、国内最大のマーケティングコミュニケーショングループであるブルーグラス・コピコー、AI 映像のトップ企業である北京捷成世紀、越境医療サービス分野の先進企業である倍爾健康との戦略提携を発表した。各社は大規模モデル機能の呼び出し、Agent アプリケーション開発、業界シーンの共同構築などの方向で深い協力を進め、ネイティブ全モーダル大規模モデルの映像制作、商業マーケティング、越境 EC、IP 運営、医療ヘルスケアなど多様な分野での産業化実装を共に推進していく。

視覚生成から、世界を構築するへ

HiDream-O1-Image-Pro の発表から、3つの Agent 製品の実装、さらには産業パートナーとのエコシステム連携まで、智象未来は明確な道筋を形成しつつある。ネイティブ全モーダルアーキテクチャを基盤に視覚生成能力を継続的に高め、さらに世界モデルに必要な統一的な理解・生成・予測能力へと進化していくという道だ。

これこそが智象未来が強調する「Imaging the World」だ。単に「視覚コンテンツを生成する」にとどまらず、ネイティブ全モーダルモデリングを通じて、AI に世界を理解し、世界を生成し、世界を構築する能力を段階的に備えさせる。今後も智象未来は UiT ネイティブ全モーダルアーキテクチャを軸に、モデル、Agent、産業シーンの協調進化を推進し、より完全な世界モデルへと前進していく。

智象未来が2000億超パラメータの画像大規模モデル「HiDream-O1-Image-Pro」を発表、資金調達も加速継続

2000億超のパラメータを持つ画像大規模モデル HiDream-O1-Image-Pro を智象未来が発表、資金調達も加速