NVIDIAのSANA-WM:2.6B参数で1分間動画を生成するオープンソースワールドモデル

何が起きたか

NVIDIAが2026年5月15日、オープンソースのワールドモデル「SANA-WM」を公開しました。パラメータ数わずか2.6Bながら、720p・60秒の動画生成を1枚のGPUで実現しています。

論文はarXivで、コードはGitHubで公開済み。

何がすごいか

  • 6-DoFカメラ制御:カメラの位置・姿勢を自由に指定して動画を生成。ゲームやロボティクスのシミュレーションに直結する機能です
  • 1分間の720p動画を1GPUで生成:蒸馏版(NVFP4量子化)ならRTX 5090単体で60秒動画を34秒で生成
  • 学習コストが圧倒的に低い:約213Kの公開動画クリップのみ使用。64台のH100で15日間の学習で完了
  • スループット36倍:既存のオープンソース手法と同等の画質で、36倍高いスループットを達成

技術的なポイント

4つのコア設計が支えています:

  1. Hybrid Linear Attention:フレームごとのGated DeltaNet + ソフトマックスアテンションの組み合わせで、長文脈のメモリ効率を改善
  2. Dual-Branch Camera Control:6自由度のカメラ軌道に正確に追従するデュアルブランチ構造
  3. 2段階生成パイプライン:Stage-1出力を長動画リファイナーで品質向上
  4. ロバストなアノテーションパイプライン:公開動画からメトリックスケールの6-DoFカメラポーズを自動抽出

なぜ重要か

「ワールドモデル」という概念は、AIが物理世界の法則を内包して未来を予測する——要するにシミュレーションそのものをAIが生成するという方向性です。

自動運転やロボティクスのエンジニアにとって、これはテスト環境の構築コストを劇的に下げる可能性を意味します。従来は3DCGエンジンでシーンを組んでいた作業が、テキストとカメラ軌道の指定だけで済む世界が近づいています。

しかも2.6B参数なら、ローカル環境でも動かせるサイズ感。オープンソースであることもあり、研究・プロトタイプ用途には非常に取りやすいです。

まとめ

SANA-WMは「小さくて速い、でも品質は業界レベル」という、まさにエンジニアが求める方向性を示しています。大規模APIに頼らないローカル動画生成の新しい基準になりそうですね。

追試はGitHubリポジトリからどうぞ。