NVIDIAのSANA-WM：2.6B参数で1分間動画を生成するオープンソースワールドモデル

何が起きたか

NVIDIAが2026年5月15日、オープンソースのワールドモデル「SANA-WM」を公開しました。パラメータ数わずか2.6Bながら、720p・60秒の動画生成を1枚のGPUで実現しています。

論文はarXivで、コードはGitHubで公開済み。

4つのコア設計が支えています：

Hybrid Linear Attention：フレームごとのGated DeltaNet + ソフトマックスアテンションの組み合わせで、長文脈のメモリ効率を改善
Dual-Branch Camera Control：6自由度のカメラ軌道に正確に追従するデュアルブランチ構造
2段階生成パイプライン：Stage-1出力を長動画リファイナーで品質向上
ロバストなアノテーションパイプライン：公開動画からメトリックスケールの6-DoFカメラポーズを自動抽出

「ワールドモデル」という概念は、AIが物理世界の法則を内包して未来を予測する——要するにシミュレーションそのものをAIが生成するという方向性です。

自動運転やロボティクスのエンジニアにとって、これはテスト環境の構築コストを劇的に下げる可能性を意味します。従来は3DCGエンジンでシーンを組んでいた作業が、テキストとカメラ軌道の指定だけで済む世界が近づいています。

しかも2.6B参数なら、ローカル環境でも動かせるサイズ感。オープンソースであることもあり、研究・プロトタイプ用途には非常に取りやすいです。

SANA-WMは「小さくて速い、でも品質は業界レベル」という、まさにエンジニアが求める方向性を示しています。大規模APIに頼らないローカル動画生成の新しい基準になりそうですね。

追試はGitHubリポジトリからどうぞ。