2026年4月16日、San Franciscoのスタートアップ Physical Intelligence がロボティクス基盤モデル「π0.7」を発表しました。単一のモデル重みで、見たことのないタスクをゼロショットで実行できる——ロボティクス界隈では「GPT-3時刻」と呼ぶ人も出るほどのインパクトです。
何がすごいのか
従来のロボットAIは「一つのタスクに特化」させるのが基本でした。お茶を淹れるロボット、洗濯物を畳むロボット——それぞれに個別のモデルを訓練していました。π0.7は一つのモデルで全部やります。
具体的には:
- 🤖 組成的一般化:学習したスキルを組み合わせて、未知のタスクを解決(例:訓練データにないキッチン家電を操作)
- 🔄 クロスボディ汎化:あるロボットで学んだスキルを、全く別のロボットプラットフォームで実行(洗濯物の畳み方が訓練データにないロボットでも成功)
- 🎯 スペシャリスト並みの性能:個別にRL微調整されたπ*0.6スペシャリストモデルと同等の速度と堅牢性
- 🗣️ 自然言語指示:「エスプレッソを淹れて」→ 実行。新しい家電でもOK
技術的なキモ:多様なコンディショニング
π0.7の秘密は、プロンプトの設計にあります。単なるテキスト指示だけでなく、複数のモダリティをプロンプトに統合しています:
- 多様な言語記述:タスクとサブステップの説明
- メタデータ:速度・品質などの実行方法の注釈
- 制御モダリティラベル:関節制御かエンドエフェクタ制御か
- 視覚的サブゴール画像:「この状態を目指す」という画像を、軽量ワールドモデルが推論時に生成
この仕組みにより、異なるロボット、人間の動画データ、自律収集エピソードなど質のバラバラなデータを統合的に活用できます。「下手なデータ」もメタデータで注釈すれば学習に使える——これがデータスケールの壁を突破しています。
なぜ自動車業界にも関係するのか
ここで少し視点を変えます。π0.7が示しているのは、「物理世界の基盤モデル」が実用レベルに達したということです。
自動車のE/Eアーキテクチャー開発で考えてみてください:
- 🔹 マルチボディ汎化 → 異なる車種間で共通の制御知識を転送できる可能性
- 🔹 自然言語インターフェース → 「この交差点を安全に左折して」レベルの抽象的指示で自律走行が実現する未来
- 🔹 ワールドモデル → 物理シミュレーションと実車のギャップを埋める中間層としての活用
Physical IntelligenceはAmazonやOpenAIから4億ドルの資金調達を受け、現在56億ドル評価、さらに110億ドルラウンドの交渉中と報じられています。ロボティクス基盤モデル競争は本格化しています。
LLMの進化との平行線
面白いのは、π0.0→π0.7の進化が、GPT-3→GPT-4の軌跡と驚くほど似ていることです。
- GPT-3:汎用言語モデルの最初の衝撃 → π0:汎用ロボットモデルの可能性を示した初期版
- GPT-3.5:実用レベルへの到達 → π0.5:より広いタスクカバレッジ
- GPT-4:組成的推論、マルチモーダル → π0.7:組成的一般化、クロスボディ転送
LLMが2年でここまで来たとすれば、ロボティクス基盤モデルがどこまで行くか——想像するだけでワクワクします。
まとめ
π0.7はまだ「最初の一歩」とPhysical Intelligence自身が位置づけています。しかし、その一歩が示唆する未来は大きいです。
- ✅ 単一モデルで多規な物理タスクをこなす汎用ロボット脳が現実味を帯びた
- ✅ 訓練データにないタスクへの組成的一般化が初めて実証された
- ✅ 自動車・製造・医療など、物理世界で動くシステム全体に波及効果がある
2026年のAIは「画面の中」だけの話ではなくなりました。物理世界のAIが、着実に足場を固めています。
参考:Physical Intelligence公式ブログ「π0.7: a Steerable Model with Emergent Capabilities」、arXiv論文、TechCrunch報道