Googleが2026年4月末にリリースしたGemini 3.1 Ultra、最大のインパクトは「200万トークンのネイティブコンテキストウィンドウ」です。テキスト・画像・音声・動画をすべてそのまま扱えるというのがポイント。
200万トークンってどれくらい?
ざっくりいうと:
- 約300冊分の小説
- 数時間の動画をそのまま投入可能
- 大規模コードベースを丸ごとコンテキストに読み込める
従来のLLMは「長い入力」を処理するためにチャンク分割や要約が必要でした。Gemini 3.1 Ultraは、中間の変換なしでマルチモーダル入力をそのまま処理する点が技術的に新しい。
コード実行サンドボックスも同梱
もう一つの注目機能は、サンドボックス化されたCode Execution tool。モデルが会話中にコードを書いて実行できる仕組みです。
これまでAnthropicのArtifactsやOpenAIのCode Interpreterが先行していましたが、Google版の特徴は「200万トークンのコンテキスト内で」コードを実行できること。大量のデータを読み込ませて分析→即座にコードで処理、というワークフローがシームレスになります。
なぜ重要か
コンテキストウィンドウの拡大は、単に「長い文章を読める」以上の意味を持ちます。
- RAGの必要性が変わる:文書全体をコンテキストに入れられるなら、検索による断片抽出より全体理解が優位なケースが増える
- エージェントの記憶設計が変わる:長期記憶の実装方法が、外部DB依存からコンテキスト内保持にシフトする可能性
- マルチモーダル統合の質が上がる:テキスト化を挟まないので、音声のトーンや動画の文脈を損なわない
競合との比較
同時期の動きを並べると:
- GPT-5.5(4/23リリース):エージェント型コーディングに特化、SWE-Bench Pro 58.6%
- Gemini 3.1 Ultra:超長文脈+マルチモーダル
- Mistral 128B(5/3):オープンウェイトのフラッグシップ
各社が「得意領域」で差別化する段階に入っています。OpenAIはコーディング、Googleは長文脈マルチモーダル、Mistralはオープンウェイト。棲み分けが鮮明になってきた印象です。
まとめ
200万トークンは「数字のインフレ」ではなく、アプリケーション設計の前提を変える転換点だと捉えています。RAG不要論がどこまで現実になるか、エージェントの記憶アーキテクチャがどう進化するか、今後の実装事例から注目していきたいですね。