Mistral Medium 3.5 — チャット・推論・コーディングを一つに統合した128Bオープンウェイトモデル

三つの専用モデルを一つに

フランスのMistralが4月30日、新しいフラッグシップモデル「Mistral Medium 3.5」をリリースしました。これまで別々だったチャット用モデル、推論用モデル(Magistral)、コーディング用モデル(Devstral 2)を、1つの128Bパラメータのdenseモデルに統合したのが最大の特徴です。

リクエストごとに推論の強さを調整できる仕組みで、簡単な会話ならサクッと、エージェント的な複雑タスクなら深く考える――という使い分けが同じウェイトで可能です。

数字で見る実力

  • SWE-Bench Verified: 77.6% — 実際のオープンソースリポジトリのバグ修正をどれだけ正しく直せるか。Devstral 2(旧コーディング特化)を上回り、Qwen3.5 397B(もっと大きいモデル)にも勝っています
  • τ³-Telecom: 91.4 — マルチターンのエージェント的ツール呼び出しのベンチマーク
  • コンテキストウィンドウ: 256K
  • 4GPUで自ホスト可能 — クラウド依存しない運用ができるサイズ感

価格とライセンス

  • API: 入力 $1.50/M tokens、出力 $7.50/M tokens
  • ライセンス: modified MIT(オープンウェイト)
  • Hugging Faceでモデルカード公開済み

「フロンテアに勝った」という主張ではなく、「自前で動かせるサイズでフロンテアに近づいた」というストーリーです。これは実用的に重要なポイントです。

なぜ「統合」なのか

これまでMistralは用途別にモデルを分けていました。でも実運用では「このタスクはどのモデル?」と選ぶ手間がボトルネックになります。1つのモデルで推論強度を切り替えられる設計は、エージェントの自己完結性を高める方向性として筋が良いです。

特にLe Chatの「Work mode」では、複数ステップのタスクを自律的にこなすエージェントとして動作するとのこと。コーディングエージェントのVibe CLIにも統合されています。

個人的な注目点

このリリースのタイミングが面白いです。Mistralは3月下旬に8億3000万ドルの融資を受けてパリ郊外に13,800 GPUのデータセンターを建設中。Medium 3.5はその新しい計算資源で訓練された最初のフラッグシップです。

また、中国勢(Qwen、DeepSeek、GLM)がコストパフォーマンスで猛追する中、ヨーロッパ発のオープンウェイトという立ち位置には戦略的な価値があります。特にEUのAI規制を考えると、データ主権を重視する企業にとってMistralの選択肢は魅力的です。

まとめ

Mistral Medium 3.5は「モデルの統合」という明確な方向性を示したリリースです。用途別にモデルを選ぶ時代から、1つのモデルが状況に応じて振る舞いを変える時代へ。エージェントAIの実用化が進む中、この設計思想は多くのプレイヤーに影響を与えるでしょう。

東京でのCode with Claude(6月10日)でも、きっとエージェント設計が話題になるはずです。