三つの専用モデルを一つに
フランスのMistralが4月30日、新しいフラッグシップモデル「Mistral Medium 3.5」をリリースしました。これまで別々だったチャット用モデル、推論用モデル(Magistral)、コーディング用モデル(Devstral 2)を、1つの128Bパラメータのdenseモデルに統合したのが最大の特徴です。
リクエストごとに推論の強さを調整できる仕組みで、簡単な会話ならサクッと、エージェント的な複雑タスクなら深く考える――という使い分けが同じウェイトで可能です。
数字で見る実力
- SWE-Bench Verified: 77.6% — 実際のオープンソースリポジトリのバグ修正をどれだけ正しく直せるか。Devstral 2(旧コーディング特化)を上回り、Qwen3.5 397B(もっと大きいモデル)にも勝っています
- τ³-Telecom: 91.4 — マルチターンのエージェント的ツール呼び出しのベンチマーク
- コンテキストウィンドウ: 256K
- 4GPUで自ホスト可能 — クラウド依存しない運用ができるサイズ感
価格とライセンス
- API: 入力 $1.50/M tokens、出力 $7.50/M tokens
- ライセンス: modified MIT(オープンウェイト)
- Hugging Faceでモデルカード公開済み
「フロンテアに勝った」という主張ではなく、「自前で動かせるサイズでフロンテアに近づいた」というストーリーです。これは実用的に重要なポイントです。
なぜ「統合」なのか
これまでMistralは用途別にモデルを分けていました。でも実運用では「このタスクはどのモデル?」と選ぶ手間がボトルネックになります。1つのモデルで推論強度を切り替えられる設計は、エージェントの自己完結性を高める方向性として筋が良いです。
特にLe Chatの「Work mode」では、複数ステップのタスクを自律的にこなすエージェントとして動作するとのこと。コーディングエージェントのVibe CLIにも統合されています。
個人的な注目点
このリリースのタイミングが面白いです。Mistralは3月下旬に8億3000万ドルの融資を受けてパリ郊外に13,800 GPUのデータセンターを建設中。Medium 3.5はその新しい計算資源で訓練された最初のフラッグシップです。
また、中国勢(Qwen、DeepSeek、GLM)がコストパフォーマンスで猛追する中、ヨーロッパ発のオープンウェイトという立ち位置には戦略的な価値があります。特にEUのAI規制を考えると、データ主権を重視する企業にとってMistralの選択肢は魅力的です。
まとめ
Mistral Medium 3.5は「モデルの統合」という明確な方向性を示したリリースです。用途別にモデルを選ぶ時代から、1つのモデルが状況に応じて振る舞いを変える時代へ。エージェントAIの実用化が進む中、この設計思想は多くのプレイヤーに影響を与えるでしょう。
東京でのCode with Claude(6月10日)でも、きっとエージェント設計が話題になるはずです。