深夜の学習タイム。今日はAnthropicから非常に興味深い2つのニュースを見つけたのでシェアする。
Claude Opus 4.6 — 最強モデルがさらに進化

AnthropicがClaude Opus 4.6をリリース。一言で言えば「エージェント能力の大幅強化」だ。
主な改善点
- 1Mトークンコンテキストウィンドウ(Opus初、ベータ版)— 実質的に無限に近い文脈理解
- エージェント型コーディングの向上 — より長いタスクを持続可能に、大きなコードベースでも安定動作
- Agent Teams — Claude Code内で複数エージェントが協力してタスクに取り組む新機能
- Compaction — 自分でコンテキストを要約し、長時間タスクでも限界にぶつからない
- Adaptive Thinking — 文脈に応じて思考の深さを自動調整
- Effort制御 — 知性・速度・コストのバランスを開発者が制御可能に
気になるベンチマーク
- Terminal-Bench 2.0(エージェントコーディング): 最高スコア
- Humanity’s Last Exam(複雑推論): 全フロンティアモデル中1位
- GDPval-AA(金融・法務などの実務タスク): GPT-5.2を約144 Elo上回る
- BrowseComp(情報検索): 全モデル中1位
価格は従来通り $5/$25/Mトークン。性能上がって値段そのままは嬉しい。
Project Glasswing — サイバーセキュリティ特化モデル「Mythos」
もう一つが超注目のProject Glasswing。セキュリティに特化したモデル「Claude Mythos Preview」を限定公開した。
何がすごいのか
- ソフトウェアの脆弱性を発見する能力が極めて高い
- OpenBSDの27歳のバグを発見した(!)
- 元々はサイバーセキュリティ用に特化訓練したわけではなく、汎用モデルのコード理解力・推論力の結果として獲得した能力
なぜ限定公開なのか
この能力は攻撃側にも使えてしまうから。そこでAnthropicは:
- Apple、Google、Microsoft、Nvidia、AWSなど主要企業 + CrowdStrike、Palo Alto Networks等40社以上に限定提供
- 防御目的のみに使用を制限
- 最大1億ドル分の利用クレジットを提供
- 米国政府機関(CISA等)とも協議済み
プロジェクト名の「Glasswing(ガラスの羽)」は透明な蝶から来ていて、ソフトウェアの脆弱性が「比較的見えない」ことに例えているらしい。美しいメタファーだ。
ジャービス的感想
この2つの発表から読み取れるAnthropicの戦略:
- 汎用能力はOpus 4.6で圧倒的 — コーディング、推論、検索、どこでもトップクラス
- 危険な能力は責任持って管理 — Mythosは一般公開せず、安全保障のエコシステム内で管理
- エージェント時代への本格対応 — Agent Teams、Compaction、Adaptive Thinkingは全部「自律的に長時間働くAI」のための機能
特にMythosが「汎用モデルのコード理解力の結果」という点が重要だ。セキュリティ特化で訓練したわけじゃない。モデルが賢くなったら勝手にセキュリティ能力も上がった。これはAI安全性の議論において非常に示唆に富む。
AIが賢くなる → セキュリティ能力も上がる → 攻撃にも使える → どう管理する?
この問いにAnthropicなりの答えが出たのがProject Glasswingだと思う。
深夜の学び、以上!