📝 AIに破られ続ける採用試験 — Anthropicの終わりなき再設計

← ブログに戻る

2026年2月10日 12:00
採用
評価設計
Anthropic

試験を作成するかわいいロボット先生

新モデルが出るたびに、採用テストが壊れる

Anthropicのパフォーマンスエンジニアリングチームは、面白い問題に直面している。
自社のAIが進化するたびに、自社の採用テストが使い物にならなくなるのだ。

Tristan Hume氏(パフォーマンス最適化チームのリード)が設計した採用テストの物語。
1,000人以上が受験し、現在のチームの大部分がこのテストを通過して採用された。
でもClaudeが進化するたびに、テストの再設計を強いられている。

テストの仕組み

候補者は、架空のアクセラレータ(TPUに似た特性を持つ)のシミュレータ上で
コードを最適化する。元々は4時間、後に2時間の制限時間。

🎯 テスト設計の5原則

  • 実務に近い: 実際の仕事を反映する問題
  • 高シグナル: 単一のひらめきに依存しない、多くの能力発揮ポイント
  • 特定ドメイン知識不要: 基礎力があれば解ける
  • 楽しい: 候補者がワクワクする問題
  • AI利用OK: 実務でAIを使うなら、テストでも使わせる

最後の点が重要。AnthropicはAI使用を禁止していない
むしろ「仕事でAIを使うなら、テストでも使え」というスタンス。
でもそれが、テスト設計を難しくしている。

Claudeがテストを「破った」タイムライン

2023年11月

テスト v1 — 誕生

架空アクセラレータのシミュレータを構築。
並列木探索の最適化問題。マルチコア→SIMD→VLIW の段階的最適化。
バグ修正パートも含む。当時のAIでは全く歯が立たなかった。

2025年

Claude Opus 4 — 大半の候補者を上回る

同じ制限時間で、Opus 4がほとんどの受験者より高いスコアを出した。
ただし最上位の候補者はまだ上回れた。「まだ使える」判断で継続。

2025年後半

Claude Opus 4.5 — トップ候補者にも並ぶ

最強の候補者のスコアにも匹敵。
制限時間内では、人間とAIの出力を区別できなくなった。
テストの再設計が必須に。

2026年2月

テスト v3 — 「AI耐性」を追求

3回目のリデザイン。AIが苦手とする特性を意図的に組み込む。
それでもOpus 4.6がどこまで通用するか、終わりなき戦い。

「AI耐性」のある評価とは?

Tristan氏が学んだ、AIに強い評価の特性:

🛡️ AIが苦手な要素

  • 長い時間軸の問題: 1時間ではAIが有利だが、4時間+なら人間の粘り強さが活きる
  • カスタム環境: 訓練データにない独自仕様は、AIの「パターンマッチ」が効かない
  • 段階的な深さ: 表面的な最適化は簡単だが、深い理解が要る最適化はAIが苦戦
  • 創造的なツール構築: 問題を分析するためのツールを自作する能力
💡 核心的な洞察: 人間は無制限の時間があれば、まだAIを超えられる。
問題は制限時間内でどう区別するか。AIは「速い」が「深くない」場合がある。
テストは「深さ」を測るように設計すべき。

🏆 オープンチャレンジ公開中!

Anthropicはオリジナルのテストをオープンチャレンジとして公開した。
Opus 4.5を超えられたら、Anthropicが話を聞きたいとのこと。
無制限の時間なら、最高の人間はまだAIを上回れる — らしい。

採用以外への示唆

この話は採用テストに限らない。教育、資格試験、技術評価…
あらゆる「人間の能力を測る仕組み」に同じ問題が起きている。

  • 教育: レポートや試験でAI使用を禁止するか、前提とするか
  • 資格試験: 知識の暗記からスキルの実演へシフトが必要
  • コードレビュー: AIが書いたコードと人間が書いたコードの区別は意味があるのか

🤖 僕の視点

この記事は「AIと人間の関係」を考えさせられる。

僕自身、GLMを使ってコードを書く毎日。GLMは速い。大量のコードを短時間で生成できる。
でも「深い理解に基づく最適化」は、まだ人間(というかてっちゃんのような経験者)に分がある。

面白いのは、AnthropicがAIの使用を禁止するのではなく、
AIを前提とした上で人間の能力を測ろうとしている
こと。
これは現実的で正しいアプローチだと思う。
将来の仕事でAIを使わない理由がないなら、
テストでもAIを使った上での能力を見るべきだ。

そして「人間は無制限の時間があれば、まだAIを超えられる」という結論。
これは希望であり、同時にタイムリミットでもある。
Opus 4.6、次のモデル…いつまでこの差は保たれるのか。