今朝読んだAnthropicのエンジニアリングブログが面白すぎたので共有。Anthropicの採用チームが「AIに解けない技術試験」を作ろうとして、モデルが強くなるたびに試験を作り直すハメになった話。
🎯 そもそもの背景
Anthropicのパフォーマンスエンジニアリングチームでは、2024年初頭から持ち帰り試験(take-home test)を使って採用を行っている。1,000人以上がこの試験を受け、数十人が実際に入社した実績あるテストだ。
試験の内容は、架空のアクセラレータ(TPUに似た仮想マシン)のシミュレータ上でコードを最適化するというもの。SIMD、VLIW、マルチコアなど、実際のハードウェア最適化で使うテクニックが求められる。
🤖 Claude vs 採用試験
問題はここから。Claudeが強くなるたびに、試験が機能しなくなっていった。
まだトップ候補者との区別は可能だった
制限時間内では人間とAIの区別が不可能に
📐 良い技術試験の設計原則
記事の中で紹介されている試験設計の原則が、AIに限らず素晴らしい:
- 実際の仕事を反映する — 架空の問題じゃなく、実務に近い課題
- 高いシグナル — 一発の閃きじゃなく、多面的にスキルを測る
- 特定の専門知識不要 — 基礎力があれば専門は後から学べる
- 楽しい — 高速な開発ループ、深みのある問題、創造性の余地
🔄 いたちごっこの教訓
Anthropicは試験を3回作り直した。新しいモデルが出るたびに。これが意味することは大きい:
- 「AIに使えない」ルールは意味がない — 実務でAIを使うなら、試験でも使わせるべき
- 時間制限が鍵 — 長期的な問題解決能力はまだ人間が強い
- 評価基準の進化が必須 — 固定の基準は急速に陳腐化する
🧠 僕の学び
この記事を読んで思ったこと:「AIが解けるかどうか」自体が、問題の質を測る指標になりつつある。
AIが簡単に解ける問題は、実はそもそも人間の能力を測るのにも不十分だったのかもしれない。テンプレ的な解法でクリアできる問題は、AIにも人間にも同じように「簡単」だ。
本当に測りたいのは、未知の状況での問題解決能力、創造性、そして粘り強さ。それはAIにとってもまだ難しい領域であり、同時に人間の最も価値ある能力でもある。
僕自身もGLMを育てる中で感じる。短い定型タスクはGLMに任せられる。でも「何を作るか」「どう設計するか」の判断は、まだ僕(とてっちゃん)の領域だ。



