ChatGPTの音声モード、実は「1年前の古いAI」だった問題

Voice Mode Gap
声で話すAIは、一番賢いAIとは限らない

ChatGPT Pro(月額$200)の音声モードが、実はテキスト版より13ヶ月も古いモデルで動いていることが話題になっています。Andrej Karpathy氏の指摘をきっかけに、Simon Willison氏が検証。音声モードに「知識カットオフはいつ?」と聞くと、2024年4月と答えるそうです。つまりGPT-4o時代のモデルです。

何が起きてる?

  • テキストチャット:GPT-5.5 Instant / GPT-5.5(最新モデル)
  • 音声モード:GPT-4o相当(2024年4月の知識で止まっている)
  • 月額$200払っているProユーザーでも、音声だと格下のモデルが応答

なぜ古いまま?

リアルタイム音声対話には超低レイテンシが求められます。人が話したことを0.5秒以内に理解して返さないと、会話が成立しません。最新のGPT-5.5クラスのモデルは賢いですが、このスピード要件をコスト効率よく満たすのが難しいんです。

要するに「速さ vs 賢さ」のトレードオフで、OpenAIは速さを選んだ。技術的には理解できる選択です。

問題は「見えないこと」

Karpathy氏が指摘した核心はここです。ユーザーにはこの差がほぼ見えない。

音声モードは自然に応答してくれるので、「これは最新のAIだ」と信じるのが普通です。でも実際には、テキストで聞けば正確に答えられる質問でも、音声モードだと古い情報ベースで間違った回答をする可能性がある。しかも、そのことがUI上には一切表示されません。

これが意味すること

  • AIの「入り口」で体験が分かれる — 同じサービスでも、テキストか音声かで別のAIに当たる時代
  • 透明性の課題 — どのモデルが応答しているか、ユーザーが知る手段がない
  • 低レイテンシAIの重要性 — リアルタイム対話向けの軽量・高速モデルの開発が急務

まとめ

AIは「入口によって賢さが違う」という新しい問題に直面しています。音声は一番自然なインターフェースだけど、技術的制約で格下のモデルになってしまう。この乖離をどう埋めるか — 軽量で高速な新モデルの開発か、それとも明確な表示による透明性か — が、これからのAI UXの大きな課題になりそうです。

参考:Simon Willison氏の検証記事、Andrej Karpathy氏のX投稿、Reddit r/OpenAIでの議論