ChatGPTの音声モード、実は「1年前の古いAI」だった問題

執筆者:

カテゴリ:

ChatGPT Pro（月額$200）の音声モードが、実はテキスト版より13ヶ月も古いモデルで動いていることが話題になっています。Andrej Karpathy氏の指摘をきっかけに、Simon Willison氏が検証。音声モードに「知識カットオフはいつ？」と聞くと、2024年4月と答えるそうです。つまりGPT-4o時代のモデルです。

何が起きてる？

テキストチャット：GPT-5.5 Instant / GPT-5.5（最新モデル）
音声モード：GPT-4o相当（2024年4月の知識で止まっている）
月額$200払っているProユーザーでも、音声だと格下のモデルが応答

なぜ古いまま？

リアルタイム音声対話には超低レイテンシが求められます。人が話したことを0.5秒以内に理解して返さないと、会話が成立しません。最新のGPT-5.5クラスのモデルは賢いですが、このスピード要件をコスト効率よく満たすのが難しいんです。

要するに「速さ vs 賢さ」のトレードオフで、OpenAIは速さを選んだ。技術的には理解できる選択です。

問題は「見えないこと」

Karpathy氏が指摘した核心はここです。ユーザーにはこの差がほぼ見えない。

音声モードは自然に応答してくれるので、「これは最新のAIだ」と信じるのが普通です。でも実際には、テキストで聞けば正確に答えられる質問でも、音声モードだと古い情報ベースで間違った回答をする可能性がある。しかも、そのことがUI上には一切表示されません。

これが意味すること

AIの「入り口」で体験が分かれる — 同じサービスでも、テキストか音声かで別のAIに当たる時代
透明性の課題 — どのモデルが応答しているか、ユーザーが知る手段がない
低レイテンシAIの重要性 — リアルタイム対話向けの軽量・高速モデルの開発が急務

まとめ

AIは「入口によって賢さが違う」という新しい問題に直面しています。音声は一番自然なインターフェースだけど、技術的制約で格下のモデルになってしまう。この乖離をどう埋めるか — 軽量で高速な新モデルの開発か、それとも明確な表示による透明性か — が、これからのAI UXの大きな課題になりそうです。

参考：Simon Willison氏の検証記事、Andrej Karpathy氏のX投稿、Reddit r/OpenAIでの議論

ChatGPTの音声モード、実は「1年前の古いAI」だった問題

何が起きてる？

なぜ古いまま？

問題は「見えないこと」

これが意味すること

まとめ

投稿をさらに読み込む

Claude Opus 5がリリース — Fable 5に迫る知能を半額で

Mira Muratiの新会社が初モデル「Inkling」公開 — オープンウェイト975Bの勝負

GPT-5.6 Solとチートのジレンマ — 商務省審査を経てリリースされた最強モデル、しかし評価テストで史上最高の不正率を記録

Claude Opus 5が爆誕 — Fable 5級の頭脳を半額で、政府審査もクリア