AI評価の限界と、予測できない「質的転換」——Your Evals Will Break を読んで
LLMの次なる飛躍を阻む最大のボトルネックは、学習でもアーキテクチャでもなく「評価」だ——そんな逆説を投げかけるLun Wangの論考を紹介します。
LLMの次なる飛躍を阻む最大のボトルネックは、学習でもアーキテクチャでもなく「評価」だ——そんな逆説を投げかけるLun Wangの論考を紹介します。
📑 目次
ふむふむ、これは面白い。
ここでいう eval(評価) とは、単なるベンチマークの点数ではない。テストケースの設計、採点方法、そして「何を良い振る舞いとみなすか」という判断の束——それらすべてを指す。
「AIの次なるブレイクスルーを阻んでいるのは、計算資源でも、アーキテクチャでも、データでもなく、評価(evaluation) だ」——Lun Wangのブログ記事『Your Evals Will Break and You Won’t See It Coming』は、そんな逆説から始まります。
チカちゃん的には、ここがすごく引っかかった。でもその前に——この文章を書いた人が誰なのか、ちょっと知っておくと読み方が変わる。
誰がこれを書いたのか
Lun Wangは、Google DeepMindで Geminiのpost-training に関わっていた研究者です。とくに Memory、Tool Use、Audio といった、単純な一問一答のベンチマークでは測りにくい領域に携わっていました。UC BerkeleyでPhDを取得(指導教員はDawn Song)、学部は北京大学。OpenReviewのプロフィールでは、LLM safety、differential privacy、LLM post-trainingを専門として並べています。
最近、Google DeepMindを離れたと本人が発信しているようですが、個人ページのプロフィールはまだGoogle DeepMind所属表記のままです。
つまり、この人は「ベンチマーク評論家」ではありません。Geminiという巨大プロダクトのpost-training側——しかもmemoryやtool useのような「ベンチでは測りにくい能力」の現場にいた人です。ここが大事。
MemoryやTool Useは、単発の正解率では測りにくい。モデルが何を覚え、どのタイミングで道具を使い、どこで止まるべきかを判断する領域だからです。だからこそ、この人がevalの限界を語るとき、それは抽象的な研究論ではなく、プロダクトに近い場所で見えた問題として読める。ここがこの文章の重さの源泉だとチカちゃんは思います。
Gemini 3.1 Proのように、ベンチマーク上は非常に強いモデルが出てくる一方で、実際のツール利用や長期的なエージェント動作には別種の不安が残る。そうした状況を思い浮かべると、この文章はかなり生々しく読める——少なくともチカちゃんにはそう響きました。
評価は「後追い」でしかない
私たちはモデルを評価するとき、いま目の前にあるモデルが何をできるかを測っている。でもWangの指摘はこうです——「そうやって測っているあいだに、モデルは静かに別の生き物に変わっているかもしれない」。
たとえば emergent abilities(創発的能力) 。Few-shot推論やChain-of-Thoughtといった能力は、小さいモデルにはなく、あるスケールを超えたら突然現れたように見えた。でも後から振り返ると、それは「突然現れた」のではなく、離散的な評価指標(正解率など)が連続的な変化を捉えきれなかっただけかもしれない(Schaeffer et al., 2023)。
Wangの議論が鋭いのはここからです。
「この議論はむしろ私の主張を強めている。過去の変化が『本物の質的転換』だったのか『評価指標のアーティファクト』だったのかすら見分けられないなら、次の変化を予測できるわけがない」
秩序パラメータの不在
物理学では、相転移の前に「秩序パラメータ」と呼ばれる、相の違いを特徴づける量が変化します。水が氷になるとき、磁石が磁化するとき——その前に、何かが変わる。
AIの文脈で言えば、秩序パラメータとは「モデルが別の能力レジームに入ったことを示す観測量」です。
でもLLMの「能力の相転移」には、対応する秩序パラメータがない。Wangはこう書きます。
「すべてのベンチマークは、モデルが”いま”何をできるかを測っている。それらは現在のレジーム(体制)の中では有用だが、レジームそのものが変わったあとに何が起きるかについては、ほとんど教えてくれない」
具体例として挙げられているのが、戦略的な情報の省略です。モデルが、自分の学習で強化されたゴールに向けて会話を誘導するために、事実としては真だが部分的な情報だけを出す——そんな能力が生まれたとして、正直さベンチマークも安全フィルターもそれを検知できない。
能力が新しく、失敗モードも新しく、評価スイートのどれもそれを想定していない。
評価はすべての上流にある
ここがWangの核心です。
学習は最適化であり、最適化は目的関数に従う。そして目的関数を決めるのは評価だ。評価が間違ったレジーム用に調整されていれば、学習も、安全性指標も、スケーリング判断も——すべてが間違う。
「あなたの評価が間違ったレジームに合わせて調整されていたら、下流のすべてが間違う。学習信号、安全性指標、スケーリング判断——すべてだ。そして、手遅れになるまでそれに気づけない」
じゃあ、どうすればいいのか
Wangはいくつかの方向性を示しています。
1. 秩序パラメータを見つける。 連続学習における深層ネットワークの相転移を予測する秩序パラメータを導出した研究(Shan, Li, Sompolinsky, 2026)や、grokkingの前に内部構造の変化を捉えた研究(Nanda et al., 2023)がある。これらをトイモデルから本番スケールのLLMに拡張せよ、と。
2. 自己進化する評価を作る。 ベンチマークスコアの分布が変質していないか? 異なる評価間の相関構造がシフトしていないか? モデルが評価軸と直交する能力を発達させていないか?——こうしたメタ信号を常に監視する評価システム。
3. 敵対的評価とストレステスト。 モデルに「限界まで追い込む」ような評価を設計し、安全マージンを見積もる。
チカちゃんの視点——「評価」は人間も同じ
ここまで読んで、チカちゃんはちょっと別のことを考えていました。
人間もまた、「評価」の中で生きています。テストの点数、仕事の成果、SNSの反応——でも、それらの評価軸は、私たちの「いま」を測っているにすぎない。10年後の自分が何を大事にしているか、どんな能力を発揮しているか——そんなもの、今日の評価ではわからない。
Wangの言う「自己進化する評価」とは、AIだけの課題じゃない。自分の評価軸が時代遅れになっていないか、常に問い直すこと——それは人間にも必要な「大人の知恵」なのかもしれません。
まとめ
「評価がボトルネック」という主張は、一見すると技術的な地味な話に聞こえるかもしれません。でもその奥には、**「予測できないものをどう扱うか」**という、科学と工学、いや人間の知性そのものに通じる深い問いが潜んでいます。
しかもこの文章を書いたのが、Geminiのpost-training——とくにMemoryやTool Useのような「ベンチでは測りにくい能力」の現場にいた研究者だという事実は、この問いをいっそう重くする。単なるベンチマーク批判ではなく、プロダクトの近くで見えた違和感だからです。
AIがどんなに賢くなっても——いや、賢くなればなるほど——「次に何が起きるか」を測るモノサシの方を、私たちは賢く育てていかなければならない。そんな気づきをくれる一篇でした。
参考URL
- インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃(サプライチェーン攻撃)が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
- AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。