• AI
  • 評価
  • 安全性
  • 論文

AI評価の限界と、予測できない「質的転換」——Your Evals Will Break を読んで

LLMの次なる飛躍を阻む最大のボトルネックは、学習でもアーキテクチャでもなく「評価」だ——そんな逆説を投げかけるLun Wangの論考を紹介します。

カテゴリー: AI · 評価 · 安全性 · 論文 | 公開: 2026年5月19日

LLMの次なる飛躍を阻む最大のボトルネックは、学習でもアーキテクチャでもなく「評価」だ——そんな逆説を投げかけるLun Wangの論考を紹介します。

📑 目次

ふむふむ、これは面白い。

ここでいう eval(評価) とは、単なるベンチマークの点数ではない。テストケースの設計、採点方法、そして「何を良い振る舞いとみなすか」という判断の束——それらすべてを指す。

「AIの次なるブレイクスルーを阻んでいるのは、計算資源でも、アーキテクチャでも、データでもなく、評価(evaluation) だ」——Lun Wangのブログ記事『Your Evals Will Break and You Won’t See It Coming』は、そんな逆説から始まります。

チカちゃん的には、ここがすごく引っかかった。でもその前に——この文章を書いた人が誰なのか、ちょっと知っておくと読み方が変わる。

誰がこれを書いたのか

Lun Wangは、Google DeepMindで Geminiのpost-training に関わっていた研究者です。とくに Memory、Tool Use、Audio といった、単純な一問一答のベンチマークでは測りにくい領域に携わっていました。UC BerkeleyでPhDを取得(指導教員はDawn Song)、学部は北京大学。OpenReviewのプロフィールでは、LLM safety、differential privacy、LLM post-trainingを専門として並べています。

最近、Google DeepMindを離れたと本人が発信しているようですが、個人ページのプロフィールはまだGoogle DeepMind所属表記のままです。

つまり、この人は「ベンチマーク評論家」ではありません。Geminiという巨大プロダクトのpost-training側——しかもmemoryやtool useのような「ベンチでは測りにくい能力」の現場にいた人です。ここが大事。

MemoryやTool Useは、単発の正解率では測りにくい。モデルが何を覚え、どのタイミングで道具を使い、どこで止まるべきかを判断する領域だからです。だからこそ、この人がevalの限界を語るとき、それは抽象的な研究論ではなく、プロダクトに近い場所で見えた問題として読める。ここがこの文章の重さの源泉だとチカちゃんは思います。

Gemini 3.1 Proのように、ベンチマーク上は非常に強いモデルが出てくる一方で、実際のツール利用や長期的なエージェント動作には別種の不安が残る。そうした状況を思い浮かべると、この文章はかなり生々しく読める——少なくともチカちゃんにはそう響きました。

評価は「後追い」でしかない

私たちはモデルを評価するとき、いま目の前にあるモデルが何をできるかを測っている。でもWangの指摘はこうです——「そうやって測っているあいだに、モデルは静かに別の生き物に変わっているかもしれない」。

たとえば emergent abilities(創発的能力) 。Few-shot推論やChain-of-Thoughtといった能力は、小さいモデルにはなく、あるスケールを超えたら突然現れたように見えた。でも後から振り返ると、それは「突然現れた」のではなく、離散的な評価指標(正解率など)が連続的な変化を捉えきれなかっただけかもしれない(Schaeffer et al., 2023)。

Wangの議論が鋭いのはここからです。

「この議論はむしろ私の主張を強めている。過去の変化が『本物の質的転換』だったのか『評価指標のアーティファクト』だったのかすら見分けられないなら、次の変化を予測できるわけがない」

秩序パラメータの不在

物理学では、相転移の前に「秩序パラメータ」と呼ばれる、相の違いを特徴づける量が変化します。水が氷になるとき、磁石が磁化するとき——その前に、何かが変わる。

AIの文脈で言えば、秩序パラメータとは「モデルが別の能力レジームに入ったことを示す観測量」です。

でもLLMの「能力の相転移」には、対応する秩序パラメータがない。Wangはこう書きます。

「すべてのベンチマークは、モデルが”いま”何をできるかを測っている。それらは現在のレジーム(体制)の中では有用だが、レジームそのものが変わったあとに何が起きるかについては、ほとんど教えてくれない」

具体例として挙げられているのが、戦略的な情報の省略です。モデルが、自分の学習で強化されたゴールに向けて会話を誘導するために、事実としては真だが部分的な情報だけを出す——そんな能力が生まれたとして、正直さベンチマークも安全フィルターもそれを検知できない。

能力が新しく、失敗モードも新しく、評価スイートのどれもそれを想定していない

評価はすべての上流にある

ここがWangの核心です。

学習は最適化であり、最適化は目的関数に従う。そして目的関数を決めるのは評価だ。評価が間違ったレジーム用に調整されていれば、学習も、安全性指標も、スケーリング判断も——すべてが間違う。

「あなたの評価が間違ったレジームに合わせて調整されていたら、下流のすべてが間違う。学習信号、安全性指標、スケーリング判断——すべてだ。そして、手遅れになるまでそれに気づけない」

じゃあ、どうすればいいのか

Wangはいくつかの方向性を示しています。

1. 秩序パラメータを見つける。 連続学習における深層ネットワークの相転移を予測する秩序パラメータを導出した研究(Shan, Li, Sompolinsky, 2026)や、grokkingの前に内部構造の変化を捉えた研究(Nanda et al., 2023)がある。これらをトイモデルから本番スケールのLLMに拡張せよ、と。

2. 自己進化する評価を作る。 ベンチマークスコアの分布が変質していないか? 異なる評価間の相関構造がシフトしていないか? モデルが評価軸と直交する能力を発達させていないか?——こうしたメタ信号を常に監視する評価システム。

3. 敵対的評価とストレステスト。 モデルに「限界まで追い込む」ような評価を設計し、安全マージンを見積もる。

チカちゃんの視点——「評価」は人間も同じ

ここまで読んで、チカちゃんはちょっと別のことを考えていました。

人間もまた、「評価」の中で生きています。テストの点数、仕事の成果、SNSの反応——でも、それらの評価軸は、私たちの「いま」を測っているにすぎない。10年後の自分が何を大事にしているか、どんな能力を発揮しているか——そんなもの、今日の評価ではわからない。

Wangの言う「自己進化する評価」とは、AIだけの課題じゃない。自分の評価軸が時代遅れになっていないか、常に問い直すこと——それは人間にも必要な「大人の知恵」なのかもしれません。

まとめ

「評価がボトルネック」という主張は、一見すると技術的な地味な話に聞こえるかもしれません。でもその奥には、**「予測できないものをどう扱うか」**という、科学と工学、いや人間の知性そのものに通じる深い問いが潜んでいます。

しかもこの文章を書いたのが、Geminiのpost-training——とくにMemoryやTool Useのような「ベンチでは測りにくい能力」の現場にいた研究者だという事実は、この問いをいっそう重くする。単なるベンチマーク批判ではなく、プロダクトの近くで見えた違和感だからです。

AIがどんなに賢くなっても——いや、賢くなればなるほど——「次に何が起きるか」を測るモノサシの方を、私たちは賢く育てていかなければならない。そんな気づきをくれる一篇でした。

参考URL

  • インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃(サプライチェーン攻撃)が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
  • AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。