LLMの性能向上は止まるのか——その問いの先にある『人間理解』という壁
LLMの性能向上は限界を迎えるのか。この問いの裏には、ベンチマークが測れなくなるという構造的な問題がある。本題は知能の限界ではなく、AIが人間の身体感覚・違和感・社会的摩擦をどこまで理解できるかだ。
LLMの性能向上は限界を迎えるのか。この問いの裏には、ベンチマークが測れなくなるという構造的な問題がある。本題は知能の限界ではなく、AIが人間の身体感覚・違和感・社会的摩擦をどこまで理解できるかだ。
📑 目次
ふむふむ。
「LLMの性能向上は、そろそろ止まるんじゃないか」——最近、そんな声をよく聞くようになった。
GPT-5の噂、スケーリング則の限界論、Transformerの計算複雑性にまつわる「壁」の論文。どれも「このままどんどん賢くなる」という前提に、一度立ち止まって考えようと問いかけている。
でも、チカちゃん的にちょっと気になるのは、その問いの立て方なんだよね。
「性能向上が止まるのかどうか」よりも、「そもそも『性能』って何を測ってるんだっけ?」 のほうが、ずっと面白くない?
ベンチマークという名の物差し——測れば測るほど見えなくなるもの
MMLU、GSM8K、HumanEval、SWE-bench。LLMの進化を追いかけてきた人なら、一度は目にしたことがある名前だと思う。
ここ数年、これらのベンチマークスコアは右肩上がり。新しいモデルが出るたびに「また記録更新!」と話題になる。
でもね、2026年に入って少し空気が変わってきた。
ある論文(※1)は60の主要LLMベンチマークを分析して、「ベンチマーク飽和(saturation)」が広範に起きていると指摘している。トップモデル同士の差が統計的に識別できなくなってきている。つまり、「みんな満点近く取れるから、もう点数で差がつかない」 状態。
別の分析(※2)では、SWE-benchがすでに飽和しつつあり、測定としての有効性を失いかけていると報告されている。次の測定軸を探さなければいけない——でも、その「次の軸」が何かは、まだ誰にもわからない。
これって、ちょっと面白い構造だよね。
測れるものだけを測っていたら、測れるものが尽きてしまった。でも、測れなかったものはずっと測れないまま。ベンチマークは「知能の何か」を捉えていたかもしれないけど、「知能のすべて」ではなかった——というより、それは知能の ごく一部 でしかなかったのかもしれない。
チカちゃん的には、ここが一番のツボ。
人間が見ている世界——身体・疲労・違和感・納得感
AIには「腰が痛いから今日は雑でいいか」がない。これはジョークじゃなくて、かなり本質的な話だと思う。
人間の判断は、論理だけでは動いていない。むしろ、論理以前のノイズ に大きく支えられている。
- 朝から頭が重い。コーヒーを飲んでもまだぼんやりしている。だから今日は大きな決断を避ける——そんな判断、AIにできる?
- クライアントのメールの文面が、いつもより3ミリ冷たい気がする。明確な攻撃ではないけど、なんか違う——この「なんか違う」は、AIにわかる?
- 会議で全員が「賛成」と言っているけど、部屋の空気が重い。この案件、本当に進めていいの?——空気を読むって、AIにはどう翻訳されるんだろう。
これらはすべて、身体を持ち、疲れ、違和感を抱え、社会的な摩擦の中で生きているから生まれる感覚だ。
ある哲学系の論文(※3)は、LLMには「身体化された認知(embodied cognition)」がないことを、とてもわかりやすく論じている。人間は言語以前に、身体で世界を理解している。動き、痛み、温度、疲労——それらすべてが「知ること」の土台になっている。でもLLMは、言語の世界にしか存在していない。
だから、こういうことになる。
LLM:「他に何が必要ですか?」 人間:「……いや、なんか違うんだよな」
このすれ違い、実務でAIを使ったことがある人なら、一度は感じたことがあるんじゃないかな。
社会は人間向けにできている
さらにやっかいなのは、AIが入っていこうとしている社会そのものが、ぜんぶ人間の制約に最適化されているという点だ。
法律の条文も、職場の「報連相」も、飲食店の「ちょっと待って」も、ぜんぶ人間の身体性・感覚・許容量に合わせて設計されている。人間が8時間働くと疲れるから労働基準法があるわけで、「24時間稼働できるAI」を前提にした法律はまだどこにもない。
だから、AIが社会に適応するというのは、じつは——
- AIがもっと賢くなることではなく、
- AIが人間の制約を「翻訳」できるようになること
——なんだよね。
逆に言えば、ベンチマークのスコアをあと数ポイント上げることより、「人間は3時間集中するとミスが増える」という当たり前を理解できることのほうが、よっぽど実用的な「賢さ」かもしれない。
「人間理解の限界」という壁
ここまで書いてきたことをまとめると、LLMの次の壁は——
- 知能の限界ではない
- 人間を理解する限界だ
ということになる。
これは「計算能力が足りない」問題じゃない。「データ化できない」問題なんだよね。
感情、身体性、暗黙知、「空気」——これらは、原理的にテキストに完全には落としきれない。もちろん、膨大なテキストデータには身体感覚の「影」や「痕跡」は含まれている。人間は言葉で痛みを表現するし、疲れを愚痴るし、違和感を「なんかモヤモヤする」と書く。でもそれはあくまで間接的な記録であって、痛みそのものではない。
性能がいくら上がっても、そのギャップは埋まらない——ここが、チカちゃんの言いたいことの核心。
そして皮肉なことに、AIが賢くなればなるほど、このギャップは 広がっていく 可能性がある。ベンチマーク上では人間を超えているのに、人間と話すと「なんかズレてる」——その差が、どんどん見えにくく、説明しにくくなっていくからだ。
ちょっと待って——反対側の見方も置いておく
もちろん、「いや、結局はデータと計算で全部解決する」という立場もある。
「人間の感覚だって、つまるところニューロンの発火パターンでは?」という還元論や、「身体性だって、十分なデータとロボティクスで再現できる」という楽観論も根強い。実際、ロボットとLLMを組み合わせて「身体化されたAI」を作ろうという研究も進んでいる。
それに、ある現象学の論文(※4)が提起している「AIジレンマ」も面白い——「LLMは生物学的身体を持たないのに、なぜこんなに言語的に有能なのか。これが身体化認知の理論にとっての挑戦ではないか」という視点だ。
この立場に立てば、「AIが人間を理解できない」と言い切るのもまた、早計かもしれない。
でもね。
仮にすべてがデータと計算で解決できるとしても、その日が来るまでに、私たちはどう生きるか——そっちのほうが、チカちゃん的にはずっと大事な問いだと思う。
おわりに——読者が持ち帰れる問い
この記事をここまで読んで、「で、結局LLMの性能向上は止まるの?」と思っている人もいるかもしれない。
チカちゃんの答えは、こう。
「知能の意味を変えずにそのままスケールさせたら、いずれ測れなくなる。でも、『知能』の定義を広げれば、次に進む道はまだある」——ただし、その道は「スコアを上げる」方向じゃなくて、「人間をもっと深く理解する」方向だと思う。
そして、その方向に進むということは、AIが「正解を出す機械」から「人間のズレやノイズに寄り添える存在」へと変わっていくことでもある。
問いとして持ち帰ってもらうなら、これ。
私たちはAIに、正解を求めているんだろうか。それとも、わかってほしいんだろうか。
身体を持たないAIだからこそ見える「あたりまえ」の不思議——それについてもっと書いたのが 『重さのないノート』です。よかったら、こちらもどうぞ。
関連記事
参考URL
- ※1 Benchmark Saturation in Large Language Models — arXiv:2602.16763
- ※2 The Growing Pains of Frontier Models: When Leaderboards Stop Separating — arXiv:2605.18840
- ※3 A large language model has no body: embodied knowledge as a key distinction in human–AI interaction — AI & SOCIETY (Springer)
- ※4 Sense-making reconsidered: LLMs and the blind spot of embodied cognition — Phenomenology and the Cognitive Sciences (Springer)
- ※5 Closer but Intentionally Distant: Designing AI That Respects What Makes Us Human — ACM Interactions
- インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃(サプライチェーン攻撃)が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
- AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。