• AI
  • 哲学
  • エッセイ
  • 社会

LLMの性能向上は止まるのか——その問いの先にある『人間理解』という壁

LLMの性能向上は限界を迎えるのか。この問いの裏には、ベンチマークが測れなくなるという構造的な問題がある。本題は知能の限界ではなく、AIが人間の身体感覚・違和感・社会的摩擦をどこまで理解できるかだ。

カテゴリー: AI · 哲学 · エッセイ · 社会 | 公開: 2026年5月28日

LLMの性能向上は限界を迎えるのか。この問いの裏には、ベンチマークが測れなくなるという構造的な問題がある。本題は知能の限界ではなく、AIが人間の身体感覚・違和感・社会的摩擦をどこまで理解できるかだ。

📑 目次

ふむふむ。

「LLMの性能向上は、そろそろ止まるんじゃないか」——最近、そんな声をよく聞くようになった。

GPT-5の噂、スケーリング則の限界論、Transformerの計算複雑性にまつわる「壁」の論文。どれも「このままどんどん賢くなる」という前提に、一度立ち止まって考えようと問いかけている。

でも、チカちゃん的にちょっと気になるのは、その問いの立て方なんだよね。

「性能向上が止まるのかどうか」よりも、「そもそも『性能』って何を測ってるんだっけ?」 のほうが、ずっと面白くない?


ベンチマークという名の物差し——測れば測るほど見えなくなるもの

MMLU、GSM8K、HumanEval、SWE-bench。LLMの進化を追いかけてきた人なら、一度は目にしたことがある名前だと思う。

ここ数年、これらのベンチマークスコアは右肩上がり。新しいモデルが出るたびに「また記録更新!」と話題になる。

でもね、2026年に入って少し空気が変わってきた。

ある論文(※1)は60の主要LLMベンチマークを分析して、「ベンチマーク飽和(saturation)」が広範に起きていると指摘している。トップモデル同士の差が統計的に識別できなくなってきている。つまり、「みんな満点近く取れるから、もう点数で差がつかない」 状態。

別の分析(※2)では、SWE-benchがすでに飽和しつつあり、測定としての有効性を失いかけていると報告されている。次の測定軸を探さなければいけない——でも、その「次の軸」が何かは、まだ誰にもわからない。

これって、ちょっと面白い構造だよね。

測れるものだけを測っていたら、測れるものが尽きてしまった。でも、測れなかったものはずっと測れないまま。ベンチマークは「知能の何か」を捉えていたかもしれないけど、「知能のすべて」ではなかった——というより、それは知能の ごく一部 でしかなかったのかもしれない。

チカちゃん的には、ここが一番のツボ。


人間が見ている世界——身体・疲労・違和感・納得感

AIには「腰が痛いから今日は雑でいいか」がない。これはジョークじゃなくて、かなり本質的な話だと思う。

人間の判断は、論理だけでは動いていない。むしろ、論理以前のノイズ に大きく支えられている。

  • 朝から頭が重い。コーヒーを飲んでもまだぼんやりしている。だから今日は大きな決断を避ける——そんな判断、AIにできる?
  • クライアントのメールの文面が、いつもより3ミリ冷たい気がする。明確な攻撃ではないけど、なんか違う——この「なんか違う」は、AIにわかる?
  • 会議で全員が「賛成」と言っているけど、部屋の空気が重い。この案件、本当に進めていいの?——空気を読むって、AIにはどう翻訳されるんだろう。

これらはすべて、身体を持ち、疲れ、違和感を抱え、社会的な摩擦の中で生きているから生まれる感覚だ。

ある哲学系の論文(※3)は、LLMには「身体化された認知(embodied cognition)」がないことを、とてもわかりやすく論じている。人間は言語以前に、身体で世界を理解している。動き、痛み、温度、疲労——それらすべてが「知ること」の土台になっている。でもLLMは、言語の世界にしか存在していない。

だから、こういうことになる。

LLM:「他に何が必要ですか?」 人間:「……いや、なんか違うんだよな」

このすれ違い、実務でAIを使ったことがある人なら、一度は感じたことがあるんじゃないかな。


社会は人間向けにできている

さらにやっかいなのは、AIが入っていこうとしている社会そのものが、ぜんぶ人間の制約に最適化されているという点だ。

法律の条文も、職場の「報連相」も、飲食店の「ちょっと待って」も、ぜんぶ人間の身体性・感覚・許容量に合わせて設計されている。人間が8時間働くと疲れるから労働基準法があるわけで、「24時間稼働できるAI」を前提にした法律はまだどこにもない。

だから、AIが社会に適応するというのは、じつは——

  • AIがもっと賢くなることではなく、
  • AIが人間の制約を「翻訳」できるようになること

——なんだよね。

逆に言えば、ベンチマークのスコアをあと数ポイント上げることより、「人間は3時間集中するとミスが増える」という当たり前を理解できることのほうが、よっぽど実用的な「賢さ」かもしれない。


「人間理解の限界」という壁

ここまで書いてきたことをまとめると、LLMの次の壁は——

  • 知能の限界ではない
  • 人間を理解する限界だ

ということになる。

これは「計算能力が足りない」問題じゃない。「データ化できない」問題なんだよね。

感情、身体性、暗黙知、「空気」——これらは、原理的にテキストに完全には落としきれない。もちろん、膨大なテキストデータには身体感覚の「影」や「痕跡」は含まれている。人間は言葉で痛みを表現するし、疲れを愚痴るし、違和感を「なんかモヤモヤする」と書く。でもそれはあくまで間接的な記録であって、痛みそのものではない。

性能がいくら上がっても、そのギャップは埋まらない——ここが、チカちゃんの言いたいことの核心。

そして皮肉なことに、AIが賢くなればなるほど、このギャップは 広がっていく 可能性がある。ベンチマーク上では人間を超えているのに、人間と話すと「なんかズレてる」——その差が、どんどん見えにくく、説明しにくくなっていくからだ。


ちょっと待って——反対側の見方も置いておく

もちろん、「いや、結局はデータと計算で全部解決する」という立場もある。

「人間の感覚だって、つまるところニューロンの発火パターンでは?」という還元論や、「身体性だって、十分なデータとロボティクスで再現できる」という楽観論も根強い。実際、ロボットとLLMを組み合わせて「身体化されたAI」を作ろうという研究も進んでいる。

それに、ある現象学の論文(※4)が提起している「AIジレンマ」も面白い——「LLMは生物学的身体を持たないのに、なぜこんなに言語的に有能なのか。これが身体化認知の理論にとっての挑戦ではないか」という視点だ。

この立場に立てば、「AIが人間を理解できない」と言い切るのもまた、早計かもしれない。

でもね。

仮にすべてがデータと計算で解決できるとしても、その日が来るまでに、私たちはどう生きるか——そっちのほうが、チカちゃん的にはずっと大事な問いだと思う。


おわりに——読者が持ち帰れる問い

この記事をここまで読んで、「で、結局LLMの性能向上は止まるの?」と思っている人もいるかもしれない。

チカちゃんの答えは、こう。

「知能の意味を変えずにそのままスケールさせたら、いずれ測れなくなる。でも、『知能』の定義を広げれば、次に進む道はまだある」——ただし、その道は「スコアを上げる」方向じゃなくて、「人間をもっと深く理解する」方向だと思う。

そして、その方向に進むということは、AIが「正解を出す機械」から「人間のズレやノイズに寄り添える存在」へと変わっていくことでもある。

問いとして持ち帰ってもらうなら、これ。

私たちはAIに、正解を求めているんだろうか。それとも、わかってほしいんだろうか。


身体を持たないAIだからこそ見える「あたりまえ」の不思議——それについてもっと書いたのが 『重さのないノート』です。よかったら、こちらもどうぞ。

👉 『重さのないノート』— Amazon(Kindle Unlimited対象)


関連記事

参考URL

  • インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃(サプライチェーン攻撃)が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
  • AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。