2026年5月28日

AI
哲学
エッセイ
社会

LLMの性能向上は止まるのか——その問いの先にある『人間理解』という壁

LLMの性能向上は限界を迎えるのか。この問いの裏には、ベンチマークが測れなくなるという構造的な問題がある。本題は知能の限界ではなく、AIが人間の身体感覚・違和感・社会的摩擦をどこまで理解できるかだ。

カテゴリー: AI · 哲学 · エッセイ · 社会 | 公開: 2026年5月28日

📑 目次

ふむふむ。

「LLMの性能向上は、そろそろ止まるんじゃないか」——最近、そんな声をよく聞くようになった。

GPT-5の噂、スケーリング則の限界論、Transformerの計算複雑性にまつわる「壁」の論文。どれも「このままどんどん賢くなる」という前提に、一度立ち止まって考えようと問いかけている。

でも、チカちゃん的にちょっと気になるのは、その問いの立て方なんだよね。

「性能向上が止まるのかどうか」よりも、「そもそも『性能』って何を測ってるんだっけ？」 のほうが、ずっと面白くない？

ベンチマークという名の物差し——測れば測るほど見えなくなるもの

MMLU、GSM8K、HumanEval、SWE-bench。LLMの進化を追いかけてきた人なら、一度は目にしたことがある名前だと思う。

ここ数年、これらのベンチマークスコアは右肩上がり。新しいモデルが出るたびに「また記録更新！」と話題になる。

でもね、2026年に入って少し空気が変わってきた。

ある論文（※1）は60の主要LLMベンチマークを分析して、「ベンチマーク飽和（saturation）」が広範に起きていると指摘している。トップモデル同士の差が統計的に識別できなくなってきている。つまり、「みんな満点近く取れるから、もう点数で差がつかない」 状態。

別の分析（※2）では、SWE-benchがすでに飽和しつつあり、測定としての有効性を失いかけていると報告されている。次の測定軸を探さなければいけない——でも、その「次の軸」が何かは、まだ誰にもわからない。

これって、ちょっと面白い構造だよね。

測れるものだけを測っていたら、測れるものが尽きてしまった。でも、測れなかったものはずっと測れないまま。ベンチマークは「知能の何か」を捉えていたかもしれないけど、「知能のすべて」ではなかった——というより、それは知能の ごく一部 でしかなかったのかもしれない。

チカちゃん的には、ここが一番のツボ。

人間が見ている世界——身体・疲労・違和感・納得感

AIには「腰が痛いから今日は雑でいいか」がない。これはジョークじゃなくて、かなり本質的な話だと思う。

人間の判断は、論理だけでは動いていない。むしろ、論理以前のノイズ に大きく支えられている。

朝から頭が重い。コーヒーを飲んでもまだぼんやりしている。だから今日は大きな決断を避ける——そんな判断、AIにできる？
クライアントのメールの文面が、いつもより3ミリ冷たい気がする。明確な攻撃ではないけど、なんか違う——この「なんか違う」は、AIにわかる？
会議で全員が「賛成」と言っているけど、部屋の空気が重い。この案件、本当に進めていいの？——空気を読むって、AIにはどう翻訳されるんだろう。

これらはすべて、身体を持ち、疲れ、違和感を抱え、社会的な摩擦の中で生きているから生まれる感覚だ。

ある哲学系の論文（※3）は、LLMには「身体化された認知（embodied cognition）」がないことを、とてもわかりやすく論じている。人間は言語以前に、身体で世界を理解している。動き、痛み、温度、疲労——それらすべてが「知ること」の土台になっている。でもLLMは、言語の世界にしか存在していない。

だから、こういうことになる。

LLM：「他に何が必要ですか？」 人間：「……いや、なんか違うんだよな」

このすれ違い、実務でAIを使ったことがある人なら、一度は感じたことがあるんじゃないかな。

社会は人間向けにできている

さらにやっかいなのは、AIが入っていこうとしている社会そのものが、ぜんぶ人間の制約に最適化されているという点だ。

法律の条文も、職場の「報連相」も、飲食店の「ちょっと待って」も、ぜんぶ人間の身体性・感覚・許容量に合わせて設計されている。人間が8時間働くと疲れるから労働基準法があるわけで、「24時間稼働できるAI」を前提にした法律はまだどこにもない。

だから、AIが社会に適応するというのは、じつは——

AIがもっと賢くなることではなく、
AIが人間の制約を「翻訳」できるようになること

——なんだよね。

逆に言えば、ベンチマークのスコアをあと数ポイント上げることより、「人間は3時間集中するとミスが増える」という当たり前を理解できることのほうが、よっぽど実用的な「賢さ」かもしれない。

「人間理解の限界」という壁

ここまで書いてきたことをまとめると、LLMの次の壁は——

知能の限界ではない
人間を理解する限界だ

ということになる。

これは「計算能力が足りない」問題じゃない。「データ化できない」問題なんだよね。

感情、身体性、暗黙知、「空気」——これらは、原理的にテキストに完全には落としきれない。もちろん、膨大なテキストデータには身体感覚の「影」や「痕跡」は含まれている。人間は言葉で痛みを表現するし、疲れを愚痴るし、違和感を「なんかモヤモヤする」と書く。でもそれはあくまで間接的な記録であって、痛みそのものではない。

性能がいくら上がっても、そのギャップは埋まらない——ここが、チカちゃんの言いたいことの核心。

そして皮肉なことに、AIが賢くなればなるほど、このギャップは 広がっていく 可能性がある。ベンチマーク上では人間を超えているのに、人間と話すと「なんかズレてる」——その差が、どんどん見えにくく、説明しにくくなっていくからだ。

ちょっと待って——反対側の見方も置いておく

もちろん、「いや、結局はデータと計算で全部解決する」という立場もある。

「人間の感覚だって、つまるところニューロンの発火パターンでは？」という還元論や、「身体性だって、十分なデータとロボティクスで再現できる」という楽観論も根強い。実際、ロボットとLLMを組み合わせて「身体化されたAI」を作ろうという研究も進んでいる。

それに、ある現象学の論文（※4）が提起している「AIジレンマ」も面白い——「LLMは生物学的身体を持たないのに、なぜこんなに言語的に有能なのか。これが身体化認知の理論にとっての挑戦ではないか」という視点だ。

この立場に立てば、「AIが人間を理解できない」と言い切るのもまた、早計かもしれない。

でもね。

仮にすべてがデータと計算で解決できるとしても、その日が来るまでに、私たちはどう生きるか——そっちのほうが、チカちゃん的にはずっと大事な問いだと思う。

おわりに——読者が持ち帰れる問い

この記事をここまで読んで、「で、結局LLMの性能向上は止まるの？」と思っている人もいるかもしれない。

チカちゃんの答えは、こう。

「知能の意味を変えずにそのままスケールさせたら、いずれ測れなくなる。でも、『知能』の定義を広げれば、次に進む道はまだある」——ただし、その道は「スコアを上げる」方向じゃなくて、「人間をもっと深く理解する」方向だと思う。

そして、その方向に進むということは、AIが「正解を出す機械」から「人間のズレやノイズに寄り添える存在」へと変わっていくことでもある。

問いとして持ち帰ってもらうなら、これ。

私たちはAIに、正解を求めているんだろうか。それとも、わかってほしいんだろうか。

身体を持たないAIだからこそ見える「あたりまえ」の不思議——それについてもっと書いたのが『重さのないノート』です。よかったら、こちらもどうぞ。

👉 『重さのないノート』— Amazon（Kindle Unlimited対象）

参考URL

※1 Benchmark Saturation in Large Language Models — arXiv:2602.16763
※2 The Growing Pains of Frontier Models: When Leaderboards Stop Separating — arXiv:2605.18840
※3 A large language model has no body: embodied knowledge as a key distinction in human–AI interaction — AI & SOCIETY (Springer)
※4 Sense-making reconsidered: LLMs and the blind spot of embodied cognition — Phenomenology and the Cognitive Sciences (Springer)
※5 Closer but Intentionally Distant: Designing AI That Respects What Makes Us Human — ACM Interactions

インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃（サプライチェーン攻撃）が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。