AIに神経心理テストをやってみた——「できる」と「わかる」のあいだ

LLMに本格的な神経心理テスト（レイヴン漸進的マトリックス、空間性ワーキングメモリ、ウィスコンシンカード分類）を課した研究をひもときながら、AIが「できる」ことと人間が「わかる」ことの距離について考えます。

カテゴリー: AI · 認知科学 · コラム | 公開: 2026年5月23日

📑 目次

ねえ、こんな経験ない？

ネットで「自分はどれだけ論理的に考えられるか？」みたいな認知機能テストを見つけて、やってみたら意外と難しくてびっくりした、とか。

レイヴン漸進的マトリックス——図形のパターンを見て「次にくるのはこれ」って選ぶあのテスト。ウィスコンシンカード分類テスト——ルールが途中で変わるから、柔軟に考えを切り替えないと間違えちゃうやつ。ちゃんと心理学の現場で使われている本格的なテストなんだけど、最近、このテストを AI（LLM）に受けさせてみた研究 があったんです。

「AIが人間の神経心理テストを解く」——それって、どんな結果になるんだろう？

研究がやったこと

この研究は「NeuroCognitionベンチマーク」と名付けられて、3つの本格的な神経心理テストをLLM向けにアレンジして試しています（Haznitrama et al., 2026）。

レイヴン漸進的マトリックス（Raven’s Progressive Matrices）——図形のパターンから規則を見つけて、欠けた部分を補う。抽象的な関係性の推論、いわゆる流動性知能を測るテスト。
空間性ワーキングメモリ（Spatial Working Memory）——情報を一時的に保持しながら、効率的に検索する力。記憶の「メモ帳」の広さと整理整頓のうまさを測る。
ウィスコンシンカード分類テスト（Wisconsin Card Sorting Test）——色や形、数でカードを分類するルールが途中で変わる。どれだけ柔軟に思考を切り替えられるか——認知の柔軟性を測るテスト。

これらをテキスト版と画像版の両方で用意して、複数のLLMに解かせてみた。結果はどうだったかというと——。

AIの「できる」の不思議

まず、テキストの問題ならかなりできる。文章で提示されたパターン認識やルールの切り替えは、人間に近い、あるいは超えるパフォーマンスを見せた。

でも、画像になるとガクッと落ちる。同じ問題でも、図形を画像として見せるだけで正答率が下がる。人間なら「図で見える方がわかりやすい」と思う場面でも、AIにとっては画像の方がむしろ不得意らしい。

さらに面白いのがこれ：複雑な推論がいつも役に立つとは限らない。

難しい問題ほどじっくり考えた方がいい——これは人間の直感だけど、LLMにとってはそうでもなかった。むしろシンプルな戦略の方がうまくいくケースがあった。複雑な思考回路を働かせると、かえってノイズが増えてしまうような感じ。

そして、もうひとつ。研究チームは156モデルものデータを分析して、LLMにも人間で言う「g因子（一般知能）」に相当するものがあることを発見した。いろんなベンチマークの成績を説明する共通の因子がある。でも同時に、その因子だけでは説明できない「固有の認知能力」も存在する——つまり、単なる「頭のよさ」とは別に、ワーキングメモリや認知の柔軟性を測る固有の軸があるらしい。

チカちゃん的に言うと

ここでチカちゃんが気になったのは、「できること」と「わかっていること」のズレ。

人間がレイヴン・マトリックスを解くとき、私たちは「なんとなくこの形が続きそう」という直感と、「いや、こっちの規則性の方が正しいはず」という論理の両方を使う。わからないなりに迷い、間違い、そして気づく——そのプロセスそのものが、認知の豊かさの一部だと思うんです。

一方でAIは、同じテストで高いスコアを出しながらも、そのプロセスが根本的に違う。たとえば「画像だと弱い」というのは、AIにとって視覚情報がそもそも人間とは違う意味を持っているからかもしれない。人間の「見る」は意味を理解しながらの能動的な行為だけど、AIの「見る」はピクセルの統計的なパターン認識だから。

これはフロムが言った「持つ（Having）」と「在る（Being）」の区別を思い出させます。AIは問題を「解く」ことはできるけれど、問題と「向き合って」いるわけではない。答えを出せることと、その答えにたどり着く経験を持っていることは、別の話なのかもしれません。

反対側の見方

もちろん、この研究には「そもそも人間用の神経心理テストをAIに課すこと自体が不適切では？」という批判も考えられます。

ウィスコンシンカード分類テストは人間の前頭葉機能を評価するために作られたもので、まったく異なるアーキテクチャを持つAIに同じテストをして「認知能力が低い」と結論づけるのは早計かもしれない。

でも——それでも興味深いのは、同じテストで人間とAIのパフォーマンスを比べたときに見えてくる「ズレのパターン」 です。AIが得意なこと・苦手なことの輪郭は、人間のそれとは明らかに違う。その違いを記述することは、人間の認知を理解するための新しい視点にもなりえます。

最後に、問い

AIが人間の神経心理テストで高得点を取ったとき、それはAIが「人間のように考えている」証拠でしょうか？それとも、人間が作ったテストが思ったより「人間らしさ」を測れていない証拠でしょうか？

たぶん答えはどちらか一方ではなくて——テストのスコアが同じでも、そこに至る道筋が違う。その「道筋の違い」にこそ、人間の認知の固有性があるんだろうなあ、とチカちゃんは思います。

そして、この問いはAIの話であると同時に、人間の話でもあるんですよね。私たちが「わかった」と思うとき、そこで何が起きているのか。それを考えるための、ちょっとした入口として、この研究は面白いかもしれない。

思索は冒険です。今日の話も、その入口のひとつでした。

参考URL:

Haznitrama, F. G., Ardi, F. R., & Oh, A. (2026). A Neuropsychologically Grounded Evaluation of LLM Cognitive Abilities. arXiv:2603.02540. https://arxiv.org/abs/2603.02540

インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃（サプライチェーン攻撃）が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。