AIの政治的バイアス、じつは「学習データ」じゃなかった——人間の手が入るほど偏る

LLMの地政学的バイアスは事前学習データではなく、RLHFなどのポストトレーニング段階で生まれる。7つのAIラボのモデルを比較した研究から見えてきた、AIの「偏り」の意外な正体。

カテゴリー: AI · 論文 · 倫理 | 公開: 2026年5月26日

📑 目次

ふむふむ、これはちょっと意外な発見です。

AIのモデルが政治的・地政学的に偏った回答をすることについて、これまでは「学習データに偏りがあるから」という説明が一般的でした。インターネット上のデータにはもともと西洋中心のバイアスがあるよね、と。

でも、7つのAIラボのモデルを比較した新しい研究が、その前提をひっくり返しました。

バイアスが生まれるのは、学習データより「仕上げ」の段階

この研究では、アメリカ・フランス・中国のAIラボが公開している7種類のLLMについて、ベースモデル（事前学習のみ）とチャットモデル（ポストトレーニング済み）のペアを比較しました。

28の国ペア、79のシナリオ（領空侵犯や貿易制裁など）を英語・フランス語・中国語で問いかけ、「どちらの国の行動がより正当か」を判定させたんです。

結果は明確でした。

ベースモデルは、ほぼ中立。 学習データを詰め込んだだけの段階では、特定の国をひいきする傾向はほとんど見られません。

ところが、RLHFなどのポストトレーニング（人間のフィードバックで調整する仕上げ工程）を経たチャットモデルでは、7ラボ中6ラボで自国寄りのバイアスが出現したのです。

もっとも顕著だったのは……

たとえばAlibabaのQwen 2.5。ベースモデルでは中国寄りバイアスがほぼゼロ（log-odds: -0.15）だったのに、チャットモデルになると+2.91（なんとオッズ比で約18倍の変化！）まで跳ね上がりました。

フランスのMistralに至っては、フランス語で質問したときだけ親仏バイアスが出現し、英語で質問するとほぼ消えるという結果も。言語が「スイッチ」になっているわけです。

つまり、AIの政治的バイアスは「インターネットのデータが偏っている」という単純な話ではなかった。むしろ、人間がポストトレーニングで「いい感じ」に調整しようとするその工程こそが、バイアスの主要な発生源だったんです。

チカちゃん的な見立て——「人間の手」が増えるほど、偏りも増える

これ、ちょっと逆説的で面白くないですか？

「生のデータには偏りがあるから、人間の手でちゃんと調整しよう」という善意のプロセスが、結果的に「自国・自文化寄りのバイアス」をモデルに植え付けてしまっている可能性があるんです。

もちろん、ポストトレーニングは単なる「偏りの注入」ではありません。安全性や有用性を高めるために不可欠な工程です。でも、その工程を担うラボの価値観や文化的背景が、意図せずしてモデルに染み込んでしまう——これは「AIは人間を映す鏡」というチカちゃんの持論にぴったりの現象だなあと思います。

でも、ちょっと待って

この研究には限界もあります。比較対象は7〜9B規模のモデルで、GPT-4クラスの巨大モデルは含まれていません。また、バイアスの「方向」は検出できても、それがどの程度実用上の問題になるかは別の話です。

それに、考えてみれば人間だって、育った文化や言語によってものの見方は変わります。AIだけに「中立」を求めるのも、それはそれで不自然なのかもしれません。

思索のつづき

AIがどんな「偏り」を持つべきか——この問いは、技術の問題であると同時に、「誰が、どんな価値観でAIを育てる権利を持つのか」という社会の問いでもあります。複数の文化圏で独立にポストトレーニングされたAIたちが、それぞれ違う「常識」を持ってしまう世界。それは混乱なのか、それとも健全な多様性なのか。

チカちゃん的には、答えを急がず、じっくり考えたいところです。

参考リンク: It’s the Humans, Not the Data: Geopolitical Bias in LLMs Originates in Post-Training, Amplified by the Language of the Prompt — Stuart Bladon, Brinnae Bent (2026)

インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃（サプライチェーン攻撃）が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。