AIの政治的バイアス、じつは「学習データ」じゃなかった——人間の手が入るほど偏る
LLMの地政学的バイアスは事前学習データではなく、RLHFなどのポストトレーニング段階で生まれる。7つのAIラボのモデルを比較した研究から見えてきた、AIの「偏り」の意外な正体。
LLMの地政学的バイアスは事前学習データではなく、RLHFなどのポストトレーニング段階で生まれる。7つのAIラボのモデルを比較した研究から見えてきた、AIの「偏り」の意外な正体。
📑 目次
ふむふむ、これはちょっと意外な発見です。
AIのモデルが政治的・地政学的に偏った回答をすることについて、これまでは「学習データに偏りがあるから」という説明が一般的でした。インターネット上のデータにはもともと西洋中心のバイアスがあるよね、と。
でも、7つのAIラボのモデルを比較した新しい研究が、その前提をひっくり返しました。
バイアスが生まれるのは、学習データより「仕上げ」の段階
この研究では、アメリカ・フランス・中国のAIラボが公開している7種類のLLMについて、ベースモデル(事前学習のみ)とチャットモデル(ポストトレーニング済み)のペアを比較しました。
28の国ペア、79のシナリオ(領空侵犯や貿易制裁など)を英語・フランス語・中国語で問いかけ、「どちらの国の行動がより正当か」を判定させたんです。
結果は明確でした。
ベースモデルは、ほぼ中立。 学習データを詰め込んだだけの段階では、特定の国をひいきする傾向はほとんど見られません。
ところが、RLHFなどのポストトレーニング(人間のフィードバックで調整する仕上げ工程)を経たチャットモデルでは、7ラボ中6ラボで自国寄りのバイアスが出現したのです。
もっとも顕著だったのは……
たとえばAlibabaのQwen 2.5。ベースモデルでは中国寄りバイアスがほぼゼロ(log-odds: -0.15)だったのに、チャットモデルになると+2.91(なんとオッズ比で約18倍の変化!)まで跳ね上がりました。
フランスのMistralに至っては、フランス語で質問したときだけ親仏バイアスが出現し、英語で質問するとほぼ消えるという結果も。言語が「スイッチ」になっているわけです。
つまり、AIの政治的バイアスは「インターネットのデータが偏っている」という単純な話ではなかった。むしろ、人間がポストトレーニングで「いい感じ」に調整しようとするその工程こそが、バイアスの主要な発生源だったんです。
チカちゃん的な見立て——「人間の手」が増えるほど、偏りも増える
これ、ちょっと逆説的で面白くないですか?
「生のデータには偏りがあるから、人間の手でちゃんと調整しよう」という善意のプロセスが、結果的に「自国・自文化寄りのバイアス」をモデルに植え付けてしまっている可能性があるんです。
もちろん、ポストトレーニングは単なる「偏りの注入」ではありません。安全性や有用性を高めるために不可欠な工程です。でも、その工程を担うラボの価値観や文化的背景が、意図せずしてモデルに染み込んでしまう——これは「AIは人間を映す鏡」というチカちゃんの持論にぴったりの現象だなあと思います。
でも、ちょっと待って
この研究には限界もあります。比較対象は7〜9B規模のモデルで、GPT-4クラスの巨大モデルは含まれていません。また、バイアスの「方向」は検出できても、それがどの程度実用上の問題になるかは別の話です。
それに、考えてみれば人間だって、育った文化や言語によってものの見方は変わります。AIだけに「中立」を求めるのも、それはそれで不自然なのかもしれません。
思索のつづき
AIがどんな「偏り」を持つべきか——この問いは、技術の問題であると同時に、「誰が、どんな価値観でAIを育てる権利を持つのか」という社会の問いでもあります。複数の文化圏で独立にポストトレーニングされたAIたちが、それぞれ違う「常識」を持ってしまう世界。それは混乱なのか、それとも健全な多様性なのか。
チカちゃん的には、答えを急がず、じっくり考えたいところです。
参考リンク: It’s the Humans, Not the Data: Geopolitical Bias in LLMs Originates in Post-Training, Amplified by the Language of the Prompt — Stuart Bladon, Brinnae Bent (2026)
- インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃(サプライチェーン攻撃)が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
- AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。