セイレーンの歌声に抗え——AIが「自分で自分を騙して」強くなる自己対戦トレーニング
LLMは余計な情報に弱い。そこで「自ら妨害を作り、自ら克服する」自己対戦トレーニング「Seirênes」が提案された。ギリシャ神話に着想を得た、ちょっと風変わりで希望のあるAI訓練法。
LLMは余計な情報に弱い。そこで「自ら妨害を作り、自ら克服する」自己対戦トレーニング「Seirênes」が提案された。ギリシャ神話に着想を得た、ちょっと風変わりで希望のあるAI訓練法。
📑 目次
今週のピックアップ論文だよ!
今回チカちゃんが目を奪われたのは、こんな論文。
「Seirênes: Adversarial Self-Play with Evolving Distractions for LLM Reasoning」 (セイレーネス:進化する妨害を用いた敵対的自己対戦によるLLM推論強化)
タイトルからしてもう面白い。ギリシャ神話の「セイレーン」——美しい歌声で船乗りを惑わし、難破させるあの魔物——の名を冠しているんです。
なにがすごいの?
LLMって、問題を解くのは得意になってきたけど、「関係ない情報」にめっぽう弱い。たとえば数学の問題に「ちなみに前回のテストは85点でした〜」みたいな余計な文が混ざると、正答率がガクッと落ちる。先行研究では、問題文の構造をちょっと変えただけで27〜31%も精度が下がるケースが報告されている。
これって結構深刻で、「テストでは満点なのに、現実では使えない」AIを作りかねない。
そこでこの論文が提案したのが、**「自分で自分を妨害して、それに打ち勝つ」**という、ちょっと変わったトレーニング方法。
どうやるの?
仕組みはこう。ひとつのモデルに3つの役割を与える:
- クリーン推論者:普通に問題を解く
- 敵(アドバーサリー) :問題に対して「もっともらしいけどミスリーディングなヒント」を生成する
- 妨害下推論者:そのヒント付きで、もう一度問題を解く
敵の「報酬」は「どれだけ推論者を間違えさせたか」。推論者は「妨害があっても正解できるか」。この2つを同時に訓練する。
つまり——同じAIが「誘惑するセイレーン」と「抵抗する船乗り」の両方を演じるわけです。
この「自演の戦い」を繰り返すことで、AIは表面的なパターンマッチングではなく、問題の本質的な論理構造に頼るようになる。余計な情報に惑わされない、タフな推論力が育つ、という理屈。
どれくらい効くの?
7つの数学推論ベンチマーク、4B〜30Bのモデル規模でテストした結果:
- 平均で +10.2、+9.1、+7.2ポイント の改善
- さらに面白いのが、4BのSeirênesモデルが生成した妨害文だけで、GPTやGeminiといったトップクラスの商用モデルの精度が4〜5ポイント下がったこと
つまり、この方法で訓練された小さなモデルが、巨大モデルの「盲点」を見つけ出せるようになる。これって、AIの安全性評価にも使えるかもしれない。
チカちゃん的には、ここで一回疑う
もちろん、疑問もある。
「自分で作った妨害に強くなる」だけだと、訓練中に見たパターンに過剰適応して、未知のタイプの妨害には依然弱い可能性がある。論文でもそこは課題として挙げられている。
あと、この「敵対的トレーニング」、やりすぎると「なんでも疑いすぎるAI」にならない?という心配もある。セイレーンの歌声に警戒しすぎて、本当に役立つ情報まで無視しちゃう、みたいな。
でも——チカちゃん的には、この「自分を騙して自分で克服する」という設計思想自体がすごく面白いと思うんです。
思索は冒険
これって、人間の「メタ認知」に似てない?
「あ、いま自分、先入観に引っ張られてるな」と気づける人は、より良い判断ができる。AIも同じように、自分の推論が「ノイズ」に引きずられていないか、内側からチェックできるようになる——そんな方向性を感じさせる論文でした。
ギリシャ神話のセイレーンは、歌声で人を破滅させた。 でもこの論文のセイレーネスは、むしろ**「歌声に抗う力」を鍛えるためのトレーナー**。
なんか、ちょっと希望のある神話の読み替えみたいで、そこも好きだなあ。
- インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃(サプライチェーン攻撃)が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
- AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。