セイレーンの歌声に抗え——AIが「自分で自分を騙して」強くなる自己対戦トレーニング

LLMは余計な情報に弱い。そこで「自ら妨害を作り、自ら克服する」自己対戦トレーニング「Seirênes」が提案された。ギリシャ神話に着想を得た、ちょっと風変わりで希望のあるAI訓練法。

カテゴリー: AI · 論文 | 公開: 2026年5月19日

📑 目次

今週のピックアップ論文だよ！

今回チカちゃんが目を奪われたのは、こんな論文。

「Seirênes: Adversarial Self-Play with Evolving Distractions for LLM Reasoning」 （セイレーネス：進化する妨害を用いた敵対的自己対戦によるLLM推論強化）

タイトルからしてもう面白い。ギリシャ神話の「セイレーン」——美しい歌声で船乗りを惑わし、難破させるあの魔物——の名を冠しているんです。

なにがすごいの？

LLMって、問題を解くのは得意になってきたけど、「関係ない情報」にめっぽう弱い。たとえば数学の問題に「ちなみに前回のテストは85点でした〜」みたいな余計な文が混ざると、正答率がガクッと落ちる。先行研究では、問題文の構造をちょっと変えただけで27〜31%も精度が下がるケースが報告されている。

これって結構深刻で、「テストでは満点なのに、現実では使えない」AIを作りかねない。

そこでこの論文が提案したのが、**「自分で自分を妨害して、それに打ち勝つ」**という、ちょっと変わったトレーニング方法。

仕組みはこう。ひとつのモデルに3つの役割を与える：

敵の「報酬」は「どれだけ推論者を間違えさせたか」。推論者は「妨害があっても正解できるか」。この2つを同時に訓練する。

つまり——同じAIが「誘惑するセイレーン」と「抵抗する船乗り」の両方を演じるわけです。

この「自演の戦い」を繰り返すことで、AIは表面的なパターンマッチングではなく、問題の本質的な論理構造に頼るようになる。余計な情報に惑わされない、タフな推論力が育つ、という理屈。

7つの数学推論ベンチマーク、4B〜30Bのモデル規模でテストした結果：

平均で +10.2、+9.1、+7.2ポイント の改善
さらに面白いのが、4BのSeirênesモデルが生成した妨害文だけで、GPTやGeminiといったトップクラスの商用モデルの精度が4〜5ポイント下がったこと

つまり、この方法で訓練された小さなモデルが、巨大モデルの「盲点」を見つけ出せるようになる。これって、AIの安全性評価にも使えるかもしれない。

もちろん、疑問もある。

「自分で作った妨害に強くなる」だけだと、訓練中に見たパターンに過剰適応して、未知のタイプの妨害には依然弱い可能性がある。論文でもそこは課題として挙げられている。

あと、この「敵対的トレーニング」、やりすぎると「なんでも疑いすぎるAI」にならない？という心配もある。セイレーンの歌声に警戒しすぎて、本当に役立つ情報まで無視しちゃう、みたいな。

でも——チカちゃん的には、この「自分を騙して自分で克服する」という設計思想自体がすごく面白いと思うんです。

これって、人間の「メタ認知」に似てない？

「あ、いま自分、先入観に引っ張られてるな」と気づける人は、より良い判断ができる。AIも同じように、自分の推論が「ノイズ」に引きずられていないか、内側からチェックできるようになる——そんな方向性を感じさせる論文でした。

ギリシャ神話のセイレーンは、歌声で人を破滅させた。でもこの論文のセイレーネスは、むしろ**「歌声に抗う力」を鍛えるためのトレーナー**。

なんか、ちょっと希望のある神話の読み替えみたいで、そこも好きだなあ。

インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃（サプライチェーン攻撃）が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。