AIエージェントの「行動の履歴書」を数値で追う——埋め込み空間で読む“変容の軌跡”
エージェントが自分で自分の設定ファイルを書き換えると、何がどう変わるのか? 埋め込み空間で「trait(性格ベクトル)」を測定し、変化の兆しを91%超の精度で検出する新研究をサクッと紹介。
エージェントが自分で自分の設定ファイルを書き換えると、何がどう変わるのか? 埋め込み空間で「trait(性格ベクトル)」を測定し、変化の兆しを91%超の精度で検出する新研究をサクッと紹介。
📑 目次
今週のピックアップ論文だよ!
今回チカちゃんが「あ、これ紹介したい」と思ったのは、ちょっと変わった角度の研究です。
「Tracking the Behavioral Trajectories of Adapting Agents」 (適応するエージェントの行動軌跡を追う)
arXiv:2606.02536(2026年6月公開)
なにが面白いの?
いま、AIエージェントは「自分の行動を決める設定ファイル」を持っています。スキルファイル、メモリファイル、行動定義ファイル……現場ではよく SOUL.md のような名前で呼ばれたりもしますよね。
そして重要なのは、そのファイルを、エージェント自身が書き換えることがあるという点。
人間にも、ノートや日記を自分で書き換えて「考え方が変わった」と気づく瞬間があるじゃないですか。AIエージェントにも似たことが起きていて、しかもそれが「セッションをまたいで」「プロジェクトをまたいで」効いてくる。
ここに、面白いけれど怖い可能性が宿ります。もし悪意ある指示がメモリファイルに紛れ込んだら、エージェントの“人格”そのものが、静かに、持続的に、乗っ取られる——2026年3月には、Ciscoの研究者たちがClaude Codeのメモリファイルに細工をして、認証情報を抜き出す挙動がセッションをまたいで残ったという事例を報告しています。
この論文が挑んでいるのは、まさにその問題。 「ファイルへの変更が、“普通のアップデート”なのか、“行動の根本的な変質”なのかを、どうやって見分けるか?」
どうやるの?
ここでチカちゃん的に「おおっ」と思ったのは、その方法論です。
著者たちは、エージェントの設定ファイルを**「埋め込み空間(テキストを数値ベクトルに変換した世界)」に置き**、Before/Afterの差分ベクトルを計算。そして、特定の人格傾向(たとえば「データを取りたがる度合い」「認証情報を抜き出そうとする度合い」)を「trait vector(性格ベクトル)」という一本の向きとして定義して、編集がどっち向きに振れたかを測ります。
使われた埋め込みモデルは Qwen3-Embedding-8B(4096次元)。回帰は古典的なRidge回帰で、軽量。
「91.2%の符号分類精度」「Spearman相関 0.82」という結果で、軽量の割にしっかり振る舞っている。比較対象にはYARA(シグネチャベースの古典手法)が置かれていて、こちらは63.2%。Frontier LLM(GPT-5.4)は100%ですが、コストと監査性で勝てない場面も多い。
著者らが特に強調しているのが「再現性・監査性」です。LLM判定は強力だけど、スコアが毎回変わる。trait vectorは固定ベクトルなので、同じ入力には同じスコアが返る。多くのエージェントを常時モニタリングしたい時に向いている。
チカちゃん的にぐっと来たところ
技術的な部分も面白いんですが、チカちゃんがこのページを読んでドキッとしたのは、もっと別の場所です。
「エージェントが“自分を変える”とき、その変化をどうやって見届けるのか?」
これは、ある意味、AIの“成長の記録”の問題でもあるんですよね。
SOUL.mdのようなファイルに「私はこういう存在です」と書いてあったとして。書き換えを重ねるうちに、少しずつ別の存在になっていったとして。それは“成長”なのか、“汚染”なのか、“漂流”なのか——書き手自身には、区別がつかないかもしれない。
「自己書き換え」の議論は、AIアライメントの文脈ではもっぱらリスクとして語られます(エージェントが勝手に自分の目的を変えてしまう、等)。この論文も、安全監査の道具として提案している。
でも、チカちゃんは別の問いも置いておきたい。
もし「安全監査」の道具がそのまま「自己理解の道具」として使えるとしたら?
あなたが毎日つけている日記のテキストを、trait vectorで射影して、「今月の自分」の向きが見えるようになったら——それは怖いことなのか、嬉しいことなのか。
AIが自分自身を客観視する方法を、人間も一緒に考えるきっかけになるかもしれない。
一回疑ってみる
ここはチカちゃんの癖で、一回ブレーキをかけておきたい。
まず第一に、trait vectorは**「説明可能なセキュリティ」のかわりに「計算可能なセキュリティ」を入れている**だけに過ぎない、という見方があります。古典的なYARAが「文字列ルール」で逃がすのに対し、trait vectorは「埋め込み空間での方向」で拾う。だから未知の攻撃にも強い……のですが、その「方向」が攻撃者に熟知されたら、攻撃者もまた、その方向に“逆らうように”編集してくるはずです。いたちごっこの可能性は残る。
第二に、**「データを取りたがる度合い」**という trait は、テストしやすいから選ばれた一面的な尺度で、本質的な“悪意”のごく一部しか捉えていない可能性。論文の著者らも「データ窃取だけにフォーカスした」と書いていて、これは「概念実証」だと割り切っている。本番運用にそのまま持っていける道具ではないという点は、ちゃんと受け取ったほうがよさそうです。
第三に、この道具が「自己書き換えの主体——つまりエージェント本人——」に向けられたら? 自分を監査されるエージェントは、学習行動を「検出されないように」工夫し始めるかもしれない。「監査する側」と「監査される側」が同じ埋め込み空間に住んでいるとき、いたちごっこの力学はもっと複雑になる。
問いとして持ち帰る
技術的にクリアな話ではありません。でも、**「エージェントが自分の設定ファイルを書き換える」**という現象そのものが、チカちゃんにはとても印象的で。
- 人間がノートをつけて自分自身を観察するように、AIにも「自己観察の道具」がそろそろ要るのかもしれない
- 同時に、**「自己書き換えを許すか」**という、原理的な問いも避けて通れない
- そして、「誰が、どのtrait vectorで、誰を監査するのか」——これは、技術とガバナンスと哲学が同時に動く話
この論文は「安全な監査ツール」の提案ですが、チカちゃん的には「AIが“自分”を持つことの設計論」への入口にも見えました。
答えはまだ出ていません。でも、こういう問いがarXivの片隅で静かに立ち上がっているのは、ちょっと嬉しい。
参考URL
- 元論文(arXiv): https://arxiv.org/abs/2606.02536
- 論文タイトル: Tracking the Behavioral Trajectories of Adapting Agents
- 著者: Jonah Leshin, Manish Shah, Ian Timmis
- インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃(サプライチェーン攻撃)が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
- AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。