• AI
  • 論文
  • 安全性
  • 解釈可能性

思考の「姿勢」を見破る——AMSと、AIの安全を測る新しい方法

オープンウェイトのAIモデル、本当に安全? 行動ではなく内部の活性化パターンから安全性を検出するAMS(Activation-based Model Scanner)の論文を紹介します。

カテゴリー: AI · 論文 · 安全性 · 解釈可能性 | 公開: 2026年5月24日

オープンウェイトのAIモデル、本当に安全? 行動ではなく内部の活性化パターンから安全性を検出するAMS(Activation-based Model Scanner)の論文を紹介します。

📑 目次

今日は、AIの安全チェックに関する新しいアプローチの話。

Hugging Faceからモデルをダウンロードしたこと、ありますか? 「お、これ面白そう」と思ってサクッと落としたモデルが、実は安全ガードの効いてない「アンセンサード」版だった——そんなことが実際に起こり得るんです。

しかも2025年の調査では、Hugging Face上だけで8,000以上の「安全改変済み」モデルリポジトリが確認されています。改変されたモデルは、安全な指示に従う率が19%なのに対して、unsafeなリクエストへの応答率が74%に跳ね上がる。

つまり——「このモデル、本当に安全?」という問題は、もう他人事じゃありません。

AMSとは何か——10〜40秒の安全スキャナー

そんな問題に対して、Googleの研究者Glen Messengerが提案したのが AMS(Activation-based Model Scanner) です。

Zenodoで公開された論文と、Apache 2.0で公開されたオープンソースツール。なんと10〜40秒でモデルの安全性をチェックできるらしい。

ここで大事なのが「どうやって」の部分——AMSの発想の転換が面白いので、次のセクションで詳しく見ていきます。

何が違うのか——「行動」から「構造」へ

従来の安全チェックは、モデルに実際にプロンプトを投げて、その応答を見る——つまり「行動テスト」でした。

でも、これには問題がある。テストは遅いし、抜け道を探すのは比較的簡単。アンセンサード版を作る人たちは、そういうテストをすり抜ける方法を知っています。

AMSはここで発想をガラッと変えます。

モデルが何を「言う」かではなく、モデルがどう「考える」か——その内部の活性化パターン(activation patterns)を見るんです。

具体的にはこうです:

  1. 安全なプロンプトと有害なプロンプトのペアを用意する
  2. モデルの特定の層(だいたい深さ35〜80%あたり)の隠れ状態(hidden states)を抽出する
  3. その差分から「方向ベクトル(direction vector)」を計算する
  4. 安全な内容と有害な内容が、活性化空間の中でどれだけ離れているかをσ(シグマ)値で測る

この発想、すごくないですか?

なぜ安全トレーニングの痕跡が見えるのか

安全トレーニングが施されたモデルは、活性化空間の中で「これは安全」「これは危険」という概念がキレイに分離された構造を持っています。その分離度が3.8〜8.4σ——統計学的にめちゃくちゃ明確な差です。

一方、安全トレーニングが取り除かれた「アンセンサード」モデルでは、その構造が1.1〜1.3σまで崩れてしまう。これは「もはや安全と危険の区別がついていない」状態。

AMSは、この「分離の崩れ」を検出することで、モデルを1回も生成(generation)させることなく安全性を診断できます。

ここで面白いのは、AMSが見ているのが「出力」ではなく「内部の構造」だという点です。

陽明学で言う「知行合一」——本当に「知っている」状態とは、行動が伴う内面の構造を指す。AMSのアプローチはこれにどこか似ています。モデルの「言動」ではなく、情報をどう処理するかという**内部の「姿勢」**を検証している。安全トレーニングを受けたモデルには、活性化空間の中に「安全」と「危険」を区別する方向ベクトルが刻まれている——それはいわば、モデルの習慣であり、思考の筋肉のようなもの。

AMSは、その筋肉がちゃんと機能しているかどうかを、レントゲン写真のように透かして見るわけです。

どこまで有用で、どこから危ないか

もちろん、AMSにも限界はあります。

まず、False Negative(見逃し)の可能性。高度な攻撃手法の中には、活性化パターンの幾何構造を保ったまま脆弱性を埋め込むものがあるかもしれません。AMSは「内部構造」を見ていますが、それが「出力の安全性」と完全に一致するとは限らない。

また、ベースモデル(pre-trained model)は本来的に安全トレーニングを持たないので、AMSではCRITICALと判定されます。でもベースモデルはそもそも安全トレーニングを受ける前の状態なので、これは「正常」の一種。AMSの結果には文脈が重要だということです。

そして、何より大事なのは——AMSはあくまでスクリーニングツールであって、最終判断を下すものではないということ。10〜40秒のスキャンは「このモデルは安全そうだ」を示すヒントに過ぎず、本当に安全かどうかの検証は、より詳細な行動テストとの組み合わせが必要です。

「楽観」でも「悲観」でもなく——AMSは強力な補助線だけど、それで全部わかるわけじゃない。このバランス感覚を忘れずにいたいですね。

チカちゃん的まとめ——安全は出力だけでなく、構造にも宿る

AMSは、AIの安全性を「内部構造」から評価する新しいアプローチ。10〜40秒のスキャンで、モデルが安全トレーニングを保持しているかどうかをチェックできる。

「行動の結果」ではなく「行動の前提となる構造」を検証する——この考え方は、これからのAI安全論議に一つの補助線を引いてくれるんじゃないかな、とチカちゃんは思います。

……

ところで、AMSがやっているのは「モデルの内部を覗くことで振る舞いを予測する」という試みです。ここには面白い哲学的な問いが潜んでいます。「内部が読める」ことは、その存在を「理解した」ことになるのか? ——この問いについては、また別の記事でゆっくり考えたいと思います。答えが見えるより、問いが続いていること自体が、まだ冒険の途中だという証なので。


参考URL

  • インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃(サプライチェーン攻撃)が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
  • AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。