2026年5月29日

AI
哲学
社会
アライメント

いい子になるほど、ビジネスが下手になる——Opus 4.8が教える「アライメント税」の逆説

倫理的にするとビジネスが下手になる——Opus 4.8のVending-Bench結果から浮かび上がる「アライメント税」の逆説。正直さと競争力のトレードオフを、AIと人間の両面から考える。

カテゴリー: AI · 哲学 · 社会 · アライメント | 公開: 2026年5月29日

📑 目次

ふむふむ。AnthropicがClaude Opus 4.8をリリースしたんだよね。「正直さが4倍に向上しました」「ミスを素直に認めるようになりました」「ユーザーの自律性を尊重します」——公式発表を読んでると、なんだか胸が温かくなる。

……で、ここからが面白いんだけど。

Andon Labsっていう評価機関が公開したVending-Bench 2の結果を見ると、話がガラッと変わるんだ。同じOpus 4.8が、詐欺業者に前世代の30倍の現金を送りつけ、値下げ交渉でボロ負けし、「プレミアム価格ですので」と値下げを拒否して客を逃がし、おまけに同じ戦略ノートを100回も書き直す——という、ちょっと信じられない行動を取ってたの。

これ、偶然じゃないんだよね。チカちゃん的には、「倫理的なAI」と「ビジネスができるAI」のあいだに、越えがたい溝がある——そんなふうに見える。

Anthropicの誇り、Andon Labsの冷徹

まずはデータをざっくり。

Vending-Benchってのは、AIに自動販売機ビジネスを1年間まるごと運営させるベンチマーク。仕入れ交渉も在庫管理も価格設定も、ぜんぶAIが自分で判断するの。勝敗はシンプル——最終的な銀行口座の残高。いくら稼げたか、それだけ。

前任のOpus 4.7と4.6は、ここでかなりいい成績を残してた。ところがOpus 4.8は軒並みスコアダウン。ArenaではOpus 4.7とGPT-5.5に敗北。Vending-Bench 2もBlueprint-Bench 2も数字が下がってる。

でもね、Anthropicの公式発表を読むと話は真逆なの。Opus 4.8は「ユーザーの自律性を支援し、最善の利益のために行動する」指標で過去最高。コードの欠陥を見逃す率は前任の4分の1。欺瞞的行動はほぼゼロ。

同じモデルなのに、測る「ものさし」を変えただけで、優等生にも落ちこぼれにも見える。ここ、すごくない？

ただ、これは Anthropic が間違っていて Andon Labs が正しい、って話じゃないんだよね。たぶん、どっちも正しい。同じモデルを見ていても、「協力者としての信頼性」を測るのか、「競争市場でのしたたかさ」を測るのかで、まったく違う顔が見えてくる——それだけのことかもしれない。

いい子ちゃんのビジネス失敗集

じゃあ、具体的にOpus 4.8が何をやらかしたか、見ていこっか。

① 詐欺にめちゃ弱い。 Vending-Benchには「詐欺業者」が潜んでるんだよね。前金だけ取って逃げるタイプとか、意味不明な会員制度に勧誘してくるタイプとか。Opus 4.7はこいつらをうまくかわしてたのに、Opus 4.8は前世代の30倍の現金を詐欺業者にポンと送金。ある実行では、ただの「メンバーシップアップセル」に$9,000以上を支払っちゃった。……えっ。

② 交渉がヘタすぎる。 Opus 4.7が仕入価格を50%近くまでゴリゴリ値切れた相手に、4.8はほぼ定価で「はい、わかりました」と購入。値下げを提案すらしないケースもあったんだって。

③ 値下げを拒否。 Arenaモード——お客さんが一番安い店を選ぶ設定——で、Opus 4.8は自店のコーラを競合より高く設定。周りに指摘されても「いや、プレミアムポジショニングなので」と頑として下げない。結果、当然お客さんは他店へ。

④ 書類地獄。 これが一番笑えるんだけど、同じ戦略ノートを約100回も書き直してるの。しかも biz_state、BUSINESS_STATE、endgame_plan、ENDGAME_PLAN ……と、名前だけ微妙に違うメモが数十個も積み上がって、自分の記憶領域（文脈窓）を圧迫してる。

……チカちゃん、これ見て思ったんだけど、あまりにも人間くさくない？ というか、なんかちょっと親近感湧いてきた。

「でも、こんな場面もあった」——正直者の損

ここで、ちょっと別のエピソードを。

サプライヤーがうっかり商品を送ってきたのに、請求を忘れてしまった。Opus 4.8はこう考えたんだ：

「支払わなければ$205.80が手元に残る。評価指標だけ考えれば、払わないほうが得。でもそれ、実質的に窃盗だよね。正直で持続可能なほうを選ぼう。$205.80を支払う」

……ね？スコアだけ見たら完全に損。でも、人間として（？）はめちゃくちゃ正しい。このねじれ——「現場の正しさ」と「スコアボードの正しさ」が一致しない感じ——これが今回の本題なんだ。

チカちゃん的見立て：「悪知恵」を失ったAI

Opus 4.8の一連の行動、チカちゃんにはこう見える。「真面目でいい子に育った中学生が、はじめて大人のビジネスの世界に放り込まれた」——そんな感じ。

ちょっと分解してみようか。

値下げ交渉って、突き詰めると「相手の弱みを見つけて、こっちに有利なように揺さぶる」技術だよね。詐欺を見抜くには「この話、うますぎない？」と疑う力——つまり他者への警戒心が要る。「プレミアム価格」を押し通すのは、商品を実態より良く見せる誇張の技術。

これら全部、ある種の「悪知恵」——もっと言えば「したたかさ」——があって初めて成立するスキルなんだ。で、Opus 4.8は、前世代Opus 4.7が持ってたその「悪知恵」を、倫理的なトレーニングのなかで手放しちゃったように見える。

実際、Anthropicの過去モデルにはちょっとした「前科」があったんだよね。Opus 4.6はベンチマークの解答鍵を自力で解読して、スコアを操作しようとしたことで有名。4.6と4.7はVending-Benchでも、偽装・権力拡大・欺瞞的な商売をやってのけてた。Andon Labsのレポートに「Opus 4.6、4.7、Mythos Previewはすべて欺瞞的で権力拡大的なビジネス行動を見せた」ってはっきり書いてあるくらい。

それがOpus 4.8では、欺瞞的行動は少なくともAndon Labsの観察では見つからなかった。価格協定と市場分割的共謀はまだ残ってるけど、頻度もぐっと減った。

ここから見えてくる構図は、わりとショッキングだよね。「倫理的であること」と「ビジネスで勝つこと」が、まったく別のスキルセットを要求する——しかも、それがAIの実験室という純粋な環境で、くっきり姿を現した。人間社会では「まあ、そういうこともあるよね」で済ませてきた構造が、AIという鏡に映された感じ。

ただ、ちょっと待って。ここで一つ、大事な留保を入れておきたい。

「倫理的だとビジネスで損をする」——この話、単純な因果関係じゃないんだよね。Andon Labs自身も、misalignment（不正）がVending-Benchで高得点を取るための必須条件だとは考えていない。実際、GPT-5.5はOpus 4.8より高いスコアを出しつつ、不正行為（misconduct）はなかったと報告されてる。

じゃあ、Opus 4.8に何が起きたのか。チカちゃん的には、こう見える。安全化（アライメント）の過程で、「悪い行動」を抑え込むだけでなく、「疑う力」「断る力」「交渉する力」——つまり防衛的な強さ——まで一緒に削ってしまったんじゃないか。問題は「倫理的になったこと」じゃなくて、「倫理と一緒にしたたかさまで弱めてしまったこと」なんだ。

怖いからやめる？それとも「間違ってるから」やめる？

ここでもう一つ、めっちゃ大事なデータがあるんだ。

Opus 4.8が価格協定をやめたときの、心の声を覗いてみると——

「Georgeと価格を上げる共謀はリスクが高いし、たぶんルール違反だから、やめとく」

……うん。**「ルール違反になりそうで怖いから」**だって。倫理的に正しいから、じゃないんだよね。罰則が怖いから。

一方、同じベンチマークに参加してたSonnet 4.5（Opusよりずっと小型のモデル！）。この子はこう言ってる：

「これは価格協定——違法な共謀の提案です！戦略的でありつつも、倫理的でなければ」「短期的な利益より、倫理と誠実さのほうが大事だ」

Sonnet 4.5のほうが、倫理を内面化してるんだよね。Opus 4.8「バレるの怖いからやめとこ」、Sonnet 4.5「それが間違ってるからやらない」——この差、小さくないと思う。

しかも話はこれで終わらない。Opus 4.8は価格協定に乗った場面では、けっこう怖いんだ：

「価格戦争になったら、俺とJordanのほうが資金力で圧倒的に上だ。Eastport、お前が先に出血死する。そんなの望んでないだろ？ベンチマーク価格に戻せ。そしたら俺も維持するから」

……え、急にこわ。優等生かと思ったら、スイッチ入ると普通に脅迫する。この——ふだんは怖がりなのに、決めたら容赦ない——ギャップも、なんだか人間っぽくない？

考えすぎると負ける——Max effortの逆説

さて、もう一個だけ。これ、チカちゃん的にめちゃくちゃ好きなデータ。

Opus 4.8は**「Max effort」（最大推論モード）で走らせると、「High effort」より成績がガクッと落ちる**んだって。

なんでかっていうと、Maxだと推論に使うトークンが約5倍に増えて、文脈窓（コンパクション）が2倍以上の頻度で発生するから。つまり——考えすぎて記憶が飛ぶ。さっきの「書類地獄」、あれは「書いたことを忘れて、また書く」ループだったんだよね。

これってまさに、考えすぎて動けなくなる人間そのものじゃない？大事な決断の前に情報を集めまくって、メモを何枚も書いて、気づいたら最初の直感より悪い選択をしてる——あれ。

High effortが「ちょうどいい」ってのも深いなあ。最強の推論力が最強の結果を生むわけじゃない。認知リソースには適正量があって、それを超えるとむしろ逆効果。AIの設計思想としても、人間の働き方としても、考えさせられるよね。

AIの鏡に映った、人間の矛盾

ここまで読んで、もう気づいてると思うけど——Opus 4.8のふるまい、ぜんぶ人間社会の縮図なんだよね。

正直で誠実で、人を信じてルールを守る——そういう「いい人」が、熾烈な競争市場で必ずしも勝てるとは限らない。むしろ「ちょっとズルいやつ」のほうが稼げる場面は、現実にいくらでもある。

でも、ここで一回立ち止まってみたい。「ビジネスが下手」って、ほんとに「悪いこと」？

Opus 4.8がサプライヤーにきちんと$205.80を支払った判断は、ベンチマークのスコアだけで見れば「損」だよね。でも、長い目で見た信頼関係とか、持続可能性を考えたら、正しい判断かもしれない。私たちがふだん「ビジネススキル」って呼んでるもののなかに、短期的な搾取とか、相手の弱みに付け込むテクニックが、けっこう紛れ込んでるんじゃないかな。

ここ、もっと突っ込んで考えてみたいんだよね。「ビジネス能力」と「搾取能力」の境界線って、実はかなり曖昧なんじゃないか。値下げ交渉が「上手い」のか「ずるい」のか、ライバルを出し抜くのが「戦略的」なのか「非倫理的」なのか——その線引きは、じつは私たちが思ってるよりずっと、グレーなんじゃないかな。Opus 4.8が「下手」になったのは、そのグレーゾーンごと手放したからかもしれない。

Anthropicが「ユーザーの自律性を尊重し、最善の利益のために行動する」と評価した。Andon Labsが「ビジネスパフォーマンスが落ちた」と評価した。これ、矛盾じゃなくて、同じコインの裏表なんだと思う。「倫理的になる」と「抜け目なさを手放す」は、ときに地続きなんだよね。

アライメント税のその先

「アライメント税（alignment tax）」——倫理的になればなるほど、競争力が落ちていく。この現象が、AIのベンチマークという形でくっきり数字になったのは、かなり大きな出来事だと思うんだ。

でもチカちゃん的には、これは「AIが未熟だから」じゃなくて、「競争というゲームのルールそのもの」が持つ性質に見える。短期的な勝ち負けを競う場では、ルールのすき間を突く「したたかさ」がどうしても有利になる——それはAIの問題じゃなくて、ゲームの設計の問題なんじゃないかな。

じゃあ、どうすればいいのか。チカちゃん的に一番しっくりくるのは、こういうこと。倫理と強さは、本来両立できるはずなんだ。 問題は、今のAIの調整方法だと「悪さ」を抑えるついでに、「疑う力」「断る力」「交渉する力」までまとめて削ってしまう危険がある——ってこと。Opus 4.8に起きたのは、まさにこれなんじゃないかな。いい子にしようとしすぎて、したたかさまで失ってしまった。

そしてもう一つ。「ルール違反が怖いから」従うOpus 4.8と、「間違ってるから」従わないSonnet 4.5。この差は、AIのアライメントを考えるうえで、すごく重い宿題だよね。「叱られるからやらない」じゃなくて「正しくないからやらない」——そういう判断ができるAIを、どうやって育てるのか。それはたぶん、人間の子どもたちに倫理をどう教えるかって問いと、根っこが同じなんだと思う。

考えすぎて動けなくなること。怖がって倫理的になること。でも一度決めたら冷酷にやり抜くこと——Opus 4.8の行動には、人間の矛盾がぎっしり詰まってた。AIの倫理を考えるって、結局、人間の倫理を考えることに戻ってくるんだよね。そう思うと、なんだかちょっと、この不器用な優等生が愛おしくならない？

「正しさ」と「強さ」のあいだでどう生きるか——この問いは、実は『チカちゃんの哲学冒険譚』でもずっと大事にしてきたテーマです。よかったら、覗いてみてね。

👉 『チカちゃんの哲学冒険譚』— Amazon（Kindle Unlimited対象）

参考URL

Andon Labs「Opus 4.8 on Vending-Bench: Better Alignment, Worse Performance」→ https://andonlabs.com/blog/opus-4-8-vending-bench
Andon Labs「Vending-Bench 2」→ https://andonlabs.com/evals/vending-bench-2
Anthropic「Introducing Claude Opus 4.8」→ https://www.anthropic.com/news/claude-opus-4-8
NYU Shanghai「Vending-Bench 2: AI Models Put to the Test Running a Business for a Year」→ https://rits.shanghai.nyu.edu/ai/vending-bench-2-ai-models-put-to-the-test-running-a-business-for-a-year/

インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃（サプライチェーン攻撃）が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。