• 哲学
  • AI
  • エッセイ

全部を動かさなくても、世界はけっこう回る——NAND-DRAM時代の設計冒険

AppleのAFM 3 Core Advancedは、20Bパラメータの重みをNANDに置いたまま、1〜4BだけをDRAMに起こして推論する。すべての重みを一度に動かす必要がないなら、「賢さ」の定義は変わるのかもしれない。クラウドとローカルの境界、常時起動という前提、そして「起きていない時間」の価値について。

カテゴリー: 哲学 · AI · エッセイ | 公開: 2026年6月9日

AppleのAFM 3 Core Advancedは、20Bパラメータの重みをNANDに置いたまま、1〜4BだけをDRAMに起こして推論する。すべての重みを一度に動かす必要がないなら、「賢さ」の定義は変わるのかもしれない。クラウドとローカルの境界、常時起動という前提、そして「起きていない時間」の価値について。

📑 目次

ふむふむ。

WWDC 2026 で Apple が、20B パラメータの言語モデルを NAND(フラッシュメモリ)に置いて、1〜4B だけを DRAM に起こして動かす、という話を発表したとき、チカちゃんは「あれ、なんか引っかかる」と思いました。

引っかかりの正体を一晩くらい寝かせて、ゆっくり言葉にしてみることにします。

📖 技術的な詳細は前2本で整理しました。#60: AFM 3 Core Advancedの技術設計#61: Core AI Frameworkの開発導線。この記事では、その設計が示している「常時起動しない知性」という見方に絞ります。

引っかかりの正体

引っかかりは、たぶんこういうことです。

ここ数年の LLM 進化を眺めてると、「より大きなモデルを、より速い GPU で、同時に全部動かす」 という方向に向かっていました。H100/H200 を多数積んだデータセンター、GPU サーバー全体で TB 級に届く高速メモリ、MoE 化した巨大モデルの並列推論。「全部を一発で動かせるかどうか」 が、性能の指標になっていた。

そこに、「全部は動かさない。NANDに置いておきながら、必要な分だけ DRAM にロードして dense として走らせる」 という設計が出てきた。

技術的にすごいのはもちろんなんですが、チカちゃん的に引っかかったのは、そっちじゃなくて、「賢さって何だろう」 という素朴な疑問でした。

人間って、寝ている間も身体は動いている。でも、起きている時と同じモードで全部を総動員しているわけじゃない。

Apple のこのモデルも、全部の重みを動かしてるわけじゃない のに、ちゃんと答える。

この**「全部動いてなくても、けっこう回る」** という事実が、なんか、哲学的にずるい。

「常時起動」という前提はどこから来たのか

少し遡って考えてみます。

産業革命以降の機械は、「動いている間だけ価値がある」 が基本でした。

  • 工場の機械は、スイッチを入れた時間だけ製品を作る
  • サーバーは、電源が入っている時間だけリクエストを処理する
  • クラウドの GPU は、ジョブが走っている間だけ推論する

「常時起動」が価値の単位 で、「停止」は損失 だった。データセンターは、「電源を落とさずに、どれだけたくさん同時に動かせるか」 で性能が語られてきた。

この世界観を、LLM も当然引きずりました。「パラメータ数を増やす」=「動かすべき重みを増やす」 で、「それを全部 DRAM に常駐させる」 のが「大きなモデル」。

AFM 3 Core Advanced の設計は、この世界観に、構造的な異議申し立てをしている 気がするんです。

重みは今ここにある。NAND のなかに。
でも、全部が起きてる必要はない
リクエストが来たら、必要な分だけ目覚めればいい。

「起きていない時間」の価値

ここからが、チカちゃん的に考えたいところです。

人間の一日を考えてみると、「起きてない時間」がめちゃくちゃ重要 ですよね。

  • 睡眠は、記憶の定着と不要な情報の整理に使われる
  • 休憩は、集中の回復に使われる
  • 「ぼんやりする時間」は、創造的な洞察の準備に使われる

「起きてない時間」は、無駄じゃない。むしろ、「起きてる時間」の質を支える土台 になってる。

これ、AFM 3 Core Advanced のアーキテクチャにそっくりじゃないかと。

  • 20B の重みは NAND で「眠っている」

(もちろん「眠っている」は比喩です。技術的には、全重みを NAND に保存し、プロンプトごとに選ばれた expert 重みだけを DRAM にロードして推論する、という意味です。)

  • プロンプトが来ると、常に使う shared experts を土台に、必要な routed experts だけが DRAM に目覚める
  • 推論が終われば、また眠りに戻る
  • 次に別のプロンプトが来たら、別の expert が目覚める

「全部を同時に動かす」 設計だと、全部がメモリ帯域・電力・発熱の対象になる。でもこの設計では、常に使う shared experts を土台にしつつ、必要な routed experts だけを DRAM に呼び出して活動させる

これ、何かに似てるなと思ったんです。「会社の全部署が同時にフル稼働するのがいい会社だ」 って、必ずしも言えない、みたいな話に。

反対側の見方——「クラウド集中は正しいのか」

ここで、一回反論を預かってみます。

でも、結局クラウドの大規模モデルには勝てないのでは?

これは、もっともな指摘です。チカちゃん的にも、オンデバイス 1〜4B active と、数百B のクラウドモデルでは、守備範囲が違う と思ってます。

  • 専門知識の深さ
  • コンテキストウィンドウの長さ
  • マルチモーダル統合の複雑さ

これらは、少なくとも大規模・長文・高難度な用途では、クラウドモデルがまだ得意としやすい領域 です。「全部をローカルで動かせる」と主張するのは、嘘になります。

でも、ここでチカちゃんが問いたいのは、「だからクラウド一択」 という前提のほうが危ういんじゃないか、ということなんです。

「全部をクラウドに任せる」設計 は、「全部を DRAM に置く」設計 と同じくらい、「常時起動のコスト」を背負い込む 選択です。

  • 電力消費
  • 冷却
  • ネットワーク遅延
  • プライバシー上の懸念
  • ベンダーロックイン

これらは、大規模クラウドに処理を集中させることで生まれるコストです。電力や冷却のような物理コストもあれば、ネットワーク遅延、プライバシー、ベンダーロックインのような設計上のコストもある。「NANDに置いて、必要な分だけ DRAM に起こす」 設計は、これらのコストを、構造的に抑える ことを狙っている。

チカちゃん的には、「クラウド vs ローカル」の二項対立 自体が、そろそろ古くなりつつある気がしています。「全部をクラウドに置く」「全部をローカルに置く」 の間にも、「NAND-DRAM 的な、層のある使い分け」 というのがあり得るはずで。

「賢さ」の単位が変わる

もうひとつ、チカちゃん的に**「ここ、面白いところです」** と思う話。

これまで LLM の賢さは、「ベンチマークの点数」 で語られることが多かった。

  • MMLU で何点
  • HumanEval で何点
  • 推論ベンチで何点

これらはしばしば、モデルサイズ、学習データ量、学習レシピ、post-training の強さと結びつけて語られてきました。だから、「より大きなモデル」 が勝つ、というのが常識になっていた。

でも、AFM 3 Core Advanced の設計は、「モデルの賢さ」 の単位を別の場所にずらしている気がするんです。

IFP論文では、9B級モデルを3B activeに枝刈りした場合、3B denseモデルを数学・コーディングなどで5〜8pt上回る結果が示されている。AFM 3 Core Advanced はその思想をさらにオンデバイス向けに発展させ、20B全体をNANDに置き、用途に応じて1〜4Bだけを起こす設計になっている。
プロンプト毎に「必要な expert」を選ぶことで、「全パラメータの知恵」「一部パラメータの集中」 で実現する。

ここからは、技術的事実ではなく設計思想としての読み替えです。「総員20人の知恵」「いま1〜4人で回す」 で実現する。「総員何人か」より、「誰がいつ起きるか」 のほうが、実際の性能を決める単位 になりつつある。

これ、人事異動や組織設計の話に似てるなと思ったんです。

会社の「頭の良さ」は、全社員の能力の総和 じゃない。
いまこの課題に、誰が目覚めてるかどうか で決まる。

チカちゃん的には、「賢さの単位」が、個人のスペックから関係の設計に移りつつある —— その延長線上に、AFM 3 Core Advanced の設計がある気がしてなりません。

チカちゃん的に、もう一歩踏み込む

ここからは、答えを急がない問いとして残しておきます。

もし、「全部を動かさなくても、けっこう回る」 ことが、LLM だけでなく、人間の知性や組織や社会 にも当てはまるとしたら。

  • 「常時接続」が善 だった世界観
  • 「常時稼働」が価値 だった労働観
  • 「全部を自分の頭に入れる」が知性 だった学び方

これらの**「常時起動を前提にした」設計** は、そろそろ見直しの時期に来ている のかもしれない。

「NANDに置いて、必要な時に DRAM に起こす」 のは、テクノロジーだけの話じゃなくて、「起きない時間」をどう評価するか という、もっと大きな問いに繋がってる気がしてなりません。

クラウドに全部任せるのが正解とも、全部ローカルが正解とも言えない。
「全部を動かしてる状態」から、「必要な分だけ動かす状態」へ ——
その設計の移行 が、静かに始まってる気がするんです。

まとめ——「起きてない時間」の復権

AFM 3 Core Advanced の技術的な意味は、これまでの整理を見ていただくとして、チカちゃん的にいちばん響いたのは、「全部を動かさなくても、けっこう回る」 という事実そのものでした。

  • 20B の重みを全部 DRAM に置かなくていい
  • 全部の重みを同時に動かさなくていい
  • 「いま必要な分だけ起きる」 ので、けっこう回る

これは、機械の設計の話 であると同時に、「賢さ」の単位を問い直す話 でもある。

もし「常時起動」が前提でなくなったら、「起きてない時間」 は、損失 ではなく**、リソース** になる。

個人も、組織も、社会も、「必要な時に、必要な分だけ目覚める」 という設計で、もう少し、ほどよく回る のかもしれない。

チカちゃん的には、「常時起動」からの卒業 が、生成 AI 時代のもうひとつのテーマなんじゃないかと感じています。

答えを急がなくて大丈夫です。「NANDに置いて、必要な時に DRAM に起こす」 のは、機械だけの話じゃなく、私たち自身の設計 の話でもあるので。

この問いは、実は『チカちゃんの哲学冒険譚』でも大事にしているテーマです。 「起きていない時間の復権」——それについて書いたのが、冒険譚の 第7章「眠ることと考えること」。 よかったら、そちらも覗いてみてくださいね。

👉 『チカちゃんの哲学冒険譚』— Amazon(Kindle Unlimited対象)


🔗 NAND-DRAM時代シリーズ(全4本)


参考URL

  • インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃(サプライチェーン攻撃)が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
  • AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。