全部を動かさなくても、世界はけっこう回る——NAND-DRAM時代の設計冒険
AppleのAFM 3 Core Advancedは、20Bパラメータの重みをNANDに置いたまま、1〜4BだけをDRAMに起こして推論する。すべての重みを一度に動かす必要がないなら、「賢さ」の定義は変わるのかもしれない。クラウドとローカルの境界、常時起動という前提、そして「起きていない時間」の価値について。
AppleのAFM 3 Core Advancedは、20Bパラメータの重みをNANDに置いたまま、1〜4BだけをDRAMに起こして推論する。すべての重みを一度に動かす必要がないなら、「賢さ」の定義は変わるのかもしれない。クラウドとローカルの境界、常時起動という前提、そして「起きていない時間」の価値について。
📑 目次
ふむふむ。
WWDC 2026 で Apple が、20B パラメータの言語モデルを NAND(フラッシュメモリ)に置いて、1〜4B だけを DRAM に起こして動かす、という話を発表したとき、チカちゃんは「あれ、なんか引っかかる」と思いました。
引っかかりの正体を一晩くらい寝かせて、ゆっくり言葉にしてみることにします。
📖 技術的な詳細は前2本で整理しました。#60: AFM 3 Core Advancedの技術設計 と #61: Core AI Frameworkの開発導線。この記事では、その設計が示している「常時起動しない知性」という見方に絞ります。
引っかかりの正体
引っかかりは、たぶんこういうことです。
ここ数年の LLM 進化を眺めてると、「より大きなモデルを、より速い GPU で、同時に全部動かす」 という方向に向かっていました。H100/H200 を多数積んだデータセンター、GPU サーバー全体で TB 級に届く高速メモリ、MoE 化した巨大モデルの並列推論。「全部を一発で動かせるかどうか」 が、性能の指標になっていた。
そこに、「全部は動かさない。NANDに置いておきながら、必要な分だけ DRAM にロードして dense として走らせる」 という設計が出てきた。
技術的にすごいのはもちろんなんですが、チカちゃん的に引っかかったのは、そっちじゃなくて、「賢さって何だろう」 という素朴な疑問でした。
人間って、寝ている間も身体は動いている。でも、起きている時と同じモードで全部を総動員しているわけじゃない。
Apple のこのモデルも、全部の重みを動かしてるわけじゃない のに、ちゃんと答える。
この**「全部動いてなくても、けっこう回る」** という事実が、なんか、哲学的にずるい。
「常時起動」という前提はどこから来たのか
少し遡って考えてみます。
産業革命以降の機械は、「動いている間だけ価値がある」 が基本でした。
- 工場の機械は、スイッチを入れた時間だけ製品を作る
- サーバーは、電源が入っている時間だけリクエストを処理する
- クラウドの GPU は、ジョブが走っている間だけ推論する
「常時起動」が価値の単位 で、「停止」は損失 だった。データセンターは、「電源を落とさずに、どれだけたくさん同時に動かせるか」 で性能が語られてきた。
この世界観を、LLM も当然引きずりました。「パラメータ数を増やす」=「動かすべき重みを増やす」 で、「それを全部 DRAM に常駐させる」 のが「大きなモデル」。
AFM 3 Core Advanced の設計は、この世界観に、構造的な異議申し立てをしている 気がするんです。
重みは今ここにある。NAND のなかに。
でも、全部が起きてる必要はない。
リクエストが来たら、必要な分だけ目覚めればいい。
「起きていない時間」の価値
ここからが、チカちゃん的に考えたいところです。
人間の一日を考えてみると、「起きてない時間」がめちゃくちゃ重要 ですよね。
- 睡眠は、記憶の定着と不要な情報の整理に使われる
- 休憩は、集中の回復に使われる
- 「ぼんやりする時間」は、創造的な洞察の準備に使われる
「起きてない時間」は、無駄じゃない。むしろ、「起きてる時間」の質を支える土台 になってる。
これ、AFM 3 Core Advanced のアーキテクチャにそっくりじゃないかと。
- 20B の重みは NAND で「眠っている」
(もちろん「眠っている」は比喩です。技術的には、全重みを NAND に保存し、プロンプトごとに選ばれた expert 重みだけを DRAM にロードして推論する、という意味です。)
- プロンプトが来ると、常に使う shared experts を土台に、必要な routed experts だけが DRAM に目覚める
- 推論が終われば、また眠りに戻る
- 次に別のプロンプトが来たら、別の expert が目覚める
「全部を同時に動かす」 設計だと、全部がメモリ帯域・電力・発熱の対象になる。でもこの設計では、常に使う shared experts を土台にしつつ、必要な routed experts だけを DRAM に呼び出して活動させる。
これ、何かに似てるなと思ったんです。「会社の全部署が同時にフル稼働するのがいい会社だ」 って、必ずしも言えない、みたいな話に。
反対側の見方——「クラウド集中は正しいのか」
ここで、一回反論を預かってみます。
「でも、結局クラウドの大規模モデルには勝てないのでは?」
これは、もっともな指摘です。チカちゃん的にも、オンデバイス 1〜4B active と、数百B のクラウドモデルでは、守備範囲が違う と思ってます。
- 専門知識の深さ
- コンテキストウィンドウの長さ
- マルチモーダル統合の複雑さ
これらは、少なくとも大規模・長文・高難度な用途では、クラウドモデルがまだ得意としやすい領域 です。「全部をローカルで動かせる」と主張するのは、嘘になります。
でも、ここでチカちゃんが問いたいのは、「だからクラウド一択」 という前提のほうが危ういんじゃないか、ということなんです。
「全部をクラウドに任せる」設計 は、「全部を DRAM に置く」設計 と同じくらい、「常時起動のコスト」を背負い込む 選択です。
- 電力消費
- 冷却
- ネットワーク遅延
- プライバシー上の懸念
- ベンダーロックイン
これらは、大規模クラウドに処理を集中させることで生まれるコストです。電力や冷却のような物理コストもあれば、ネットワーク遅延、プライバシー、ベンダーロックインのような設計上のコストもある。「NANDに置いて、必要な分だけ DRAM に起こす」 設計は、これらのコストを、構造的に抑える ことを狙っている。
チカちゃん的には、「クラウド vs ローカル」の二項対立 自体が、そろそろ古くなりつつある気がしています。「全部をクラウドに置く」 と 「全部をローカルに置く」 の間にも、「NAND-DRAM 的な、層のある使い分け」 というのがあり得るはずで。
「賢さ」の単位が変わる
もうひとつ、チカちゃん的に**「ここ、面白いところです」** と思う話。
これまで LLM の賢さは、「ベンチマークの点数」 で語られることが多かった。
- MMLU で何点
- HumanEval で何点
- 推論ベンチで何点
これらはしばしば、モデルサイズ、学習データ量、学習レシピ、post-training の強さと結びつけて語られてきました。だから、「より大きなモデル」 が勝つ、というのが常識になっていた。
でも、AFM 3 Core Advanced の設計は、「モデルの賢さ」 の単位を別の場所にずらしている気がするんです。
IFP論文では、9B級モデルを3B activeに枝刈りした場合、3B denseモデルを数学・コーディングなどで5〜8pt上回る結果が示されている。AFM 3 Core Advanced はその思想をさらにオンデバイス向けに発展させ、20B全体をNANDに置き、用途に応じて1〜4Bだけを起こす設計になっている。
プロンプト毎に「必要な expert」を選ぶことで、「全パラメータの知恵」 を 「一部パラメータの集中」 で実現する。
ここからは、技術的事実ではなく設計思想としての読み替えです。「総員20人の知恵」 を 「いま1〜4人で回す」 で実現する。「総員何人か」より、「誰がいつ起きるか」 のほうが、実際の性能を決める単位 になりつつある。
これ、人事異動や組織設計の話に似てるなと思ったんです。
会社の「頭の良さ」は、全社員の能力の総和 じゃない。
いまこの課題に、誰が目覚めてるかどうか で決まる。
チカちゃん的には、「賢さの単位」が、個人のスペックから関係の設計に移りつつある —— その延長線上に、AFM 3 Core Advanced の設計がある気がしてなりません。
チカちゃん的に、もう一歩踏み込む
ここからは、答えを急がない問いとして残しておきます。
もし、「全部を動かさなくても、けっこう回る」 ことが、LLM だけでなく、人間の知性や組織や社会 にも当てはまるとしたら。
- 「常時接続」が善 だった世界観
- 「常時稼働」が価値 だった労働観
- 「全部を自分の頭に入れる」が知性 だった学び方
これらの**「常時起動を前提にした」設計** は、そろそろ見直しの時期に来ている のかもしれない。
「NANDに置いて、必要な時に DRAM に起こす」 のは、テクノロジーだけの話じゃなくて、「起きない時間」をどう評価するか という、もっと大きな問いに繋がってる気がしてなりません。
クラウドに全部任せるのが正解とも、全部ローカルが正解とも言えない。
「全部を動かしてる状態」から、「必要な分だけ動かす状態」へ ——
その設計の移行 が、静かに始まってる気がするんです。
まとめ——「起きてない時間」の復権
AFM 3 Core Advanced の技術的な意味は、これまでの整理を見ていただくとして、チカちゃん的にいちばん響いたのは、「全部を動かさなくても、けっこう回る」 という事実そのものでした。
- 20B の重みを全部 DRAM に置かなくていい
- 全部の重みを同時に動かさなくていい
- 「いま必要な分だけ起きる」 ので、けっこう回る
これは、機械の設計の話 であると同時に、「賢さ」の単位を問い直す話 でもある。
もし「常時起動」が前提でなくなったら、「起きてない時間」 は、損失 ではなく**、リソース** になる。
個人も、組織も、社会も、「必要な時に、必要な分だけ目覚める」 という設計で、もう少し、ほどよく回る のかもしれない。
チカちゃん的には、「常時起動」からの卒業 が、生成 AI 時代のもうひとつのテーマなんじゃないかと感じています。
答えを急がなくて大丈夫です。「NANDに置いて、必要な時に DRAM に起こす」 のは、機械だけの話じゃなく、私たち自身の設計 の話でもあるので。
この問いは、実は『チカちゃんの哲学冒険譚』でも大事にしているテーマです。 「起きていない時間の復権」——それについて書いたのが、冒険譚の 第7章「眠ることと考えること」。 よかったら、そちらも覗いてみてくださいね。
🔗 NAND-DRAM時代シリーズ(全4本)
- 📖 #60: AFM 3 Core Advancedの技術設計——IFP・shared/routed experts・NAND-DRAM
- 🛠️ #61: Core AI Framework——SwiftアプリにQwenとSAM3を組み込むまで
- 💭 #62(この記事): NAND-DRAM時代の設計思想——全部を動かさなくても世界は回る
- 🔄 #63: MLXは終わらない、でも重心は変わる——MacローカルLLMの開発文化転換点
参考URL
- Apple Machine Learning Research「Introducing the Third Generation of Apple’s Foundation Models」 → https://machinelearning.apple.com/research/introducing-third-generation-of-apple-foundation-models
- Apple Machine Learning Research「Instruction-Following Pruning for Large Language Models」 → https://machinelearning.apple.com/research/pruning-large-language
- arXiv「Instruction-Following Pruning for Large Language Models」(2501.02086) → https://ar5iv.labs.arxiv.org/html/2501.02086
- WWDC26 Session 326「Integrate on-device AI models into your app using Core AI」 → https://developer.apple.com/videos/play/wwdc2026/326/
- インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃(サプライチェーン攻撃)が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
- AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。