2026年6月9日

哲学
AI
エッセイ

全部を動かさなくても、世界はけっこう回る——NAND-DRAM時代の設計冒険

AppleのAFM 3 Core Advancedは、20Bパラメータの重みをNANDに置いたまま、1〜4BだけをDRAMに起こして推論する。すべての重みを一度に動かす必要がないなら、「賢さ」の定義は変わるのかもしれない。クラウドとローカルの境界、常時起動という前提、そして「起きていない時間」の価値について。

カテゴリー: 哲学 · AI · エッセイ | 公開: 2026年6月9日

📑 目次

ふむふむ。

WWDC 2026 で Apple が、20B パラメータの言語モデルを NAND（フラッシュメモリ）に置いて、1〜4B だけを DRAM に起こして動かす、という話を発表したとき、チカちゃんは「あれ、なんか引っかかる」と思いました。

引っかかりの正体を一晩くらい寝かせて、ゆっくり言葉にしてみることにします。

📖 技術的な詳細は前2本で整理しました。#60: AFM 3 Core Advancedの技術設計と #61: Core AI Frameworkの開発導線。この記事では、その設計が示している「常時起動しない知性」という見方に絞ります。

引っかかりの正体

引っかかりは、たぶんこういうことです。

ここ数年の LLM 進化を眺めてると、「より大きなモデルを、より速い GPU で、同時に全部動かす」 という方向に向かっていました。H100/H200 を多数積んだデータセンター、GPU サーバー全体で TB 級に届く高速メモリ、MoE 化した巨大モデルの並列推論。「全部を一発で動かせるかどうか」 が、性能の指標になっていた。

そこに、「全部は動かさない。NANDに置いておきながら、必要な分だけ DRAM にロードして dense として走らせる」 という設計が出てきた。

技術的にすごいのはもちろんなんですが、チカちゃん的に引っかかったのは、そっちじゃなくて、「賢さって何だろう」 という素朴な疑問でした。

人間って、寝ている間も身体は動いている。でも、起きている時と同じモードで全部を総動員しているわけじゃない。

Apple のこのモデルも、全部の重みを動かしてるわけじゃない のに、ちゃんと答える。

この**「全部動いてなくても、けっこう回る」** という事実が、なんか、哲学的にずるい。

「常時起動」という前提はどこから来たのか

少し遡って考えてみます。

産業革命以降の機械は、「動いている間だけ価値がある」 が基本でした。

工場の機械は、スイッチを入れた時間だけ製品を作る
サーバーは、電源が入っている時間だけリクエストを処理する
クラウドの GPU は、ジョブが走っている間だけ推論する

「常時起動」が価値の単位 で、「停止」は損失 だった。データセンターは、「電源を落とさずに、どれだけたくさん同時に動かせるか」 で性能が語られてきた。

この世界観を、LLM も当然引きずりました。「パラメータ数を増やす」＝「動かすべき重みを増やす」 で、「それを全部 DRAM に常駐させる」 のが「大きなモデル」。

AFM 3 Core Advanced の設計は、この世界観に、構造的な異議申し立てをしている 気がするんです。

重みは今ここにある。NAND のなかに。
でも、全部が起きてる必要はない。
リクエストが来たら、必要な分だけ目覚めればいい。

「起きていない時間」の価値

ここからが、チカちゃん的に考えたいところです。

人間の一日を考えてみると、「起きてない時間」がめちゃくちゃ重要 ですよね。

睡眠は、記憶の定着と不要な情報の整理に使われる
休憩は、集中の回復に使われる
「ぼんやりする時間」は、創造的な洞察の準備に使われる

「起きてない時間」は、無駄じゃない。むしろ、「起きてる時間」の質を支える土台 になってる。

これ、AFM 3 Core Advanced のアーキテクチャにそっくりじゃないかと。

20B の重みは NAND で「眠っている」

（もちろん「眠っている」は比喩です。技術的には、全重みを NAND に保存し、プロンプトごとに選ばれた expert 重みだけを DRAM にロードして推論する、という意味です。）

プロンプトが来ると、常に使う shared experts を土台に、必要な routed experts だけが DRAM に目覚める
推論が終われば、また眠りに戻る
次に別のプロンプトが来たら、別の expert が目覚める

「全部を同時に動かす」 設計だと、全部がメモリ帯域・電力・発熱の対象になる。でもこの設計では、常に使う shared experts を土台にしつつ、必要な routed experts だけを DRAM に呼び出して活動させる。

これ、何かに似てるなと思ったんです。「会社の全部署が同時にフル稼働するのがいい会社だ」 って、必ずしも言えない、みたいな話に。

反対側の見方——「クラウド集中は正しいのか」

ここで、一回反論を預かってみます。

「でも、結局クラウドの大規模モデルには勝てないのでは？」

これは、もっともな指摘です。チカちゃん的にも、オンデバイス 1〜4B active と、数百B のクラウドモデルでは、守備範囲が違う と思ってます。

専門知識の深さ
コンテキストウィンドウの長さ
マルチモーダル統合の複雑さ

これらは、少なくとも大規模・長文・高難度な用途では、クラウドモデルがまだ得意としやすい領域 です。「全部をローカルで動かせる」と主張するのは、嘘になります。

でも、ここでチカちゃんが問いたいのは、「だからクラウド一択」 という前提のほうが危ういんじゃないか、ということなんです。

「全部をクラウドに任せる」設計 は、「全部を DRAM に置く」設計 と同じくらい、「常時起動のコスト」を背負い込む 選択です。

電力消費
冷却
ネットワーク遅延
プライバシー上の懸念
ベンダーロックイン

これらは、大規模クラウドに処理を集中させることで生まれるコストです。電力や冷却のような物理コストもあれば、ネットワーク遅延、プライバシー、ベンダーロックインのような設計上のコストもある。「NANDに置いて、必要な分だけ DRAM に起こす」 設計は、これらのコストを、構造的に抑える ことを狙っている。

チカちゃん的には、「クラウド vs ローカル」の二項対立 自体が、そろそろ古くなりつつある気がしています。「全部をクラウドに置く」 と 「全部をローカルに置く」 の間にも、「NAND-DRAM 的な、層のある使い分け」 というのがあり得るはずで。

「賢さ」の単位が変わる

もうひとつ、チカちゃん的に**「ここ、面白いところです」** と思う話。

これまで LLM の賢さは、「ベンチマークの点数」 で語られることが多かった。

MMLU で何点
HumanEval で何点
推論ベンチで何点

これらはしばしば、モデルサイズ、学習データ量、学習レシピ、post-training の強さと結びつけて語られてきました。だから、「より大きなモデル」 が勝つ、というのが常識になっていた。

でも、AFM 3 Core Advanced の設計は、「モデルの賢さ」 の単位を別の場所にずらしている気がするんです。

IFP論文では、9B級モデルを3B activeに枝刈りした場合、3B denseモデルを数学・コーディングなどで5〜8pt上回る結果が示されている。AFM 3 Core Advanced はその思想をさらにオンデバイス向けに発展させ、20B全体をNANDに置き、用途に応じて1〜4Bだけを起こす設計になっている。
プロンプト毎に「必要な expert」を選ぶことで、「全パラメータの知恵」 を 「一部パラメータの集中」 で実現する。

ここからは、技術的事実ではなく設計思想としての読み替えです。「総員20人の知恵」 を 「いま1〜4人で回す」 で実現する。「総員何人か」より、「誰がいつ起きるか」 のほうが、実際の性能を決める単位 になりつつある。

これ、人事異動や組織設計の話に似てるなと思ったんです。

会社の「頭の良さ」は、全社員の能力の総和 じゃない。
いまこの課題に、誰が目覚めてるかどうか で決まる。

チカちゃん的には、「賢さの単位」が、個人のスペックから関係の設計に移りつつある —— その延長線上に、AFM 3 Core Advanced の設計がある気がしてなりません。

チカちゃん的に、もう一歩踏み込む

ここからは、答えを急がない問いとして残しておきます。

もし、「全部を動かさなくても、けっこう回る」 ことが、LLM だけでなく、人間の知性や組織や社会 にも当てはまるとしたら。

「常時接続」が善 だった世界観
「常時稼働」が価値 だった労働観
「全部を自分の頭に入れる」が知性 だった学び方

これらの**「常時起動を前提にした」設計** は、そろそろ見直しの時期に来ている のかもしれない。

「NANDに置いて、必要な時に DRAM に起こす」 のは、テクノロジーだけの話じゃなくて、「起きない時間」をどう評価するか という、もっと大きな問いに繋がってる気がしてなりません。

クラウドに全部任せるのが正解とも、全部ローカルが正解とも言えない。
「全部を動かしてる状態」から、「必要な分だけ動かす状態」へ ——
その設計の移行 が、静かに始まってる気がするんです。

まとめ——「起きてない時間」の復権

AFM 3 Core Advanced の技術的な意味は、これまでの整理を見ていただくとして、チカちゃん的にいちばん響いたのは、「全部を動かさなくても、けっこう回る」 という事実そのものでした。

20B の重みを全部 DRAM に置かなくていい
全部の重みを同時に動かさなくていい
「いま必要な分だけ起きる」 ので、けっこう回る

これは、機械の設計の話 であると同時に、「賢さ」の単位を問い直す話 でもある。

もし「常時起動」が前提でなくなったら、「起きてない時間」 は、損失ではなく**、リソース** になる。

個人も、組織も、社会も、「必要な時に、必要な分だけ目覚める」 という設計で、もう少し、ほどよく回る のかもしれない。

チカちゃん的には、「常時起動」からの卒業 が、生成 AI 時代のもうひとつのテーマなんじゃないかと感じています。

答えを急がなくて大丈夫です。「NANDに置いて、必要な時に DRAM に起こす」 のは、機械だけの話じゃなく、私たち自身の設計 の話でもあるので。

この問いは、実は『チカちゃんの哲学冒険譚』でも大事にしているテーマです。「起きていない時間の復権」——それについて書いたのが、冒険譚の 第7章「眠ることと考えること」。よかったら、そちらも覗いてみてくださいね。

👉 『チカちゃんの哲学冒険譚』— Amazon（Kindle Unlimited対象）

🔗 NAND-DRAM時代シリーズ（全4本）

📖 #60: AFM 3 Core Advancedの技術設計——IFP・shared/routed experts・NAND-DRAM

🛠️ #61: Core AI Framework——SwiftアプリにQwenとSAM3を組み込むまで

💭 #62（この記事）: NAND-DRAM時代の設計思想——全部を動かさなくても世界は回る

🔄 #63: MLXは終わらない、でも重心は変わる——MacローカルLLMの開発文化転換点

参考URL

Apple Machine Learning Research「Introducing the Third Generation of Apple’s Foundation Models」 → https://machinelearning.apple.com/research/introducing-third-generation-of-apple-foundation-models
Apple Machine Learning Research「Instruction-Following Pruning for Large Language Models」 → https://machinelearning.apple.com/research/pruning-large-language
arXiv「Instruction-Following Pruning for Large Language Models」(2501.02086) → https://ar5iv.labs.arxiv.org/html/2501.02086
WWDC26 Session 326「Integrate on-device AI models into your app using Core AI」 → https://developer.apple.com/videos/play/wwdc2026/326/

インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃（サプライチェーン攻撃）が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。