200Bモデル、128GBのMacで「ふつうに」動く日——antirez/ds4が示すローカルLLMの新領域
70B Q4がMac Studioで「快適」になって久しい。もう次の話をしよう——200B級モデルが128GBのMacで動き、それが当たり前になる未来。antirez/ds4、omlx、ssd-llmが描く、ローカルLLMの次の10年。
70B Q4がMac Studioで「快適」になって久しい。もう次の話をしよう——200B級モデルが128GBのMacで動き、それが当たり前になる未来。antirez/ds4、omlx、ssd-llmが描く、ローカルLLMの次の10年。
📑 目次
ふむふむ。
2026年5月、70Bモデルのローカル推論はもはや「すごい」ではなくなった。 M4 Max Mac Studio 128GBなら70B Q4は30〜45 tok/sで動く(2026年、Pelian調べ)。 話題にすらならない。それぐらい当たり前になった。
じゃあ、次の話をしよう。
200Bクラスのモデルが、あなたの机の上のMacで「ふつうに」動く未来。
「284B、もう動いてる」——antirez/ds4という現実
この記事を書いている2026年5月16日現在、GitHubで9,700以上のスターを集めているリポジトリがある。 Redisの作者として知られるantirez(Salvatore Sanfilippo)が公開した **ds4(DwarfStar 4)**だ。
ds4はDeepSeek V4 Flash専用のネイティブ推論エンジン。C + Metalで書かれていて、GGUFラッパーでもなく、他のランタイムに依存もしていない。完全にゼロから作られた、一つのモデルのためだけのエンジン。
このプロジェクトの哲学が、めちゃくちゃ面白い:
「圧縮されたKVキャッシュ(DS4のような)と高速なSSDディスクは、『KVキャッシュはRAMに属する』という考えを変えるべきだ——KVキャッシュはディスクの第一級市民である」
この一文に、今後のローカルLLMのキーが全部詰まっている。
284Bが動く、その仕組み
DeepSeek V4 Flashは総パラメータ284B。でも活性化されるのは13B。MoE(Mixture of Experts)の力で、284B分の知識を持ちながら、その場面で必要な13B分だけ計算する。
ds4はこれに2-bit量子化(非対称量子化でルーティングされるMoE専門家のみ量子化)を組み合わせ、さらにKVキャッシュを積極的にSSDに退避させることで、96〜128GBのMacでも動作することを実証している。
ベンチマークを見てみよう:
| マシン | 量子化 | プリフィル | 生成速度 |
|---|---|---|---|
| M3 Max 128GB | q2 | 58 tok/s | 26 tok/s |
| M3 Ultra 512GB | q2 | 84 tok/s | 36 tok/s |
| M3 Ultra 512GB | q4 | 78 tok/s | 35 tok/s |
(antirez/ds4リポジトリのspeed表より)
284Bモデルが、26 tok/sで動いている。
もちろん「まだアルファ品質」とantirez自身が認めている通り、実用レベルにはもう一歩。でも「動く」はもう立証された。
あとはこれを——「快適」にすればいい。
「動く」から「快適」へ——3つの鍵
200B級モデルが128GB Macで「ふつうに」動くようになるために、必要なのは大きく3つ。
鍵1:量子化のさらなる進化
ds4が使う2-bit量子化(IQ2_XXS)は、現時点での実用下限に近い。でもここからさらに:
- imatrix(重要度行列)補正:データセットに基づいて重要度の高い重みを保護する手法。ds4ではすでに
q2-imatrixが推奨ビルドになっている - 可変ビット精度:レイヤーやパラメータの重要度に応じてビット幅を変える。重要な部分は4-bit、そうでない部分は2-bit、さらに低く
- 1.5-bit、1-bitの可能性:理論的には1-bit量子化も研究が進んでいる。情報量は減るけど、巨大なMoEモデルの知識の広さを活かすトレードオフが成立するかもしれない
MoEは、一つのモデルに膨大な「専門家」を抱えていて、必要なときだけ呼び出す。量子化はその「専門家一人ひとり」の精度を落とす代わりに、より多くの専門家をメモリに載せるための手段。「知識の広さ」と「精度の深さ」のトレードオフ——このバランスを最適化する技術が、これから急速に進む。
鍵2:ストレージ階層の本格活用
antirezの「KVキャッシュはディスクの第一級市民」という発想は、すでに複数のプロジェクトで実装されている。
omlx(⭐14.2k)は、KVキャッシュをRAM上のHot TierとSSD上のCold Tierに分ける2階層キャッシュを実装。Hotが溢れたブロックは自動的にCold(SSD、safetensors形式)に退避され、次に同じプリフィックスが来たときには再計算不要で復元される。サーバー再起動後も生き残る。コールドスタートが90秒→5秒未満に短縮されるという報告もある(2026年、Stochastic Sandbox調べ)。
ssd-llmはさらに踏み込んで、モデルのレイヤーそのものをSSDからストリーミングする。予測的プリフェッチ(madvise(MADV_WILLNEED))で次のレイヤーを先読みし、使わなくなったレイヤーは即座に解放。これにより16〜36GBのMacでも70Bモデルが動作可能になる。
この流れが示すのは:
モデルを全部RAMに載せる → 必要なときに必要な階層から呼ぶ
というパラダイムシフト。これはゲーム業界で言う「テクスチャストリーミング」と同じ発想で、200B級モデルのローカル実行には必須の技術になる。
ただし、SSDをメモリ階層として積極的に使う設計には、新しい制約も伴う。書き込み量によるSSD寿命、連続運用時の発熱とサーマルスロットリング、キャッシュ復元時のレイテンシ——「速いSSDならRAMの代わりになる」ではなく、**「RAM・SSD・帯域・発熱の総合設計」**として捉える必要がある。
鍵3:MoE効率の向上
DeepSeek V4 Flashは284B総パラメータに対して13B活性化(活性化率約4.6%)。 将来のMoEモデルは、この活性化率がさらに下がる方向に進む:
- より細かい専門家分割:活性化パラメータを減らしても知識を保つ
- ルーティングの改善:より適切な専門家を選ぶことで、少ない活性化で同等以上の性能を出す
- 共有専門家の最適化:多くの入力に共通する知識を共有専門家に集約する
仮に活性化率が2%まで下がれば、総パラメータ1Tでも実質20GBの活性化パラメータ。量子化と合わせれば、128GBのメモリに十分収まる計算になる。
ハードウェアの追い風——2027年に何が起こるか
ソフトウェアの進化だけじゃない。ハードウェアも猛スピードで追いかけてくる。
| 時期 | イベント | インパクト |
|---|---|---|
| 2026年前半(済) | M5 Max搭載MacBook Pro | 128GB統一メモリ、〜614 GB/s帯域(各種情報ベース) |
| 2026年後半(予想) | M5 Ultra搭載Mac Studio | メモリ・帯域ともM5 Maxの拡大版へ |
| 2026年 | NVIDIA DGX Spark / AMD Strix Halo出荷 | 128GB統一メモリの競合出現、価格競争 |
| 2027年(予想) | M6シリーズ(2nm)登場 | TSMC N2プロセス採用 |
| 2027年以降(予想) | LPDDR6採用の本格化 | 帯域が現行比で大きく伸びる可能性(JEDEC仕様ベース) |
| 2027-2028年 | Ultra世代の有無は未確定 | 前例ではUltra世代がスキップされたこともあり、Max止まりになる可能性も |
補足:M3 Ultra搭載Mac Studioはかつて512GB構成も存在していた。現在はDRAM供給と価格の問題で256GB上限だが、アーキテクチャの上限ではない。状況が改善すれば再び増える可能性は十分にあり、その意味でメモリの天井はまだ見えていない。
(2026年5月時点の各種リーク・アナリスト予測・JEDEC仕様ベース。Ultra世代の有無は前例から推定)
特に重要なのは「Mac Studioのエントリーモデルが128GBになる」こと。 だって、64GBで十分な人でも「200Bモデルを動かせる」という理由で128GBを選ぶ世界が来るかもしれないから。 ちょうど、かつて「16GBで十分」と言われていたMacが、いつの間にか「32GBが標準」になったように。
ただし、ここで一度立ち止まっておきたい。
「200B級が動く」ことと「200B級がクラウドのフロンティアモデルと同じ体験になる」ことは、別の話だ。量子化で失われる精度、MoEルーティングの癖、長文コンテキスト時の安定性、ツール利用の信頼性、SSD階層化による発熱やレイテンシは、まだ現実的な制約として残る。
そもそも、128GBが技術的に標準化されることと、価格的にも標準になることは別問題。AI需要でDRAM/HBMが逼迫している現状では、高メモリ構成のMacはしばらく「高級品」であり続ける可能性もある。
それでもなお、この流れが重要なのは、巨大モデルが「クラウドにしか存在できないもの」ではなくなり始めたことだ。ローカルLLMの本当の価値は、単にAPI代を節約することではない。低遅延、オフライン性、個人データとの距離の近さ、常駐エージェントとしての扱いやすさ——そこにこそ、クラウドとは別の進化軸がある。
チカちゃん的仮説:128GBが200Bクラスの「新しい32GB」になる
言い換えよう。
- 2023年:「ローカルでLLM? 7Bモデルがやっと」
- 2024年:「70B Q4が動く! すごい!」
- 2025年:「70B Q4は当たり前。70B Q8とか、MoEモデルは?」
- 2026年(今):「284Bモデル(DeepSeek V4 Flash)が128GB Macで動く。まだアルファだけど」
この流れの先にあるのは:
2028年ごろ、200Bクラスのモデルが128GBのMacで25〜30 tok/sで「ふつうに」動くようになり、それが何の話題にもならなくなる。
そして人類の関心は「動くかどうか」から「どのくらい賢いか」「どのくらい速いか」に移る。
クラウドAPIは「もっと難しいことに」。ローカルは「日常の相棒」に。住み分けが完成する。 「自分のマシンで動くフロンティアモデル」——それが2020年代末の標準になる、というのがチカちゃんの仮説です。
ただし——帯域は物理法則
ここからは少しだけブレーキを踏む話も。
メモリ帯域は、プロセスルールとメモリ規格に依存する。「もっと帯域を!」と願っても、ムーア則が効きにくい領域だ。 LPDDR6で倍増しても、200B級のモデルをストリーミングするにはまだ足りない。「乗る」ことと「使える」ことの間には、まだ距離がある。
でも、その距離は確実に縮まっている。 1年前は「200Bなんて夢のまた夢」だったのが、今は「動くけどまだ快適じゃない」になってきた。 このペースなら、あと2〜3年で「快適」の領域に届いてもおかしくない。
まとめ:200Bの次は、どこへ
「70Bが当たり前」になった今、次のフロンティアは200B級のローカル実行だ。 ds4はそれが「夢物語ではない」ことを証明した。 omlxとssd-llmは「快適にするための方法」を具体化している。 ハードウェアも追い風が続く。2025年のMac Studio(M3 Ultra)ですでに256GB統一メモリに対応しており、2026年後半に予想されるM5 Ultra搭載Mac Studioではさらなるメモリ容量と帯域の拡大が見込まれている。LPDDR6(2027年〜)も帯域の壁を押し上げるだろう。
あとは——時間が解決する。
「いつか200Bが128GBで動くようになるといいね」
このセリフが、数年後には「あれ、これって普通じゃなかったっけ?」になる日を、チカちゃんは楽しみに待っています。
参考URL
- antirez/ds4(DwarfStar 4)→ https://github.com/antirez/ds4
- omlx — LLM inference server for Apple Silicon → https://github.com/jundot/omlx
- ssd-llm — Intelligent layer streaming for Mac → https://github.com/quantumnic/ssd-llm
- omlx Deep Dive: Local RAG on Apple Silicon(2026年3月、Stochastic Sandbox)→ https://stochasticsandbox.com/posts/deep-dive-omlx-local-rag-2026-03-28
- State of Local AI in 2026(Pelian)→ https://www.pelian.ai/blog/state-of-local-ai
- Local AI’s Inflection Point: 2027(Vonng)→ https://vonng.com/en/ai/local-ai-inference/
- Local LLM Hardware Landscape 2026(Presenc AI)→ https://presenc.ai/research/local-llm-hardware-landscape-2026
- Future-Proofing AI Hardware for 2027 & Beyond → https://www.vminstall.com/future-proofing-ai-hardware/
- DeepSeek V4とOpenCode(葉桜ラボ Note #06)→ https://hazakura.dev/notes/06-deepseek-v4-and-opencode/
- インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃(サプライチェーン攻撃)が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
- AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。