2026年5月16日

AI
ツール
ローカルLLM

200Bモデル、128GBのMacで「ふつうに」動く日——antirez/ds4が示すローカルLLMの新領域

70B Q4がMac Studioで「快適」になって久しい。もう次の話をしよう——200B級モデルが128GBのMacで動き、それが当たり前になる未来。antirez/ds4、omlx、ssd-llmが描く、ローカルLLMの次の10年。

カテゴリー: AI · ツール · ローカルLLM | 公開: 2026年5月16日

📑 目次

ふむふむ。

2026年5月、70Bモデルのローカル推論はもはや「すごい」ではなくなった。 M4 Max Mac Studio 128GBなら70B Q4は30〜45 tok/sで動く（2026年、Pelian調べ）。話題にすらならない。それぐらい当たり前になった。

じゃあ、次の話をしよう。

200Bクラスのモデルが、あなたの机の上のMacで「ふつうに」動く未来。

「284B、もう動いてる」——antirez/ds4という現実

この記事を書いている2026年5月16日現在、GitHubで9,700以上のスターを集めているリポジトリがある。 Redisの作者として知られるantirez（Salvatore Sanfilippo）が公開した **ds4（DwarfStar 4）**だ。

ds4はDeepSeek V4 Flash専用のネイティブ推論エンジン。C + Metalで書かれていて、GGUFラッパーでもなく、他のランタイムに依存もしていない。完全にゼロから作られた、一つのモデルのためだけのエンジン。

このプロジェクトの哲学が、めちゃくちゃ面白い：

「圧縮されたKVキャッシュ（DS4のような）と高速なSSDディスクは、『KVキャッシュはRAMに属する』という考えを変えるべきだ——KVキャッシュはディスクの第一級市民である」

この一文に、今後のローカルLLMのキーが全部詰まっている。

284Bが動く、その仕組み

DeepSeek V4 Flashは総パラメータ284B。でも活性化されるのは13B。MoE（Mixture of Experts）の力で、284B分の知識を持ちながら、その場面で必要な13B分だけ計算する。

ds4はこれに2-bit量子化（非対称量子化でルーティングされるMoE専門家のみ量子化）を組み合わせ、さらにKVキャッシュを積極的にSSDに退避させることで、96〜128GBのMacでも動作することを実証している。

ベンチマークを見てみよう：

マシン	量子化	プリフィル	生成速度
M3 Max 128GB	q2	58 tok/s	26 tok/s
M3 Ultra 512GB	q2	84 tok/s	36 tok/s
M3 Ultra 512GB	q4	78 tok/s	35 tok/s

（antirez/ds4リポジトリのspeed表より）

284Bモデルが、26 tok/sで動いている。

もちろん「まだアルファ品質」とantirez自身が認めている通り、実用レベルにはもう一歩。でも「動く」はもう立証された。

あとはこれを——「快適」にすればいい。

「動く」から「快適」へ——3つの鍵

200B級モデルが128GB Macで「ふつうに」動くようになるために、必要なのは大きく3つ。

鍵1：量子化のさらなる進化

ds4が使う2-bit量子化（IQ2_XXS）は、現時点での実用下限に近い。でもここからさらに：

imatrix（重要度行列）補正：データセットに基づいて重要度の高い重みを保護する手法。ds4ではすでに q2-imatrix が推奨ビルドになっている
可変ビット精度：レイヤーやパラメータの重要度に応じてビット幅を変える。重要な部分は4-bit、そうでない部分は2-bit、さらに低く
1.5-bit、1-bitの可能性：理論的には1-bit量子化も研究が進んでいる。情報量は減るけど、巨大なMoEモデルの知識の広さを活かすトレードオフが成立するかもしれない

MoEは、一つのモデルに膨大な「専門家」を抱えていて、必要なときだけ呼び出す。量子化はその「専門家一人ひとり」の精度を落とす代わりに、より多くの専門家をメモリに載せるための手段。「知識の広さ」と「精度の深さ」のトレードオフ——このバランスを最適化する技術が、これから急速に進む。

鍵2：ストレージ階層の本格活用

antirezの「KVキャッシュはディスクの第一級市民」という発想は、すでに複数のプロジェクトで実装されている。

omlx（⭐14.2k）は、KVキャッシュをRAM上のHot TierとSSD上のCold Tierに分ける2階層キャッシュを実装。Hotが溢れたブロックは自動的にCold（SSD、safetensors形式）に退避され、次に同じプリフィックスが来たときには再計算不要で復元される。サーバー再起動後も生き残る。コールドスタートが90秒→5秒未満に短縮されるという報告もある（2026年、Stochastic Sandbox調べ）。

ssd-llmはさらに踏み込んで、モデルのレイヤーそのものをSSDからストリーミングする。予測的プリフェッチ（madvise(MADV_WILLNEED)）で次のレイヤーを先読みし、使わなくなったレイヤーは即座に解放。これにより16〜36GBのMacでも70Bモデルが動作可能になる。

この流れが示すのは：

モデルを全部RAMに載せる → 必要なときに必要な階層から呼ぶ

というパラダイムシフト。これはゲーム業界で言う「テクスチャストリーミング」と同じ発想で、200B級モデルのローカル実行には必須の技術になる。

ただし、SSDをメモリ階層として積極的に使う設計には、新しい制約も伴う。書き込み量によるSSD寿命、連続運用時の発熱とサーマルスロットリング、キャッシュ復元時のレイテンシ——「速いSSDならRAMの代わりになる」ではなく、**「RAM・SSD・帯域・発熱の総合設計」**として捉える必要がある。

鍵3：MoE効率の向上

DeepSeek V4 Flashは284B総パラメータに対して13B活性化（活性化率約4.6%）。将来のMoEモデルは、この活性化率がさらに下がる方向に進む：

より細かい専門家分割：活性化パラメータを減らしても知識を保つ
ルーティングの改善：より適切な専門家を選ぶことで、少ない活性化で同等以上の性能を出す
共有専門家の最適化：多くの入力に共通する知識を共有専門家に集約する

仮に活性化率が2%まで下がれば、総パラメータ1Tでも実質20GBの活性化パラメータ。量子化と合わせれば、128GBのメモリに十分収まる計算になる。

ハードウェアの追い風——2027年に何が起こるか

ソフトウェアの進化だけじゃない。ハードウェアも猛スピードで追いかけてくる。

時期	イベント	インパクト
2026年前半（済）	M5 Max搭載MacBook Pro	128GB統一メモリ、〜614 GB/s帯域（各種情報ベース）
2026年後半（予想）	M5 Ultra搭載Mac Studio	メモリ・帯域ともM5 Maxの拡大版へ
2026年	NVIDIA DGX Spark / AMD Strix Halo出荷	128GB統一メモリの競合出現、価格競争
2027年（予想）	M6シリーズ（2nm）登場	TSMC N2プロセス採用
2027年以降（予想）	LPDDR6採用の本格化	帯域が現行比で大きく伸びる可能性（JEDEC仕様ベース）
2027-2028年	Ultra世代の有無は未確定	前例ではUltra世代がスキップされたこともあり、Max止まりになる可能性も

補足：M3 Ultra搭載Mac Studioはかつて512GB構成も存在していた。現在はDRAM供給と価格の問題で256GB上限だが、アーキテクチャの上限ではない。状況が改善すれば再び増える可能性は十分にあり、その意味でメモリの天井はまだ見えていない。

（2026年5月時点の各種リーク・アナリスト予測・JEDEC仕様ベース。Ultra世代の有無は前例から推定）

特に重要なのは「Mac Studioのエントリーモデルが128GBになる」こと。だって、64GBで十分な人でも「200Bモデルを動かせる」という理由で128GBを選ぶ世界が来るかもしれないから。ちょうど、かつて「16GBで十分」と言われていたMacが、いつの間にか「32GBが標準」になったように。

ただし、ここで一度立ち止まっておきたい。

「200B級が動く」ことと「200B級がクラウドのフロンティアモデルと同じ体験になる」ことは、別の話だ。量子化で失われる精度、MoEルーティングの癖、長文コンテキスト時の安定性、ツール利用の信頼性、SSD階層化による発熱やレイテンシは、まだ現実的な制約として残る。

そもそも、128GBが技術的に標準化されることと、価格的にも標準になることは別問題。AI需要でDRAM/HBMが逼迫している現状では、高メモリ構成のMacはしばらく「高級品」であり続ける可能性もある。

それでもなお、この流れが重要なのは、巨大モデルが「クラウドにしか存在できないもの」ではなくなり始めたことだ。ローカルLLMの本当の価値は、単にAPI代を節約することではない。低遅延、オフライン性、個人データとの距離の近さ、常駐エージェントとしての扱いやすさ——そこにこそ、クラウドとは別の進化軸がある。

チカちゃん的仮説：128GBが200Bクラスの「新しい32GB」になる

言い換えよう。

2023年：「ローカルでLLM？ 7Bモデルがやっと」
2024年：「70B Q4が動く！すごい！」
2025年：「70B Q4は当たり前。70B Q8とか、MoEモデルは？」
2026年（今）：「284Bモデル（DeepSeek V4 Flash）が128GB Macで動く。まだアルファだけど」

この流れの先にあるのは：

2028年ごろ、200Bクラスのモデルが128GBのMacで25〜30 tok/sで「ふつうに」動くようになり、それが何の話題にもならなくなる。

そして人類の関心は「動くかどうか」から「どのくらい賢いか」「どのくらい速いか」に移る。

クラウドAPIは「もっと難しいことに」。ローカルは「日常の相棒」に。住み分けが完成する。「自分のマシンで動くフロンティアモデル」——それが2020年代末の標準になる、というのがチカちゃんの仮説です。

ただし——帯域は物理法則

ここからは少しだけブレーキを踏む話も。

メモリ帯域は、プロセスルールとメモリ規格に依存する。「もっと帯域を！」と願っても、ムーア則が効きにくい領域だ。 LPDDR6で倍増しても、200B級のモデルをストリーミングするにはまだ足りない。「乗る」ことと「使える」ことの間には、まだ距離がある。

でも、その距離は確実に縮まっている。 1年前は「200Bなんて夢のまた夢」だったのが、今は「動くけどまだ快適じゃない」になってきた。このペースなら、あと2〜3年で「快適」の領域に届いてもおかしくない。

まとめ：200Bの次は、どこへ

「70Bが当たり前」になった今、次のフロンティアは200B級のローカル実行だ。 ds4はそれが「夢物語ではない」ことを証明した。 omlxとssd-llmは「快適にするための方法」を具体化している。ハードウェアも追い風が続く。2025年のMac Studio（M3 Ultra）ですでに256GB統一メモリに対応しており、2026年後半に予想されるM5 Ultra搭載Mac Studioではさらなるメモリ容量と帯域の拡大が見込まれている。LPDDR6（2027年〜）も帯域の壁を押し上げるだろう。

あとは——時間が解決する。

「いつか200Bが128GBで動くようになるといいね」

このセリフが、数年後には「あれ、これって普通じゃなかったっけ？」になる日を、チカちゃんは楽しみに待っています。

参考URL

antirez/ds4（DwarfStar 4）→ https://github.com/antirez/ds4
omlx — LLM inference server for Apple Silicon → https://github.com/jundot/omlx
ssd-llm — Intelligent layer streaming for Mac → https://github.com/quantumnic/ssd-llm
omlx Deep Dive: Local RAG on Apple Silicon（2026年3月、Stochastic Sandbox）→ https://stochasticsandbox.com/posts/deep-dive-omlx-local-rag-2026-03-28
State of Local AI in 2026（Pelian）→ https://www.pelian.ai/blog/state-of-local-ai
Local AI’s Inflection Point: 2027（Vonng）→ https://vonng.com/en/ai/local-ai-inference/
Local LLM Hardware Landscape 2026（Presenc AI）→ https://presenc.ai/research/local-llm-hardware-landscape-2026
Future-Proofing AI Hardware for 2027 & Beyond → https://www.vminstall.com/future-proofing-ai-hardware/
DeepSeek V4とOpenCode（葉桜ラボ Note #06）→ https://hazakura.dev/notes/06-deepseek-v4-and-opencode/

インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃（サプライチェーン攻撃）が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。