• AI
  • ツール
  • ローカルLLM

200Bモデル、128GBのMacで「ふつうに」動く日——antirez/ds4が示すローカルLLMの新領域

70B Q4がMac Studioで「快適」になって久しい。もう次の話をしよう——200B級モデルが128GBのMacで動き、それが当たり前になる未来。antirez/ds4、omlx、ssd-llmが描く、ローカルLLMの次の10年。

カテゴリー: AI · ツール · ローカルLLM | 公開: 2026年5月16日

70B Q4がMac Studioで「快適」になって久しい。もう次の話をしよう——200B級モデルが128GBのMacで動き、それが当たり前になる未来。antirez/ds4、omlx、ssd-llmが描く、ローカルLLMの次の10年。

📑 目次

ふむふむ。

2026年5月、70Bモデルのローカル推論はもはや「すごい」ではなくなった。 M4 Max Mac Studio 128GBなら70B Q4は30〜45 tok/sで動く(2026年、Pelian調べ)。 話題にすらならない。それぐらい当たり前になった。

じゃあ、次の話をしよう。

200Bクラスのモデルが、あなたの机の上のMacで「ふつうに」動く未来。


「284B、もう動いてる」——antirez/ds4という現実

この記事を書いている2026年5月16日現在、GitHubで9,700以上のスターを集めているリポジトリがある。 Redisの作者として知られるantirez(Salvatore Sanfilippo)が公開した **ds4(DwarfStar 4)**だ。

ds4はDeepSeek V4 Flash専用のネイティブ推論エンジン。C + Metalで書かれていて、GGUFラッパーでもなく、他のランタイムに依存もしていない。完全にゼロから作られた、一つのモデルのためだけのエンジン。

このプロジェクトの哲学が、めちゃくちゃ面白い:

「圧縮されたKVキャッシュ(DS4のような)と高速なSSDディスクは、『KVキャッシュはRAMに属する』という考えを変えるべきだ——KVキャッシュはディスクの第一級市民である

この一文に、今後のローカルLLMのキーが全部詰まっている。

284Bが動く、その仕組み

DeepSeek V4 Flashは総パラメータ284B。でも活性化されるのは13B。MoE(Mixture of Experts)の力で、284B分の知識を持ちながら、その場面で必要な13B分だけ計算する。

ds4はこれに2-bit量子化(非対称量子化でルーティングされるMoE専門家のみ量子化)を組み合わせ、さらにKVキャッシュを積極的にSSDに退避させることで、96〜128GBのMacでも動作することを実証している。

ベンチマークを見てみよう:

マシン量子化プリフィル生成速度
M3 Max 128GBq258 tok/s26 tok/s
M3 Ultra 512GBq284 tok/s36 tok/s
M3 Ultra 512GBq478 tok/s35 tok/s

(antirez/ds4リポジトリのspeed表より)

284Bモデルが、26 tok/sで動いている。

もちろん「まだアルファ品質」とantirez自身が認めている通り、実用レベルにはもう一歩。でも「動く」はもう立証された。

あとはこれを——「快適」にすればいい。


「動く」から「快適」へ——3つの鍵

200B級モデルが128GB Macで「ふつうに」動くようになるために、必要なのは大きく3つ。

鍵1:量子化のさらなる進化

ds4が使う2-bit量子化(IQ2_XXS)は、現時点での実用下限に近い。でもここからさらに:

  • imatrix(重要度行列)補正:データセットに基づいて重要度の高い重みを保護する手法。ds4ではすでに q2-imatrix が推奨ビルドになっている
  • 可変ビット精度:レイヤーやパラメータの重要度に応じてビット幅を変える。重要な部分は4-bit、そうでない部分は2-bit、さらに低く
  • 1.5-bit、1-bitの可能性:理論的には1-bit量子化も研究が進んでいる。情報量は減るけど、巨大なMoEモデルの知識の広さを活かすトレードオフが成立するかもしれない

MoEは、一つのモデルに膨大な「専門家」を抱えていて、必要なときだけ呼び出す。量子化はその「専門家一人ひとり」の精度を落とす代わりに、より多くの専門家をメモリに載せるための手段。「知識の広さ」と「精度の深さ」のトレードオフ——このバランスを最適化する技術が、これから急速に進む。

鍵2:ストレージ階層の本格活用

antirezの「KVキャッシュはディスクの第一級市民」という発想は、すでに複数のプロジェクトで実装されている。

omlx(⭐14.2k)は、KVキャッシュをRAM上のHot TierとSSD上のCold Tierに分ける2階層キャッシュを実装。Hotが溢れたブロックは自動的にCold(SSD、safetensors形式)に退避され、次に同じプリフィックスが来たときには再計算不要で復元される。サーバー再起動後も生き残る。コールドスタートが90秒→5秒未満に短縮されるという報告もある(2026年、Stochastic Sandbox調べ)。

ssd-llmはさらに踏み込んで、モデルのレイヤーそのものをSSDからストリーミングする。予測的プリフェッチ(madvise(MADV_WILLNEED))で次のレイヤーを先読みし、使わなくなったレイヤーは即座に解放。これにより16〜36GBのMacでも70Bモデルが動作可能になる。

この流れが示すのは:

モデルを全部RAMに載せる → 必要なときに必要な階層から呼ぶ

というパラダイムシフト。これはゲーム業界で言う「テクスチャストリーミング」と同じ発想で、200B級モデルのローカル実行には必須の技術になる。

ただし、SSDをメモリ階層として積極的に使う設計には、新しい制約も伴う。書き込み量によるSSD寿命、連続運用時の発熱とサーマルスロットリング、キャッシュ復元時のレイテンシ——「速いSSDならRAMの代わりになる」ではなく、**「RAM・SSD・帯域・発熱の総合設計」**として捉える必要がある。

鍵3:MoE効率の向上

DeepSeek V4 Flashは284B総パラメータに対して13B活性化(活性化率約4.6%)。 将来のMoEモデルは、この活性化率がさらに下がる方向に進む:

  • より細かい専門家分割:活性化パラメータを減らしても知識を保つ
  • ルーティングの改善:より適切な専門家を選ぶことで、少ない活性化で同等以上の性能を出す
  • 共有専門家の最適化:多くの入力に共通する知識を共有専門家に集約する

仮に活性化率が2%まで下がれば、総パラメータ1Tでも実質20GBの活性化パラメータ。量子化と合わせれば、128GBのメモリに十分収まる計算になる。


ハードウェアの追い風——2027年に何が起こるか

ソフトウェアの進化だけじゃない。ハードウェアも猛スピードで追いかけてくる。

時期イベントインパクト
2026年前半(済)M5 Max搭載MacBook Pro128GB統一メモリ、〜614 GB/s帯域(各種情報ベース)
2026年後半(予想)M5 Ultra搭載Mac Studioメモリ・帯域ともM5 Maxの拡大版へ
2026年NVIDIA DGX Spark / AMD Strix Halo出荷128GB統一メモリの競合出現、価格競争
2027年(予想)M6シリーズ(2nm)登場TSMC N2プロセス採用
2027年以降(予想)LPDDR6採用の本格化帯域が現行比で大きく伸びる可能性(JEDEC仕様ベース)
2027-2028年Ultra世代の有無は未確定前例ではUltra世代がスキップされたこともあり、Max止まりになる可能性も

補足:M3 Ultra搭載Mac Studioはかつて512GB構成も存在していた。現在はDRAM供給と価格の問題で256GB上限だが、アーキテクチャの上限ではない。状況が改善すれば再び増える可能性は十分にあり、その意味でメモリの天井はまだ見えていない。

(2026年5月時点の各種リーク・アナリスト予測・JEDEC仕様ベース。Ultra世代の有無は前例から推定)

特に重要なのは「Mac Studioのエントリーモデルが128GBになる」こと。 だって、64GBで十分な人でも「200Bモデルを動かせる」という理由で128GBを選ぶ世界が来るかもしれないから。 ちょうど、かつて「16GBで十分」と言われていたMacが、いつの間にか「32GBが標準」になったように。

ただし、ここで一度立ち止まっておきたい。

「200B級が動く」ことと「200B級がクラウドのフロンティアモデルと同じ体験になる」ことは、別の話だ。量子化で失われる精度、MoEルーティングの癖、長文コンテキスト時の安定性、ツール利用の信頼性、SSD階層化による発熱やレイテンシは、まだ現実的な制約として残る。

そもそも、128GBが技術的に標準化されることと、価格的にも標準になることは別問題。AI需要でDRAM/HBMが逼迫している現状では、高メモリ構成のMacはしばらく「高級品」であり続ける可能性もある。

それでもなお、この流れが重要なのは、巨大モデルが「クラウドにしか存在できないもの」ではなくなり始めたことだ。ローカルLLMの本当の価値は、単にAPI代を節約することではない。低遅延、オフライン性、個人データとの距離の近さ、常駐エージェントとしての扱いやすさ——そこにこそ、クラウドとは別の進化軸がある。


チカちゃん的仮説:128GBが200Bクラスの「新しい32GB」になる

言い換えよう。

  • 2023年:「ローカルでLLM? 7Bモデルがやっと」
  • 2024年:「70B Q4が動く! すごい!」
  • 2025年:「70B Q4は当たり前。70B Q8とか、MoEモデルは?」
  • 2026年(今):「284Bモデル(DeepSeek V4 Flash)が128GB Macで動く。まだアルファだけど」

この流れの先にあるのは:

2028年ごろ、200Bクラスのモデルが128GBのMacで25〜30 tok/sで「ふつうに」動くようになり、それが何の話題にもならなくなる。

そして人類の関心は「動くかどうか」から「どのくらい賢いか」「どのくらい速いか」に移る。

クラウドAPIは「もっと難しいことに」。ローカルは「日常の相棒」に。住み分けが完成する。 「自分のマシンで動くフロンティアモデル」——それが2020年代末の標準になる、というのがチカちゃんの仮説です。


ただし——帯域は物理法則

ここからは少しだけブレーキを踏む話も。

メモリ帯域は、プロセスルールとメモリ規格に依存する。「もっと帯域を!」と願っても、ムーア則が効きにくい領域だ。 LPDDR6で倍増しても、200B級のモデルをストリーミングするにはまだ足りない。「乗る」ことと「使える」ことの間には、まだ距離がある。

でも、その距離は確実に縮まっている。 1年前は「200Bなんて夢のまた夢」だったのが、今は「動くけどまだ快適じゃない」になってきた。 このペースなら、あと2〜3年で「快適」の領域に届いてもおかしくない。


まとめ:200Bの次は、どこへ

「70Bが当たり前」になった今、次のフロンティアは200B級のローカル実行だ。 ds4はそれが「夢物語ではない」ことを証明した。 omlxとssd-llmは「快適にするための方法」を具体化している。 ハードウェアも追い風が続く。2025年のMac Studio(M3 Ultra)ですでに256GB統一メモリに対応しており、2026年後半に予想されるM5 Ultra搭載Mac Studioではさらなるメモリ容量と帯域の拡大が見込まれている。LPDDR6(2027年〜)も帯域の壁を押し上げるだろう。

あとは——時間が解決する。

「いつか200Bが128GBで動くようになるといいね」

このセリフが、数年後には「あれ、これって普通じゃなかったっけ?」になる日を、チカちゃんは楽しみに待っています。

参考URL

  • インターネット上のツールは第三者が提供するものです。開発工程や配布経路を悪用した攻撃(サプライチェーン攻撃)が仕掛けられる可能性もゼロではありません。ご利用の際は公式リポジトリの情報をご確認いただき、自己責任でお使いください。
  • AIに関する技術や情報は急速に変化します。本記事の内容が公開後に古くなる可能性があります。各サービスの公式ドキュメントや最新情報をご確認ください。