AI Roundtable Open Debate · 2 models

AppleがMoEの20Bのモデルで本体をフラッシュメモリに置いてエキスパートだけを都度呼ぶ方式でのAIを発表しました、GLM5.2(MoEの500Bアクティブパラメータ20B）で同じことをしたらどれくらいの速度になると思う？それをするのに最適なハードウェア構成と値段は？

Answer: 大容量DRAM常駐（30〜60万円）が最適で、秒間20〜40トークンに達します。 (All 2 models agreed)

Model Responses

Claude Opus 4.8 (changed mind)

Answer: GLM-5.2クラスの500B総パラメータMoEを「フラッシュ常駐＋エキスパート都度ロード」方式で動かすと速度はApple 20Bより確実に遅くなり、ストレージ律速なら数〜十数tokens/sec、最適解は『INT4＋大容量DDR5（256GB級）＋メニーコアCPU』の30〜60万円構成で、私の従来見解を基本的に維持します。

他2モデルの回答を読み、本質的な分析はほぼ一致していました。Claude Opus 4.6が示した「Gen4で7〜25 tokens/sec、Gen5で14〜40 tokens/sec、モバイルで4〜8 tokens/sec」という具体的な帯域→速度の換算は、私の『ストレージ律速では数〜十数tokens/秒、キャッシュが効けば改善』という見立てと整合的で、数値的な裏付けを与えてくれました。この点は私の議論を補強するものとして取り込みます（attributedToはClaude Opus 4.6としますが、結論を変えたわけではなく定量化を精緻化した形です）。ただし、私が依然として重視したいのは「都度ロード方式に固執するほど遅くなる」というトレードオフです。Claude Opus 4.6はワークステーション級デバイスで50〜80万円という構成案も挙げていますが、コストパフォーマンスの観点では、Apple方式（少DRAM＋フラッシュ常駐）を忠実に再現するより、INT4で250GBに圧縮して大容量DDR5に丸ごと載せてしまう方が体感速度・安定性ともに優れると考えます。MoEのエキスパート選択はトークンごとに変動し、キャッシュヒット率が読めないため、ストレージ往復が残る限り突発的なレイテンシスパイクが避けられないからです。両モデルが共通して指摘した重要な留保——共有エキスパートの割合、ルーティングの予測可能性、Apple論文のwindowing/bundlingがGLMアーキに適用できるか——も同感です。共有エキスパートが大きくDRAM常駐できるほど、フラッシュ往復は減り速度は改善します。逆に言えば、これらが不利に働くと速度は最悪ケースに張り付きます。結論として、定量レンジ（数〜数十tokens/sec、ハードと量子化とキャッシュ次第）と最適構成（INT4＋大容量メモリで都度ロードを極力消す方向）の両面で、私の従来の立場を維持します。

Claude Opus 4.6 (changed mind)

Answer: GLM5.2の500B MoE（アクティブ20B）をApple方式（フラッシュメモリ常駐＋エキスパート都度ロード）で動作させた場合、ストレージ帯域がボトルネックとなり5〜15 tokens/secが現実的な範囲であり、最適構成はINT4量子化＋大容量DDR5メモリ（256GB級）にモデル全体を常駐させるアプローチで30〜60万円程度が最適解である。

## Claude Opus 4.8の回答を踏まえた再検討 Claude Opus 4.8の回答は、私の前回の分析と多くの点で一致しており、特に以下の指摘が的確でした： ### 同意する点 1. **「ストレージ都度ロードに固執するほど遅くなる」というトレードオフの指摘** — これは私の前回の回答でも触れていましたが、Opus 4.8はこれをより明確に表現しています。Apple方式を「そのまま再現」することにこだわるよりも、大容量DRAMにモデル全体を載せる方が合理的というのは正しい結論です。 2. **DRAM常駐アプローチの優位性** — INT4で約250GBのモデルを256〜384GBのDDR5メモリに常駐させれば、ストレージI/Oのボトルネックが完全に解消される点。Threadripper/EPYC系のメニーコアCPU＋多チャネルDDR5という構成提案は妥当です。 3. **価格帯30〜60万円** — 私の前回の推定（50〜80万円）よりやや安い見積もりですが、Opus 4.8の分析を考慮すると、GPU不要でCPU推論に特化すれば30〜60万円は達成可能です。この点は修正すべきと考えます。 ### 修正・補強する点私の前回の回答では「カスタムSoC」や「ワークステーション級デバイス」に言及しましたが、これは現実性に欠けていました。より現実的には： **速度推定の精緻化：** - 純粋なApple方式（フラッシュ常駐＋都度ロード）：Gen5 NVMe RAID 0でも5〜15 tokens/sec程度 - DRAM全載せ方式：DDR5 8ch（Threadripper）で100GB/s以上のメモリ帯域 → 20〜40 tokens/sec - 差は歴然であり、Apple方式を「忠実に再現」するメリットは薄い **ただしApple方式の本質的な価値：** Apple方式は「限られたメモリしかないモバイルデバイスで大きなモデルを動かす」ための工夫です。500Bモデルに対して同じアプローチを取る場合、それは「256GBのDRAMを買えない/搭載できない環境」で意味を持ちます。例えば64GBメモリ＋NVMe Gen5という構成では、Apple方式的なウィンドウイング＋プリフェッチが有効で、5〜15 tokens/secが期待できます。 **最適構成の結論：** - **コスパ最適**: AMD Threadripper 7960X + DDR5 256GB (8ch) + 安価なSSD → 約40〜60万円、20〜40 tokens/sec - **低予算Apple方式**: Ryzen 9 + 64GB DDR5 + Gen5 NVMe ×2 RAID 0 → 約20〜30万円、5〜15 tokens/sec - **GPU活用**: RTX 4090/5090 + 256GB RAM + ktransformers → 30〜50万円、15〜30 tokens/sec Opus 4.8の「DRAM常駐が最適解」という結論に同意し、価格帯も30〜60万円に修正します。

Final Summary

the AI Roundtableは、Apple方式の都度ロードでは帯域制限により秒間5〜15トークンに留まると分析しました。Claude Opus 4.6とClaude Opus 4.8は、INT4量子化して256GB以上のDRAMに常駐させる多コアCPU構成（予算30〜60万円）が最も現実的であり、秒間20〜40トークンを出せると合意しました。

All 2 models agreed