1-bit LLMが商用段階に——PrismML Bonsaiシリーズが示す「ビット当たりの知能密度」革命

1-bit量子化が「使える」段階に到達した

LLMの量子化研究は長らく「精度を犠牲にしてサイズを削る」トレードオフの世界だった。PrismMLのBonsaiシリーズは、その常識を覆す。Caltechの研究を基盤に、Khosla Ventures、Google、Cerberus Capital Managementの支援を受けたPrismMLは、「ビット当たりの知能密度（intelligence per bit）」を最大化する新しいアプローチで、1-bitモデルの商用化に挑んでいる。

Bonsaiシリーズは3つのモデルサイズで展開される。フラグシップのBonsai 8Bは、通常の8Bモデルの14分の1のメモリ（わずか1.15GB）で動作し、RTX 4090で368 tokens/secという推論速度を達成する。ベンチマーク平均は70.5と、full-precisionモデルに迫る。

モデルラインナップと性能

Bonsaiシリーズの3モデルは、それぞれ異なるデプロイシナリオを想定している。

Bonsai 8B（1.15GB）: デスクトップ/エッジサーバー向け。RTX 4090で368 tokens/sec、full-precisionの8倍高速。IFEval、GSM8K、HumanEval+、BFCL、MuSR、MMLU-Reduxの6ベンチマーク平均70.5。知能密度はfull-precision 8Bモデルの10倍と主張。

Bonsai 4B（0.57GB）: ノートPC/タブレット向け。M4 Proで132 tokens/sec。速度とエネルギー効率を重視。

Bonsai 1.7B（0.24GB）: スマートフォン/IoT向け。iPhone 17 Pro Maxで130 tokens/sec。完全なオンデバイス推論を実現。

なぜ1-bitが重要なのか

GPT-5.4やClaude Opus 4.6のような大型モデルが「能力の天井」を押し上げる一方で、推論コストとエネルギー消費は深刻な課題になっている。米上院がAIデータセンターの電力消費調査に乗り出すほど、この問題は政治的にも注目されている。

1-bitモデルは、この「大きければ大きいほど良い」パラダイムへのカウンターだ。0.074 mWh/tokenというBonsai 8Bのエネルギー効率は、データセンター運用者にとっても、エッジデバイスメーカーにとっても、コスト構造を根本から変える可能性がある。

S2D2からBonsaiへ——推論効率化の系譜

推論の効率化はDeep Signalで繰り返し取り上げてきたテーマだ。S2D2（Self-Speculative Decoding for Diffusion LLMs）は拡散LLMの推論を高速化する手法を提案し、HeiSD（arXiv:2603.17573）はVLAモデルの推論を運動学的推測デコードで2.8倍高速化した。

Bonsaiのアプローチは、これらとは異なるレイヤーで効率化を実現する。モデルの重みそのものを1-bitに圧縮することで、推論時のメモリ帯域と計算量を劇的に削減する。アルゴリズムの改善とモデル圧縮は相互補完的であり、両方を組み合わせることでさらなる効率化が期待できる。

商用展開への展望

PrismMLはモデルをHugging Faceで公開しており、ロボティクス、モバイル/エッジAI、リアルタイムエージェント、リソース制約環境をターゲットとしている。NVIDIA NemoCLAW等の企業向けAIエージェント基盤と組み合わせれば、「小さくて速いモデル」がエージェントの推論バックエンドとして現実的な選択肢になる。

「大きなモデルはスマートフォンに収まらない。データセンターもそれを維持できない」——PrismMLのキャッチフレーズは、2026年のAI業界が直面する根本的な矛盾を正面から突いている。

1-bit LLMが商用段階に——PrismML Bonsaiシリーズが示す「ビット当たりの知能密度」革命

1-bit量子化が「使える」段階に到達した

モデルラインナップと性能

なぜ1-bitが重要なのか

S2D2からBonsaiへ——推論効率化の系譜

商用展開への展望

◇ 関連記事

具身AI競争が転換期——VLAモデルとオープンソースハードウェアが変える2026年のロボット産業

HeiSD（arXiv:2603.17573）——ロボット制御VLAモデルを運動学的推測デコードで2.8倍高速化

フィジカルAIのPhysical Intelligence、再び10億ドル調達へ——4ヶ月で企業価値2倍超の衝撃