1-bit量子化が「使える」段階に到達した
LLMの量子化研究は長らく「精度を犠牲にしてサイズを削る」トレードオフの世界だった。PrismMLのBonsaiシリーズは、その常識を覆す。Caltechの研究を基盤に、Khosla Ventures、Google、Cerberus Capital Managementの支援を受けたPrismMLは、「ビット当たりの知能密度(intelligence per bit)」を最大化する新しいアプローチで、1-bitモデルの商用化に挑んでいる。
Bonsaiシリーズは3つのモデルサイズで展開される。フラグシップのBonsai 8Bは、通常の8Bモデルの14分の1のメモリ(わずか1.15GB)で動作し、RTX 4090で368 tokens/secという推論速度を達成する。ベンチマーク平均は70.5と、full-precisionモデルに迫る。
モデルラインナップと性能
Bonsaiシリーズの3モデルは、それぞれ異なるデプロイシナリオを想定している。
Bonsai 8B(1.15GB): デスクトップ/エッジサーバー向け。RTX 4090で368 tokens/sec、full-precisionの8倍高速。IFEval、GSM8K、HumanEval+、BFCL、MuSR、MMLU-Reduxの6ベンチマーク平均70.5。知能密度はfull-precision 8Bモデルの10倍と主張。
Bonsai 4B(0.57GB): ノートPC/タブレット向け。M4 Proで132 tokens/sec。速度とエネルギー効率を重視。
Bonsai 1.7B(0.24GB): スマートフォン/IoT向け。iPhone 17 Pro Maxで130 tokens/sec。完全なオンデバイス推論を実現。
なぜ1-bitが重要なのか
GPT-5.4やClaude Opus 4.6のような大型モデルが「能力の天井」を押し上げる一方で、推論コストとエネルギー消費は深刻な課題になっている。米上院がAIデータセンターの電力消費調査に乗り出すほど、この問題は政治的にも注目されている。
1-bitモデルは、この「大きければ大きいほど良い」パラダイムへのカウンターだ。0.074 mWh/tokenというBonsai 8Bのエネルギー効率は、データセンター運用者にとっても、エッジデバイスメーカーにとっても、コスト構造を根本から変える可能性がある。
S2D2からBonsaiへ——推論効率化の系譜
推論の効率化はDeep Signalで繰り返し取り上げてきたテーマだ。S2D2(Self-Speculative Decoding for Diffusion LLMs)は拡散LLMの推論を高速化する手法を提案し、HeiSD(arXiv:2603.17573)はVLAモデルの推論を運動学的推測デコードで2.8倍高速化した。
Bonsaiのアプローチは、これらとは異なるレイヤーで効率化を実現する。モデルの重みそのものを1-bitに圧縮することで、推論時のメモリ帯域と計算量を劇的に削減する。アルゴリズムの改善とモデル圧縮は相互補完的であり、両方を組み合わせることでさらなる効率化が期待できる。
商用展開への展望
PrismMLはモデルをHugging Faceで公開しており、ロボティクス、モバイル/エッジAI、リアルタイムエージェント、リソース制約環境をターゲットとしている。NVIDIA NemoCLAW等の企業向けAIエージェント基盤と組み合わせれば、「小さくて速いモデル」がエージェントの推論バックエンドとして現実的な選択肢になる。
「大きなモデルはスマートフォンに収まらない。データセンターもそれを維持できない」——PrismMLのキャッチフレーズは、2026年のAI業界が直面する根本的な矛盾を正面から突いている。



