面壁智能联合华为昇腾开源BitCPM-CANN，端侧AI低比特时代加速到来-产经-巨人天成财经

面壁智能近日携手清华大学与OpenBMB开源社区，共同推出国内首款基于国产算力平台（华为昇腾）实现端到端训练的三值（1.58-bit）大模型——BitCPM-CANN，并同步开源其全系列模型权重。这一突破标志着我国在极低位宽模型领域迈出关键一步，为移动端设备运行高性能大模型提供了可能。

据技术团队介绍，BitCPM-CANN包含0.5B、1B、3B、8B四个参数规模的版本，在保持与全精度模型相近性能的同时，推理阶段显存占用可降低约6倍。实验数据显示，其模型能力保留率稳定在90%至97.2%之间，这意味着未来智能手机等终端设备有望直接运行60B参数量级的大模型，显著提升设备智能化水平。

该模型的研发背景与全球内存市场波动密切相关。面壁智能AI Infra负责人李宇轩透露，自2026年以来内存价格已上涨近5倍，迫使行业重新审视模型部署的硬件成本。这种压力直接传导至模型开发环节，促使技术路线向更节省内存的方向演进。BitCPM-CANN的推出正是对这一市场变化的积极响应，通过量化压缩技术将模型精度降至1.58-bit，在性能与成本间取得平衡。

在技术实现层面，极低位宽模型面临精度损失的挑战。研发团队采用多重优化策略：通过严格的数据清洗过滤噪声信息，选用高性能量化器减少压缩损耗，并创新性地提出"量化感知训练+大模型蒸馏"的组合方案。这种训练方法既能保证低比特环境下的训练稳定性，又能最大限度恢复模型原始能力。李宇轩比喻称："这就像用真空压缩袋打包货物，需要在节省空间和保持物品完好间找到最佳平衡点。"

行业观察显示，模型量化技术正呈现加速迭代趋势。2023年主流方案还是FP8精度，如今FP4已成为标配，而2-bit、1.58-bit等更低精度技术正在快速落地。高通已率先实现2-bit硬件支持，国内DeepSeek、智谱等企业也在推进相关部署。值得关注的是，面壁智能团队仅用三周时间就完成了BitCPM-CANN在昇腾平台的适配优化，在8B参数规模以下的训练任务中，昇腾芯片的利用率和稳定性已达到行业领先水平。

尽管极低位宽模型展现出显著优势，但技术团队也坦言存在局限性。模型参数规模与位宽的降低会导致知识存储能力断崖式下降，表现为特定任务上的性能波动。针对这一问题，研发团队计划通过构建更精细的课程学习体系，针对性强化模型基础能力，逐步提升其在复杂场景下的表现。

目前，BitCPM-CANN全系列模型已通过开源方式向社区开放。面壁智能表示，希望此举能降低国产算力平台在低比特场景下的应用门槛，为开发者提供真实性能的验证基准，推动极低位宽模型技术的生态建设。