面壁智能近日携手清华大学与OpenBMB开源社区,共同推出国内首款基于国产算力平台(华为昇腾)实现端到端训练的三值(1.58-bit)大模型——BitCPM-CANN,并同步开源其全系列模型权重。这一突破标志着我国在极低位宽模型领域迈出关键一步,为移动端设备运行高性能大模型提供了可能。
据技术团队介绍,BitCPM-CANN包含0.5B、1B、3B、8B四个参数规模的版本,在保持与全精度模型相近性能的同时,推理阶段显存占用可降低约6倍。实验数据显示,其模型能力保留率稳定在90%至97.2%之间,这意味着未来智能手机等终端设备有望直接运行60B参数量级的大模型,显著提升设备智能化水平。
该模型的研发背景与全球内存市场波动密切相关。面壁智能AI Infra负责人李宇轩透露,自2026年以来内存价格已上涨近5倍,迫使行业重新审视模型部署的硬件成本。这种压力直接传导至模型开发环节,促使技术路线向更节省内存的方向演进。BitCPM-CANN的推出正是对这一市场变化的积极响应,通过量化压缩技术将模型精度降至1.58-bit,在性能与成本间取得平衡。
在技术实现层面,极低位宽模型面临精度损失的挑战。研发团队采用多重优化策略:通过严格的数据清洗过滤噪声信息,选用高性能量化器减少压缩损耗,并创新性地提出"量化感知训练+大模型蒸馏"的组合方案。这种训练方法既能保证低比特环境下的训练稳定性,又能最大限度恢复模型原始能力。李宇轩比喻称:"这就像用真空压缩袋打包货物,需要在节省空间和保持物品完好间找到最佳平衡点。"
行业观察显示,模型量化技术正呈现加速迭代趋势。2023年主流方案还是FP8精度,如今FP4已成为标配,而2-bit、1.58-bit等更低精度技术正在快速落地。高通已率先实现2-bit硬件支持,国内DeepSeek、智谱等企业也在推进相关部署。值得关注的是,面壁智能团队仅用三周时间就完成了BitCPM-CANN在昇腾平台的适配优化,在8B参数规模以下的训练任务中,昇腾芯片的利用率和稳定性已达到行业领先水平。
尽管极低位宽模型展现出显著优势,但技术团队也坦言存在局限性。模型参数规模与位宽的降低会导致知识存储能力断崖式下降,表现为特定任务上的性能波动。针对这一问题,研发团队计划通过构建更精细的课程学习体系,针对性强化模型基础能力,逐步提升其在复杂场景下的表现。
目前,BitCPM-CANN全系列模型已通过开源方式向社区开放。面壁智能表示,希望此举能降低国产算力平台在低比特场景下的应用门槛,为开发者提供真实性能的验证基准,推动极低位宽模型技术的生态建设。