当前,人工智能正加速向终端设备下沉,但传统大参数模型在手机、耳机等消费级硬件上落地时,常受限于存储空间和算力资源。行业调研显示,主流智能手机应用安装包普遍超过1GB,而现有端侧模型即使完成4比特量化,仍需占用数GB存储,离线场景因此难以规模化应用。围绕该痛点,腾讯混元团队提出并实现2比特量化技术突破:通过对1.8B参数基础模型进行量化感知训练(QAT),在尽量保留思维链推理能力的同时,将模型精度压缩到2比特级别。测试结果显示,量化后模型等效参数量降至0.3B,在华为Mate60等终端设备上单次推理耗时缩短约65%,并可在复杂任务中支持渐进式深度计算。
大语言模型正从“更大更全”转向“更小更精”的阶段。腾讯混元此次开源超小模型,既表明了端侧落地的技术方向,也回应了用户对便携、低延迟与隐私保护的现实需求。随着端侧部署技术持续成熟,人工智能将逐步从云端走向身边,成为更易触达的日常助手。在该过程中,开源生态与技术方案共享将发挥关键作用,推动产业协作与应用加速落地。