问题:算力提升遭遇“内存墙”,超大模型难进个人设备 近年来处理器算力持续跃升,但内存容量与带宽增长相对缓慢,形成制约超大模型落地的“内存墙”。以开源模型Qwen3.5-397B为例,其参数规模达3970亿,即便采用4比特量化,权重体积仍约209GB,远超主流消费级笔记本的内存上限。传统解决方式往往依赖多张高端显卡堆叠显存,不仅成本高、能耗大,也与便携部署和离线使用的需求相矛盾。 原因:混合专家模型“按需激活”与统一内存架构,提供了绕开内存墙的切口 据披露,CVS Health智能计算平台负责人Dan Woods使用一台配备M3 Max芯片、48GB统一内存的笔记本电脑,离线条件下完成对Qwen3.5-397B的推理运行,峰值约7.07词元/秒,日常稳定约5.7词元/秒。该实验能够成立,关键在于两点。 其一,Qwen3.5-397B属于混合专家模型结构,每次生成仅激活少量“专家”子网络。Woods的测试显示,模型每个词元实际参与计算的参数规模约17B,约占总参数的2%以内;在默认启用10个专家时,逻辑、数学与编程任务表现较稳健,降低至4个专家仍可保持较好效果,而少于3个专家则明显退化。这意味着,超大模型“体量大”不等于“每一步都要全量载入”,为按需取用权重创造了空间。 其二,苹果三年前曾提出“将大模型权重存放于闪存并流式加载”的设想。Woods据此将权重主要放在NVMe固态硬盘中,推理时按层、按专家动态读取,尽量减少常驻内存体积,从路径上绕开“必须把权重全部装进内存/显存”的惯性做法。 影响:个人设备离线运行超大模型出现可行样本,应用边界有望外扩 该实验引发行业关注,主要在于它展示了成本与门槛的显著下探:过去被认为需要“数据中心级配置”的模型推理,开始具备在高端消费级笔记本上实现的可能。若该思路深入工程化,有望带来三上影响:一是更便捷的本地部署,减少对网络与云端的依赖,适用于医疗、金融、制造等对数据离开本地敏感的场景;二是研发迭代更灵活,中小团队可在相对有限的硬件条件下开展验证;三是推动软件与硬件围绕“存储—内存—计算”的系统级协同优化,从单纯追求算力转向全链路效率。 对策:通过“瘦身、重叠、反缓存”组合拳,把存储瓶颈压到可接受范围 从公开细节看,Woods采用了三项关键工程策略。 一是“二次量化”进一步压缩传输量。在原4比特量化基础上,他对专家权重再进行2比特量化,将单个专家权重从约7.08MB压缩至约3.93MB,使总体权重需求从约209GB降至约120GB,传输量降低约44%,并将数值误差控制在0.001至0.003的范围内,实际输出与4比特版本差异不明显。 二是“计算与传输重叠”。利用统一内存架构下CPU、GPU与存储的协同,他通过底层图形与计算接口重写调度,使CPU准备下一层数据的同时GPU计算当前层,尽量把等待固态读取的空挡“填满”,减少流水线停顿。 三是“反缓存”纠偏。其早期尝试曾引入约9.8GB的GPU可见缓存以求提速,但由于硬件压缩与频繁解压带来额外开销,反而拖慢整体速度。最终清理该缓存,交由系统页缓存接管后,整体速度提升约38%,解压操作显著减少。 在上述策略下,运行时内存占用被压缩至约6.5GB;单层计算约2.9毫秒;整体耗时中固态数据传输占比接近一半,显示瓶颈正从“内存容量”转向“存储带宽与读取延迟”。 前景:存储带宽或成下一道“系统墙”,端侧大模型仍需软硬件协同突围 Woods测算,在现有固态带宽条件下,其方案理论上限可达约18.6词元/秒,但实际仅约5.74词元/秒,说明硬件与调度仍有提升空间。若未来NVMe等存储性能按代际持续增长,同时操作系统、编译器与推理框架进一步针对“按需加载+混合专家”优化,个人设备达到每秒10词元左右的稳定推理速度并非遥不可及。更重要的是,该思路对以专家权重为主的混合专家模型具有一定通用性,具备迁移扩展的可能。 另外,新的挑战也随之显现:一是固态高强度随机读取对功耗与寿命的影响需要评估;二是极限压缩带来的精度边界、鲁棒性与可解释性仍需更多公开基准验证;三是离线部署增多后,模型合规使用、内容安全与更新机制也需要配套制度与工具完善。
从“内存墙”到“闪存喂参”,这项实验重新定义了技术极限的可能性。算力不再受硬件束缚,人工智能发展空间更广阔。但如何在效率与精度间平衡,以及应对安全与伦理挑战,仍是行业需要持续探索的课题。