华为腾联手华为腾，解决了moe的显存问题，硬是把显存消耗给砍掉了一半，速度也翻了一番

AI导读南京大学团队跟华为昇腾联手，成功搞定了MoE模型的显存问题，硬是把显存消耗给砍掉了一半，速度也翻了一番。IT之家消息说，最近大语言模型越来越大，参数量动不动就是千亿、万亿级别。在这背景下，MoE这种混合专家的架构因为既省内存又跑得快，就成了大家研究的重点。李猛博士带着团队，在南京大学鲲鹏昇腾科教创新孵化中心的支持下，拿着华为的昇腾硬件做实验。他们专门盯着 MoE 模型部署的几个大毛病：模型太大了占着显存不走，只能把一部分参数留在内存里来回倒腾，搞得推理慢得要命；还有就是国产化硬件也不能落下。团队通过研究专家之间的等价性和冗余性，想出了一套软硬件一起改的办法。他们搞了个三级流水线并行架构，把参数加载、CPU 算和 GPU 推理这三件事完全重叠起来跑，这样数据传输的压力就小多了。另外还弄了个基于等价性的专家分类机制，把专家分成了高、中、低三类核心和替代专家。这样就能先把最关键的专家缓存起来，遇到没加载的低分专家也能用等价的顶上。这几招加一块儿，有效减少了内存和显存之间的来回倒腾。他们还在预取技术上动了脑筋，用了在线预测的法子提前把参数备好。为了保证负载均衡，团队设计了双指针算法根据任务大小智能分配算力。依托昇腾的硬件和 CANN 软件栈，他们搞了个专门的 MoE-Ascend 加速引擎。这玩意儿支持多种硬件环境，在不损失精度的前提下，不仅把显存占用降到了原方案的 50%，速度更是比同类方法快了 2 倍以上，命中率也能到 70% 以上。这次的成果打算开源到昇腾社区、DeepModeling 和 GitHub 上，方便大家接着用。未来这个工具链能用到 AI 推理平台、智能客服还有语音生成这些地方，特别适合像昇腾这种自主 NPU 的部署环境。