AI导读南京大学团队跟华为昇腾联手,成功搞定了MoE模型的显存问题,硬是把显存消耗给砍掉了一半,速度也翻了一番。IT之家消息说,最近大语言模型越来越大,参数量动不动就是千亿、万亿级别。在这背景下,MoE这种混合专家的架构因为既省内存又跑得快,就成了大家研究的重点。李猛博士带着团队,在南京大学鲲鹏昇腾科教创新孵化中心的支持下,拿着华为的昇腾硬件做实验。 他们专门盯着 MoE 模型部署的几个大毛病:模型太大了占着显存不走,只能把一部分参数留在内存里来回倒腾,搞得推理慢得要命;还有就是国产化硬件也不能落下。团队通过研究专家之间的等价性和冗余性,想出了一套软硬件一起改的办法。他们搞了个三级流水线并行架构,把参数加载、CPU 算和 GPU 推理这三件事完全重叠起来跑,这样数据传输的压力就小多了。 另外还弄了个基于等价性的专家分类机制,把专家分成了高、中、低三类核心和替代专家。这样就能先把最关键的专家缓存起来,遇到没加载的低分专家也能用等价的顶上。这几招加一块儿,有效减少了内存和显存之间的来回倒腾。他们还在预取技术上动了脑筋,用了在线预测的法子提前把参数备好。为了保证负载均衡,团队设计了双指针算法根据任务大小智能分配算力。 依托昇腾的硬件和 CANN 软件栈,他们搞了个专门的 MoE-Ascend 加速引擎。这玩意儿支持多种硬件环境,在不损失精度的前提下,不仅把显存占用降到了原方案的 50%,速度更是比同类方法快了 2 倍以上,命中率也能到 70% 以上。这次的成果打算开源到昇腾社区、DeepModeling 和 GitHub 上,方便大家接着用。 未来这个工具链能用到 AI 推理平台、智能客服还有语音生成这些地方,特别适合像昇腾这种自主 NPU 的部署环境。