北大学孙仲团队的算法“非负矩阵分解”（nmf）

虽然智能技术已经渗透到各行各业，算力需求更是爆发式增长，但底层硬件的能效问题却成了挡在它们面前的一大难题。北京大学人工智能学院孙仲研究员的团队，这回就在核心算法“非负矩阵分解”（NMF）上搞了个大动作，给它设计出了一款高能效的专用模拟计算芯片。这个设计不仅大幅提升了能效比，更是为未来打造低功耗的人工智能体系提供了新路子。 NMF可是一种强大的数据挖掘工具，能从一大堆复杂的数据里找出潜在的结构，广泛用在推荐系统、生物信息学还有图像压缩这些领域。不过以前在传统的数字架构上跑这种算法，功耗大速度慢，实在让人头疼。孙仲团队这次的巧思在于把算法和硬件深度结合起来。他们搞出来的是一款基于阻变存储器（RRAM）的求解器。这种模拟计算不用二进制“0”和“1”，而是直接利用欧姆定律、基尔霍夫定律在物理层上运算，特别适合处理矩阵这种大规模并行的任务，理论上的能效潜力比数字计算高得多。这套芯片有两大突破：一是用RRAM阵列做了模拟计算单元，用忆阻器的电导状态来存数据，实现了“存算一体”，省下了大量数据搬运的能耗；二是设计了一种“可重构紧凑型广义逆电路”，用了电导补偿的原理优化了关键计算步骤。这招不仅把速度提上去了，还让芯片面积变小了很多。为了验证这玩意儿到底行不行，研究团队搭了个测试平台。在处理图像压缩的时候，它的输出看着跟数字计算机的差不多一样精细，能省掉50%的存储空间；在做推荐系统的活儿时，它的预测误差率跟高精度数字芯片算出的结果高度吻合。最让人眼睛一亮的是在网飞（Netflix）那种超大规模数据的推荐系统训练上。这颗芯片不仅把计算速度提高了12倍，能效比更是猛涨了228倍。这意味着干同样的活能耗能降到原来的百分之一以下。北京大学这次的成果不光是造出了好芯片，更是对现有计算范式的一次有力探索。这玩意儿未来可以直接用在对实时性和功耗要求极高的场景里，比如手机上的个性化推荐、物联网的高清图像处理、还有医疗上的基因序列分析。眼下全球都在抢下一代计算架构的地盘。孙仲团队的工作给咱们突破“能效墙”、发展自主可控的技术体系添了重要砝码。等工艺迭代到了一定程度，这些专用模拟芯片肯定会跟通用处理器一起搭伙干活，共同建起一个高效率的智能计算生态圈。