北大学孙仲团队的算法“非负矩阵分解”(nmf)

虽然智能技术已经渗透到各行各业,算力需求更是爆发式增长,但底层硬件的能效问题却成了挡在它们面前的一大难题。北京大学人工智能学院孙仲研究员的团队,这回就在核心算法“非负矩阵分解”(NMF)上搞了个大动作,给它设计出了一款高能效的专用模拟计算芯片。这个设计不仅大幅提升了能效比,更是为未来打造低功耗的人工智能体系提供了新路子。 NMF可是一种强大的数据挖掘工具,能从一大堆复杂的数据里找出潜在的结构,广泛用在推荐系统、生物信息学还有图像压缩这些领域。不过以前在传统的数字架构上跑这种算法,功耗大速度慢,实在让人头疼。 孙仲团队这次的巧思在于把算法和硬件深度结合起来。他们搞出来的是一款基于阻变存储器(RRAM)的求解器。这种模拟计算不用二进制“0”和“1”,而是直接利用欧姆定律、基尔霍夫定律在物理层上运算,特别适合处理矩阵这种大规模并行的任务,理论上的能效潜力比数字计算高得多。 这套芯片有两大突破:一是用RRAM阵列做了模拟计算单元,用忆阻器的电导状态来存数据,实现了“存算一体”,省下了大量数据搬运的能耗;二是设计了一种“可重构紧凑型广义逆电路”,用了电导补偿的原理优化了关键计算步骤。这招不仅把速度提上去了,还让芯片面积变小了很多。 为了验证这玩意儿到底行不行,研究团队搭了个测试平台。在处理图像压缩的时候,它的输出看着跟数字计算机的差不多一样精细,能省掉50%的存储空间;在做推荐系统的活儿时,它的预测误差率跟高精度数字芯片算出的结果高度吻合。 最让人眼睛一亮的是在网飞(Netflix)那种超大规模数据的推荐系统训练上。这颗芯片不仅把计算速度提高了12倍,能效比更是猛涨了228倍。这意味着干同样的活能耗能降到原来的百分之一以下。 北京大学这次的成果不光是造出了好芯片,更是对现有计算范式的一次有力探索。这玩意儿未来可以直接用在对实时性和功耗要求极高的场景里,比如手机上的个性化推荐、物联网的高清图像处理、还有医疗上的基因序列分析。 眼下全球都在抢下一代计算架构的地盘。孙仲团队的工作给咱们突破“能效墙”、发展自主可控的技术体系添了重要砝码。等工艺迭代到了一定程度,这些专用模拟芯片肯定会跟通用处理器一起搭伙干活,共同建起一个高效率的智能计算生态圈。