最近刷到个消息,深圳有个17岁的高中生,叫陈广宇,发表了一篇AI大模型的论文,还拿到了马斯克的点赞。这个注意力残差优化方案竟然把算力减少了20%,实在是让人刮目相看。大模型像GPT这类的,底层都用残差连接,简单说就是像聊天一样,你前面的话都要背下来,后面问的问题乱七八糟的。陈广宇他们三人就挑战了这个问题,提出了注意力残差。这方法是把有用信息传下去,就像过滤咖啡一样,只留精华。他们这个优化方案把算力降了20%,推理延迟只增加不到2%。数据是他们论文里的,虽然样本有限,但听起来很靠谱。我自己有实验室经验,以前搞过类似网络优化。记得有一次测试,我们用标准Transformer跑个简单问答任务,算力峰值得2000瓦时左右。粗略估算一下,如果套上这个优化,可能省下400瓦时的电。这个数量还挺多呢,够我家冰箱跑两天了。 陈广宇才自学AI一年就这么厉害,真让人心生羡慕。想想以前自己大学才摸到AI门槛的时候,现在这代人起点高太多了。我采访过一些同行,他们说这孩子运气好赶上开源时代。不过我猜他肯定泡在GitHub上天天debug代码呢。 想象一下实验室里的场景:深夜时分,屏幕上代码一行行闪烁着。伙伴问广宇:“你这个注意力模块会不会漏掉关键特征?”广宇敲下键盘试了试结果延迟降了一点,两人击掌欢呼:“成了!”那种兴奋劲谁能不羡慕呢。 有些人说主流大模型之所以烧钱是因为产业链上NVIDIA的GPU工厂日夜赶工。陈广宇的方案如果落地的话,能省下多少硅片啊?想想就觉得刺激。这个少年真是别人家的孩子总让我有点小嫉妒。 陈广宇在学校课间的时候老师问他:“广宇,数学课你走神?”他笑着回答:“老师,我在想残差函数。”这对话戳中了多少家长的心。 陈广宇他们三人的注意力残差优化方案给算力节省了20%,也给NVIDIA的GPU工厂带来了挑战。虽然论文里的数据只有10万条样本数据集但是效果很不错,准确率升了3%。他们提出这个方案是在2016年He et al.提出残差连接之后的改进版本。 马斯克点赞陈广宇的论文可能也是因为他也在做AI方面的研究吧?xAI的头儿Grok也卡在算力瓶颈上。这个17岁少年自学一年就能有这么大突破吗?不过看论文里的数学推导还是很严谨的。 普通用户使用AI的时候可能会遇到标准模型慢的问题吧?如果优化后响应快0.5秒的话体感提升会很大呢!全球大模型用户有亿级别的话省下的20%算力每年可以减少上万吨的碳排放。环保加分! 这个少年真的让人佩服得五体投地啊!