17岁少年把ai 底层技术给突破了,kimi 团队的新发现真是太炸了!

咱们聊聊这事儿,17岁的少年把AI底层技术给突破了,Kimi团队的新发现真是太炸了!3月16日那天,社交平台上出了个大新闻,科技巨头埃隆·马斯克直接给中国人工智能公司“月之暗面”的Kimi团队点了个赞,说人家这成果真的“让人印象深刻”。关键是,这篇论文一出来就火了,大家盯着看的重点都在作者栏那儿。你猜怎么着?里头赫然写着一个叫陈广宇的高中生!这孩子才17岁,还是深圳的高中生呢。他接受采访的时候挺谦虚,说别光盯着他一个人看,主要是团队一起努力的功劳。这种态度在现在的科技圈里太难得了。 看论文附录你会发现,陈广宇跟张宇、苏剑林他们三个都被标成了“同等贡献”,这充分说明了大家的合作精神,也把每个人的重要性给凸显出来了。这篇论文的核心问题是大模型以前的那个底层机制有点怪。现在主流的模型都是建在Transformer架构上的。你还记得2017年Transformer刚提出来的时候吗?那时候生成式人工智能才算是真正起飞了。不过有个问题一直挺让人头疼的,就是传统的“残差连接”在层数深了以后,前面传过来的重要信息可能就被稀释掉了。 为了解决这个问题,Kimi团队这回搞出了个“注意力残差”(Attention Residuals)。这招厉害就厉害在它不再让每一层傻乎乎地接收所有前面的信息,而是根据实际需求,挑更有用的信息调过来用。根据论文还有项目公开的数据,他们已经在KimiLinear48B模型上验证过了。效果差不多的情况下,训练计算量少了20%,差不多能快上1.25倍的速度。而且推理延迟增加也不多,才不到2%。这说明Kimi团队确实有真本事,也告诉大家主流大模型在信息传递上还有提升的空间。 其实陈广宇接触AI研究也没多长时间,也就大半年左右。他平时就是自己啃论文、追GitHub上的开源项目来补课的。去年夏天他还去了趟旧金山实习7周呢,回来就直接加入Kimi团队干活儿了。论文发出来后他发了条消息,再次强调团队协作多重要,说这事儿是大家一起努力才成的。 这事儿简直就是年轻一代的技术潜力的最好证明了!而且还为以后的AI研究提供了新的思路。想想看啊,以后要是有越来越多的年轻人加入进来,科技界肯定会变得更有活力、更创新的!