17岁少年把ai 底层技术给突破了，kimi 团队的新发现真是太炸了！

咱们聊聊这事儿，17岁的少年把AI底层技术给突破了，Kimi团队的新发现真是太炸了！3月16日那天，社交平台上出了个大新闻，科技巨头埃隆·马斯克直接给中国人工智能公司“月之暗面”的Kimi团队点了个赞，说人家这成果真的“让人印象深刻”。关键是，这篇论文一出来就火了，大家盯着看的重点都在作者栏那儿。你猜怎么着？里头赫然写着一个叫陈广宇的高中生！这孩子才17岁，还是深圳的高中生呢。他接受采访的时候挺谦虚，说别光盯着他一个人看，主要是团队一起努力的功劳。这种态度在现在的科技圈里太难得了。看论文附录你会发现，陈广宇跟张宇、苏剑林他们三个都被标成了“同等贡献”，这充分说明了大家的合作精神，也把每个人的重要性给凸显出来了。这篇论文的核心问题是大模型以前的那个底层机制有点怪。现在主流的模型都是建在Transformer架构上的。你还记得2017年Transformer刚提出来的时候吗？那时候生成式人工智能才算是真正起飞了。不过有个问题一直挺让人头疼的，就是传统的“残差连接”在层数深了以后，前面传过来的重要信息可能就被稀释掉了。为了解决这个问题，Kimi团队这回搞出了个“注意力残差”（Attention Residuals）。这招厉害就厉害在它不再让每一层傻乎乎地接收所有前面的信息，而是根据实际需求，挑更有用的信息调过来用。根据论文还有项目公开的数据，他们已经在KimiLinear48B模型上验证过了。效果差不多的情况下，训练计算量少了20%，差不多能快上1.25倍的速度。而且推理延迟增加也不多，才不到2%。这说明Kimi团队确实有真本事，也告诉大家主流大模型在信息传递上还有提升的空间。其实陈广宇接触AI研究也没多长时间，也就大半年左右。他平时就是自己啃论文、追GitHub上的开源项目来补课的。去年夏天他还去了趟旧金山实习7周呢，回来就直接加入Kimi团队干活儿了。论文发出来后他发了条消息，再次强调团队协作多重要，说这事儿是大家一起努力才成的。这事儿简直就是年轻一代的技术潜力的最好证明了！而且还为以后的AI研究提供了新的思路。想想看啊，以后要是有越来越多的年轻人加入进来，科技界肯定会变得更有活力、更创新的！