杨植麟：2019年以后，全世界搞大模型的公司这两年发展挺快

杨植麟最近在演讲里提到，咱们中国搞大模型的公司这两年发展挺快。2019年以后，全世界搞大模型主要都是靠堆算力、凑数据还有调参数，这主要是因为Transformer架构太好用了，特别是处理长文章和复杂逻辑时比以前的技术强太多。现在中国公司不光要跟着别人跑，还得自己创新。为了把模型做得更快更聪明，他们想出了很多办法，比如用新的优化器和架构，让学习效率翻了好几倍。最让人兴奋的是，他们还解决了训练时容易出问题的难题，给弄出个万亿参数的大模型打下了基础。这次发布的Agent模型是咱们中国的第一款能多步调用工具的产品，在测试里表现特别好，有些地方甚至比国外的同类产品还厉害。杨植麟觉得，这说明中国开源的模型慢慢变成了行业里的参考标准。现在咱们不光是跟着别人用东西，还要去定规则。接下来他们打算继续升级技术，加点新的注意力机制。他还说以后的大模型得有点人情味和审美感，别都长得一个样。在安全方面，杨植麟认为虽然技术会带来点风险，但如果不敢往前冲，那人类文明进步的步子就慢了。只要风险能控制住，他们就会一直往前探路。总的来说，从模仿到自己做标准，中国的科技公司用实打实的创新给全球人工智能界带来了新气象。怎么在创新和风险之间找个平衡呢？这就是大家以后要研究的大事儿。咱们中国的做法不光能给自己长脸，还能给全世界治理技术提供个参考呢。