杨植麟:2019年以后,全世界搞大模型的公司这两年发展挺快

杨植麟最近在演讲里提到,咱们中国搞大模型的公司这两年发展挺快。2019年以后,全世界搞大模型主要都是靠堆算力、凑数据还有调参数,这主要是因为Transformer架构太好用了,特别是处理长文章和复杂逻辑时比以前的技术强太多。现在中国公司不光要跟着别人跑,还得自己创新。为了把模型做得更快更聪明,他们想出了很多办法,比如用新的优化器和架构,让学习效率翻了好几倍。最让人兴奋的是,他们还解决了训练时容易出问题的难题,给弄出个万亿参数的大模型打下了基础。 这次发布的Agent模型是咱们中国的第一款能多步调用工具的产品,在测试里表现特别好,有些地方甚至比国外的同类产品还厉害。杨植麟觉得,这说明中国开源的模型慢慢变成了行业里的参考标准。现在咱们不光是跟着别人用东西,还要去定规则。接下来他们打算继续升级技术,加点新的注意力机制。他还说以后的大模型得有点人情味和审美感,别都长得一个样。 在安全方面,杨植麟认为虽然技术会带来点风险,但如果不敢往前冲,那人类文明进步的步子就慢了。只要风险能控制住,他们就会一直往前探路。总的来说,从模仿到自己做标准,中国的科技公司用实打实的创新给全球人工智能界带来了新气象。怎么在创新和风险之间找个平衡呢?这就是大家以后要研究的大事儿。咱们中国的做法不光能给自己长脸,还能给全世界治理技术提供个参考呢。