momenta不选vla选世界模型,曹旭东给出了两大争议

话说Momenta这次直接把VLA给pass掉了,转头就把世界模型给pick了起来。上汽大众这下可得了便宜,首发机会直接拿捏。他们的总经理陶海龙,在亲自体验了最新大模型R7后,急得立马给Momenta的CEO曹旭东打电话,那是一口一个必须让我们首发。这R7就是为了上汽大众的新车ID.ERA 9X准备的,这可是他们家的旗舰款,车长超了2米,妥妥的全尺寸增程SUV,兼具德系品质和中国AI技术。 曹旭东在发布会前先吐槽了一下过去的老毛病,以前大家都是跟着人类司机走的模仿学习,这路子不行,顶多就是亦步亦趋,很难超过人类。所以他们换了个玩法,去搞强化学习。去年搞出来的R6大模型,就在开放环境里瞎撞瞎试错,不再只是死记硬背人类的路数,而是综合安全、舒适和效率来挑最好的那条路。这次的R7就是在强化学习的基础上,再加上了世界模型。 这世界模型大概分两种:一种是用来做训练的,算是云端的训练场;另一种是负责真正在车里干活的。很多人还在纠结到底是用这个世界模型还是用VLA的时候,曹旭东就直接选了这个代表车端算法的类型。 为啥选世界模型?曹旭东觉得现在是物理AI时代了,你得懂物理规律才行。所以他们就在强化学习里加了个世界模型,让AI能看得更透。那为啥不用VLA呢?曹旭东说得挺直接:“VLA那就是好钢没用在刀刃上。”他还打了个比方说,开车不需要你会写诗写代码,只要懂物理世界就行了。 技术上看也不对路子。VLA是LLM发展来的,底座模型动不动就是上百亿参数,最后还要视觉和语言对齐。这就导致语义的优先级比驾驶还高,很多参数都浪费了。说白了就是“VLA对自动驾驶也就是个锦上添花,很难雪中送炭。” 至于硬件方面传感器的重要性……那只能排在第三梯队。曹旭东最看重的是算法架构、数据和研发体系能力。因为现在的摄像头覆盖度已经很强了,哪怕全是摄像头也比人眼强多了。传感器当然越多越好,但随着数据和算法提升,光靠堆激光雷达的效果会越来越差。 这次Momenta不选VLA选世界模型,曹旭东给出了两大理由:一是直觉上觉得写代码对开车没用;二是技术上的参数分配不合理。这两大争议在软件算法层面确实存在,不过在硬件上纯视觉和多传感器冗余的争论已经是老黄历了。