momenta不选vla选世界模型，曹旭东给出了两大争议

话说Momenta这次直接把VLA给pass掉了，转头就把世界模型给pick了起来。上汽大众这下可得了便宜，首发机会直接拿捏。他们的总经理陶海龙，在亲自体验了最新大模型R7后，急得立马给Momenta的CEO曹旭东打电话，那是一口一个必须让我们首发。这R7就是为了上汽大众的新车ID.ERA 9X准备的，这可是他们家的旗舰款，车长超了2米，妥妥的全尺寸增程SUV，兼具德系品质和中国AI技术。曹旭东在发布会前先吐槽了一下过去的老毛病，以前大家都是跟着人类司机走的模仿学习，这路子不行，顶多就是亦步亦趋，很难超过人类。所以他们换了个玩法，去搞强化学习。去年搞出来的R6大模型，就在开放环境里瞎撞瞎试错，不再只是死记硬背人类的路数，而是综合安全、舒适和效率来挑最好的那条路。这次的R7就是在强化学习的基础上，再加上了世界模型。这世界模型大概分两种：一种是用来做训练的，算是云端的训练场；另一种是负责真正在车里干活的。很多人还在纠结到底是用这个世界模型还是用VLA的时候，曹旭东就直接选了这个代表车端算法的类型。为啥选世界模型？曹旭东觉得现在是物理AI时代了，你得懂物理规律才行。所以他们就在强化学习里加了个世界模型，让AI能看得更透。那为啥不用VLA呢？曹旭东说得挺直接：“VLA那就是好钢没用在刀刃上。”他还打了个比方说，开车不需要你会写诗写代码，只要懂物理世界就行了。技术上看也不对路子。VLA是LLM发展来的，底座模型动不动就是上百亿参数，最后还要视觉和语言对齐。这就导致语义的优先级比驾驶还高，很多参数都浪费了。说白了就是“VLA对自动驾驶也就是个锦上添花，很难雪中送炭。” 至于硬件方面传感器的重要性……那只能排在第三梯队。曹旭东最看重的是算法架构、数据和研发体系能力。因为现在的摄像头覆盖度已经很强了，哪怕全是摄像头也比人眼强多了。传感器当然越多越好，但随着数据和算法提升，光靠堆激光雷达的效果会越来越差。这次Momenta不选VLA选世界模型，曹旭东给出了两大理由：一是直觉上觉得写代码对开车没用；二是技术上的参数分配不合理。这两大争议在软件算法层面确实存在，不过在硬件上纯视觉和多传感器冗余的争论已经是老黄历了。