蚂蚁灵波搞了个大动作,算是给这个领域的民主化和产业协同添了一把火。

蚂蚁灵波这次把两大核心模型给放出来了,主要是为了把具身智能的技术普惠给大家,让产业应用更深一点。现在AI技术越来越往物理世界里钻,想要让机器跟复杂环境好好配合,具身智能就成了关键方向,大伙儿都盯着看呢。最近蚂蚁灵波搞了个大动作,算是给这个领域的民主化和产业协同添了一把火。他们说把LingBot-VLA这个具身大模型连同它的后训练工具链都开源了。这不仅是他们技术的一次展示,也是推动整个行业能力提升、加速应用孵化的一步棋。 LingBot-VLA的厉害之处在于能跨不同平台跑,泛化能力很强。听说已经跟星海图、松灵、乐聚这些大厂的产品适配过了。也就是说,不管什么机械结构的机器人,用同一套模型框架就能干活,省下不少定制系统的成本和时间。这就解决了以前软硬件耦合太死、适配成本高的老毛病。 性能提升离不开数据和训练方法的支持。他们给LingBot-VLA搭的高效工具链,在普通硬件上跑起来比现在的主流框架快多了,数据和算力成本自然就降下来了。 更牛的是,他们第一次系统地研究了视觉-语言-动作大模型在真机器上的“缩放定律”。研究发现,随着数据从几千小时涨到两万小时,任务成功率一直往上走。到两万小时的时候,曲线还没见顶。这说明数据量大了肯定能让模型更牛,也告诉大家怎么靠扩大数据量来提升性能。基于这个发现,他们搞了个两万小时的数据集,给泛化能力打下了数据基础。 在GM-100那个严格的评测里,LingBot-VLA在三台不同的机器人上跨平台测试都表现不错。特别是加了深度感知信息后,空间理解和操作更准了。这就引出了另一个模型——LingBot-Depth。 这个LingBot-Depth专门用来解决现实中深度感知的最后一公里问题。它能把那些乱七八糟带噪声的深度数据变成高质量的三维测量结果。通过跟奥比中光的Gemini 330系列相机一起研发优化,这个模型在精度和覆盖率上都超过了顶级工业相机。在好多国际测试里都拿了第一,视频画面也连贯稳定。 这次蚂蚁灵波把LingBot-VLA和LingBot-Depth都放出来了。这不仅仅是分享技术那么简单,他们把验证过的能力、工具还有研究成果都给了出来。这就降低了研发门槛,大家一起想办法攻克复杂环境里的难题。 从快速部署智能机器人到提高三维感知的精度和可靠性,这些动作应该能帮具身智能更快走出实验室走向产业应用。为智能制造、智慧物流、家庭服务甚至特种作业提供好的基础底座。这既是公司的生态共建行动,也说明我们国家在AI前沿领域自主创新又开放协作的好势头。