智元机器人这个公司最近弄出了个叫SOP的框架,想把现在的机器人弄得更实用点。虽然现在全世界的研究都挺猛,模型在视觉、语言和动作这一块配合得不错,可要是真让机器人离开实验室那种固定环境,到外面去应付那些乱七八糟、老是变来变去的东西,它们能不能长期稳定地干活就很难说了。这其实是个大难题,得让机器人从“会演”变成“真可靠”,这样才能算是真正用起来。为了解决这个核心问题,智元机器人具身研究中心就给大家拿出了针对性的方案——SOP框架。这个东西不是个简单的算法,而是一套为了部署到现实世界里设计的在线学习系统。它主要就是想打破传统那种“做完训练就部署”的老路子,把开发、训练、部署和终结这几个环节变成一个不断循环的过程,让机器人在干活的时候还能持续学习、自己优化。 智元机器人的合伙人兼首席科学家罗剑岚说了,SOP就是给机器人提供一个通用的“底座”,不管是哪种新算法都能往里面塞,用起来就像插电源一样方便。以前那些机器人大都先在离线环境里练好固定了再扔出去用。一旦碰到训练时没见过的新情况或者新任务,它就会变得不会用了。这时候就得停机重新收集数据、再训练一遍。这种模式迭代太慢了,成本又高,根本适应不了外面的情况。虽然现在的预训练模型已经很强了,但如果任务特别讲究精细度或者专项能力光靠加大数据量的效果也没以前那么好了。SOP就不一样了,它把学习过程直接塞进了机器人平时干活的时候。机器人一边干活一边收集数据(特别是那些很难预料到的坏情况),然后用现成的算法实时调整模型和策略。这样就实现了“一边干活一边学一边改”的好循环。 不仅成功率和效率高了,最重要的是机器学会了怎么处理之前没见过的问题,能从错误里恢复过来自己改进。为了验证效果,智元研究团队在商场里做了个长36小时的测试。比如折叠衣服这种重复性的活,把单纯用预训练模型的情况和加上SOP再加上人工引导交互的情况对比了一下。结果发现在商场那种东西多杂的环境下,用了SOP以后整体表现提升了33%。在补货、装箱这种细致活里也一样,不仅成功率上去了还因为能在犯错后马上恢复提高了工作速度。而且最关键的是这些提升全都是用一个通用的模型搞定的,不用为了每一种新任务专门再去训练一个新模型,省钱又省力。 罗剑岚觉得以后的发展得看具体场景的需求来分阶段推进。工业制造那边对成功率和效率要求特别高但需求比较集中会先落地;超市和家庭那边任务多又杂要求也没那么死会在后面几年慢慢铺开;至于医疗护理那种安全要求极高的地方还得慢慢来不能急。他预计到2026年技术就可以在商超和部分家里用得更广泛了。智元这次发布SOP算是把具身智能从纸上的演示变成了真能干活的工具。它直接解决了机器人适应不了外面复杂世界这个难题,给长期用机器人干活提供了新路子。虽然大规模用上还得看场景能不能搭得上、成本能不能压得住、安全合不合规这些问题,但这一步的意义还是挺大的。以后像这种框架技术越来越多的话再加上大家一起合作,机器人稳定高效地服务各行各业的日子就不远了。