AGI这个概念现在大家都爱聊,AI要往通用智能发展,是个绕不开的话题。在这次中关村论坛上,北京生数科技有限公司放了个大招,把他们家的通用世界模型战略给推出来了,就为了加快AI和物理空间的融合步伐。咱也不知道这竞争能有多激烈,反正生数科技是要把这次机会抓牢了。 创始人朱军教授站台上讲话挺实在,专门点出了通用世界模型在连接数字和物理世界这事儿上有多重要。这是个挺深的坑,得往里面扔大东西才行。生数科技把基座世界模型当成了核心骨架,要搭起一座连接两个空间的大通道。他们在底层用了个叫U-ViT的独门架构,不光是眼睛看得到的视觉信息,连声音和触感这些多模态的东西也都能一起处理。这样一来,就能形成对世界的统一看法和模型能力。 这本事要是拿来做上层应用的底座就太厉害了。在数字空间这边,他们推出了个视频大模型叫Vidu,专门搞单时点和多时点的世界模拟。这玩意儿能大大提高做数字内容的效率。Vidu那套流式生成模型还带实时陪伴和互动功能,感觉离真正的AGI(通用人工智能)也就不远了。 但在物理空间上,情况稍微复杂点。生数科技有个产品叫Motus,专门管世界行动模型这块儿的活儿。有人把它当成具身智能的“大脑”,因为它能帮着解决传统智能系统数据少、泛化能力差的老大难问题。 朱军教授以前就说了具身智能有个“数据墙”的坎儿。要在现实世界里搞到轨迹数据太难了,花钱多还收集得慢。为了破局,生数科技搞了个以视频为中心的体系。从海量互联网视频到自己动手操作的第一视角视频,再到机器人干活的数据全都存进来了。这堆数据像金字塔一样垒得高高的,哪怕没有一大堆标注好的数据帮忙做训练,Motus也能学得会行动能力。 业内专家现在都认为通用世界模型就是通往AGI的必经之路了。生数科技一直在优化底层的架构和数据体系,顺便把应用场景也给铺好了路子。只要技术接着往前走得快一点,这模型肯定能落地到真真实实的产业场景里去换钱。 以后咱们还得看生数科技怎么用自家的原创技术来推动数字和物理空间的协同发展。有人觉得以后的智能终端只要想变聪明点就得用通用世界模型这个东西当标配。不过这技术浪潮来得太快太猛了,大家都在琢磨怎么把好处摊开让大家都能分一杯羹才好呢。