最近MIT CSAIL的团队搞了个挺有意思的研究,叫跨模态感知,也就是让机器人有“像人一样看一眼就敢摸”的本事。咱们先从一个有趣的小测试说起:如果面前放一盆仙人掌,你敢直接上手按吗?我相信十有八九的人都会本能地拒绝。这是因为人的大脑很厉害,眼睛看到的危险信号,身体立刻就能给反应。可是现在的机器人可不会这套,它们能看得清轮廓,但不知道这东西刺不刺手。MIT CSAIL的这帮人就在想,怎么帮机器人把这块感官上的短板给补上。 他们的论文主要干了两件事:一是让机械臂配上GelSight这个触觉传感器,让它去戳各种东西。同时还把摄像头也打开,记录下机械臂的每一次动作。结果呢?他们居然攒了1.2万个视频片段,拆成了300万张图片,搞了个叫VisGel的数据集。有了这个数据,AI就能像人一样,看一眼就能判断出物体表面的手感了。就算闭上“眼睛”,单凭触摸也能“想象”出物体的样子。 这项技术的核心武器是对抗式生成网络(GAN)。生成器负责把触觉信号变成高清图像,鉴别器负责判断这是真图还是假图。两者不断博弈,最后AI就能把一次很细微的形变渲染得特别逼真。说白了就是触觉告诉机器人“发生了什么”,GAN让它看起来就像真的一样。 当然这个工作也不是一帆风顺的。数据收集难度很大,为了覆盖不同的材质和形状,他们不得不让机械臂工作到凌晨。视觉信息通常是宏观的,而触觉是细腻的像素级别的,怎么把这两者结合起来也是个大难题。现在所有的样本都是在实验室环境下做的,现实世界的光线、灰尘、油渍还没被纳入训练。系统也没法光凭触摸就知道颜色或者柔软程度,这些信息还得靠视觉来补位。 加州大学伯克利分校的Andrew Owens博士对这个研究挺看好。他觉得这个模型能让机器人回答“硬不软”这类问题。李昀烛博士还举了两个应用场景:比如抓取前先预判一下手感好不好;或者在光线暗的地方也能“闭眼想象”物体轮廓然后抓取。 接下来团队打算升级一下硬件和算法。他们准备用柔性手套来替代GelSight,收集更多多指、多物体的数据。还要引入物理引擎和强化学习,让机器人边做边学。最终目标不是要完全替代人类的感官,而是把人类的经验打包成算法模块给机器人用。 当机器人真的学会像人一样“边看边摸、边摸边想”的时候,离走进生活就不远了。这事儿不再是纸上谈兵了。