工业机器人怎么用“眼睛”看世界

要理解工业机器人怎么用“眼睛”看世界,咱们得先聊聊AR、SLAM和VR这三个技术。尤其是在检测、识别和分拣这些活儿里,工业机器人能不能把拍到的像素点变成真的毫米级坐标,全靠第一步:标定。这就好比给相机做个大体检,把所有的几何误差、畸变都找出来记下来,这样后面的视觉引导才能稳当。 所谓标定,其实就是要弄清楚“三维世界到相机成像”这根黑箱里到底咋回事。为了反推出物体的三维位置,工程师先得建立一套数学模型——针孔模型,再用实验手段把焦距、光心这些内外参数给算出来。这套参数就是相机的几何模型,以后的三维重建、位姿估计全靠它。 经典的针孔模型灵感就来自大家小时候做的小孔成像实验。这里面有四个坐标系:像素坐标系用来表示图片上的点;成像平面坐标系把像素换成毫米;相机坐标系原点设在光心,描述物体的位置;世界坐标系是用户自己定的绝对位置。通常我们会把成像平面和相机坐标系换个位置,把光心挪到z=0处,这样算起来更方便。最终能得到一个从世界坐标到像素坐标的公式,这就是内参矩阵的由来。 现实中的镜头总是有偏差的。因为镜片是曲面或者装歪了,就会产生径向畸变和切向畸变。光线在镜头边缘比中间弯得更厉害,就像桶形或者枕形;要是镜片跟成像平面不平行,就会有切向畸变。为了保证测量精度,标定的时候必须把这两类误差都算出来,后面再矫正图像。 具体怎么标定有三种法子:传统的标定法得用棋盘格或者圆点阵列这种高精度的标定板;主动视觉法是让相机自己动一动;自标定法则是靠场景里的自然信息来找规律。传统的法子算法成熟精度高,但标定板成本贵;主动视觉法设备贵但轨迹难复现;自标定法不用东西、很灵活但精度不太行。 AR/VR和移动机器人 SLAM 这类场景里就经常用自标定法。因为这两种场景对精度要求不那么高。 不管用哪种法子,核心目标都是为了搞一套靠谱的几何模型。在工业机器人这行里,通常在产线调试的时候把它搞定就行,以后只要光照变了或者镜头老化了再复标一下。只有把“眼睛”校准好了,机器人才能一直输出毫米级的动作指令,让视觉引导真正提升产线效率。