多模态大模型视觉能力测评结果公布：整体表现明显低于3岁儿童水平

问题——“看得见”不等于“看得懂”；多模态模型应用持续扩展的背景下，模型能否稳定完成路径追踪、空间关系判断、细节辨别等基础任务，直接关系到其在真实世界中的可用性与安全性。最新发布的BabyVision评测集尝试把“语言推理的加成”从测试中剥离出来，以更接近人类直觉视觉处理的方式衡量模型能力。首轮测试结果显示，当前主流多模态大模型在以视觉信息为唯一依据的任务上整体表现偏弱，多数模型得分集中在低于3岁儿童平均水平的区间；即便表现相对较好的模型，也与更高年龄组存在明显差距。扩展到包含更多题目的全量评测后，人类对照组准确率接近满分水平，而模型侧最高准确率仍不足一半——开源模型整体更低——差距继续凸显。原因——语言强项掩盖视觉短板，基础机制仍待补课。研究团队分析认为，公众日常使用中对模型“看图能力”的直观印象，部分来自模型将图像转写为文字描述后，再依靠强语言推理做出判断的路径。这种方式在信息充分、描述可概括时能取得较好效果，但当题目刻意控制语言依赖、要求从像素细节、连续轨迹或三维关系中直接得出答案时，模型就容易暴露出基础视觉处理能力不足。论文将典型困难概括为多个上：其一，非语言细节难以保留。人类可凭几何直觉捕捉边界对齐、微小凸起等差异，而模型若将形状简化为“像钩子”“有两条腿”等概括性描述，细微差别离散表征中被压缩，导致选项“看起来都差不多”。其二，连续追踪能力不足。在连线、迷宫等任务中，人类能保持对同一条线的持续跟随；模型往往将其拆成“上、下、左、右”的离散步骤，一旦遇到交叉点容易发生分叉，错误率上升。其三，空间想象与遮挡推断偏弱。涉及三维方块计数、投影视角变化、遮挡结构判断等题型时，人类可以在脑中维持稳定的三维结构并进行旋转变换，而模型在结构保持与视角变换上易出现不一致，导致推断失真。其四，模式识别与组合规律学习仍不牢固，在需要跨局部信息整合出全局规律时，容易出现“局部正确、整体偏差”的情况。影响——从“能回答”转向“可信用”，应用落地面临新门槛。上述发现对行业具有现实指向：一上，评测结果提醒市场应区分“语言推理驱动的图像问答表现”与“真正的视觉基础能力”，避免以少量演示案例替代系统检验；另一方面，若模型在视觉追踪、空间判断等能力上存在短板，其在需要高可靠性的场景将面临风险。例如在工业质检、医疗影像辅助、自动化巡检、驾驶与机器人等领域，错误的路径追踪或空间推断可能导致误判、漏检甚至安全隐患。对研发端而言，视觉能力的系统性欠缺意味着仅靠扩大参数规模或优化提示词难以根治问题，必须回到训练数据、表征方式与推理机制的底层改进。对策——以“基础能力”导向重构训练与评测闭环。业内人士指出，提升视觉能力需要从评测体系、数据构建和模型结构多线并进。首先，评测要更强调“去语言依赖”的设计，通过精细辨别、连续追踪、空间关系、遮挡推断等题型，持续暴露薄弱环节，形成可复现、可对比的行业基准。其次，训练数据与任务应加强对真实视觉过程的覆盖，包括高分辨率细节、连续轨迹、三维结构及多视角一致性等内容，并通过更严格的数据标注与难例挖掘提升有效学习信号。再次，模型侧需要更强的视觉表征与结构化推理能力，在保持端到端学习优势的同时，引入有助于连续性保持、空间一致性约束与可验证推理机制，减少“看似推理充分但结果错误”的现象。另外，还应推进面向应用的安全评测与鲁棒性测试，将“在复杂环境下保持稳定正确”纳入关键指标。前景——多模态竞争进入“硬能力”阶段，基础视觉将成为下一轮突破口。随着多模态模型从内容生成走向工具化、生产化，“能用”正在让位于“可靠、可控、可解释”。BabyVision此类强调视觉本体能力的评测，为行业提供了更贴近真实需求的参照系，也可能推动研发从单纯追逐规模与榜单，转向对基础能力的系统补课。可以预期，未来一段时间内，围绕视觉细节分辨、连续追踪与空间推理的算法创新、数据体系完善及评测标准统一，将成为多模态模型竞争的关键方向；在这些短板得到实质性改善前，有关应用仍需谨慎设定边界，并通过人机协作、流程校验等方式降低风险。

BabyVision评测集像一面镜子，照出当前大模型能力的不均衡。虽然在某些领域表现出色，但视觉理解仍是明显短板。此发现既是对现状的客观评价，也为未来发展指明了方向。只有正视这些问题，才能推动多模态人工智能向更全面、更智能的方向迈进。