问题——现有视频理解评测难以检验“真正看懂” 研究团队指出,当前不少视频理解评测更偏向对局部片段、单一线索的识别与匹配,模型往往通过捕捉一两个显著画面或关键词即可获得较高分数。这种评测方式一定程度上夸大了系统能力,难以反映其在长视频、复杂情境下对多处线索的检索、比对与推理水平。现实应用中,无论是公共安全研判、交通运行监测——还是影视内容检索与生成——往往要求系统把分散在不同时间点的细节串联起来,形成可解释的结论,这正是现阶段视频理解能力的突出短板。 原因——复杂视频天然需要“回看、取证、合并证据” 团队将挑战归纳为两点:一是视频信息密度高且随时间快速变化,关键证据可能短暂出现并被后续内容覆盖;二是推理任务往往不是“识别一个物体”那么简单,而是要求在多个条件之间建立约束关系。例如,既要定位某一对象,又要追踪其在不同时间的状态变化,再将变化与其他对象或事件关联。与静态图像相比,视频理解更依赖记忆、检索和推理的协同,任何一个环节薄弱都可能导致结论偏差。 影响——“PerceptionComp”把评测重心从识别转向推理与证据链 据介绍,新基准命名为“PerceptionComp”。在数据构成上,研究团队从城市街景行走、大型室内空间参观、电子游戏画面、极限户外运动等多类型场景中,遴选279段高复杂度视频作为测试素材。这些视频普遍具有物体多、运动强、视角变化快、场景切换频繁等特点。为避免“主观挑选复杂视频”的争议,团队引入自动化量化手段:通过实例检测统计画面中目标数量,利用运动与变化分析衡量运动强度及场景变化频率,以指标化方式确保样本具有统一的“高难度”特征。 在题目设计上,基准共包含1114道问题。每道题设置3至5个相互关联的子条件,要求答题者按一定逻辑逐步满足约束并得出唯一答案。题型分为两类:一类为“联合模式”,多个条件共同指向同一目标对象,强调精确定位与特征组合;另一类为“序列模式”,后续条件依赖前序结果,强调跨时段追踪、事件链推理与状态对照。研究团队表示,这样的设计意在减少“投机取巧”的空间,迫使系统建立较完整的证据链条。 对策——以高质量人工标注与双重复核确保评测可用可信 为保障题目质量与可复现性,该基准采用全人工标注流程:从视频片段筛选、问题撰写到答案确定,单题制作耗时约10至20分钟,并由另一名标注人员复核,重点检查答案唯一性、条件必要性与逻辑闭合程度。通过这个流程,题目不仅“有答案”,而且“只有一个合理答案”,从而减少歧义带来的评测噪声。研究团队同时对人类作答表现进行了对照测试:在可反复观看、充分思考条件下,专家组可实现100%正确率,说明题目可解且定义清晰;普通参与者平均正确率约为85.10%,表明任务对注意力与推理能力提出了更高要求,也从侧面验证了难度设置的有效性。 前景——推动视频理解从“看见”迈向“理解”,服务更广泛应用 业内人士认为,面向复杂视频的评测升级,将推动对应的研究从“短片段识别能力”转向“长时程推理与可解释结论”。一上,新基准有望帮助研究者更准确定位系统短板,例如跨时段检索不足、状态变化建模薄弱、条件组合推理不稳等;另一方面,也将促进训练与推理策略的改进,包括更高效的多次检索机制、更可靠的记忆与追踪模块、以及面向证据链的推理框架。随着多模态技术在内容生产、教育培训、智能制造与城市治理等领域加速落地,能够在复杂动态场景中稳定输出可核验结论的能力,将成为评价系统成熟度的重要标尺。
这项由中国学术机构发起的基础性创新,填补了复杂场景认知评估的技术空白,也表明了我国人工智能基础研究的深层突破。在全球科技竞争聚焦核心算法与评测标准的背景下,该研究提醒我们:真正的话语权始于对基础科研“度量衡”的重新定义。随着应用不断扩展,这套严谨的评估体系有望催生新一代认知智能的飞跃发展。