清华牵头推出复杂视频理解基准PerceptionComp 推动跨时序多线索推理评测升级

问题——现有视频理解评测难以检验“真正看懂” 研究团队指出，当前不少视频理解评测更偏向对局部片段、单一线索的识别与匹配，模型往往通过捕捉一两个显著画面或关键词即可获得较高分数。这种评测方式一定程度上夸大了系统能力，难以反映其在长视频、复杂情境下对多处线索的检索、比对与推理水平。现实应用中，无论是公共安全研判、交通运行监测——还是影视内容检索与生成——往往要求系统把分散在不同时间点的细节串联起来，形成可解释的结论，这正是现阶段视频理解能力的突出短板。原因——复杂视频天然需要“回看、取证、合并证据” 团队将挑战归纳为两点：一是视频信息密度高且随时间快速变化，关键证据可能短暂出现并被后续内容覆盖；二是推理任务往往不是“识别一个物体”那么简单，而是要求在多个条件之间建立约束关系。例如，既要定位某一对象，又要追踪其在不同时间的状态变化，再将变化与其他对象或事件关联。与静态图像相比，视频理解更依赖记忆、检索和推理的协同，任何一个环节薄弱都可能导致结论偏差。影响——“PerceptionComp”把评测重心从识别转向推理与证据链据介绍，新基准命名为“PerceptionComp”。在数据构成上，研究团队从城市街景行走、大型室内空间参观、电子游戏画面、极限户外运动等多类型场景中，遴选279段高复杂度视频作为测试素材。这些视频普遍具有物体多、运动强、视角变化快、场景切换频繁等特点。为避免“主观挑选复杂视频”的争议，团队引入自动化量化手段：通过实例检测统计画面中目标数量，利用运动与变化分析衡量运动强度及场景变化频率，以指标化方式确保样本具有统一的“高难度”特征。在题目设计上，基准共包含1114道问题。每道题设置3至5个相互关联的子条件，要求答题者按一定逻辑逐步满足约束并得出唯一答案。题型分为两类：一类为“联合模式”，多个条件共同指向同一目标对象，强调精确定位与特征组合；另一类为“序列模式”，后续条件依赖前序结果，强调跨时段追踪、事件链推理与状态对照。研究团队表示，这样的设计意在减少“投机取巧”的空间，迫使系统建立较完整的证据链条。对策——以高质量人工标注与双重复核确保评测可用可信为保障题目质量与可复现性，该基准采用全人工标注流程：从视频片段筛选、问题撰写到答案确定，单题制作耗时约10至20分钟，并由另一名标注人员复核，重点检查答案唯一性、条件必要性与逻辑闭合程度。通过这个流程，题目不仅“有答案”，而且“只有一个合理答案”，从而减少歧义带来的评测噪声。研究团队同时对人类作答表现进行了对照测试：在可反复观看、充分思考条件下，专家组可实现100%正确率，说明题目可解且定义清晰；普通参与者平均正确率约为85.10%，表明任务对注意力与推理能力提出了更高要求，也从侧面验证了难度设置的有效性。前景——推动视频理解从“看见”迈向“理解”，服务更广泛应用业内人士认为，面向复杂视频的评测升级，将推动对应的研究从“短片段识别能力”转向“长时程推理与可解释结论”。一上，新基准有望帮助研究者更准确定位系统短板，例如跨时段检索不足、状态变化建模薄弱、条件组合推理不稳等；另一方面，也将促进训练与推理策略的改进，包括更高效的多次检索机制、更可靠的记忆与追踪模块、以及面向证据链的推理框架。随着多模态技术在内容生产、教育培训、智能制造与城市治理等领域加速落地，能够在复杂动态场景中稳定输出可核验结论的能力，将成为评价系统成熟度的重要标尺。

这项由中国学术机构发起的基础性创新，填补了复杂场景认知评估的技术空白，也表明了我国人工智能基础研究的深层突破。在全球科技竞争聚焦核心算法与评测标准的背景下，该研究提醒我们：真正的话语权始于对基础科研“度量衡”的重新定义。随着应用不断扩展，这套严谨的评估体系有望催生新一代认知智能的飞跃发展。