我国科研团队实现视觉识别技术重大突破 "火眼金睛"算法革新细节感知能力

当前AI视觉模型的核心难题，是对细节的感知仍不够强。传统深度学习视觉系统在处理高分辨率图像时，往往更擅长捕捉整体信息，但在文字识别、精细计数、物体属性判断等微观细节上准确率偏低。这个瓶颈限制了AI在医疗诊断、工业检测、文档处理等高细节要求场景中的落地效果。为弥补不足，业界曾采用“推理时放大”的思路，让模型在推理过程中反复放大感兴趣区域进行观察。该方法确实能提升准确率，但推理开销显著增加：每次查看细节都要重新处理图像并重复计算，导致响应速度变慢，影响实际可用性。上海交大与蚂蚁集团的研究团队换了一种思路：与其在推理阶段动态放大，不如在训练阶段就让模型学会细节识别能力，使其在原图上也能直接看清细节。基于这一假设，团队设计了一套知识蒸馏方案。具体做法是，先用能力更强的“教师模型”在放大的局部区域上生成标注，由于放大后细节更清晰，教师模型能给出更可靠的答案；再将这些答案映射回原始完整图像，并用边界框标注关键区域位置，构建新的训练数据集。学生模型在大量此类样本上学习后，逐步获得在完整图像上直接识别细节的能力。研究团队将该方法应用于包括Qwen3-VL在内的多个主流多模态模型，训练数据量为7.4万条。实验显示，经过这种训练的模型在多类细节识别任务上均有明显提升。更重要的是，推理时只需一次前向计算，无需反复放大，推理速度相较传统多次“放大”方案提升约10倍。为更评估方法效果，团队构建了ZoomBench测试基准，包含845个精心设计的视觉问答样本，覆盖精细计数、文字识别、颜色属性、结构属性、材料属性和物体识别六个维度，为后续研究提供了更统一的评测工具。这项进展具有明确的应用价值：在医疗影像分析、工业质检、文档OCR、自动驾驶等对细节识别要求严苛的场景中，有望同时提升准确性与响应速度。通过知识蒸馏在性能与效率之间取得更好的平衡，也为AI视觉能力的大规模部署提供了更可行的技术路径。

从“看得见”到“看得清”，多模态技术正在从展示能力走向真正可用；把细节放大的过程前移到训练阶段，将推理阶段的重复计算转化为一次性能力沉淀，不仅提升效率，也为规模化应用释放了空间。未来，数据质量、评测标准和安全治理的系统化建设，将决定细节感知能否深入转化为可信、可控、可持续的生产力。