当前AI视觉模型的核心难题,是对细节的感知仍不够强。传统深度学习视觉系统在处理高分辨率图像时,往往更擅长捕捉整体信息,但在文字识别、精细计数、物体属性判断等微观细节上准确率偏低。这个瓶颈限制了AI在医疗诊断、工业检测、文档处理等高细节要求场景中的落地效果。为弥补不足,业界曾采用“推理时放大”的思路,让模型在推理过程中反复放大感兴趣区域进行观察。该方法确实能提升准确率,但推理开销显著增加:每次查看细节都要重新处理图像并重复计算,导致响应速度变慢,影响实际可用性。上海交大与蚂蚁集团的研究团队换了一种思路:与其在推理阶段动态放大,不如在训练阶段就让模型学会细节识别能力,使其在原图上也能直接看清细节。基于这一假设,团队设计了一套知识蒸馏方案。具体做法是,先用能力更强的“教师模型”在放大的局部区域上生成标注,由于放大后细节更清晰,教师模型能给出更可靠的答案;再将这些答案映射回原始完整图像,并用边界框标注关键区域位置,构建新的训练数据集。学生模型在大量此类样本上学习后,逐步获得在完整图像上直接识别细节的能力。研究团队将该方法应用于包括Qwen3-VL在内的多个主流多模态模型,训练数据量为7.4万条。实验显示,经过这种训练的模型在多类细节识别任务上均有明显提升。更重要的是,推理时只需一次前向计算,无需反复放大,推理速度相较传统多次“放大”方案提升约10倍。为更评估方法效果,团队构建了ZoomBench测试基准,包含845个精心设计的视觉问答样本,覆盖精细计数、文字识别、颜色属性、结构属性、材料属性和物体识别六个维度,为后续研究提供了更统一的评测工具。这项进展具有明确的应用价值:在医疗影像分析、工业质检、文档OCR、自动驾驶等对细节识别要求严苛的场景中,有望同时提升准确性与响应速度。通过知识蒸馏在性能与效率之间取得更好的平衡,也为AI视觉能力的大规模部署提供了更可行的技术路径。
从“看得见”到“看得清”,多模态技术正在从展示能力走向真正可用;把细节放大的过程前移到训练阶段,将推理阶段的重复计算转化为一次性能力沉淀,不仅提升效率,也为规模化应用释放了空间。未来,数据质量、评测标准和安全治理的系统化建设,将决定细节感知能否深入转化为可信、可控、可持续的生产力。