新加坡国大与上交大提出“以图训模”新路径，降低视频编辑模型训练门槛

近年来，视频生成与编辑技术进步很快，但行业始终卡一个关键问题上：高质量训练数据难获取，训练成本也居高不下。传统方法通常依赖大量“配对样本”，即同一段视频在编辑前后的成对数据，用来学习“改什么、怎么改，以及改完如何保持连贯”。但配对数据的制作往往需要复杂标注、统一指令体系和反复质检，既耗时又昂贵；同时训练对算力需求巨大，使得不少研究团队和中小机构难以承担。在该背景下，新加坡国立大学与上海交通大学联合团队在2026年3月发布的预印本研究提出ViFeEdit方案，尝试改变以视频配对数据为核心的训练思路。研究基于一个判断：视频编辑可拆分为两类相对独立的能力——其一是空间层面的画面编辑能力，解决“单帧画面如何按指令变化”；其二是时间维度的一致性能力，解决“帧与帧之间如何稳定过渡、不闪烁不跳变”。团队认为，空间编辑能力可以主要通过静态图片学习，而时间一致性能力可更多利用既有视频模型已有的时序建模基础，从而减少对昂贵视频配对数据的依赖。问题在于，现有视频编辑模型多采用将空间与时间混合建模的架构，典型做法是用三维注意力同时处理单帧内容与帧间关系。这类架构在数据充足时表现不错，但在缺乏视频配对数据时，模型容易在“编辑准确性”和“时间稳定性”之间失衡：要么改得准但画面闪烁，要么不闪但难以按指令变化。研究团队认为，症结在于训练目标高度耦合，模型被迫用同一套参数同时学习两种难度不同、数据需求也不同的能力。针对这一矛盾，ViFeEdit提出“时空解耦”的工程路径：在尽量保留原有视频模型时间建模能力的同时，引入专门负责空间编辑的轻量模块。具体做法是保留并冻结模型中负责时序一致性的三维注意力模块，让其继续承担“保连贯”的作用；同时新增一对互补的二维空间注意力模块，用于学习“改画面”。为减少训练扰动，新增模块采用“正负相消”的初始化策略，使训练初期新增分支对输出影响接近于零，提升训练稳定性。研究还引入“双路径管道”结构，让原始视频与待编辑视频在不同路径中处理，并在特定空间注意力层进行信息交互，以增强指令传递的针对性，尽量不干扰时序能力。此外，通过分离式时间步嵌入设置，将“干净时间戳”与“带噪时间戳”区分开来，提升模型对编辑意图的识别，降低指令含义被稀释的风险。从影响看，该研究带来至少三点启示：其一，数据压力可能缓解。图像数据获取成本更低，也更容易覆盖风格迁移、色彩调整、对象替换等常见编辑任务，有助于扩大训练素材来源。其二，算力门槛或将降低。研究提及业内构建同类数据集曾消耗上万GPU天，这类投入对多数机构并不现实；若训练主要集中在新增二维模块并冻结时序模块，总体成本有望得到控制。其三，研发路径可能更模块化、更可复用：将“编辑能力”与“连贯能力”分开优化，为影视制作、短视频生产、教育培训与工业可视化等场景的定制化落地提供新的工程思路。需要指出的是，预印本成果仍需更多公开复现实验与产业验证。未来能否形成稳定、可推广的工具链，还取决于图像训练可覆盖的视频编辑类型边界、对复杂运动与遮挡场景的鲁棒性，以及在不同指令体系与分辨率条件下的泛化表现。另外，随着技术门槛降低，数据合规、版权保护、深度合成内容标识等治理议题将更为突出，涉及的规则与应用规范也需同步完善。前景上，业内关注的方向包括：一是以更低成本构建面向细分行业的专用编辑能力库；二是将图像级编辑能力与视频级一致性能力继续标准化接口，形成可插拔组件；三是在可控、安全、可追溯的前提下，提高内容生产效率，扩展创作空间。若后续验证充分，这一路径可能推动视频编辑技术从“高投入、少数人可用”走向“更广泛可用”。

从依赖海量数据到更多借助静态图像实现高效训练，这项研究为视频编辑技术提供了新的研发思路，也表明了人工智能“化繁为简”的创新路径。在算力资源日益稀缺且重要的当下，此类探索有望扩大技术可及性，为数字内容产业与有关应用带来新的增长空间。