新加坡国大与上交大提出“以图训模”新路径,降低视频编辑模型训练门槛

近年来,视频生成与编辑技术进步很快,但行业始终卡一个关键问题上:高质量训练数据难获取,训练成本也居高不下。传统方法通常依赖大量“配对样本”,即同一段视频在编辑前后的成对数据,用来学习“改什么、怎么改,以及改完如何保持连贯”。但配对数据的制作往往需要复杂标注、统一指令体系和反复质检,既耗时又昂贵;同时训练对算力需求巨大,使得不少研究团队和中小机构难以承担。 在该背景下,新加坡国立大学与上海交通大学联合团队在2026年3月发布的预印本研究提出ViFeEdit方案,尝试改变以视频配对数据为核心的训练思路。研究基于一个判断:视频编辑可拆分为两类相对独立的能力——其一是空间层面的画面编辑能力,解决“单帧画面如何按指令变化”;其二是时间维度的一致性能力,解决“帧与帧之间如何稳定过渡、不闪烁不跳变”。团队认为,空间编辑能力可以主要通过静态图片学习,而时间一致性能力可更多利用既有视频模型已有的时序建模基础,从而减少对昂贵视频配对数据的依赖。 问题在于,现有视频编辑模型多采用将空间与时间混合建模的架构,典型做法是用三维注意力同时处理单帧内容与帧间关系。这类架构在数据充足时表现不错,但在缺乏视频配对数据时,模型容易在“编辑准确性”和“时间稳定性”之间失衡:要么改得准但画面闪烁,要么不闪但难以按指令变化。研究团队认为,症结在于训练目标高度耦合,模型被迫用同一套参数同时学习两种难度不同、数据需求也不同的能力。 针对这一矛盾,ViFeEdit提出“时空解耦”的工程路径:在尽量保留原有视频模型时间建模能力的同时,引入专门负责空间编辑的轻量模块。具体做法是保留并冻结模型中负责时序一致性的三维注意力模块,让其继续承担“保连贯”的作用;同时新增一对互补的二维空间注意力模块,用于学习“改画面”。为减少训练扰动,新增模块采用“正负相消”的初始化策略,使训练初期新增分支对输出影响接近于零,提升训练稳定性。研究还引入“双路径管道”结构,让原始视频与待编辑视频在不同路径中处理,并在特定空间注意力层进行信息交互,以增强指令传递的针对性,尽量不干扰时序能力。此外,通过分离式时间步嵌入设置,将“干净时间戳”与“带噪时间戳”区分开来,提升模型对编辑意图的识别,降低指令含义被稀释的风险。 从影响看,该研究带来至少三点启示:其一,数据压力可能缓解。图像数据获取成本更低,也更容易覆盖风格迁移、色彩调整、对象替换等常见编辑任务,有助于扩大训练素材来源。其二,算力门槛或将降低。研究提及业内构建同类数据集曾消耗上万GPU天,这类投入对多数机构并不现实;若训练主要集中在新增二维模块并冻结时序模块,总体成本有望得到控制。其三,研发路径可能更模块化、更可复用:将“编辑能力”与“连贯能力”分开优化,为影视制作、短视频生产、教育培训与工业可视化等场景的定制化落地提供新的工程思路。 需要指出的是,预印本成果仍需更多公开复现实验与产业验证。未来能否形成稳定、可推广的工具链,还取决于图像训练可覆盖的视频编辑类型边界、对复杂运动与遮挡场景的鲁棒性,以及在不同指令体系与分辨率条件下的泛化表现。另外,随着技术门槛降低,数据合规、版权保护、深度合成内容标识等治理议题将更为突出,涉及的规则与应用规范也需同步完善。 前景上,业内关注的方向包括:一是以更低成本构建面向细分行业的专用编辑能力库;二是将图像级编辑能力与视频级一致性能力继续标准化接口,形成可插拔组件;三是在可控、安全、可追溯的前提下,提高内容生产效率,扩展创作空间。若后续验证充分,这一路径可能推动视频编辑技术从“高投入、少数人可用”走向“更广泛可用”。

从依赖海量数据到更多借助静态图像实现高效训练,这项研究为视频编辑技术提供了新的研发思路,也表明了人工智能“化繁为简”的创新路径。在算力资源日益稀缺且重要的当下,此类探索有望扩大技术可及性,为数字内容产业与有关应用带来新的增长空间。