多方联合发布零样本工业级歌声合成模型SoulX-Singer,推动多语种音乐生成落地应用

问题——生成式技术音乐领域应用热度持续上升,但歌唱语音合成(SVS)长期面临“好听难、可用更难”的瓶颈:一上,歌声生成对音高、节奏、吐字、情感与音色的耦合要求远高于普通语音合成;另一方面,真实产业场景常常需要短时间内适配新的声音与新曲目,传统依赖特定歌手数据的方案在效率、成本和合规边界上均存在掣肘,导致SVS整体落地节奏相对滞后; 原因——业内人士分析,SVS发展缓慢并非单点技术不足,而是由多重因素叠加所致:其一,训练数据门槛高。要实现“换人不降质”,需要覆盖多语种、多音色、多唱法的大规模高质量数据;其二,控制维度复杂。工业级制作往往要求对音符起止、时长、音高与节奏实现精细调整,避免“听起来像但唱不准”“节奏对但字不清”等常见问题;其三,系统工程要求高。从模型结构、对齐机制到评测体系与落地流程,都需要跨学科团队共同推进,单一机构难以在短周期内完成闭环。 影响——,Soul张璐团队(Soul AI Lab)联合吉利汽车研究院人工智能中心、天津大学视听觉认知计算团队、西北工业大学音频语音与语言处理研究组,共同推出歌声合成模型SoulX-Singer,定位于面向真实工业应用场景的零样本歌声合成方案。研发团队介绍,该模型核心目标是在未见过目标歌手音色的情况下,仍能生成稳定、自然且可控的歌声,从而更好满足内容生产、音乐制作与互动娱乐等场景对“效率、质量与一致性”的要求。相较以往偏重实验室效果展示的方案,该模型强调在复杂音乐条件下的鲁棒性与可重复性,意在推动零样本SVS从“可演示”迈向“可交付”。 对策——为解决“歌词—旋律—发声”强耦合难题,研发团队在建模范式与控制机制上进行了针对性设计:模型采用Flow Matching生成建模思路,并将歌声合成转化为音频补全任务,以提升生成稳定性与连续性;同时引入音符级对齐机制,将歌词、MIDI音符与声学特征的对应关系细化到每个音符,支持对音符起止时间、音高及持续时长进行独立控制,既能够更忠实地还原乐谱,也便于在编曲、重制、编辑等生产流程中进行结构化调整。数据上,模型依托超过42000小时高质量歌声训练数据,覆盖多语言、多歌手音色与多种演唱风格,为零样本能力提供基础支撑。控制方式上,模型提供两种生成路径:其一是基于乐谱与歌词的MIDI驱动模式,强调音符级节奏与时长的可控性,适配从零创作、歌词编辑到歌曲重制;其二是基于参考旋律的Melody驱动模式,用于既有旋律条件下进行合成,并对参考音频中的演唱技巧与表达风格进行更精准的复刻,面向翻唱与风格迁移等需求。两种模式形成互补,覆盖“从创作到改编”的多类生产场景。 前景——多语种能力被视为衡量产业化程度的重要指标之一。SoulX-Singer目前已实现普通话、英语、粤语歌声合成,并在不同语言与不同音乐风格下保持较为一致的输出质量。评测上,模型GMO-SVS与SoulX-Singer-Eval数据集上进行了系统测试,其中后者强调严格零样本设置,以确保测试歌手未出现在训练集中。结果显示,该模型在语义清晰度、歌手相似度等指标上相对同类方案具有优势,主观听感评测亦表现突出。业内认为,随着评测体系完善、工具链成熟与算力成本继续下降,零样本SVS有望在内容生产提效、虚拟歌手、互动娱乐等方向加速应用;同时,产业落地仍需在数据来源规范、版权与授权边界、标识管理各上建立更清晰的治理机制,以推动技术在可控、可持续框架内释放价值。

SoulX-Singer的推出标志着工业级歌声合成技术实现突破,为音乐产业数字化转型提供新动力;该技术的发展将提升我国在智能音乐领域的竞争力,推动全球音乐产业创新。