多方联合发布零样本工业级歌声合成模型SoulX-Singer，推动多语种音乐生成落地应用

问题——生成式技术音乐领域应用热度持续上升，但歌唱语音合成（SVS）长期面临“好听难、可用更难”的瓶颈：一上，歌声生成对音高、节奏、吐字、情感与音色的耦合要求远高于普通语音合成；另一方面，真实产业场景常常需要短时间内适配新的声音与新曲目，传统依赖特定歌手数据的方案在效率、成本和合规边界上均存在掣肘，导致SVS整体落地节奏相对滞后；原因——业内人士分析，SVS发展缓慢并非单点技术不足，而是由多重因素叠加所致：其一，训练数据门槛高。要实现“换人不降质”，需要覆盖多语种、多音色、多唱法的大规模高质量数据；其二，控制维度复杂。工业级制作往往要求对音符起止、时长、音高与节奏实现精细调整，避免“听起来像但唱不准”“节奏对但字不清”等常见问题；其三，系统工程要求高。从模型结构、对齐机制到评测体系与落地流程，都需要跨学科团队共同推进，单一机构难以在短周期内完成闭环。影响——，Soul张璐团队（Soul AI Lab）联合吉利汽车研究院人工智能中心、天津大学视听觉认知计算团队、西北工业大学音频语音与语言处理研究组，共同推出歌声合成模型SoulX-Singer，定位于面向真实工业应用场景的零样本歌声合成方案。研发团队介绍，该模型核心目标是在未见过目标歌手音色的情况下，仍能生成稳定、自然且可控的歌声，从而更好满足内容生产、音乐制作与互动娱乐等场景对“效率、质量与一致性”的要求。相较以往偏重实验室效果展示的方案，该模型强调在复杂音乐条件下的鲁棒性与可重复性，意在推动零样本SVS从“可演示”迈向“可交付”。对策——为解决“歌词—旋律—发声”强耦合难题，研发团队在建模范式与控制机制上进行了针对性设计：模型采用Flow Matching生成建模思路，并将歌声合成转化为音频补全任务，以提升生成稳定性与连续性；同时引入音符级对齐机制，将歌词、MIDI音符与声学特征的对应关系细化到每个音符，支持对音符起止时间、音高及持续时长进行独立控制，既能够更忠实地还原乐谱，也便于在编曲、重制、编辑等生产流程中进行结构化调整。数据上，模型依托超过42000小时高质量歌声训练数据，覆盖多语言、多歌手音色与多种演唱风格，为零样本能力提供基础支撑。控制方式上，模型提供两种生成路径：其一是基于乐谱与歌词的MIDI驱动模式，强调音符级节奏与时长的可控性，适配从零创作、歌词编辑到歌曲重制；其二是基于参考旋律的Melody驱动模式，用于既有旋律条件下进行合成，并对参考音频中的演唱技巧与表达风格进行更精准的复刻，面向翻唱与风格迁移等需求。两种模式形成互补，覆盖“从创作到改编”的多类生产场景。前景——多语种能力被视为衡量产业化程度的重要指标之一。SoulX-Singer目前已实现普通话、英语、粤语歌声合成，并在不同语言与不同音乐风格下保持较为一致的输出质量。评测上，模型GMO-SVS与SoulX-Singer-Eval数据集上进行了系统测试，其中后者强调严格零样本设置，以确保测试歌手未出现在训练集中。结果显示，该模型在语义清晰度、歌手相似度等指标上相对同类方案具有优势，主观听感评测亦表现突出。业内认为，随着评测体系完善、工具链成熟与算力成本继续下降，零样本SVS有望在内容生产提效、虚拟歌手、互动娱乐等方向加速应用；同时，产业落地仍需在数据来源规范、版权与授权边界、标识管理各上建立更清晰的治理机制，以推动技术在可控、可持续框架内释放价值。

SoulX-Singer的推出标志着工业级歌声合成技术实现突破，为音乐产业数字化转型提供新动力；该技术的发展将提升我国在智能音乐领域的竞争力，推动全球音乐产业创新。