阿里发布两款可控语音生成模型，支持角色定制与背景声模拟

语音合成是人机交互的关键环节，但长期受两点制约：一是传统音色克隆多停留在“复制”，难以按场景需求调整情感表达；二是合成语音缺少真实环境中的层次与空间感，难以覆盖更丰富的应用场景。针对这些问题，阿里巴巴研发团队在深度学习优化与指令控制上做了改进，推出Fun-CosyVoice3.5与Fun-AudioGen-VD两款产品。前者在Seed-TTS基准测试中表现突出，中文“困难案例”的词错误率降至5.3%，明显优于行业常见水平；后者则支持从零开始的音色设计，并可进行环境声模拟。

语音是人类最自然的表达方式，也是人机协作深入融合的重要入口；此次阿里巴巴在声音克隆与音色设计两个方向同步推进，反映出国内企业在基础模型与工程化能力上的持续积累。技术领先的意义最终要在应用中验证：如何把语音合成真正转化为可普及、可负担的服务，而不只停留在指标与参数的优势，仍是此领域更值得关注的课题。