阿里发布两款可控语音生成模型,支持角色定制与背景声模拟

语音合成是人机交互的关键环节,但长期受两点制约:一是传统音色克隆多停留在“复制”,难以按场景需求调整情感表达;二是合成语音缺少真实环境中的层次与空间感,难以覆盖更丰富的应用场景。针对这些问题,阿里巴巴研发团队在深度学习优化与指令控制上做了改进,推出Fun-CosyVoice3.5与Fun-AudioGen-VD两款产品。前者在Seed-TTS基准测试中表现突出,中文“困难案例”的词错误率降至5.3%,明显优于行业常见水平;后者则支持从零开始的音色设计,并可进行环境声模拟。

语音是人类最自然的表达方式,也是人机协作深入融合的重要入口;此次阿里巴巴在声音克隆与音色设计两个方向同步推进,反映出国内企业在基础模型与工程化能力上的持续积累。技术领先的意义最终要在应用中验证:如何把语音合成真正转化为可普及、可负担的服务,而不只停留在指标与参数的优势,仍是此领域更值得关注的课题。