一说起未来的声音合成技术,大家通常会先想到林志玲,或者从导航里听到的温柔女声,认为那是真正的真人配音。其实真相是:这些声音背后只是不到10分钟的录音素材。那些不断重复的“限速60公里”和“前方有摄像头”,都是算法给变出来的。 为了让这种娃娃音更精准落地,研究团队先给志玲录了好多语气丰富的标准句子。接下来,他们通过波形拼接、声学模型和语言模型这三样东西,把她的音高走势、停顿习惯全都拆解成了数学公式。只要随便输入“前方还有3公里”,听众脑海里就能立刻脑补出志玲的笑容,这就是语音合成的核心——个性化。 如果不想用明星原声怎么办?海量的网络音频就是现成的素材库。新闻联播、脱口秀、播客甚至直播里的人声,只要目标人声足够突出,系统就能把它从背景噪音里抠出来。通过无监督学习、信号分离和说话人识别这三步组合拳,单一发言人的纯净语音就能变成成千上万个词。 2012年科大讯飞就试过用央视《新闻联播》的公开数据,只用了40分钟就克隆出了康辉和李瑞英的播音腔。当时在语音云发布会上,这种效果惊艳了全场。 未来声音合成有五大想象场景:一是把评书大家袁阔成、单田芳的声音做成片段库,自动生成“今日要闻评书”,让老人用耳朵听新闻。二是小说听书能千人千面,用户可以选风格和语速。三是家庭DV可以自动剪辑,给孩子的牙牙学语配上专属语音助手。四是客服和导游都能用创始人的原声实时合成。五是智能陪伴机器人能模仿宠物叫声或主人童年录音去安慰孤独症儿童。 科大讯飞是从1999年国家863计划开始做起的。现在他们联合社科院语言所、中科院声学所和科大计算机学院一起攻关,形成了产学研用的闭环。随着大模型和端到端技术的进步,声音合成的门槛越来越低。下一个惊艳世界的声音说不定就在你今天随口的朗读里。