krisp的语音语音ai,让说话者的声音保持不变

Krisp Technologies Inc.,这家位于加州伯克利的公司,专门做降噪、转录还有会议摘要的软件。2017年成立后,他们推出了不少实时音频增强技术。去年,他们给大家弄了一个输出端口音转换功能,能够把说话人的声音改给所有人听。这次呢,他们反其道而行之,把修改只限制在个人听者端。Arto Minasyan是Krisp的联合创始人兼总裁,他出生在亚美尼亚,对这些问题感受特别深。"我知道在通话中重复自己话语的感受,或者看到有人专注于你的发音而不是你的想法。"他在书面评论中这样说道。 Krisp给大家带来了一项很有意思的实时口音转换技术。这个技术只在听者端进行处理,不会改变说话者对其他人的声音表现。之前的传统工具会把说话人的声音给所有听众都改了。这次的系统在本地运行,在听者设备上处理语音,把不同口音中经常被误听的音素给澄清了,还保持了说话者的自然音调和声音特征。只有听者才能听到调整后的版本。这个功能也可以随时启用或禁用。 Krisp这个公司是专门搞语音AI的。为了消除口音差异带来的麻烦,他们把音素级别处理传入音频,延迟还不到200毫秒。这一点上可以忽略不计。而且这个处理过程是在本地设备上完成的,不用云端依赖。所以不用担心安全问题啦。 公司表示口音差异对生产力影响很大。会议上大家可能得重复自己的话,对话变慢或者语境被忽略。呼叫中心里处理不同口音的人可能得花更多时间,大脑负荷也更高。AI系统里的语音识别准确性和自动化性能可能都会下降。2022年的一项研究显示工作场所沟通不好每周让每个员工损失超过7小时生产力时间。 Krisp的系统在印度、菲律宾、拉丁美洲、非洲还有中文普通话口音方面效果最好。现在覆盖范围还在不断扩大呢。公司透露他们的软件已经部署在超过2亿台设备上,每月处理超过800亿分钟的语音对话了。 这个功能现在已经在苹果电脑和Windows PC上正式提供了。它还会通过软件开发工具包公开出去,让开发者们直接把它嵌入应用程序和语音AI智能体里。虽然口音修改技术以前总被批评会给说话者施压或者抹杀身份认同,但Krisp这次特意让说话者的声音保持不变来避免这种担忧。 他们表示这个系统不会给说话者评分、排名或者评判,也不会强制执行单一的语言标准。调整只有在听者设备上进行一下就是为了减少听力负担和误听风险啦。