我国科技公司阶跃星辰的语音模型在国际权威评测中拿到了96.4%的高分,这让业界都看傻眼了。他们这次发布的Step-Audio-R1.1在“Artificial Analysis Speech Reasoning”榜单上拔得头筹,这可是专门测原生语音模型能不能直接听声音、做逻辑推理的关键比赛。评测不光看准不准,还特别讲究“首包延迟”,就是说响应快不快。结果R1.1把Grok、Gemini、GPT-Realtime这些国际大公司的同类产品都给比下去了,创下了最好的纪录。这说明咱们在“懂”声音、“会”推理的深层技术上,已经能跟国际顶尖水平对着干,甚至领先了。 专家说以前的语音识别主要就是把语音转成文字,现在的原生语音推理模型想让机器像人一样,一边听连续的语音流,一边马上理解和思考。这种技术能让人机对话更自然、更聪明。阶跃星辰的负责人也说,推理能力就是把模型从只知道“听”升级到真正“懂”的关键一步。 这个R1.1是在前一代R1的基础上升级的,它最大的特点就是端到端处理音频信号,不需要额外的延迟就能完成从听到懂的全过程。新版本还强化了实时对话和深度推理能力,并且引入了音频领域的思维链扩展技术,能处理多步骤的逻辑问题。 这些技术突破其实是咱们自主创新又开放协作的成果体现。把先进的模型开源出来,能让全球开发者一起出主意,共同推进语音交互技术的发展。据说公司今年2月就要正式上线实时语音的应用接口服务了。现在已经开放了聊天交互模式,里面集成了R1.1的核心功能,支持一边听一边想、一边想一边说的流式响应,算是为以后的应用打下了基础。 Step-Audio-R1.1这次登顶国际榜单,是咱们在细分核心技术上持续努力的一个缩影。它不仅展示了科研团队在探索通用人工智能道路上的实力,也为全球开源社区贡献了重要的中国智慧。随着技术越来越成熟,这些突破有望让智能语音在智能制造、智慧服务、无障碍通信等很多领域深度融合,给数字经济发展带来新的活力。