我国科技公司阶跃星辰的语音模型在国际权威评测中拿到了96.4% 的高分，这让业界都看傻眼了

我国科技公司阶跃星辰的语音模型在国际权威评测中拿到了96.4%的高分，这让业界都看傻眼了。他们这次发布的Step-Audio-R1.1在“Artificial Analysis Speech Reasoning”榜单上拔得头筹，这可是专门测原生语音模型能不能直接听声音、做逻辑推理的关键比赛。评测不光看准不准，还特别讲究“首包延迟”，就是说响应快不快。结果R1.1把Grok、Gemini、GPT-Realtime这些国际大公司的同类产品都给比下去了，创下了最好的纪录。这说明咱们在“懂”声音、“会”推理的深层技术上，已经能跟国际顶尖水平对着干，甚至领先了。专家说以前的语音识别主要就是把语音转成文字，现在的原生语音推理模型想让机器像人一样，一边听连续的语音流，一边马上理解和思考。这种技术能让人机对话更自然、更聪明。阶跃星辰的负责人也说，推理能力就是把模型从只知道“听”升级到真正“懂”的关键一步。这个R1.1是在前一代R1的基础上升级的，它最大的特点就是端到端处理音频信号，不需要额外的延迟就能完成从听到懂的全过程。新版本还强化了实时对话和深度推理能力，并且引入了音频领域的思维链扩展技术，能处理多步骤的逻辑问题。这些技术突破其实是咱们自主创新又开放协作的成果体现。把先进的模型开源出来，能让全球开发者一起出主意，共同推进语音交互技术的发展。据说公司今年2月就要正式上线实时语音的应用接口服务了。现在已经开放了聊天交互模式，里面集成了R1.1的核心功能，支持一边听一边想、一边想一边说的流式响应，算是为以后的应用打下了基础。 Step-Audio-R1.1这次登顶国际榜单，是咱们在细分核心技术上持续努力的一个缩影。它不仅展示了科研团队在探索通用人工智能道路上的实力，也为全球开源社区贡献了重要的中国智慧。随着技术越来越成熟，这些突破有望让智能语音在智能制造、智慧服务、无障碍通信等很多领域深度融合，给数字经济发展带来新的活力。