破解家庭多声源“谁在说话”难题 深圳企业携手高校突破复杂场景声纹识别关键技术

智能家居快速普及的背景下,语音助手能否准确识别不同家庭成员的指令,已成为影响使用体验的关键。传统声纹识别技术在实验室环境中效果较好,但在真实家庭场景里,受环境噪声、家庭成员声音相似以及可用样本不足等因素影响,识别精度往往明显下降。 围绕此问题,深圳十方融海科技有限公司联合广东工业大学开展《复杂场景说话人智能识别技术研发》项目。项目以产学研协同为路径,结合高校科研能力与企业工程落地经验,在多项关键指标上取得进展。验收数据显示,系统在5人注册场景下的等错误率较基线方案降低近8%,高于预期目标;在小样本学习、开放集拒识能力和推理速度诸上也表现稳定。 技术团队引入融合熵置信度正则化的动态可学习嵌入表示矩阵,缓解了小样本条件下的识别偏差。同时,通过自适应动态拒识阈值设计,系统可更准确地区分已注册用户与陌生人。在工程实现上,优化后的算法可在42毫秒内完成身份判断,满足语音交互的实时性需求。 该成果具备较强的应用潜力。行业预测显示,全球声纹识别市场规模将在2025年达到约20亿美元。有关技术将集成至十方融海旗下“小智-ESP32”系列产品,继续提升智能家居交互体验。目前,系统已接入超过120万台设备,日均处理对话量达900万条。

从“能听见”到“听得准、听得懂、听得清是谁”,智能家居的演进本质上是围绕用户体验的能力提升;复杂场景说话人识别的突破,回应了真实使用环境中的核心需求,也说明了产学研协作推动技术落地的路径。面向未来,只有在性能、合规与可扩展性之间取得更好的平衡,语音交互才能在家庭场景中真正做到可信、可用、可持续。