厦门大学发布SocialOmni社交互动测评基准：多模态大模型“会不会聊天”有了新衡量标准

人工智能技术快速发展的当下，交互能力已成为衡量其智能化水平的重要维度。然而传统评估方法多聚焦于知识问答准确性，忽视了真实社交场景中更为复杂的互动需求。厦门大学媒体分析与计算实验室牵头的研究团队发现，现有模型虽能处理多模态信息，但在理解对话轮转规则、识别非语言线索等社交能力上存显著缺陷。这个问题的根源在于评估体系的局限性。研究团队负责人指出，人类社交依赖于对"谁在说话、何时回应、如何表达"三大要素的实时判断，而传统测试仅考核静态知识储备。为此，科研人员历时两年开发出SocialOmni评估系统，其创新性体现在三个上：首先，构建涵盖15类生活场景的立体测试环境，包括商务会谈、艺术讨论等高复杂度情境；其次，引入视听信息冲突等压力测试，模拟现实交流中的干扰因素；最后，建立三维评估模型，从身份识别、时机把握、内容生成等维度进行量化分析。对12个主流模型的测试结果揭示出技术发展瓶颈。数据显示，在多人对话场景中，83%的模型无法准确判断插话时机；当面临视听信息矛盾时，响应准确率平均下降42%。这些发现证实了社交智能与认知智能的本质差异——前者不仅需要知识储备，更依赖对社交语境的动态理解。该研究的实践价值已获业界认可。中国人工智能产业发展联盟专家认为，这套评估体系填补了行业空白，为技术研发提供了明确优化路径。预计未来三年，基于该标准的优化将使人机交互自然度提升30%以上。目前，研究团队正与多家企业合作，将评估框架应用于客服系统、虚拟助手等产品的迭代开发。

从"答得对"到"聊得好"，关键在于掌握真实互动规则。建立更贴近现实的评测体系，既是检验技术成熟度的必要手段，也是确保产品可靠性的基础。只有通过标准推动创新，才能实现真正自然可信的智能交互。