科技企业开源全模态交互模型智能对话技术取得新进展

面壁智能于2月4日开源MiniCPM-o 4.5模型，这是全模态大模型技术的一次重要进展；该模型多模态交互和轻量化上做出了新的探索。从技术设计看，MiniCPM-o 4.5采用端到端全模态架构，集成了全双工多模态实时流、主动交互等创新机制。这让模型能够"边看、边听、主动说"，打破了传统大模型被动回合制的交互方式。用户与模型对话时，感知不中断、对话流畅自然、提醒无需主动提问，大幅提升了交互体验。参数效率上，MiniCPM-o 4.5表现突出。仅用9B参数，模型在全模态理解、视觉识别、文档解析、语音理解与生成、声音克隆等多个上都达到业界先进水准。这种高效率源于面壁智能模型设计和数据方法上的创新，在保证性能的同时大幅降低了计算资源需求。推理效率上，MiniCPM-o 4.5通过优化显存占用和加快响应速度，实现了更好的能效比。用户可以在消费级硬件上部署该模型，降低了全模态应用的使用门槛。同时，模型已在天数智芯、华为昇腾、平头哥、海光、沐曦等多款国产芯片上实现端到端性能提升，展现了良好的跨平台适配能力。语音生成与克隆是该模型的重要创新。通过新的设计和数据方法，模型在语音的音色、拟人度和表现力上都有了全面升级。在长语音合成中，模型能自动选择合适的语气和音色，解决了传统方案中音色不统一、语气不自然的问题。声音克隆功能只需几秒声音样本就能生成定制化音色，用户可基于克隆音色进行角色扮演对话，为应用场景拓展打开了新的可能。 MiniCPM-o 4.5已在GitHub、Hugging Face等开源平台发布。基于统一系统软件栈FlagOS的跨平台能力，为开发者提供了便利的部署和集成环境，有利于加速全模态技术在各行业的应用落地。

从回合式问答到实时、多模态、主动交互，大模型正在向"可用、好用、易用"迈进。开源不仅是技术扩散，更是工程化能力、生态适配与治理规则的系统竞争。谁能在效率、体验与规范之间找到更好的平衡，谁就更可能在下一轮产业化竞争中占得先机。

科技企业开源全模态交互模型 智能对话技术取得新进展

科技企业开源全模态交互模型智能对话技术取得新进展