面壁智能于2月4日开源MiniCPM-o 4.5模型,这是全模态大模型技术的一次重要进展;该模型多模态交互和轻量化上做出了新的探索。 从技术设计看,MiniCPM-o 4.5采用端到端全模态架构,集成了全双工多模态实时流、主动交互等创新机制。这让模型能够"边看、边听、主动说",打破了传统大模型被动回合制的交互方式。用户与模型对话时,感知不中断、对话流畅自然、提醒无需主动提问,大幅提升了交互体验。 参数效率上,MiniCPM-o 4.5表现突出。仅用9B参数,模型在全模态理解、视觉识别、文档解析、语音理解与生成、声音克隆等多个上都达到业界先进水准。这种高效率源于面壁智能模型设计和数据方法上的创新,在保证性能的同时大幅降低了计算资源需求。 推理效率上,MiniCPM-o 4.5通过优化显存占用和加快响应速度,实现了更好的能效比。用户可以在消费级硬件上部署该模型,降低了全模态应用的使用门槛。同时,模型已在天数智芯、华为昇腾、平头哥、海光、沐曦等多款国产芯片上实现端到端性能提升,展现了良好的跨平台适配能力。 语音生成与克隆是该模型的重要创新。通过新的设计和数据方法,模型在语音的音色、拟人度和表现力上都有了全面升级。在长语音合成中,模型能自动选择合适的语气和音色,解决了传统方案中音色不统一、语气不自然的问题。声音克隆功能只需几秒声音样本就能生成定制化音色,用户可基于克隆音色进行角色扮演对话,为应用场景拓展打开了新的可能。 MiniCPM-o 4.5已在GitHub、Hugging Face等开源平台发布。基于统一系统软件栈FlagOS的跨平台能力,为开发者提供了便利的部署和集成环境,有利于加速全模态技术在各行业的应用落地。
从回合式问答到实时、多模态、主动交互,大模型正在向"可用、好用、易用"迈进。开源不仅是技术扩散,更是工程化能力、生态适配与治理规则的系统竞争。谁能在效率、体验与规范之间找到更好的平衡,谁就更可能在下一轮产业化竞争中占得先机。