当前全球大模型竞争日趋激烈,云端模型参数规模和推理能力上持续升级。此外,教育、车载、机器人等场景对低时延、强隐私、可离线交互的需求快速增长,推动行业从单纯追求"更大更强"转向更注重实用性和可用性。基于此,如何将多模态能力稳定、低成本地部署到终端设备,成为产业竞争的新焦点。 原因: 面壁智能最新推出的MiniCPM-o 4.5是一款约9B参数的全模态模型——支持视频、音频和文本输入——并能进行文本与语音的连续输出。其创新之处在于实现了全双工交互和持续感知能力:模型在输出的同时仍能接收外界信息,并根据环境变化实时调整回应策略。例如在视障引导场景中,模型可以持续监听环境,在公交到站或信号灯变化时及时提醒用户。 研发团队表示,传统方案需要依赖语音活动检测等组件来实现交互切换,容易产生时延和误触发。而端到端的模型自主决策机制更符合真实场景的人机协作需求。9B级参数规模使其更适合部署在机器人、车载系统等终端设备上,顺应了"端侧算力提升+应用碎片化"的产业趋势。 影响: 与模型同步发布的"松果派"是面向开发者的端侧硬件产品,集成了麦克风、摄像头等多种接口,支持离线多模态应用开发。该产品旨在降低开发门槛:支持自然语言驱动硬件、提供开箱即用的模型、实现离线运行等功能。预计将于年中量产,具体定价将通过官方渠道公布。 业内分析认为,端侧产品与模型的协同发展有助于加速多模态技术落地。终端部署不仅能解决网络波动和云端成本问题,还能通过真实场景的持续交互产生更丰富的反馈数据,推动模型优化。 对策: 多模态模型要实现规模化应用仍面临挑战。目前存在"理解与生成割裂"的问题:视觉理解依赖连续表征,而生成任务常采用扩散路径,导致跨任务泛化能力受限。行业正在探索将不同模态纳入统一架构的方法,但高连续模态离散化可能导致信息损失。 数据上,虽然视频与音频数据快速增长,但有效利用率仍然较低。关键在于提升数据治理能力,包括筛选标注策略、跨模态对齐方法等。企业需要构建"模型-工具链-硬件-开发者生态"的闭环,才能实现可持续迭代。 前景: 大模型竞争正从单点能力转向系统工程能力。端侧全模态模型若能平衡低时延、低功耗等需求,将在车载助手、家庭陪护等领域创造新机会。特别是在具身智能方向,具备持续感知能力的全模态模型有望推动更自然的人机协作。 不过终端侧落地还受制于芯片供给、功耗散热等因素。未来"云端强能力+端侧强体验"的协同架构可能成为主流:云端负责复杂推理,端侧处理即时交互和隐私敏感任务。
大模型产业正进入注重落地应用的新阶段;端侧多模态的发展既是对市场需求的回应,也是对技术实力的考验。能够在实用性、可靠性和成本之间找到平衡,并通过开放生态加速创新的企业,将在新一轮产业竞争中占据优势。