液态神经网络推理模型突破端侧部署瓶颈参数量少四成性能媲美主流同类产品

当前，大模型技术迭代总体仍围绕Transformer架构展开。

该架构凭借成熟的训练范式与生态优势，长期占据主流。

但随着应用从云端走向终端，算力、时延、能耗与数据合规等约束愈发突出：一方面，数据中心推理成本高、网络依赖强，难以覆盖弱网、离线与强隐私场景；另一方面，终端设备资源有限，要求模型在较小体量下实现可用的推理能力。

如何在不显著牺牲质量的前提下降低部署门槛，成为产业面临的现实问题。

在此背景下，非Transformer架构的探索重新获得关注。

Liquid AI推出的液态神经网络源于对生物神经系统动态特性的借鉴，其模型强调连续时间动态与可变时间常数，通过微分方程求解获得输出，旨在提升稳定性与对时间序列、复杂推理过程的表达能力。

与依赖固定层级堆叠的传统结构相比，该思路试图以更“灵活”的动态系统实现同等乃至更高效的表示，从而为小模型高效推理提供新的技术路径。

此次发布的LFM2.5-1.2B-Thinking，是该路线面向“端侧推理”给出的阶段性成果。

发布方称，模型围绕简洁推理进行训练，在生成最终答案前会形成内部思考轨迹，以支持在低时延条件下进行系统化问题求解；并在工具使用、数学推理和指令遵循等任务上表现突出。

公开对比显示，与其上一版本LFM2.5-1.2B-Instruct相比，新模型在多项基准上提升明显：例如在MATH-500上由63提升至88，在Multi-IF上由61提升至69，在BFCLv3上由49提升至57。

其还宣称在多项推理测试中，可在参数更少的情况下达到或超过部分同量级对手，并在推理阶段兼顾速度与内存效率。

这一进展的关键意义在于“端侧可用”。

据介绍，该模型在手机上运行仅需约900MB内存，意味着过去高度依赖数据中心的能力，正在向“口袋里的离线推理”逼近。

对用户侧而言，端侧推理有望带来更低时延、更强可用性以及更可控的数据边界，尤其适用于出行、应急、医疗随访、工业巡检等对网络条件敏感或对隐私要求较高的场景。

对产业侧而言，小型高效模型将推动应用从“云端调用”转向“终端常驻”，带动软硬件协同优化，形成新的生态入口。

同时，也需理性看待端侧推理的适用边界。

其优势通常体现在高频、低时延、强隐私的任务上；而在长文本生成、开放域创作与复杂知识密集型问答等场景，模型知识容量、上下文长度与生成质量仍可能受到体量限制。

Liquid AI也给出差异化建议：在对话交互与创意写作等任务中，可能更适合使用其指令型模型；而在需要规划多步工具调用、校验中间结果、动态调整策略的“智能体式”任务中，新推理模型的思考轨迹更能发挥价值。

这提示业界，未来产品形态或将更多采用“多模型协作”而非单一模型包打天下。

从原因看，小模型推理能力提升往往来自三个方面：其一，针对推理任务的训练数据与训练目标更聚焦，强化多步求解与自我校验；其二，推理阶段的计算策略更精细，通过更少的输出与更高的有效信息密度提升效率；其三，结构创新降低了在同等参数量下的冗余计算，使单位算力产出更高质量结果。

非Transformer架构若能在工程化上形成稳定工具链，将为行业提供“第二条道路”，推动架构多元化与竞争加速。

面向下一步，对策层面可从三方面推进：一是加强端侧模型的评测与标准化，既要看基准分数，也要纳入能耗、时延、内存占用、稳定性与安全性等工程指标；二是完善本地推理的安全治理，重点关注端侧模型的越权工具调用、敏感信息处理与内容安全，形成可审计、可控的机制；三是推动软硬件协同，围绕移动端与嵌入式芯片的算子优化、量化与编译部署，提升“可用而非仅可跑”的体验。

展望未来，随着终端算力提升与模型压缩、结构创新持续推进，“小模型做强推理、终端实现自治”的趋势将更为清晰。

非Transformer路线的阶段性突破，或将促使行业从单一路线依赖转向多架构并进：云端继续承担超大规模知识与复杂生成，端侧则承担实时决策、隐私计算与工具协作。

谁能在效率、质量与可靠性之间取得更稳健的平衡，谁就更有可能在新一轮应用落地中占据先机。

液态神经网络技术的突破再次证明，人工智能的发展需要多元化的技术路径。

在追求模型性能的同时，兼顾计算效率和实际应用场景的需求，将是未来技术演进的重要方向。

液态神经网络推理模型突破端侧部署瓶颈 参数量少四成性能媲美主流同类产品

液态神经网络推理模型突破端侧部署瓶颈参数量少四成性能媲美主流同类产品