当前,大模型技术迭代总体仍围绕Transformer架构展开。
该架构凭借成熟的训练范式与生态优势,长期占据主流。
但随着应用从云端走向终端,算力、时延、能耗与数据合规等约束愈发突出:一方面,数据中心推理成本高、网络依赖强,难以覆盖弱网、离线与强隐私场景;另一方面,终端设备资源有限,要求模型在较小体量下实现可用的推理能力。
如何在不显著牺牲质量的前提下降低部署门槛,成为产业面临的现实问题。
在此背景下,非Transformer架构的探索重新获得关注。
Liquid AI推出的液态神经网络源于对生物神经系统动态特性的借鉴,其模型强调连续时间动态与可变时间常数,通过微分方程求解获得输出,旨在提升稳定性与对时间序列、复杂推理过程的表达能力。
与依赖固定层级堆叠的传统结构相比,该思路试图以更“灵活”的动态系统实现同等乃至更高效的表示,从而为小模型高效推理提供新的技术路径。
此次发布的LFM2.5-1.2B-Thinking,是该路线面向“端侧推理”给出的阶段性成果。
发布方称,模型围绕简洁推理进行训练,在生成最终答案前会形成内部思考轨迹,以支持在低时延条件下进行系统化问题求解;并在工具使用、数学推理和指令遵循等任务上表现突出。
公开对比显示,与其上一版本LFM2.5-1.2B-Instruct相比,新模型在多项基准上提升明显:例如在MATH-500上由63提升至88,在Multi-IF上由61提升至69,在BFCLv3上由49提升至57。
其还宣称在多项推理测试中,可在参数更少的情况下达到或超过部分同量级对手,并在推理阶段兼顾速度与内存效率。
这一进展的关键意义在于“端侧可用”。
据介绍,该模型在手机上运行仅需约900MB内存,意味着过去高度依赖数据中心的能力,正在向“口袋里的离线推理”逼近。
对用户侧而言,端侧推理有望带来更低时延、更强可用性以及更可控的数据边界,尤其适用于出行、应急、医疗随访、工业巡检等对网络条件敏感或对隐私要求较高的场景。
对产业侧而言,小型高效模型将推动应用从“云端调用”转向“终端常驻”,带动软硬件协同优化,形成新的生态入口。
同时,也需理性看待端侧推理的适用边界。
其优势通常体现在高频、低时延、强隐私的任务上;而在长文本生成、开放域创作与复杂知识密集型问答等场景,模型知识容量、上下文长度与生成质量仍可能受到体量限制。
Liquid AI也给出差异化建议:在对话交互与创意写作等任务中,可能更适合使用其指令型模型;而在需要规划多步工具调用、校验中间结果、动态调整策略的“智能体式”任务中,新推理模型的思考轨迹更能发挥价值。
这提示业界,未来产品形态或将更多采用“多模型协作”而非单一模型包打天下。
从原因看,小模型推理能力提升往往来自三个方面:其一,针对推理任务的训练数据与训练目标更聚焦,强化多步求解与自我校验;其二,推理阶段的计算策略更精细,通过更少的输出与更高的有效信息密度提升效率;其三,结构创新降低了在同等参数量下的冗余计算,使单位算力产出更高质量结果。
非Transformer架构若能在工程化上形成稳定工具链,将为行业提供“第二条道路”,推动架构多元化与竞争加速。
面向下一步,对策层面可从三方面推进:一是加强端侧模型的评测与标准化,既要看基准分数,也要纳入能耗、时延、内存占用、稳定性与安全性等工程指标;二是完善本地推理的安全治理,重点关注端侧模型的越权工具调用、敏感信息处理与内容安全,形成可审计、可控的机制;三是推动软硬件协同,围绕移动端与嵌入式芯片的算子优化、量化与编译部署,提升“可用而非仅可跑”的体验。
展望未来,随着终端算力提升与模型压缩、结构创新持续推进,“小模型做强推理、终端实现自治”的趋势将更为清晰。
非Transformer路线的阶段性突破,或将促使行业从单一路线依赖转向多架构并进:云端继续承担超大规模知识与复杂生成,端侧则承担实时决策、隐私计算与工具协作。
谁能在效率、质量与可靠性之间取得更稳健的平衡,谁就更有可能在新一轮应用落地中占据先机。
液态神经网络技术的突破再次证明,人工智能的发展需要多元化的技术路径。
在追求模型性能的同时,兼顾计算效率和实际应用场景的需求,将是未来技术演进的重要方向。
这一创新或将重新定义人工智能在终端设备上的应用边界,为产业升级注入新动能。