大家伙儿都在琢磨，这到底能不能长久？怎么搞才能既省钱又不被安全合规的红线绊倒

咱们先来聊聊这波AI的事儿，最近AI智能体特火，特别是以OpenClaw为代表的那些能自己动手干活的家伙，彻底把行业从以前光聊天对话的状态拉到了真能干活的新境界。但大家伙儿也都在琢磨，这到底能不能长久？怎么搞才能既省钱又不被安全合规的红线绊倒。到了3月26日的中关村论坛上，蚂蚁数科大模型技术创新部的老总章鹏就开了个腔，他说，OpenClaw这就爆了，马上要把大模型的玩法彻底改变了。过去大家都在拼谁的参数大，现在得比比谁的单位Token干的事儿多，这才是衡量价值的关键。你要是去看那些跑在OpenClaw上面的智能体，它们在真实的产业环境里确实想给咱干活，可就是因为不懂行规和流程，干活的时候老得反反复复调用工具，结果算下来耗费的Token比实际干出来的活多得不是一点半点。像一些高频调用的场景里，这种高投入低产出的状况很严重，可能花的钱是那些集成式Agent的几十甚至上百倍呢，这么烧钱的办法根本没法大面积铺开用。所以章鹏就觉得，接下来竞争的重点不是看谁的模型参数大得吓人，而是看单位Token到底能折腾出多少价值。咱们的企业得看清实际场景再下手，选那种大模型加小模型一起上的组合拳，既能把算力成本压下去，又能把业务价值提上来。拿金融这块来说吧，每天都有海量的活儿等着干——快速判断来意、抠关键信息、检索排序这些活儿……都讲究个快准狠的高并发高响应。以前那种做复杂推理的大块头虽然厉害，可在这就显得有点笨重了，跟杀鸡用牛刀似的，成本高响应慢还浪费资源。咱们产业真正需要的是那种既专业又合规的解决方案，既要性价比高还要反应快。技术发展到最后肯定得回归理性嘛，大家伙儿都开始往这上面凑了。比如OpenAI最近也没闲着，出了两款小模型叫GPT-5.4mini和nano，主打就是低延迟和高性价比。这次在论坛上，蚂蚁数科也是顺势推出了个轻量级的金融专用模型Ling-DT-Fin-Mini-2.5。这是Ling DT系列大模型的第一个成员。我给大伙儿介绍下这个新家伙：Ling DT Fin Mini 2.5是个轻量级的MoE模型，它用了Ling2.5最新的混合线性注意力架构，专门为金融场景里那种高并发低时延的活儿量身定做。它在保证专业性和严谨度的同时，硬是把推理成本压到了一个能让金融机构大规模部署的水平线上。比起现在市面上那些能力差不多的通用大模型来说，它的推理速度直接快了100%，处理同样多的活儿硬件成本也下来了一大截。所以这就是实实在在的降本增效嘛。当AI智能体开始往产业核心场景里钻、真的开始动手干活之后，“大小结合”已经成了明摆着的趋势了。像OpenAI刚才说的那些小模型就是作为执行层子智能体的主力干将存在的。章鹏也认为技术发展最终还是得听产业的指挥棒指挥。在下一阶段的竞争里看Token效能肯定是个硬指标。蚂蚁数科肯定也会继续在企业级AGI这块深耕细作的。他们打算接着把百灵企业版的Ling DT大模型和行业版都给推出来，好让智能体更快地在复杂的企业场景里真正落地生根。