咱们先来聊聊这波AI的事儿,最近AI智能体特火,特别是以OpenClaw为代表的那些能自己动手干活的家伙,彻底把行业从以前光聊天对话的状态拉到了真能干活的新境界。但大家伙儿也都在琢磨,这到底能不能长久?怎么搞才能既省钱又不被安全合规的红线绊倒。到了3月26日的中关村论坛上,蚂蚁数科大模型技术创新部的老总章鹏就开了个腔,他说,OpenClaw这就爆了,马上要把大模型的玩法彻底改变了。过去大家都在拼谁的参数大,现在得比比谁的单位Token干的事儿多,这才是衡量价值的关键。你要是去看那些跑在OpenClaw上面的智能体,它们在真实的产业环境里确实想给咱干活,可就是因为不懂行规和流程,干活的时候老得反反复复调用工具,结果算下来耗费的Token比实际干出来的活多得不是一点半点。像一些高频调用的场景里,这种高投入低产出的状况很严重,可能花的钱是那些集成式Agent的几十甚至上百倍呢,这么烧钱的办法根本没法大面积铺开用。所以章鹏就觉得,接下来竞争的重点不是看谁的模型参数大得吓人,而是看单位Token到底能折腾出多少价值。咱们的企业得看清实际场景再下手,选那种大模型加小模型一起上的组合拳,既能把算力成本压下去,又能把业务价值提上来。拿金融这块来说吧,每天都有海量的活儿等着干——快速判断来意、抠关键信息、检索排序这些活儿……都讲究个快准狠的高并发高响应。以前那种做复杂推理的大块头虽然厉害,可在这就显得有点笨重了,跟杀鸡用牛刀似的,成本高响应慢还浪费资源。咱们产业真正需要的是那种既专业又合规的解决方案,既要性价比高还要反应快。技术发展到最后肯定得回归理性嘛,大家伙儿都开始往这上面凑了。比如OpenAI最近也没闲着,出了两款小模型叫GPT-5.4mini和nano,主打就是低延迟和高性价比。 这次在论坛上,蚂蚁数科也是顺势推出了个轻量级的金融专用模型Ling-DT-Fin-Mini-2.5。这是Ling DT系列大模型的第一个成员。我给大伙儿介绍下这个新家伙:Ling DT Fin Mini 2.5是个轻量级的MoE模型,它用了Ling2.5最新的混合线性注意力架构,专门为金融场景里那种高并发低时延的活儿量身定做。它在保证专业性和严谨度的同时,硬是把推理成本压到了一个能让金融机构大规模部署的水平线上。比起现在市面上那些能力差不多的通用大模型来说,它的推理速度直接快了100%,处理同样多的活儿硬件成本也下来了一大截。所以这就是实实在在的降本增效嘛。当AI智能体开始往产业核心场景里钻、真的开始动手干活之后,“大小结合”已经成了明摆着的趋势了。像OpenAI刚才说的那些小模型就是作为执行层子智能体的主力干将存在的。章鹏也认为技术发展最终还是得听产业的指挥棒指挥。在下一阶段的竞争里看Token效能肯定是个硬指标。蚂蚁数科肯定也会继续在企业级AGI这块深耕细作的。他们打算接着把百灵企业版的Ling DT大模型和行业版都给推出来,好让智能体更快地在复杂的企业场景里真正落地生根。