“词元”到底是个啥?

这次大会上国家数据局的局长刘烈宏,给了大家一个新答案。他说,要把Token翻译成“词元”,这就是智能时代的一个重要单位。说白了,这不仅是用来衡量大模型叫多少的标准,也是厂商卖服务时算钱的依据。 现在中国的数据产业发展得有多快?拿数字来说话,截至2025年底,咱们国家已经建成了10万个高质量的数据集。到了今年3月,每天大家调用Token(词元)的总量已经超过了140万亿。你看这个数就知道厉害了,跟2024年初的1000亿相比,涨了1000多倍;跟2025年底的100万亿比,这三个月又多出了40%。 刘烈宏还说,调用量这么猛的增长,说明咱们国家的AI发展正走在快车道上。从只能跟人聊天,到现在能帮忙做决策、干实事的智能体都有了,说明技术真的在进步。这也意味着好的数据越来越多,数据的价值正在被释放出来,整个产业都变得更有活力了。 未来该怎么办?刘烈宏透露了下一步的打算。国家数据局打算把用户的需求放在第一位,先搞一些试点项目,赶紧造出一批好用又高质量的数据集。这样一来,咱们就能把数据的供给量搞上去,让技术和商业的需求真正对接上。 说到底,“词元”到底是个啥?简单讲就是模型运算的基本单位。这东西虽然不起眼,但它可是链接技术和商业的纽带,为大家算账提供了量化的依据。相信随着技术的进步和政策的支持,未来还会有更多惊喜等着咱们。