“词元”到底是个啥？

这次大会上国家数据局的局长刘烈宏，给了大家一个新答案。他说，要把Token翻译成“词元”，这就是智能时代的一个重要单位。说白了，这不仅是用来衡量大模型叫多少的标准，也是厂商卖服务时算钱的依据。现在中国的数据产业发展得有多快？拿数字来说话，截至2025年底，咱们国家已经建成了10万个高质量的数据集。到了今年3月，每天大家调用Token（词元）的总量已经超过了140万亿。你看这个数就知道厉害了，跟2024年初的1000亿相比，涨了1000多倍；跟2025年底的100万亿比，这三个月又多出了40%。刘烈宏还说，调用量这么猛的增长，说明咱们国家的AI发展正走在快车道上。从只能跟人聊天，到现在能帮忙做决策、干实事的智能体都有了，说明技术真的在进步。这也意味着好的数据越来越多，数据的价值正在被释放出来，整个产业都变得更有活力了。未来该怎么办？刘烈宏透露了下一步的打算。国家数据局打算把用户的需求放在第一位，先搞一些试点项目，赶紧造出一批好用又高质量的数据集。这样一来，咱们就能把数据的供给量搞上去，让技术和商业的需求真正对接上。说到底，“词元”到底是个啥？简单讲就是模型运算的基本单位。这东西虽然不起眼，但它可是链接技术和商业的纽带，为大家算账提供了量化的依据。相信随着技术的进步和政策的支持，未来还会有更多惊喜等着咱们。