“token”叫“词元”?这是真的吗?

话说你有没有觉得,“Token”非要取个中文名有点多余?大家平时直接喊“托肯”(/ˈtoʊkən/)不就得了?之前的好多概念比如“互联网”、“软件”,一开始不也都在民间直接用英文,后来官方才补个中文名吗?“APP”、“WiFi”、“CPU”这些名字大家都记着了,直接喊反而更顺口。不过这次国家数据局局长刘烈宏在中国发展高层论坛2026年年会上,还是正式把它定名为“词元”了。 其实看看这名字的走势,咱们能猜出个大概:在文件里他们叫词元,而在聊天的时候咱们还是会用Token。就像以前大家习惯用英文一样,这次也估计是两条路并行。 不过真正让人震惊的是,数据局局长刘烈宏公布的那些消耗数据实在太吓人了:2024年初中国日均调用量才1000亿Token,到了2025年底已经飙到100万亿了。到了今年3月直接突破140万亿。你看这两年时间增长超过了一千倍!这速度快得像飞一样。 为啥会涨这么快?因为AI行业里的Token切分逻辑跟我们平常理解的语法完全不一样。它是根据一种叫BPE(字节对编码)的算法来统计字符组合出现的频率的。只要某个组合在训练语料里出现得多了,就会合并成一个Token。比如说“running”这个词,模型不是按run ing来切的,而是切分成run和ning两个部分。所以这“词元”两字听起来确实有点容易让人误会它跟真正的单词是一个意思。 可你仔细想想就知道,在AI的语境下,“Token”并不一定是个完整的词或者词素。有时候它就是半个词、一个标点甚至是个空格。它是模型按照自己的算法切出来的碎片。所以我觉得直接叫“Token”或者“托肯”反而更准确。 而且黄仁勋之前说过一段话特别经典:“计算机正在变成可以创收的工厂”,这些工厂生产出来的商品就是人们愿意消费的Token。这比喻简直就是直戳本质!我现在就有点好奇了,这些工厂到底能生产出多少真正有价值的Token呢? 声明:这篇文章是根据网络资料整理的哦。