你知道吗,AI处理文字的时候,其实用的是一个个的词元。把整句话拆成最小的小砖块,AI才能看懂、计算和生成内容。这就是词元,也就是Token的官方中文名字。 这个名字是全国科学技术名词审定委员会定的,国家数据局也官宣了。以前大家叫法乱七八糟,什么标记、令牌、分词单元,现在统一叫词元了,这下大家就不会搞错了。 简单来说,词元就是AI处理信息的最小单位。无论是文字、图片还是语音,AI都要先把它们切成一个个小片段,这就是词元。它可能是一个字、一个词、半个词或者一个标点符号。 词元的作用很重要,它把人类的语言翻译成AI能运算的数字代码。比如汉字是我们写出来的最小单位,词语是表达意思的单位,而词元则是专门给AI用的信息处理单位。 那么为什么叫“词元”呢?“词”和语言相关,“元”代表最小最基础。就像字节是数据最小单位、像素是图片最小单位一样。别把它和别的领域搞混了,比如登录账号用的是令牌,区块链用的是代币。 现在我们看看怎么得到词元吧。把一句话变成AI能用的词元要分四步:整理文字、切成片段、编码配对、调整长度。记住这个比例就好:中文一个词元大约等于1.5到2个汉字,英文一个词元大约等于4个字母。 这次“词元”在AI大模型和聊天机器人里正式亮相了,官方给它一个中文名字叫“词元”。这个名字是全国科学技术名词审定委员会还有国家数据局定的。以前大家都在叫标记、令牌或者分词块什么的,这下就统一规范了。 比如说汉字是我们平时写字用的最小单位,词语是我们表达意思的单位。而“词元”是专门给AI处理信息用的最小单位。它可以是一个字、一个词、半个词甚至是一个标点符号。 这次词元就这么来的:把一句话变成AI能用的词元要分四步:整理文字统一大小写去掉空格标点什么的;然后像切水果一样切成一个个小片段;接着给每个片段配上专属数字编号;最后按要求调整长度。记住这就够了:中文一个词元约等于1.5到2个汉字。 这个“词元”有啥用呢?它会影响我们用AI的体验。首先它决定了AI能记住多少内容:比如128K个词元就能读完整本小说了。然后它还影响收费标准:市面上的AI服务通常都是按词元数量收费的。 再比如说处理图片和语音的时候,现在AI也会把它们切成视觉词元和音频词元来处理。现在你知道了吧?一个汉字不一定等于一个词元,常用词组可能合并成一个大的词元。所以千万不要觉得一个汉字就等于一个小砖块了。 不过还是要注意别搞混了:分词只是切割动作而已,“词元”才是切割好的结果。这次咱们统一规范用法吧:在正式文章汇报资料里都用“词元”。正确说法是上下文长度多少多少词元、消耗多少多少词元数量、按多少多少计费什么的。千万别在AI场景里说什么“令牌”、“代币”,这样容易让人误解哦!