Token (词元) - weelinking文档

什么是 Token？
为什么重要？
示例

Token 是大语言模型处理文本的最小单位。模型并不直接“读”懂单词或汉字，而是将文本切分成一个个 Token，然后将其转换为数字向量进行计算。

什么是 Token？

Token 可以是一个单词、一个汉字、一个词根，甚至是一个字符。

英文： 一个单词通常是一个 Token，但也可能被拆分（例如 “ing”）。平均 1000 个单词 ≈ 750 个 Token。
中文： 一个汉字通常对应 1~2 个 Token，具体取决于模型使用的分词器（Tokenizer）。

为什么重要？

计费单位： 几乎所有的商业 API 都是按 Token 数量计费的（输入 Token + 输出 Token）。
上下文限制： 每个模型都有最大 Token 限制（Context Window），超过这个长度的内容会被截断或遗忘。

示例

句子：“我爱人工智能”

分词结果（假设）： [“我”, “爱”, “人工”, “智能”]
Token 数量： 4 个 Token

句子：“I love AI”

分词结果： [“I”, ” love”, ” AI”]
Token 数量： 3 个 Token

大语言模型 (LLM)提示词 (Prompt)

⌘I