什么是 Token?
Token 可以是一个单词、一个汉字、一个词根,甚至是一个字符。- 英文: 一个单词通常是一个 Token,但也可能被拆分(例如 “ing”)。平均 1000 个单词 ≈ 750 个 Token。
- 中文: 一个汉字通常对应 1~2 个 Token,具体取决于模型使用的分词器(Tokenizer)。
为什么重要?
- 计费单位: 几乎所有的商业 API 都是按 Token 数量计费的(输入 Token + 输出 Token)。
- 上下文限制: 每个模型都有最大 Token 限制(Context Window),超过这个长度的内容会被截断或遗忘。
示例
句子:“我爱人工智能”- 分词结果(假设): [“我”, “爱”, “人工”, “智能”]
- Token 数量: 4 个 Token
- 分词结果: [“I”, ” love”, ” AI”]
- Token 数量: 3 个 Token