核心概念
计算机无法直接理解文字的含义,但可以计算数字之间的距离。Embedding 将语义相似的文本映射到向量空间中距离较近的点。- 输入: “猫”
- Embedding 输出:
[0.12, -0.56, 0.88, ...](假设是 1536 维的向量)
语义相似度
如果两个文本在语义上相似,它们的 Embedding 向量之间的距离(通常用余弦相似度计算)就会很近。- “猫” 和 “小猫” 的向量距离:极近
- “猫” 和 “狗” 的向量距离:较近(都是宠物)
- “猫” 和 “冰箱” 的向量距离:很远
应用
- 语义搜索: 不仅仅匹配关键词,而是匹配含义。
- 推荐系统: 推荐相似的内容。
- RAG (检索增强生成): 知识库检索的核心技术。