文本向量化 (Embedding)
文本向量化 (Embedding) API 将文本转换为数字向量,捕捉文本的语义信息。这是构建语义搜索、推荐系统和 RAG (检索增强生成) 应用的基础。支持模型
- text-embedding-3-large:性能最强,支持降维。
- text-embedding-3-small:性能与成本的平衡选择。
- text-embedding-ada-002:经典模型,兼容性好。
价格
详见控制台定价页面。通常非常低廉,适合大规模数据处理。快速开始 (Python)
应用场景
- 语义搜索:基于含义而非关键词匹配搜索文档。
- RAG 系统:增强 LLM 的知识库,减少幻觉。
- 聚类与分类:对文本数据进行分组或打标签。
- 推荐系统:根据用户历史行为推荐相似内容。
最佳实践
- 降维:
text-embedding-3系列模型支持通过dimensions参数减少向量维度,以降低存储和检索成本,同时保持大部分性能。 - 批量处理:API 支持批量输入,可以一次性处理多条文本以提高效率。