大语言模型(Large Language Model,简称 LLM)是一种基于深度学习的人工智能模型,它使用海量的文本数据进行训练,能够理解、生成和预测人类语言。

核心特征

  1. 大规模参数: 拥有数十亿甚至数万亿个参数(Parameters),参数量决定了模型的“脑容量”和知识储备。
  2. 预训练 (Pre-training): 在通用语料库上进行无监督学习,掌握语言的语法、语义和世界知识。
  3. 微调 (Fine-tuning): 针对特定任务(如对话、指令遵循)进行有监督的微调,使其更符合人类的使用习惯。

常见用途

  • 文本生成: 撰写文章、邮件、代码、剧本。
  • 问答系统: 智能客服、知识库检索。
  • 翻译: 多语言互译。
  • 摘要: 提取长文档的关键信息。
  • 推理: 逻辑分析、数学解题。

代表模型

  • GPT 系列 (OpenAI): 目前最著名的 LLM 家族。
  • Claude 系列 (Anthropic): 以安全性和长上下文著称。
  • Gemini (Google): Google 的多模态旗舰模型。
  • Llama (Meta): 最强大的开源 LLM 系列。