跳到主要内容

LLaMA 系列

LLaMA(Large Language Model Meta AI)是 Meta(原 Facebook)开发的开源大语言模型系列,是目前最强大的开源 LLM 家族。

发展历程

版本发布时间参数规格主要特点
LLaMA 12023年2月7B-65B首个版本,研究用途
LLaMA 22023年7月7B-70B商用开源,Chat 版本
Code Llama2023年8月7B-34B专注代码生成
LLaMA 32024年4月8B-70B大幅性能提升
LLaMA 3.12024年7月8B-405B128K 上下文,超大规模
LLaMA 3.22024年9月1B-90B多模态能力
LLaMA 3.32024年12月70B媲美 405B 的能力
LLaMA 42025年4月Scout/Maverick新一代架构

核心特点

1. 完全开源

LLaMA 是真正意义上的开源模型:

  • 开放模型权重
  • 允许商业使用(需遵守许可证)
  • 可以自由微调和部署
  • 推动了开源 AI 生态发展

2. 高效架构

LLaMA 在相同参数量下表现更优:

  • 优化的 Transformer 架构
  • 更高效的训练方法
  • 更好的推理效率

3. 多规格选择

提供多种参数规格满足不同需求:

  • 小型(1B-8B): 边缘设备、移动端
  • 中型(70B): 服务器部署、通用任务
  • 大型(405B): 最强能力、研究用途

当前主力模型

LLaMA 3.3 70B

  • 模型 ID: llama-3.3-70b
  • 上下文窗口: 128K tokens
  • 特点: 开源最强,媲美闭源模型
  • 适用场景: 企业部署、复杂任务

LLaMA 3.1 405B

  • 模型 ID: llama-3.1-405b
  • 上下文窗口: 128K tokens
  • 特点: 参数量最大,能力最强
  • 适用场景: 科研、高端应用

LLaMA 3.2 90B Vision

  • 模型 ID: llama-3.2-90b-vision
  • 上下文窗口: 128K tokens
  • 特点: 多模态能力,图像理解
  • 适用场景: 图文分析、多模态任务

LLaMA 3.1 8B

  • 模型 ID: llama-3.1-8b
  • 上下文窗口: 128K tokens
  • 特点: 轻量高效,易于部署
  • 适用场景: 本地部署、边缘计算

API 调用示例

from openai import OpenAI

client = OpenAI(
api_key="your-api-key",
base_url="https://api.weelinking.com/v1"
)

response = client.chat.completions.create(
model="llama-3.3-70b",
messages=[
{"role": "system", "content": "你是一个专业的技术助手。"},
{"role": "user", "content": "解释容器化技术的优势"}
],
temperature=0.7
)

print(response.choices[0].message.content)

LLaMA 的生态系统

1. 衍生模型

基于 LLaMA 微调的优秀模型:

  • Vicuna: 对话优化版本
  • Alpaca: 指令微调版本
  • WizardLM: 复杂指令增强
  • Chinese-LLaMA: 中文增强版

2. 部署工具

  • Ollama: 本地一键部署
  • vLLM: 高性能推理引擎
  • llama.cpp: CPU 推理优化
  • Text Generation Inference: HuggingFace 推理服务

3. 微调框架

  • PEFT: 参数高效微调
  • LoRA: 低秩适应
  • QLoRA: 量化 LoRA

与其他模型对比

特性LLaMA 3.3 70BGPT-4oClaude 3.5
开源
本地部署
上下文窗口128K128K200K
综合能力极强极强极强
成本控制灵活API 计费API 计费

最佳实践

  1. 选择合适规格: 根据硬件和需求选择参数量
  2. 考虑量化: 使用 4-bit/8-bit 量化降低显存需求
  3. 微调定制: 针对特定任务微调获得更好效果
  4. 多模态场景: 使用 3.2 Vision 版本处理图像