weelinking文档 home page
Search...
⌘K
首页
AI出图
控制台
控制台
Search...
Navigation
基本概念
注意力机制 (Attention Mechanism)
首页
使用场景
资源导航
常见问题
大模型百科
基本概念
大语言模型 (LLM)
Token (词元)
提示词 (Prompt)
上下文窗口 (Context Window)
温度 (Temperature)
Top-p (核采样)
嵌入 (Embedding)
向量数据库 (Vector Database)
注意力机制 (Attention Mechanism)
困惑度 (Perplexity)
主流模型
GPT系列
Claude系列
Gemini系列
Grok模型
LLaMAzing系列
DeepSeek模型
通义千问
GLM智谱系列
文心一言
特殊架构
混合专家模型(MoE)
视觉Transformer(ViT)
多模态模型
扩散模型(Diffusion Model)
应用实践
RAG(检索增强生成)
AI Agent
多轮对话
角色扮演
代码生成
内容审核
实时翻译
知识问答
API调用基础
流式输出
函数调用
批处理
错误处理
成本优化
最佳实践
提示词优化
长文本处理
多模态交互
安全防护
性能调优
监控与日志
开发框架
LangChain
Hugging Face
百科专题
LLM API 基础概念
LLM错误处理
LLM 流式输出
On this page
通俗解释
自注意力 (Self-Attention)
意义
基本概念
注意力机制 (Attention Mechanism)
Transformer 架构的核心灵魂
注意力机制是现代大语言模型(特别是 Transformer 架构)的核心创新,它解决了长序列信息处理的难题。
通俗解释
在阅读一段长文本时,人类不会对每个字都分配同样的注意力。我们会关注关键词,忽略无关紧要的词。
注意力机制让模型在生成下一个词时,能够“回头看”输入序列中的所有词,并动态地计算每个词对当前生成任务的重要性(权重)。
自注意力 (Self-Attention)
这是 Transformer 中的关键组件。它允许序列中的每个位置都关注序列中的其他所有位置,从而捕捉长距离的依赖关系。
例如在句子 “The animal didn’t cross the street because it was too tired” 中,模型通过注意力机制能算出 “it” 指代的是 “animal” 而不是 “street”。
意义
正是因为有了注意力机制,模型才能拥有强大的上下文理解能力,不再受限于传统的循环神经网络(RNN)的短时记忆瓶颈。
向量数据库 (Vector Database)
困惑度 (Perplexity)
⌘I