自注意力机制 | 剪影人生

自注意力机制与多头注意力机制

admin - 2024年3月23日

一、自注意力机制（Self-Attention）核心思想自注意力机制通过计算同一序列内元素之间的相关性权重，动态捕捉全局依赖关系。与传统注意力机制（关注外部序列）不同，它聚焦于输入内部的关联性。计算流程输入：序列 X=X=（每个xixi为词向量）输出：加权后的上下文向量 Z=Z= 步骤分解：线性变换：生成Q（Query）、K（Key）、V（Value）矩阵 Q=XWQ,K=XWK,V=XWVQ=XWQ,K=XWK,V=XWV （WQ,WK,WVWQ,WK,WV为可学习参数矩阵）注意力得分计算 Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V)=softmax(dkQKT)V 缩放因子 dkdk：防止点积值过大导致softmax梯度消失得分矩阵：QKTQKT的每个元素表示词与词之间的关联强度加权聚合通过softmax归一化权重后，对Value矩阵加权求和，得到每个位置的上下文向量。示例解释以句子 "The animal didn't cross the street because...

APLICATIONS

AI大模型

大模型应用技术架构

DeepSeek应用核心优势

DeepSeek本地部署

大模型应用技术架构

自注意力机制与多头注意力机制

资本狂追的AI大模型，工作原理解析

当前Ai大模型的应用现状

自注意力机制与多头注意力机制

资本狂追的AI大模型，工作原理解析

硬核老头与海的浪漫：读《老人与海》的深夜暴击

硬核老头与海的浪漫：读《老人与海》的深夜暴击

硬核老头与海的浪漫：读《老人与海》的深夜暴击

硬核老头与海的浪漫：读《老人与海》的深夜暴击

标签: 自注意力机制

自注意力机制与多头注意力机制

APLICATIONS

资本狂追的AI大模型，工作原理解析

自注意力机制与多头注意力机制

DeepSeek本地部署

当前Ai大模型的应用现状

HOT NEWS

硬核老头与海的浪漫：读《老人与海》的深夜暴击

大模型应用技术架构

资本狂追的AI大模型，工作原理解析

大模型的概念与发展催势

编辑挑选

大模型应用技术架构

硬核老头与海的浪漫：读《老人与海》的深夜暴击

最受欢迎的帖子

硬核老头与海的浪漫：读《老人与海》的深夜暴击

大模型的概念与发展催势

最受欢迎的分类