星期一, 21 4 月, 2025
首页 标签 自注意力机制

标签: 自注意力机制

Self-Attention

自注意力机制与多头注意力机制

一、自注意力机制(Self-Attention) 核心思想 自注意力机制通过计算同一序列内元素之间的相关性权重,动态捕捉全局依赖关系。与传统注意力机制(关注外部序列)不同,它聚焦于输入内部的关联性。 计算流程 输入:序列 X=X=(每个xixi为词向量) 输出:加权后的上下文向量 Z=Z= 步骤分解: 线性变换:生成Q(Query)、K(Key)、V(Value)矩阵 Q=XWQ,K=XWK,V=XWVQ=XWQ,K=XWK,V=XWV (WQ,WK,WVWQ,WK,WV为可学习参数矩阵) 注意力得分计算 Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V)=softmax(dkQKT)V 缩放因子 dkdk:防止点积值过大导致softmax梯度消失 得分矩阵:QKTQKT的每个元素表示词与词之间的关联强度 加权聚合 通过softmax归一化权重后,对Value矩阵加权求和,得到每个位置的上下文向量。 示例解释 以句子 "The animal didn't cross the street because...

APLICATIONS

HOT NEWS