Self-Attention机制的计算详解

这篇具有很好参考价值的文章主要介绍了Self-Attention机制的计算详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1. Attention的思想

Attention注意力的核心目标就是从众多信息中选择出对当前任务目标更关键的信息，将注意力放在上面。

本质思想就是【从大量信息中】【有选择的筛选出】【少量重要信息】并【聚焦到这些重要信息上】，【忽略大多不重要的信息】。聚焦的过程体现在【权重系数】的计算上，权重越大越聚焦于其对应的value值上。即权重代表了信息的重要性，而value是其对应的信息。

个人理解，就是对参数进行“加权求和”。

2. Self-Attention计算公式

Self-Attention机制的计算详解

其中， $X$ 表示输入的数据， $Q, K, V$ 对应内容如图，其值都是通过 $X$ 和超参（先初始化，后通过训练优化）进行矩阵运算得来的。

可以理解为：Self-Attention中的Q是对自身（self）输入的变换，而在传统的Attention中，Q来自于外部。

3. Self-Attention的计算实例

结合代码进行理解：

Step1：初始化 $W^Q , W^K,W^V$ 矩阵

class BertSelfAttention(nn.Module):
    self.w_q = nn.Linear(config.hidden_size, self.all_head_size) # 输入768， 输出768
    self.w_k = nn.Linear(config.hidden_size, self.all_head_size) # 输入768， 输出768
    self.w_v = nn.Linear(config.hidden_size, self.all_head_size) # 输入768， 输出768

假设三种操作的输入都是同等维度的矩阵，这里每个特征维度都是768.即三者的维度：
$W^Q.shape = [768, 768] \\ W^K.shape = [768, 768] \\ W^V.shape = [768, 768]$

Step2: 定义输入

输入的特征维度也为768，即：每个字用768维来进行表示，如图所示：
Self-Attention机制的计算详解

即输入的X的维度为： [6, 768].

Step3: 计算 $Q, K, V$

由于维度的问题，需要调换以下顺序，以及可能会涉及到转置：
$Q = X·W^Q \\ K = X·W^K \\ V = X·W^V$
根据以上公式，得到 $Q, K, V$ 的维度：
$Q . s h a p e = [6, 768] * [768, 768] = [6, 768]$
$K, V$ 同理。其维度图如下：
Self-Attention机制的计算详解

Step4: 根据公式计算注意力Attention
$K^T \over \sqrt{d_k}}) V$
First: 是 $Q ， K$ 矩阵相乘，维度变化： $[6, 768] * [768, 6] = [6, 6]$ ，如图：
Self-Attention机制的计算详解
（1）首先用Q的第一行，即“我”字的768特征和K中“我”字的768为特征点乘求和，得到输出（0，0）位置的数值，这个数值就代表了“我想吃酸菜鱼”中“我”字对“我”字的注意力权重；
（2）然后显而易见输出的第一行就是“我”字对“我想吃酸菜鱼”里面每个字的注意力权重；整个结果自然就是“我想吃酸菜鱼”里面每个字对其它字（包括自己）的注意力权重（就是一个数值）了.
Second: 除以 $\sqrt{d_k} ,d_k$ 表示特征维度，在本例中 $d_k = 768$ 。之所以要除以这个数，是为了矩阵点乘后的范围，确保softmax的梯度稳定性。
Three: 最后就是注意力权重和 $V$ 矩阵相乘，如图所示：
Self-Attention机制的计算详解
（1）首先是“我”这个字对“我想吃酸菜鱼”这句话里面每个字的注意力权重，和V中“我想吃酸菜鱼”里面每个字的第一维特征进行相乘再求和，这个过程其实就相当于用每个字的权重对每个字的特征进行加权求和，