轻松理解 Attention 原理-一一网

这是我参与更文挑战的第16天，活动详情查看：更文挑战

Seq2Seq 的不足

Seq2Seq 虽然有不少改进效果的技巧，但是其本身还有一个很大的缺陷，当输入的序列太长的时候，最后输出的状态向量 h 很难记住最开始的内容，或者某些关键的内容。

如果用 Seq2Seq 做机器翻译，当输入句子的单词在 20 个附近时的效果最佳，当输入句子的单词超过 20 个的时候，效果会持续下降，这是因为 Encoder 会遗忘某些信息。而在 Seq2Seq 的基础上加入了 Attention 机制之后，在输入单词超过 20 个的时候，效果也不会下降。

引入 Attention 的 Seq2Seq

引入了 Attention 的 Seq2Seq 模型，可以大幅度提升 Seq2Seq 的性能，因为 Decoder 在每次解码的时候又回顾了 Encoder 对输入总结的所有特征，同时 Attention 还会告诉 Decoder 应该更加关注 Encoder 的哪些输入及其特征，这也是 Attention 名字的来源。这种机制对输入的关注方式和人类似，我们在读一句话的时候，也会直接抓住重点字词，而不是每个字符或者词都是重点。

Attention 尽管可以大幅度提升性能，唯一的缺点就是要进行大量的计算。

Attention 原理

如图所示，左边的是 Encoder 过程，，右边的是 Decoder过程，两部分都可以用 RNN 及其变体组成的结构，这里借用 SimpleRNN 来介绍 Attention 原理。在 Encoder 照常捕获了输入的特征之后，输出了每个时刻的状态向量 h_i ，并将最后一个时刻的 h_m 当作 Decoder 的初始状态向量 s₀ ，此时的 Deocder 过程如下：

a）先计算第一次解码，首先我们计算 Decoder 中的 s₀ 与 Encoder 中的每个状态向量 h_i 计算权重（权重计算方法在下面会介绍），每个状态向量 h_i 对应一个权重 a_i ，a_i 表示 h_i 与 s₀ 的相关性大小，然后对所有的 [a₁,a₂,…,a_m] 做 Softmax 转化，变为权重 [a₁,a₂,…,a_m] ，然后我们使用新的权重 [a₁,a₂,…,a_m] 和对应的状态向量 [h₁,h₂,…,h_m] 求加权平均得到 c₀ 。然后我们利用 x^‘₁ 、c₀ 以及 s₀ 计算得到 s₁ ，公式如下：

s₁ = tanh( A^‘ * contact(x^‘₁ ,c₀, s₀) + b)

【关键解释】因为 c₀ 是 Encoder 中所有时刻的状态向量加权和，所以它知道完整的 Encoder 输入信息，这就解决了 Seq2Seq 的遗忘问题。再加上当前的输入信息 x^‘₁ 以及上一个时刻的状态信息 s₀ ，所以可以预测当前时刻的状态向量输出 s₁ 。

b）第二次解码，和上面类似，我们计算 Decoder 中的 s₁ 与所有的 Encoder 中状态向量 h_i 的权重，每个状态向量 h_i 对应一个权重 a_i ，a_i 表示 h_i 与 s₁ 的相关性，然后对所有的 [a₁,a₂,…,a_m] 做 Softmax 转化，变为权重 [a₁,a₂,…,a_m] ，然后我们使用新的 a_i 和对应的 h_i 求加权平均得到 c₁ 。然后我们利用 x^‘₂ 、c₁ 以及 s₁ 得到 s₂ ，公式如下：

s₂ = tanh( A^‘ * contact(x^‘₂, c₁, s₁) + b)

【关键解释】因为 c₁ 是 Encoder 中所有时刻的状态向量加权和，所以它知道完整的 Encoder 输入信息，这就解决了 Seq2Seq 的遗忘问题。再加上当前的输入信息 x^‘₂ 以及上一个时刻的状态信息 s₁ ，所以可以预测当前时刻的状态向量输出 s₂ 。

c）类似重复上面的解码过程，直到结束。

权重计算的两种方法

一般情况下有两种计算 Decoder 中的 s_i 与所有的 Encoder 中状态向量 h_i 的权重大小。

第一种是原论文中的方法，如下图所示。图中以 s₀ 与所有的 Encoder 中状态向量 h_i 计算权重为例。将 h_i 和 s₀ 进行拼接，然后与参数矩阵 W 相乘后，经过了非线性函数 tanh 的转化，最后将得到的结果与参数矩阵 v^T 相乘可以得到 a_i ，因为有 m 个输入，所以 Encoder 有 m 个状态向量，因此需要计算出 m 个 a ，最后将 [a₁,a₂,…,a_m] 经过 Softmax 变化得到新权重参数的 [a₁,a₂,…,a_m] 。这里的 W 和 v^T 都是需要训练的参数。

第二种是 Transformer 模型采用的方法，如下图。这里仍然以 s₀ 与所有的 Encoder 中状态向量 h_i 计算权重为例，将 W_K 与 h_i 相乘得到 k_i ，用 W_Q 与 s₀ 相乘得到 q₀ ，然后把 k^T_i 与 q₀ 的内积当作相似度 a_i 。因为有 m 个输入，所以 Encoder 有 m 个状态向量，因此需要计算出 m 个 a ，最后将 [a₁,a₂,…,a_m] 经过 Softmax 变化得到新的权重参数 [a₁,a₂,…,a_m] 。这里的 W_K 和 W_Q 都是需要训练的参数。

时间复杂度

假如输入长度为 m ，目标长度为 t 。

我们在引入 Attention 机制之后，在 Encoder 得到 m 个状态向量只哦呼，在接下来的 Decoder 过程中，每次解码都计算了 m 个 a ， Decoder 过程执行了 t 次，则最后一共计算了 m*t 个 a ，所以时间复杂度为 O(m+m*t) 。所以在 Seq2Seq 中引入 Attention 虽然可以大幅度提升性能，避免遗忘问题，但是代价就是需要巨大的计算量。

而没有引入 Attention 机制的 Seq2Seq 的，因为 Encoder 只计算了 m 个状态向量，Decoder 解码了 t 次，所以时间复杂度仅为 O(m+t) 。

权重可视化

这里用英语翻译成法语为例，从可视化的角度直观解释权重参数表达的含义，图中紫色的线的粗细就表示了权重大小的程度。当在 Decoder 过程中翻译到单词 zone 的时候，它会与 Encoder 中的每个输入计算权重参数，我们可以看到 zone 虽然与所有的输入单词都有权重，但是与单词 Area 的权重值明显最大，表示翻译 zone 的的时候需要特别关注 Area 这个词，换句话说 Area 这个词对翻译 zone 的影响程度是最大的，而实际上法语中的 zone 和英语中 Area 的含义是相近的。这也是 Attention 名字的由来。又比如在翻译法语 Européenne 的时候，需要特别关注英语中 European ，道理同上。