带你轻松理解 Self-Attention 原理-一一网

带你轻松理解 Self-Attention 原理

4年前更新

3170

这是我参与更文挑战的第21天，活动详情查看：更文挑战

引言

之前我们上文介绍了用 Attention 来提升 Seq2Seq 的性能，将 Attention 共同作用于 Seq2Seq 的 Encoder 和 Decoder 两个部分。本文我们介绍 Self-Attention ，可以将 Attention 单独用到其中的一部分里面。

愿论文中 Self-Attention 作用于 LSTM ，这里我简化过程，用 SimpleRNN 代替 LSTM 介绍该思想。

SimpleRNN + Self-Attention 核心原理

【SimpleRNN 求 h_i 的方法】

我们之前在 SimpleRNN 中求 h_i 的时候，是按照下面的这个公式的思路进行的：

h_i = tanh(A * concat(x_i, h_i-1)+b)

说明当前时刻的隐层状态依赖于当前的输入 x_i 和上一时刻的隐层状态输入 h_i-1 。

【SimpleRNN + Self-Attention 求 h_i 的方法】

当引入 Self-Attention 之后，SimpleRNN 求 h_i 的方式发生了变化，是按照下面的这个公式的思路进行的：

h_i = tanh(A * concat(x_i, c_i-1)+b)

图中例子说明 t₃ 时刻的隐层状态 h₃ 依赖于当前的输入 x₃ 和上一时刻的上下文向量 c₂ 。

其中 c_i 就是将第 i 时刻的隐层输出 h_i 与已有的 h₁、… 、 h_i 进行权重计算，得到权重列表 a₁、… 、 a_i ，最后将这些隐层输出与各自对应的权重参数进行加权平均求和得到 c_i 。至于具体的权重计算方法和 Attention 文章中提到的方法一样，这里不再赘述。

从图中的例子可以 c₃ 是 h₁、 h₂ 、 h₃ 及各自对应权重 a₁、 a₂ 、 a₃ 的加权平均和。

另外，可以考虑换更加复杂的计算思路，其他具体过程和上述一样：

h_i = tanh(A * concat(x_i, c_i-1, h_i-1,)+b)

总结

Self-Attention 和 Attention 一样，都能解决 RNN 类模型的遗忘问题，每次在计算当前隐层输出 h_i 的时候，都会用 c_i-1 来回顾一下之前的信息，这样就能记住之前的信息。但是 Self-Attention 中的 c_i 的计算在自身的 RNN 结构中即可计算，而不像 Seq2Seq 中的 Attention 那样横跨 Decoder 和 Encoder 两个 RNN 结构，即 Decoder 的 c_i 依赖于 Encoder 的所有隐层输出。
Self-Attention 可以作用于任何 RNN 类的模型来提升性能了，如 LSTM 等。
Self-Attention 还能帮助 RNN 关注相关的信息，如下图所示，红色单词是当前的输入，蓝色单词表示与当前输入单词较相关的单词。

参考

Cheng J , Dong L , Lapata M . Long Short-Term Memory-Networks for Machine Reading[C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016.

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

喜欢就支持一下吧

相关推荐