【摘要】深入理解RNN结构近年来,自然语言处理成为了人工智能界的一个热门话题, LSTM, Attention, Transformer 等模型结构大火,更基于这些理论衍生出了各种强大的预训练模型,如BERT,GPT3等.这些算法的共有的核心思想之一便是RNN (Recurrent Neural Network),本文将尽可能详细的介绍RNN的逻辑和实现原理(会包含核心公式,不会介绍具体训练过程的…

深入理解RNN结构

近年来,自然语言处理成为了人工智能界的一个热门话题, LSTM, Attention, Transformer 等模型结构大火,更基于这些理论衍生出了各种强大的预训练模型,如BERT,GPT3等.

这些算法的共有的核心思想之一便是RNN (Recurrent Neural Network),本文将尽可能详细的介绍RNN的逻辑和实现原理(会包含核心公式,不会介绍具体训练过程的公式推导)

传统神经网络的局限性

在神经网络算法中,大部分算法(MLP,CNN,…)都是输入(x)与输出(y)独立对应的,也就是说

$x_1 \rightarrow y_1 , x_2 \rightarrow y_2 , … , x_n \rightarrow y_n$

但是在某些场景中,独立的输入就变得不够了,例如我们想对一句不完整的话填词

制作回锅肉所用的肉是__

显而易见,这里的回答应该是”猪肉”. 但是利用神经网络的情况下,我们即使对上述句子做了分词操作,仅仅基于某一个字或者词,显然是没办法预测结果的. 这时候我们就需要处理具有互相依赖性质的时序数据, 这种场景下,便需要基于其他方式来实现了.

The Sliding Predictor

Sliding Predictor & CNN

为了解决上述问题,最简洁易懂的方法之一便是滑动预测模型(Sliding Predictor),通过观测前几个时间节点的输入和当前时间节点的输入,做为模型的整体输入. 以下为了更清楚的展示模型结构,我们以一个更经典的Use Case来做为例子: 预测股票价格

Sliding Predictor 样例

如上图Sliding Predictor会以 $t,t+1,t+2,t+3$ 时刻的的股票向量(stock vector)做为整体的输入来预测 $t+3$ 时刻的股票价格

Sliding Predictor 样例

以此类推,Sliding Predictor会以一样的逻辑去预测 $t+4$ 时刻的股票价格

不难看出,以上的计算方法很类似与计算机视觉算法CNN中的卷积过程(Convolution Step),所以 Sliding Predictor 实际上就是应用在序列数据上的CNN. 这样的算法也被称为 Time-Delay neural network

Finite-response Model

这样的模型属于Finite-response Model,更形象的来说就是,今天发生的事情只会影响未来 $N$ 天以内的结果, $N$ 就是整个系统的宽度

$Y_t=f(X_t,X_{t-1},…,X_{t-N})$

Problems

上面的模型看起来非常合理,但是当我们的影响辐射宽度变大了怎么办?如果今天发生的事情会影响未来10,000天内的结果呢?这时候模型会变得更加复杂

“不用担心,我们的CPU够用” –> Do we?

Long Term Dependency

很多场景下,我们需要预测的结果会基于长期依赖(long term dependency),比如在股票预测中,我们可能会考虑:

一周内的股市趋势
一个月内的股市趋势
整年的股市趋势
…

NARX Network

如果今天发生的事情会影响未来所有的结果?我们需要无限的记忆:

Infinite-response Model

那么,

$Y_t=f(x_t,x_{t-1},…,x_{t-\infty})$

或者我们可以这样理解,

$Y_t=f(X_t,Y_{t-1})$

这样的假设需要对初始状态进行定义,也就是 $t=0$ 所对应的 $Y_{-1}$ ,
这时候 $t=0$ 所对应的输入 $X_0$ 会综合 $Y_{-1}$ 得到 $Y_0$ ,
接下来通过 $Y_0$ $Y_{0}$ 得到 $Y_1$ $Y_{1}$ , $Y_2$ $Y_{2}$ ,…, $Y_\infty$ $Y_{\infty}$ , 甚至在 $X_1,…,X_{\infty}$ $X_{1}, . . ., X_{\infty}$ 为0的情况下
- i.e.对应时刻的没有 $X$ 的输入