时间序列—AR MA ARMA ARIMA ARIMAX-一一网

[toc]

前置知识

序列平稳性

平稳的序列自相关图和偏自相关图不是拖尾就是截尾。

截尾就是在某阶之后，系数都为 0 。
拖尾就是有一个衰减的趋势，但是不都为 0 。

从自相关图来看，呈现三角对称形式，不存在截尾或拖尾，属于单调序列的典型表现形式，原始数据属于不平稳序列。

注：

如果自相关是拖尾，偏相关截尾，则用 AR 算法

如果自相关截尾，偏相关拖尾，则用 MA 算法

如果自相关和偏相关都是拖尾，则用 ARMA 算法， ARIMA 是 ARMA 算法的扩展版，用法类似

ACF&PACF

AIC(akaike information criterion)

AIC=-2 ln(L) + 2 k

赤池信息量准则，即Akaike information criterion、简称AIC，是衡量统计模型拟合优良性的一种标准，是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在熵的概念基础上。AIC越小，模型越好，通常选择AIC最小的模型。

它的假设条件是模型的误差服从独立正态分布。

其中：k是所拟合模型中参数的数量，L是对数似然值,n是观测值数目。k小意味着模型简洁，L大意味着模型精确。因此在评价模型是兼顾了简洁性和精确性。具体到，L=-(n/2)ln(2pi)-(n/2)*ln(sse/n)-n/2.其中n为样本量，sse为残差平方和，L主要取决于残差平方和，为负数

BIC

BIC=-2 ln(L) + ln(n)*k

BIC的惩罚项比AIC的大，考虑了样本数量，样本数量过多时，可有效防止模型精度过高造成的模型复杂度过高。AIC和BIC的原理是不同的，AIC是从预测角度，选择一个好的模型用来预测，BIC是从拟合角度，选择一个对现有数据拟合最好的模型，从贝叶斯因子的解释来讲，就是边际似然最大的那个模型。

HQIC

HQIC= -2 ln(L) + ln(ln(n))*k

再取对数,减小参数个数对整体的惩罚项

AR

AR是autoregressive的缩写，表示自回归模型，含义是当前时间点的值等于过去若干个时间点的值的回归——因为不依赖于别的解释变量，只依赖于自己过去的历史值，故称为自回归；如果依赖过去最近的p个历史值，称阶数为p，记为AR(p)模型。

定义：

$X_t=a_0+a_1X_{t-1}+a_2X_{t-2}+\cdots+a_p X_{t-p}+\varepsilon_t,t\in \mathbb{Z}$

是一个 p 阶自回归模型，简称 AR(p) 模型，称 a=(a0,a1,…,ap)T 是 AR(p) 模型中的自回归系数。满足 AR(p) 模型 (3) 的时间序列 {Xt} 称为 AR(p) 序列。当 a0=0 时，称为零均值 AR(p) 序列，即

$X_t=a_1X_{t-1}+a_2X_{t-2}+\cdots+a_p X_{t-p}+\varepsilon_t,t\in \mathbb{Z}$

需要指出的是，对于 a0≠0 的情况，我们可以通过零均值化的手段把一般的 AR(p) 序列变为零均值 AR(p) 序列

AR序列的建模

步骤 1 对序列作白噪声检验，若经检验判定序列为白噪声，建模结束；否则转步骤 2.

步骤 2 对序列作平稳性检验，若经检验判定为非平稳，则进行序列的平稳化处理，转步骤 1；否则转步骤 3.

步骤 3 对模型进行识别，估计其参数，转步骤 4.

步骤 4 检验模型的适用性，若检验通过，则得到拟合模型并可对序列做预测；否则转步骤 3.

AR 模型的判定

如果一个时间序列满足以下两个条件

ACF 具有拖尾性，即 ACF(k) 不会在 k 大于某个常数之后就恒等于 0。
PACF 具有截尾性，即 PACF(k) 在 k>p 时变为 0。

AR 模型的参数估计

AR 模型的参数估计主要有三种方法：矩估计、最小二乘估计和最大似然估计。

MA

定义

通过将一段时间序列中白噪声序列进行加权和，可以得到移动平均方程。如下图所示为q阶移动平均过程，表示为MA(q)。 $\theta$ 表示移动回归系数。ut表示不同时间点的白噪声。

MA 模型的判定

q 阶MA模型的自相关系数是 q 截尾的，因此可以通过计算样本自相关系数来确定MA模型的阶

模型参数的估计

MA模型参数的估计主要是有三种方法：极大似然估计ML,最小二乘估计CSS，用CSS 来选择起始点，后面用ML来做的方法CSS-ML.

AR和MA转换

Koyck 转换：

可逆性

上面AR → MA，我们叫Koyck Transformation，从MA → AR，我们叫Invertibility（可逆），其实可逆还有更广泛的定义，这里先不提，先搞清这个概念就好。

ARMA

定义：

ARMA建模步骤

（1）对输入的数据进行判断，判断其是否为平稳非纯随机序列，若平稳则直接进入步骤2；若不平稳则进行数据处理，处理后才能进入步骤2。

（2）通过自相关和偏自相关函数，并结合AIC或BIC准则对建立的模型进行模型识别和定阶。

（3）完成模型识别和定阶后，进入模型的参数估计阶段。

（4）完成参数估计后，对拟合的模型进行适应性检验。如果拟合模型通过检验，则开始进行预测阶段。若模型检验不通过，则重新进行模型识别和检验，即重复步骤2，重新选择模型。

（5）最后，利用适应性高的拟合模型，来预测序列的未来变化趋势。

ARIMA

同前面的三种模型，ARIMA模型也是基于平稳的时间序列的或者差分化后是稳定的，另外前面的几种模型都可以看作ARIMA的某种特殊形式。表示为ARIMA(p, d, q)。p为自回归阶数，q为移动平均阶数，d为时间成为平稳时所做的差分次数，也就是Integrate单词的在这里的意思。

优点：模型十分简单，只需要内生变量而不需要借助其他外生变量。

缺点：
1.要求时序数据是稳定的（stationary），或者是通过差分化(differencing)后是稳定的。
2.本质上只能捕捉线性关系，而不能捕捉非线性关系。
注意，采用ARIMA模型预测时序数据，必须是稳定的，如果不稳定的数据，是无法捕捉到规律的。比如股票数据用ARIMA无法预测的原因就是股票数据是非稳定的，常常受政策和新闻的影响而波动。