时间序列—AR MA ARMA ARIMA ARIMAX

[toc]

前置知识

序列平稳性

平稳的序列自相关图和偏自相关图不是拖尾就是截尾。

截尾就是在某阶之后,系数都为 0 。
拖尾就是有一个衰减的趋势,但是不都为 0 。

从自相关图来看,呈现三角对称形式,不存在截尾或拖尾,属于单调序列的典型表现形式,原始数据属于不平稳序列。

注:

如果自相关是拖尾,偏相关截尾,则用 AR 算法

如果自相关截尾,偏相关拖尾,则用 MA 算法

如果自相关和偏相关都是拖尾,则用 ARMA 算法, ARIMA 是 ARMA 算法的扩展版,用法类似

ACF&PACF

image.png

image.png

AIC(akaike information criterion)

AIC=-2 ln(L) + 2 k 

赤池信息量准则,即Akaike information criterion、简称AIC,是衡量统计模型拟合优良性的一种标准,是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在熵的概念基础上。AIC越小,模型越好,通常选择AIC最小的模型。

它的假设条件是模型的误差服从独立正态分布

其中:k是所拟合模型中参数的数量,L是对数似然值,n是观测值数目。k小意味着模型简洁,L大意味着模型精确。因此在评价模型是兼顾了简洁性和精确性。具体到,L=-(n/2)ln(2pi)-(n/2)*ln(sse/n)-n/2.其中n为样本量,sse为残差平方和,L主要取决于残差平方和,为负数

image.png

BIC

BIC=-2 ln(L) + ln(n)*k

BIC的惩罚项比AIC的大,考虑了样本数量,样本数量过多时,可有效防止模型精度过高造成的模型复杂度过高。AIC和BIC的原理是不同的,AIC是从预测角度,选择一个好的模型用来预测,BIC是从拟合角度,选择一个对现有数据拟合最好的模型,从贝叶斯因子的解释来讲,就是边际似然最大的那个模型。

HQIC

HQIC= -2 ln(L) + ln(ln(n))*k

再取对数,减小参数个数对整体的惩罚项

AR

AR是autoregressive的缩写,表示自回归模型,含义是当前时间点的值等于过去若干个时间点的值的回归——因为不依赖于别的解释变量,只依赖于自己过去的历史值,故称为自回归;如果依赖过去最近的p个历史值,称阶数为p,记为AR(p)模型。

定义 :

Xt=a0+a1Xt1+a2Xt2++apXtp+εt,tZX_t=a_0+a_1X_{t-1}+a_2X_{t-2}+\cdots+a_p X_{t-p}+\varepsilon_t,t\in \mathbb{Z}

是一个 p 阶自回归模型,简称 AR(p) 模型,称 a=(a0,a1,…,ap)T 是 AR(p) 模型中的自回归系数。满足 AR(p) 模型 (3) 的时间序列 {Xt} 称为 AR(p) 序列。当 a0=0 时,称为零均值 AR(p) 序列,即

Xt=a1Xt1+a2Xt2++apXtp+εt,tZX_t=a_1X_{t-1}+a_2X_{t-2}+\cdots+a_p X_{t-p}+\varepsilon_t,t\in \mathbb{Z}

需要指出的是,对于 a0≠0 的情况,我们可以通过零均值化的手段把一般的 AR(p) 序列变为零均值 AR(p) 序列

AR序列的建模

image.png
步骤 1 对序列作白噪声检验,若经检验判定序列为白噪声,建模结束;否则转步骤 2.

步骤 2 对序列作平稳性检验,若经检验判定为非平稳,则进行序列的平稳化处理,转步骤 1;否则转步骤 3.

步骤 3 对模型进行识别,估计其参数,转步骤 4.

步骤 4 检验模型的适用性,若检验通过,则得到拟合模型并可对序列做预测;否则转步骤 3.

AR 模型的判定

如果一个时间序列满足以下两个条件

  • ACF 具有拖尾性,即 ACF(k) 不会在 k 大于某个常数之后就恒等于 0。
  • PACF 具有截尾性,即 PACF(k) 在 k>p 时变为 0。

AR 模型的参数估计

AR 模型的参数估计主要有三种方法:矩估计、最小二乘估计和最大似然估计。

MA

定义
image.png

通过将一段时间序列中白噪声序列进行加权和,可以得到移动平均方程。如下图所示为q阶移动平均过程,表示为MA(q)。θ\theta表示移动回归系数。ut表示不同时间点的白噪声。

MA 模型的判定

q 阶MA模型的自相关系数是 q 截尾的,因此可以通过计算样本自相关系数来确定MA模型的阶

模型参数的估计

MA模型参数的估计主要是有三种方法:极大似然估计ML,最小二乘估计CSS,用CSS 来选择起始点,后面用ML来做的方法CSS-ML.

AR和MA转换

image.png

image.png

Koyck 转换:

image.png

image.png

可逆性

上面AR → MA,我们叫Koyck Transformation,从MA → AR,我们叫Invertibility(可逆),其实可逆还有更广泛的定义,这里先不提,先搞清这个概念就好。

image.png

ARMA

定义:

image.png

ARMA建模步骤

    (1)对输入的数据进行判断,判断其是否为平稳非纯随机序列,若平稳则直接进入步骤2;若不平稳则进行数据处理,处理后才能进入步骤2。

    (2)通过自相关和偏自相关函数,并结合AIC或BIC准则对建立的模型进行模型识别和定阶。

    (3)完成模型识别和定阶后,进入模型的参数估计阶段。

    (4)完成参数估计后,对拟合的模型进行适应性检验。如果拟合模型通过检验,则开始进行预测阶段。若模型检验不通过,则重新进行模型识别和检验,即重复步骤2,重新选择模型。

    (5)最后,利用适应性高的拟合模型,来预测序列的未来变化趋势。

ARIMA

同前面的三种模型,ARIMA模型也是基于平稳的时间序列的或者差分化后是稳定的,另外前面的几种模型都可以看作ARIMA的某种特殊形式。表示为ARIMA(p, d, q)。p为自回归阶数,q为移动平均阶数,d为时间成为平稳时所做的差分次数,也就是Integrate单词的在这里的意思。

优点: 模型十分简单,只需要内生变量而不需要借助其他外生变量。

缺点:
1.要求时序数据是稳定的(stationary),或者是通过差分化(differencing)后是稳定的。
2.本质上只能捕捉线性关系,而不能捕捉非线性关系。
注意,采用ARIMA模型预测时序数据,必须是稳定的,如果不稳定的数据,是无法捕捉到规律的。比如股票数据用ARIMA无法预测的原因就是股票数据是非稳定的,常常受政策和新闻的影响而波动。

image.png

ARIMAX

定义

image.png

论文阅读

应用

armax.png

Part 1 – Data Wrangling

Part 2 eda

Part 3 Training and Modeling ARIMA vs ARIMA(X)

Part 4 Conclusion

附录

见code文件

参考文献

沿海镇域毒品犯罪问题治理方式实证分析——基于时间序列ARMAX模型

基于ARMAX-LSTM模型的高炉铁水质量预报研究

基于半参数LM_ARMAX模型的股价波动成因分析

ARIMA模型

The ARIMAX model muddle

初学时间序列——从ARMA模型入门

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享