[toc]
前置知识
序列平稳性
平稳的序列自相关图和偏自相关图不是拖尾就是截尾。
截尾就是在某阶之后,系数都为 0 。
拖尾就是有一个衰减的趋势,但是不都为 0 。
从自相关图来看,呈现三角对称形式,不存在截尾或拖尾,属于单调序列的典型表现形式,原始数据属于不平稳序列。
注:
如果自相关是拖尾,偏相关截尾,则用 AR 算法
如果自相关截尾,偏相关拖尾,则用 MA 算法
如果自相关和偏相关都是拖尾,则用 ARMA 算法, ARIMA 是 ARMA 算法的扩展版,用法类似
ACF&PACF
AIC(akaike information criterion)
AIC=-2 ln(L) + 2 k
赤池信息量准则,即Akaike information criterion、简称AIC,是衡量统计模型拟合优良性的一种标准,是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在熵的概念基础上。AIC越小,模型越好,通常选择AIC最小的模型。
它的假设条件是模型的误差服从独立正态分布。
其中:k是所拟合模型中参数的数量,L是对数似然值,n是观测值数目。k小意味着模型简洁,L大意味着模型精确。因此在评价模型是兼顾了简洁性和精确性。具体到,L=-(n/2)ln(2pi)-(n/2)*ln(sse/n)-n/2.其中n为样本量,sse为残差平方和,L主要取决于残差平方和,为负数
BIC
BIC=-2 ln(L) + ln(n)*k
BIC的惩罚项比AIC的大,考虑了样本数量,样本数量过多时,可有效防止模型精度过高造成的模型复杂度过高。AIC和BIC的原理是不同的,AIC是从预测角度,选择一个好的模型用来预测,BIC是从拟合角度,选择一个对现有数据拟合最好的模型,从贝叶斯因子的解释来讲,就是边际似然最大的那个模型。
HQIC
HQIC= -2 ln(L) + ln(ln(n))*k
再取对数,减小参数个数对整体的惩罚项
AR
AR是autoregressive的缩写,表示自回归模型,含义是当前时间点的值等于过去若干个时间点的值的回归——因为不依赖于别的解释变量,只依赖于自己过去的历史值,故称为自回归;如果依赖过去最近的p个历史值,称阶数为p,记为AR(p)模型。
定义 :
是一个 p 阶自回归模型,简称 AR(p) 模型,称 a=(a0,a1,…,ap)T 是 AR(p) 模型中的自回归系数。满足 AR(p) 模型 (3) 的时间序列 {Xt} 称为 AR(p) 序列。当 a0=0 时,称为零均值 AR(p) 序列,即
需要指出的是,对于 a0≠0 的情况,我们可以通过零均值化的手段把一般的 AR(p) 序列变为零均值 AR(p) 序列
AR序列的建模
步骤 1 对序列作白噪声检验,若经检验判定序列为白噪声,建模结束;否则转步骤 2.
步骤 2 对序列作平稳性检验,若经检验判定为非平稳,则进行序列的平稳化处理,转步骤 1;否则转步骤 3.
步骤 3 对模型进行识别,估计其参数,转步骤 4.
步骤 4 检验模型的适用性,若检验通过,则得到拟合模型并可对序列做预测;否则转步骤 3.
AR 模型的判定
如果一个时间序列满足以下两个条件
- ACF 具有拖尾性,即 ACF(k) 不会在 k 大于某个常数之后就恒等于 0。
- PACF 具有截尾性,即 PACF(k) 在 k>p 时变为 0。
AR 模型的参数估计
AR 模型的参数估计主要有三种方法:矩估计、最小二乘估计和最大似然估计。
MA
定义
通过将一段时间序列中白噪声序列进行加权和,可以得到移动平均方程。如下图所示为q阶移动平均过程,表示为MA(q)。表示移动回归系数。ut表示不同时间点的白噪声。
MA 模型的判定
q 阶MA模型的自相关系数是 q 截尾的,因此可以通过计算样本自相关系数来确定MA模型的阶
模型参数的估计
MA模型参数的估计主要是有三种方法:极大似然估计ML,最小二乘估计CSS,用CSS 来选择起始点,后面用ML来做的方法CSS-ML.
AR和MA转换
Koyck 转换:
可逆性
上面AR → MA,我们叫Koyck Transformation,从MA → AR,我们叫Invertibility(可逆),其实可逆还有更广泛的定义,这里先不提,先搞清这个概念就好。
ARMA
定义:
ARMA建模步骤
(1)对输入的数据进行判断,判断其是否为平稳非纯随机序列,若平稳则直接进入步骤2;若不平稳则进行数据处理,处理后才能进入步骤2。
(2)通过自相关和偏自相关函数,并结合AIC或BIC准则对建立的模型进行模型识别和定阶。
(3)完成模型识别和定阶后,进入模型的参数估计阶段。
(4)完成参数估计后,对拟合的模型进行适应性检验。如果拟合模型通过检验,则开始进行预测阶段。若模型检验不通过,则重新进行模型识别和检验,即重复步骤2,重新选择模型。
(5)最后,利用适应性高的拟合模型,来预测序列的未来变化趋势。
ARIMA
同前面的三种模型,ARIMA模型也是基于平稳的时间序列的或者差分化后是稳定的,另外前面的几种模型都可以看作ARIMA的某种特殊形式。表示为ARIMA(p, d, q)。p为自回归阶数,q为移动平均阶数,d为时间成为平稳时所做的差分次数,也就是Integrate单词的在这里的意思。
优点: 模型十分简单,只需要内生变量而不需要借助其他外生变量。
缺点:
1.要求时序数据是稳定的(stationary),或者是通过差分化(differencing)后是稳定的。
2.本质上只能捕捉线性关系,而不能捕捉非线性关系。
注意,采用ARIMA模型预测时序数据,必须是稳定的,如果不稳定的数据,是无法捕捉到规律的。比如股票数据用ARIMA无法预测的原因就是股票数据是非稳定的,常常受政策和新闻的影响而波动。
ARIMAX
定义
论文阅读
应用
Part 1 – Data Wrangling
Part 2 eda
Part 3 Training and Modeling ARIMA vs ARIMA(X)
Part 4 Conclusion
附录
见code文件