标签: 杂谈 |
赤池信息量准则(Akaike information criterion、简称AIC)是衡量统计模型拟合优良性的一种标准,是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。
AIC
在一般的情况下,AIC可以表示为:
其中:K是参数的数量,L是似然函数。
假设条件是模型的误差服从独立正态分布。
让n为观察数,RSS为剩余平方和,那么AIC变为:
增加自由参数的数目提高了拟合的优良性,AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。
所以优先考虑的模型应是AIC值最小的那一个。赤池信息量准则的方法是寻找可以最好地解释数据但包含最少自由参数的模型。
AICc和AICu
在样本小的情况下,AIC转变为AICc:
当n增加时,AICc收敛成AIC。所以AICc可以应用在任何样本大小的情况下(Burnham and Anderson, 2004)。
McQuarrie 和 Tsai(1998: 22)把AICc定义为:
他们提出的另一个紧密相关指标为AICu:
QAIC
QAIC(Quasi-AIC)可以定义为:
其中:c是方差膨胀因素。因此QAIC可以调整过度离散(或者缺乏拟合)。
在小样本情况下, QAIC表示为:
.
参考文献
Akaike, Hirotsugu(1974年).A new look at the statistical model identification.IEEE Transactions on Automatic Control,19(6):716–723.
Burnham, K. P., and D. R. Anderson, 2002. Model Selection and Multimodel Inference: A Practical-Theoretic Approach, 2nd ed. Springer-Verlag. ISBN 0-387-95364-7.
--------, 2004. Multimodel Inference: understanding AIC and BIC in Model Selection, Amsterdam Workshop on Model Selection.
Hurvich, C. M., and Tsai, C.-L., 1989. Regression and time series model selection in small samples. Biometrika, Vol 76. pp. 297-307
McQuarrie, A. D. R., and Tsai, C.-L., 1998. Regression and Time Series Model Selection. World Scientific.
准确建立VAR模型的关键在于滞后期数的确定,在实际应用中,一方面希望滞后期p足够大,可以更加完整的反映构造模型的动态特征;但另一方面,滞后期越长,模型中待估参数越多,损失的自由度也越多。因此,在滞后期和自由度之间寻找一个均衡点,一般根据AIC和SC信息量取值最小的准则来确定模型的滞后阶数。根据多次的实际测算,最后确定滞后阶数为4,模型设定为VAR(4),采用OLS得到估计式如下,模型整体拟合程度较好。
对模型进行稳定性检验以及残差自相关检验,结果显示模型稳定且整体拟合度较高,各扰动项不与自己的滞后值相关,模型拟合效果良好,可以作为进一步分析的依据。
单位根检验与协整分析
在对时间序列进行分析时,传统上要求数据是平稳的,即没有随机趋势或确定性趋势,如果用非平稳的时间序列变量进行回归,会出现“伪回归”现象。但是,现实经济中的时间序列往往是非平稳的,为了使回归有意义,对时间序列实行平稳化处理,方法是对其进行差分后再回归,但这样做的缺点是会失去原序列中的有用信息,而这些信息对问题分析又是必须的。Enger和Granger提出的协整方法很好的解决了这个问题,而协整分析需要进行单位根检验。单位根检验的方法很多,如DF方法、ADF方法,PP方法,本文采用ADF方法。
我们对各变量进行ADF检验,经过多次尝试,选择最佳滞后期和检验形式,得到单位根结果如表2。从表2可以看出,在1%的显著性水平下,所有变量序列的水平项都是非平稳序列;经过一阶差分以后,在0.01的显著性水平上都是平稳的,故它们都是一阶单整I(1),可以在此基础上进行协整检验。
由于VAR模型对滞后期的选择比较敏感,故先采用AIC或SC最小原则确定最佳滞后期。在滞后期数确定滞后,再对协整中是否具有常数项和时间趋势项进行验证,然后对数据进行协整检验,得到的结果如表3。从表3可以看出,GDP与两个协整方程,变量之间存在着长期的均衡关系。通过对各协整方程残差进行ADF检验,结果显示残差为平稳序列,也证明了经济增长与传统服务出口份额、传统服务进口份额之间存在着协整关系。
AIC准则是赤池信息准则,该项准则运用下式的统计量评价模型的好坏:AIC=-2L/n+2K/n,其中L是对数似然值,n是观测值数目,k是被估计的参数个数,AIC的准则要求其越小越好。
因为,AIC的大小取决于L和k。k取值越小,AIC越小;L取值越大,AIC值越小。k笑意味着模型简洁,L大意味着模型精确。因此AIC和修正的决定系数类似,在评价模型是兼顾了简洁性和精确性。
赤池信息量准则(http://en.wikipedia.org/wiki/Akaike_information_criterion) 概念:赤池信息量准则,即Akaike information criterion、简称AIC,是衡量统计模型拟合优良性的一种标准,是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。
AIC和BIC是同一个指标,一般用于选择模型,也就是模型的比较优劣
他们的不同之处在于
AIC=-2 ln(L) + 2 k 中文名字:赤池信息量 akaike information criterion
BIC=-2 ln(L) + ln(n)*k 中文名字:贝叶斯信息量 bayesian information criterion
HQ=-2 ln(L) + ln(ln(n))*k hannan-quinn criterion
构造这些统计量所遵循的统计思想是一致的,就是在考虑拟合残差的同时,依自变量个数施加“惩罚”。
但,倘若因此就说它们是同一个指标,恐怕还是有些不妥,毕竟“惩罚”的力度还是不尽相同的。
此外,这些信息量的用途不仅限于选择模型,还能用于选取合适的变换等等。而在那些时候,这些信息量又是另一个模样,也就是说它们有许多变体。因此,它们也被称为AIC准则、BIC准则等等。它们中的每一个体现的都是一系列的标准,而非单独的一个简单式子。
20世纪50年代,统计检测理论发展很快,米德尔顿等人用最小平均风险准则(贝叶斯准则)来处理最佳接受问题,使检测理论发展到一个新阶段,并使各种准则统一于风险理论。
http://wapedia.mobi/zh/赤池信息量准则?t=4.
http://www.garfield.library.upenn.edu/classics1981/A1981MS54100001.pdf
Akaike信息准则
Akaike的信息准则开发 Hirotsugu Akaike 以“信息准则名义” (AIC1971年)和提议在Akaike (1974),是吻合度的措施估计的 统计模型. 它在概念被着陆 熵实际上提供一项相对措施 失去的信息 当一个特定模型用于描述现实,并且可以说描述交易之间 偏心 并且 变化 在模型构造或者宽松讲那模型的精确度和复杂。
AIC不是对模型的一个测试在假说感觉测试,宁可它是一个工具为 模型选择. 给出数据集,几个竞争的模型也许根据他们的AIC排列,当那个有最低的AIC最佳。 从AIC价值你也许推断即名列前茅三个模型在领带,并且休息是更坏的,但你不应该赋予之上一个特定模型‘被拒绝’的价值在。[1]
定义
在一般案件, AIC
那里 k 是数字 参量 在 统计模型和 L 是最大化的价值的 可能 作用为估计的模型。
在这个词条剩下的人,它假设,通常和独立地分布式样错误。 让 n 是数字 观察 并且 RSS 是
残差平方和. 然后AIC成为
增加将估计的自由参量的数量在引起过程的数据改进吻合度,不管自由参量的数量。 因此AIC不仅奖励吻合度,而且包括是估计的参量的数量的一个上升函数的惩罚。 这项惩罚劝阻 overfitting. 首选的模型是那个以最低值的AIC。 AIC方法学试图发现模型那 最好解释数据以自由参量极小值 . 相反,对塑造开始的更加传统的方法从a 无效假设. AIC比强烈处罚自由参量较少 Schwarz标准.
AIC根据怎样判断一个模型接近它的适合的价值倾向于是到真实值,根据有些期待值。
AICc和AICu
AICc是AIC以二次更正为小样本大小,开始以:
因为AICc聚合对AIC n 得到大, AICc应该使用不管样本大小(Burnham和安徒生2004)。
mcQuarrie和Tsai (1998年: 22) 定义AICc如下:
并且提议(p。 32) 紧密地相关的措施:
McQuarrie和Tsai在广泛的模仿工作研了AICc和AICu他们的高看法。
QAIC
QAIC (quasi-AIC)被定义如下:
那里 c 是变化通货膨胀因素。 QAIC调整为在分散作用或缺乏适合。 QAIC的小样品版本是:
参考
akaike, Hirotugu (1974)。 “新的神色在统计模型证明”。 IEEE交易在自动控制 19 (6): 716–723.
Burnham, K。 P.和D。 R. 安徒生2002年。 模型选择和Multimodel推断: 一种实用理论方法第2编辑。 Springer-Verlag。 国际标准书号0-387-95364-7.
-------- 2004年。 Multimodel推断: 了解的AIC和BIC在模型选择关于模型选择的阿姆斯特丹车间。
Hurvich, C。 M.和Tsai, C。- L。, 1989年。 退化和时间数列模型选择在小样品. Biometrika,第76卷。 页. 297-307
McQuarrie, A。 D. R.和Tsai, C。- L。, 1998年。 退化和时间数列模型选择. 世界科学。
参见
贝叶斯信息准则
偏差
偏差信息准则
Hannan昆因信息准则
Jensen-Shannon分歧
Kullback-Leibler分歧
Occam的剃刀
外部链接
Hirotogu Akaike评论对怎样他到达了在AIC在这个星期的引证经典之作
自回归模型的阶数根据赤池信息量准则 (Akaike information criterion,AIC)来计算,AIC是应用于选择统计分析模型的一个数学指标。
AIC (M)=Nln2πσM2+n+2 (M+K+1) 其中σM2 为分散误差,M为自回归模型的回归阶数,n为样本数,K为阶数。
在时间序列分析时,AIC 越小,被选择的分析模型越接近真实模型。AIC值最小时(min-AIC),M=K,对应的阶数M为自回归模型的回归阶数。
权衡所估计模型的复杂度和此模型拟合数据的优良性。
赤池信息量准则(Akaike information criterion、简称AIC)
协整(Cointegration)检验一般通过EG(Engle & Granger(1987))和JJ方法(Johansen & Juselius(1990))实现。JJ方法适用于多个协整关系的估计和检验,且具有较高的检验势,所以本文也采用JJ方法。
这种方法的原理是在VAR系统下用极大似然估计来检验多变量之间协整关系,因此在进行Johnsen协整检验前必须要确定VAR模型的最后滞后期k,如果k太小,误差项的自相关会非常严重,这会导致被估参数的非一致性,所以可以通过增加k来消除误差项中存在的自相关。但是,k又不能够太大,因为如果k太大会导致自由度减小,并直接影响到被估参数的有效性(最优??)
!!!利用AIC(赤池)信息准则和SC(舒瓦茨)准则可以确定滞后阶数k(k过大,自由度降低。k过小,误差项自相关较严重)。方法是两个准则最小的模型的阶数为最佳滞后阶数。如果两个准则出现不一致,则需要利用似然比检验来选择模型。构建LR统计量(似然比统计量) 这里k表示模型中滞后变量的最大滞后期,log L(k )和logL(k+1)分别为VAR(k ) 和VAR(k +1)模型的极大似然估计值。当LR > LR(临界值) 时,表示统计量显著,表示增加滞后值能够显著增加极大似然函数的估计值。
由于滞后阶数选择过大会损失自由度,所以对于最大滞后阶数的选择,效仿Saikkonen和Lutkepohl(1996)的做法,将考虑的最大阶 设定为样本个数T的 的整数部分,即 。考虑到本文的情况,如果 ,则所有的协整检验也就只有在滞后一阶的情况下进行,极可能存在偏差,故在原 的基础上再加一,最大滞后阶数为三阶。同时运用迹(Trace)检验和最大特征根(Maximum Eigenvalue)两种检验方法对变量进行协整检验,当两种检验方法都成立时,才认为存在协整关系。
四变量的VAR模型滞后阶数不同时,AIC、SC、LogL和LR的结果如表所示。
单位根检验与协整分析
在对时间序列进行分析时,传统上要求数据是平稳的,即没有随机趋势或确定性趋势,如果用非平稳的时间序列变量进行回归,会出现“伪回归”现象。但是,现实经济中的时间序列往往是非平稳的,为了使回归有意义,对时间序列实行平稳化处理,方法是对其进行差分后再回归,但这样做的缺点是会失去原序列中的有用信息!!!!!!而这些信息对问题分析又是必须的。Enger和Granger提出的协整方法!!!!!!很好的解决了这个问题,而协整分析需要进行单位根检验。单位根检验的方法很多,如DF方法、ADF方法,PP方法,本文采用ADF方法。
我们对各变量进行ADF检验,经过多次尝试,选择最佳滞后期和检验形式,得到单位根结果如表2。从表2可以看出,在1%的显著性水平下,所有变量序列的水平项都是非平稳序列;经过一阶差分以后,在0.01的显著性水平上都是平稳的,故它们都是一阶单整I(1),可以在此基础上进行协整检验。
由于VAR模型对滞后期的选择比较敏感,故先采用AIC或SC最小原则确定最佳滞后期。在滞后期数确定滞后,再对协整中是否具有常数项和时间趋势项进行验证,然后对数据进行协整检验,得到的结果如表3。从表3可以看出,GDP与两个协整方程,变量之间存在着长期的均衡关系。通过对各协整方程残差进行ADF检验,结果显示残差为平稳序列,也证明了经济增长与传统服务出口份额、传统服务进口份额之间存在着协整关系。
http://wenda.tianya.cn/wenda/thread?tid=684db6d5eb01c26a
为了将上述两模型作比较,我们分别对两模型作标准化残差对新息分布的QQ 图,见图1。可见,正态新息的GARCH模型捕捉数据尾部特征的能力是不足的,而混合正态新息的GARCH 模型较好地刻画了数据的尾部行为。另一方面,根据BIC、AIC 的模型选择准则,也都显示应选择(9)式的模型。
4 结论
本文对标准的GARCH 模型进行了推广,得到了正态方差混合新息分布的GARCH 模型,得到了正态方差混合新息分布的GARCH 模型比标准的GARCH 模型有更厚的尾部的结论。本文所给出的模型参数的EM 估计是方便的。
在联合广义线性模型中,散度参数与均值都被赋予了广义线性模型的结构,本文主要考虑在只有分布的一阶矩和二阶矩指定的条件下,联合广义线性模型中均值部分的变量选择问题。本文采用广义拟似然函数,提出了新的模型选择准则(EAIC);该准则是Akaike信息准则的推广。
极大似然估计与AIC准则联合建模
张文泉 李泓泽
摘 要 将极大似然估计与AIC准则有机结合进行回归模型建模。这样不仅可省去一般回归模型建模时繁杂的模型检验工作,而且还可快速有效地同时估计模型参数和确定模型阶数。最后用实例验证本方法的实用性和正确性。
美国堪萨斯大学助理教授何和平博士来我院做学术讲座作者:
应统计学院邀请,美国堪萨斯大学数学系助理教授何和平博士在统计学院学术报告厅为全院师生做了一场《统计论坛》学术报告会,报告会题目为:《拟似然函数——修正的轮廓似然估计法在模型选择中的应用》,论坛由晏艳阳院长主持。
何和平博士的研究成果在世界公认顶级权威刊物“Annals of Statistics”、 “Biometrika”、 “Bernoulli”上发表,研究获美国自然基金资助,曾应邀到澳大利亚、美国、香港等多地讲学,为国内外多个知名统计刊物审稿人。
在学术报告中,何和平博士首先简单介绍了轮廓似然估计的基本理论及其存在的不足;然后详细介绍了什么是修正轮廓似然估计及其优良性,并着重介绍了他对修正的轮廓似然方法在模型选择中的突破性扩展,即把修正的轮廓似然函数看成是各个模型本身的函数,而不再把它看成是各个模型中所含参数的函数,模型中的参数都被视为讨厌参数,通过适当的方法消除其对修正的轮廓似然函数的影响,然后选择使得修正的轮廓似然函数达到最大值的模型为真正的模型;最后,何和平博士还展示了这种模型选择方法在location-scale模型选择中的应用,即利用该方法对极为相似的标准正态分布和标准柯西分布进行选择,通过随机模拟表明该方法具有AIC准则的收敛速度较快和BIC准则的相合性的优点,且中等样本容量(样本容量为10左右)时模型选择的正确率也非常高。何博士还展望了他未来的研究重点——把这种模型选择法推广到指数分布族、正则模型、回归模型、突变点问题及AR和ARMA等时间序列模型的选择中去。
报告结束后,何和平博士还就学院师生提出的相关问题进行了解答和讨论,并和大家分享了他从事学术研究工作的心得体会,使广大师生受到了很大的启发和鼓舞。