3.1 统计分析
多元统计分析常用的 R 包和函数
3.1.1 多元回归分析
随机误差 ε :计量模型
案例分析: M2 的建模与预测
![第3章 R语言编程基础——基于R软件的传统计算(超详细)_第2张图片](http://img.e-com-net.com/image/info8/5ac4d00679b646e58485162eb23847b9.jpg)
残差的五数
![](http://img.e-com-net.com/image/info8/339b820b681b4b66ae4d0f1ec9d34e96.jpg)
估计参数的回归值、标准差、t检验量、p-value 单变量显著性检验
![第3章 R语言编程基础——基于R软件的传统计算(超详细)_第5张图片](http://img.e-com-net.com/image/info8/1f33cd57abc7476f84ab308219b59e8e.png)
拟合优度和 F 检验
Residual standard error: 0.2046 on 128 degrees of freedom
Multiple R-squared: 0.852, Adjusted R-squared: 0.8485
F-statistic: 245.6 on 3 and 128 DF, p-value: < 2.2e-16
4. 检验模型
5. 提取模型信息
![第3章 R语言编程基础——基于R软件的传统计算(超详细)_第8张图片](http://img.e-com-net.com/image/info8/7955703ce3d948048ff33965e3bc1cb3.jpg)
![第3章 R语言编程基础——基于R软件的传统计算(超详细)_第10张图片](http://img.e-com-net.com/image/info8/cd3fb717117f45fd9e0566ace335cd5b.jpg)
3.1.2 逐步回归分析
原理 :删选出贡献较大的重要解释变量
原则 : F 检验,外围变量进入,内部变量退出 / 调整 R 方 /AIC 准则,越小越好, R 主要根据 AIC ,逐步删除
变量( R 主要依据 AIC )
案例分析:资产负债率的影响因素探究
![第3章 R语言编程基础——基于R软件的传统计算(超详细)_第11张图片](http://img.e-com-net.com/image/info8/11734a44cddf44b69e3e3cf19710d524.jpg)
![第3章 R语言编程基础——基于R软件的传统计算(超详细)_第12张图片](http://img.e-com-net.com/image/info8/a42aec2d5b9c477aa3c9f74f20bb8f65.jpg)
3.1.3 聚类分析
聚类不同于分类,可以分为 Q 型(样本,距离)和 R 型(指标变量,相似系数)
计算距离需要 消除量纲 :中心化;标准化;极差标准化
案例分析: 3 板块、 30 家公司、基于 7 指标聚类
![第3章 R语言编程基础——基于R软件的传统计算(超详细)_第13张图片](http://img.e-com-net.com/image/info8/db94bdea6e8247f6af4559f720d9d512.jpg)
3.1.4 因子分析
降维 :关键因素,公共因子
载荷因子矩阵 A :每一行的平方和成为共同度,每一列的平方和是公因子方差贡献率,方差贡献率大的
因子为有效因子, 主成分分析 可以求出载荷因子矩阵
因子旋转 :像 01 两极分化,常用方差最大法
因子得分 :汤姆森回归法
综合评价 :加权,对样本观测点进行排序
案例分析:基于 10 项财务指标,对上市公司进行排名
![第3章 R语言编程基础——基于R软件的传统计算(超详细)_第17张图片](http://img.e-com-net.com/image/info8/e6af50e663764197862eaf5b65850821.jpg)
![第3章 R语言编程基础——基于R软件的传统计算(超详细)_第18张图片](http://img.e-com-net.com/image/info8/ad77f69d1ed048548a14cb74cc4fc375.jpg)
平行分析和特征值分析显示最优因子数为3,存在一个加速因子;如果要简化,可以直接取因子数为2
![第3章 R语言编程基础——基于R软件的传统计算(超详细)_第21张图片](http://img.e-com-net.com/image/info8/faf9001083ce4dbcadd2f402f0229c63.png)
![第3章 R语言编程基础——基于R软件的传统计算(超详细)_第23张图片](http://img.e-com-net.com/image/info8/e7918d105be5439d895197b37e6bccf1.jpg)
3.2 经济计量分析
计量经济分析常用的 R 包与函数
![第3章 R语言编程基础——基于R软件的传统计算(超详细)_第25张图片](http://img.e-com-net.com/image/info8/42ab363042b74e64bbe865b1f495c491.jpg)
3.2.1 数据测量层次
(定类、定序)、(定距、定比) -> 定性、定量
3.2.2 二元选择模型
1. 线性概率模型 :被解释变量为二元离散变量 0,1
缺陷:难以保证预测概率在 [0 , 1] 区间内,且存在异方差问题
2. 变换概率模型 :引入对称分布不可观测潜变量(使用详见计量经济学)
与 LPM 相比,相当于实施了一个累积分布函数变换
分布函数通常为标准正态分布( Prohibit 模型)、 Logistic 分布( Logit 模型)、极值分布
( Extreme 模型)。
tips: 三种分布的小案例
![第3章 R语言编程基础——基于R软件的传统计算(超详细)_第27张图片](http://img.e-com-net.com/image/info8/ce1559b518e74735bb11d10d4cc3ba87.jpg)
可以看到 左尾 ,逻辑分布和极值分布都比正态分布要厚;
极值分布的拐点不在(
0 , 0.5 )处,而在 (-0.36651, 0.5) 处
极值分布的右尾比正态分布要薄
Logistic 曲线最为平缓
3.2.3 计数数据模型
响应变量表示事件发生的次数,是离散的整数,常见的模型有
Poission 模型、负二项分布、 Hurdle 模型、零膨胀模型
3.2.4 广义线性模型
覆盖正太数据、二元选择、技术数据模型
一个 GLM 模型包含三部分:随机成分(自然指数分布族) + 系统成分(线性预测函数) + 连接函数
glm(formula,family=binomial(link="logit"),data=dfname) 拟合二元 Logit 模型
formula : x~y 是啥 link :连接函数 data :指定数据框
![](http://img.e-com-net.com/image/info8/cc69c4c3a2a74e2b82980a20d4bba994.jpg)
3.3 时序序列分析
3.4 优化理论与方法
规划求解常用包和函数
![第3章 R语言编程基础——基于R软件的传统计算(超详细)_第29张图片](http://img.e-com-net.com/image/info8/becffa6d8cc541a6838f1e80328ac0df.jpg)