计量经济学通常使用较小样本,但这种区别日渐模糊,机器学习在经济学领域、特别是经济学与其它学科的交叉领域表现日益突出,R语言是用于统计建模的主流计算机语言,在本次培训中,我们将从实际应用出发,重点从数据的收集与清洗、综合建模评价、数据的分析与可视化、数据的空间效应、因果推断等方面入手,让您用最快的速度掌握利用R语言进行经济学研究的技术。
专题一、R语言操作与讲解
1.1 软件的下载与安装
R语言的基础操作(01)
1.2 Rstudio的介绍
专题二、夯实统计学基础
2.1描述性统计
均值(算数平均数和加权平均数),中位数,众数,极差,标准差
S是总体标准差的估值,减去1以后,标准差大于实际值,保守期间留有余地。
2.2推论统计
利用样本推论总体。
频率直方图的绘制,核概率密度函数(ggplot2)
核密度图(kernel density plot)是一种很重要的数据可视化图形
它可以直观展示出数据分布的形状,以及可以帮助识别异常值
相较于柱状图(histogram),它所展示的数据分布并不受bins影响
它是根据有限的样本数据对总体数据概率密度的估计
2.3相关系数(散点图)
相关系数可视化
相关系数显著性可视化
决定系数
相关系数的平方,表示共享部分
2.4信度和效度
定类数据,定序数据,定距数据,定比数据
信度,运气还是实力?
观察值=真实值+误差值
信度解释和相关系数一致。
效度
显著性假设
2.5 概率统计的常见概念
2.5.1 概率统计的基本指标(正态分布)
概率的诞生,奶茶问题。
正态分布。
置信区间
P值
2.5.2 方差分析(理解基本的统计指标)
方差分析(ANOVA)又称“变异数分析”或“F检验”,是由罗纳德·费雪爵士发明的,用于两个及两个以上样本均数差别的显著性检验。
方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个:
(1) 实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和表示,记作SSb,组间自由度dfb。
(2) 随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内自由度dfw。
总偏差平方和 SSt = SSb + SSw。
若F值接近1,则说明各组均值间的差异没有统计学意义,若F值远大于1,则说明各组均值间的差异有统计学意义。
**统计学基础操作(02)
专题三、经济学研究方法与进阶
3.1 经济学基础原理
主要内容:
经济学思考范式,资源配置,效率与公平(古典经济学领域)。
格里高利·曼昆,通俗的讲述了十大经济学原理
例如,大卫·李嘉图的比较优势的原理。
例如,机会与成本。正U型定价曲线,MC(边际成本)ACT(平均总成本)
理性人假设,市场调节可能是最优解。
丹·艾瑞里 《怪诞行为学》 锚定效应
3.2 经济学常用方法
3.2.1 评价(单指标评价与复合指标评价)
单指标评价:例如GDP
复合指数评价
指标体系评价
3.2.2 因果推断
概念产生:因果推断(Causal Inference)是根据某一结果发生的条件对因果关系作出刻画的过程,推断因果关系的最有效方法是进行随机对照试验,但这种方式耗时且昂贵、也无法解释和刻画个体差异;因此考虑从观察数据中进行因果推断,这类框架包括潜在结果框架和结构因果模型,下文对结构因果模型的因果推理方法进行综述。
证据等级,单个案例,多个案例,随机对照实验,循证,机理机制分析
**基础线性回归(08)
3.3 机器学习用于评价和因果推断(算法介绍及数据可视化)
3.3.1 KNN和Kmeans
KNN(K- Nearest Neighbor)法即K最邻近法,最初由 Cover和Hart于1968年提出,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路非常简单直观:如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
3.3.2德尔菲和AHP
德尔菲是Delphi的中文译名。美国兰德公司在20世纪50年代与道格拉斯公司合作研究出有效、可靠地收集专家意见的方法,以“Delphi”命名,之后,该方法广泛地应用于商业、军事、教育、卫生保健等领域。德尔菲法在医学中的应用,最早开始于对护理工作的研究,并且在使用过程中显示了它的优越性和适用性,受到了越来越多研究者的青睐。
AHP(Analytic Hierarchy Process)层次分析法是美国运筹学家T. L. Saaty教授于二十世纪70年代提出的一种实用的多方案或多目标的决策方法,是一种定性与定量相结合的决策分析方法。常被运用于多目标、多准则、多要素、多层次的非结构化的复杂决策问题,特别是战略决策问题,具有十分广泛的实用性。
3.3.3熵权法
TOPSIS-熵权法
熵权法是一种基于数据信息熵大小计算各个指标权重的方法,能很好的对多指标目标进行综合评价。TOPSIS法能进一步优化熵权法的结果,使评价结果更加客观合理。
理想接近度的值在[0-1]之间,其值越大,就代表该区域的畜牧业发展水平越高,反之则是该区域的畜牧业发展水平越低。
3.3.4随机森林算法
机器学习中有一种大类叫集成学习(Ensemble Learning),集成学习的基本思想就是将多个分类器组合,从而实现一个预测效果更好的集成分类器。集成算法可以说从一方面验证了中国的一句老话:三个臭皮匠,赛过诸葛亮。
3.3.5神经网络
神经网络学习分为两个阶段:一是多层前馈阶段,从输入层一次计算各层节点的实际输入、输出;二是反向修正阶段,即根据输出误差,沿路反向修正各连接权重,降低误差[27]。
专题四、数据的获取与整理
4.1数据的获取
论文,统计局,年鉴,相关网站,购买
https://www.ceads.net.cn/
统计年鉴
论文标注
4.2数据的整理
数据的整理(03)
4.3数据的可视化
数据的可视化基础(04)
示例(05畜牧业箱线图和简单的聚类)
专题五、评价方法与相关软件详细教学(案例详解)
5.1农业碳排放计算
5.2能源消费碳排放计算
5.3综合评价方法
公式的输入以及熵权法的实际操作
https://gongshi.wang/
5.4数据分析与数据可视化
常用数据可视化方法介绍
箱线图,柱状图,折线图,地理图形等
地理学三大定律与空间自相关分析
5.5 基础线性回归(09)
5.6 面板数据回归
混淆面板数据回归
随机效应面板数据
固定效应面板数据规划
时间固定效应面板数据回归
时间个体双向固定效应回归
交互效应,中介效应,内生性,多重共线性小结
5.7 逻辑回归(logistic回归)
二分类逻辑回归
多分类逻辑回归
5.8回归树和XGBoost(11)(Decision Tree)
boosting和bagging 的区别
5.9随机森林回归建模(12)(Random Forest)
5.9.1模型构建与相关参数的优化(bagging,装袋法)
5.9.2模型的效果评估
5.9.3模型的结果分析
5.9.4驱动因素与机制机理分析(归因分析,驱动机制)
5.10 主成分分析(13)(PCA)
5.11热图(14),聚类(heatmap和Cluster Analysis)
5.12神经网络回归建模(Neural Network)
内容同上。
与其它模型效果对比
专题六、写作要点与案例分析
6.1整体写作要点
6.1.1好的开始是成功的一半(引言)
文章的选题来源
6.1.2文献综述的写法
6.1.3研究方法的选择与公式的编辑
6.1.4数据分析与可视化(分析)
6.1.5两种讨论方式的写法(讨论)
6.1.6结论与摘要的写法
6.1.7心态建设以及期刊选择与投稿
6.2案例讲解
6.2.1两种常见类型论文的介绍
实验类型的文章介绍
模型计算类文章介绍
6.2.2案例
2000—2020年山西省农业碳排放时空特征及趋势预测
基于机器学习算法的新疆农业碳排放评估及驱动因素分析
西北地区碳排放的驱动因素与脱钩效应研究
中国农业高质量发展的地区差异及分布动态演进