预备通知 | Python数据挖掘与Stata应用能力提升与实证前沿国庆工作坊

预备通知 | Python数据挖掘与Stata应用能力提升与实证前沿国庆工作坊_第1张图片

培训大纲

开班时间 

10月1-2日  (模块ⅠPython数据挖掘)    

10月3-8日  (模块Ⅱ:Stata 应用能力提升与实证前沿)  

模块I:

邓旭东:python 语法入门、数据采集、文本处理入门、文本分析进阶

模块II:

江艇:因果推断导论、截面数据因果推断的参数和非参数方法(上)、截面数据因果推断的参数和非参数方法(下)、面板数据因果推断的参数和非参数方法;

司继春:Stata基础与Stata16新功能、OLS:预测与解释、面板数据与动态面板模型、离散选择模型与非线性模型选讲;

王非:数据清洗与描述、工具变量、断点回归、合成控制及最新实证方法补充

预备通知 | Python数据挖掘与Stata应用能力提升与实证前沿国庆工作坊_第2张图片

工作坊介绍

为推动我国经济、统计等社会科学量化研究方法学习与应用,培养和训练社会科学相关领域的青年学者、硕博士研究生,促进社会科学相关领域研究方法科学化规范化,《python数据挖掘与stata应用能力提升与实证前沿国庆工作坊》提供一个高水平的学术交流、研究方法普及与研究经验分享的学术平台。工作坊采用模块式教学方法,不仅侧重经济、统计等社会科学量化基本方法的介绍,而且更加注重研究设计与研究选题训练,注重理论与实践相结合,培养学员的社会科学量化分析研究的综合能力。

计算机的迅速发展,更加促进了以数据分析见长的计量经济学的发展。比如Stata软件功能日益强大,并不断开发新程序,以将最常用、最流行、最新计量方法推广应用,大幅提高数据分析效果。大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络数据进行研究,面临两大难点-数据获取与文本分析。数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。

前沿分析固然可能会给你的Paper加分,但不理解其假设,也不知道如何检验假设?在假设得不到满足时也不知道如何用更高级方法去控制?那么会导致前沿方法的滥用!会使你的研究大为失色!为此,本工作坊邀请四位走在微观计量前沿和爬虫文本分析的学者,可谓更强联手的重磅组合,为青年教师、研究生们集中讲解前沿模型的基本思想、基于Stata和Python实操估计,给您带来最前沿计量理论与扎实操作基础并重的高质量课程!

预备通知 | Python数据挖掘与Stata应用能力提升与实证前沿国庆工作坊_第3张图片

主讲嘉宾介绍

江艇(中国人民大学)、王非(中国人民大学)、司继春(上海对外经贸大学)、邓旭东(哈尔滨工业大学)、刘文阁(课程总策划)、谢杰(课程总协调)

江艇:香港科技大学商学院经济学博士,中国人民大学经济学院副教授,人大国家发展与战略研究院研究员,人大微观数据与实证方法研究中心副主任,美国哥伦比亚大学商学院访问学者。主要研究领域为经济增长与发展、城市经济学、新政治经济学,在Economics Letters、Review of Development Economics、《经济研究》、《管理世界》、《世界经济》等国内外著名学术刊物上发表多篇论文。曾应邀在多所高校讲授“应用微观计量经济学”短期前沿课程,学员反响热烈。

王非:美国南加州大学经济学博士,中国人民大学劳动人事学院副教授,人大国家发展与战略研究院研究员,全球劳动组织(GLO)会员,中国就业研究所副研究员。主持国家自然科学基金青年科学基金项目。主要研究领域为劳动经济学、人口经济学、主观福祉等,在 PNAS,Journal of Happiness Studies,Journal of Population Economics,China Economic Review,《人口研究》等国内外权威期刊上发表多篇论文。曾多次讲授微观实证研究方法,广受好评,《Stata简明讲义》作者。

司继春(慧航):上海对外经贸大学统计与信息学院助理教授,主要研究领域为微观计量经济学、产业组织理论。在 Journal of Business and Economic Statistics、《财经研究》等学术刊物上发表多篇论文。其实,大家更熟悉的是知乎上大名鼎鼎的[慧航],拥有 219,753 个关注者,获得过 110,578 次赞同,他就是司继春老师 —— [慧航]。

邓旭东:哈尔滨工业大学管理学院信息系统方向在读博士, 运营【公众号: 大邓和他的Python】,主要分享Python、网络爬虫、文本挖掘、机器学习等相关内容

预备通知 | Python数据挖掘与Stata应用能力提升与实证前沿国庆工作坊_第4张图片

模块1 Python数据采集&文本数据分析

Day 1 上午  邓旭东

Python语法入门  

1. Python跟英语⼀样是⼀⻔语⾔

2. 数据类型之字符串

3. 数据类型之列表元组集合

4. 数据类型之字典

5. 数据类型之布尔值、None

6. 逻辑语句(if&for&tryexcept)

7. 列表推导式

8. 理解函数

9. 常⽤的内置函数

10. 路径库pathlib库

11. ⽂本数据清洗re库

12. 初学python常出错误汇总

Day 1 下午 邓旭东

Python网络爬虫  

1. ⽹络爬⾍原理

2. 发现⽹址规律

3. ⽹络访问requests库

4. ⽹⻚解析pyquery库

5. 数据存储csv库

6. 实战:⼤众点评

7. 实战:⾖瓣读书

8. 如何解析json数据

9. 实战: 京东商城

10. 如何⽤爬⾍下载⽂档及多媒体⽂件

11. 上市公司定期报告pdf批量下载

12. 爬⾍知识点总结

Day 2 上午 邓旭东

文本分析入门 

1. ⽂本分析概述

2. 读取⽂件中数据(pdf、docx、txt、excel)

3. 中⽂分词及数据清洗

4. 实战: 词频统计(词云图制作)

5. 实战: 中⽂情感分析(词典法)

6. 实战: 将多⽂件数据汇总到⼀个excel

7. 数据分析pandas库快速⼊⻔

8. 实战: 对excel中的⽂本进⾏情感分析

9. 共现法扩展情感词典(领域词典)

10. ⽂本处理练习(pandas)

Day 2 下午 邓旭东

文本分析进阶 

1. 了解机器学习

2. 使⽤机器学习做⽂本分析的流程

3. scikit-learn机器学习库简介

4. ⽂本特征抽取(特征⼯程)

5. 实战:在线评论情感分析(机器学习法)

6. ⽂本相似性(cos/编辑距离/jaccard)

7. 实战: 使⽤⽂本相似性⾃动识别冲击(改变的)时间点

8. Kmeans聚类算法

9. LDA话题模型

10. ⽂本分析在经管研究中的应⽤

预备通知 | Python数据挖掘与Stata应用能力提升与实证前沿国庆工作坊_第5张图片

模块2 Stata 应用能力提升与实证前沿

Day 1 上午 江艇

因果推断导论 

1、何为因果推断?

2、传统因果模型

3、实验数据与观测数据

4、观测数据研究的基本挑战

5、潜在因果模型

6、分配机制与识别假设

7、潜在因果模型与传统因果模型的关系

Day 1 下午 江艇

截面数据因果推断的参数和非参数方法(上)

1、非参数方法的工作原理

2、参数方法的工作原理

3、插曲之一:线性回归中的控制变量

4、插曲之二:交互项模型

Day 2 上午 江艇

截面数据因果推断的参数和非参数方法(下)

1、  参数方法与非参数方法的比较

2、  匹配方法实操

3、(选讲)逆概率加权与双重稳健估计

4、(选讲)条件平均处理效应

Day 2 下午 江艇

面板数据因果推断的参数和非参数方法 

1、 面板数据固定效应模型

2、 双重差分法的识别和估计

3、 双重差分法常见问题剖析

4、 双重差分与匹配的结合

5、(选讲)半参数双重差分估计

6、 非参数方法初步及其与参数方法的区别和联系

7、(选讲)模糊双重差分

Day 3 上午 司继春(慧航)

Stata基础与Stata16新功能 

1、 Stata基础:基本操作与数据操作、数据框操作

2、Stata基础:分类变量与数值变量的描述性分析

3、Stata进阶:宏

4、Stata进阶:条件与循环

5、Stata进阶:Stata与Python的结合

Day 3 下午 司继春(慧航)

OLS:预测与解释  

1、如何估计条件期望:OLS

2、预测:过拟合、欠拟合与交叉验证

3、预测:使用LASSO回归进行变量选择

4、HCW方法的LASSO方法实例

5、作为因果推断的OLS:控制变量与固定效应

6、作为因果推断的OLS:系数的解释

7、作为因果推断的OLS:异方差稳健标准误与聚类标准误

Day 4 上午 司继春(慧航)

面板数据与动态面板模型

1. 面板数据:固定效应与随机效应

2. 面板数据:交互固定效应

3. 工具变量简介

4. 动态面板模型的实现:差分GMM与系统GMM

5. 动态面板应用举例

Day 4 下午 司继春(慧航)

离散选择模型与非线性模型选讲

1. 分位数回归

2. 离散选择模型:Probit、Logit回归

3. 计量经济学中的离散选择模型:理论基础与解释

4. 多元选择模型:多项Logistics回归

5. 面板数据二元选择模型

6. 多元选择模型:分类树、随机森林及其Stata实现

7. 其他非线性模型:删失样本模型(Tobit模型)、样本选择模型(Heckman两步法)简介

Day 5 上午 王非

数据清洗与描述

1.数据清洗与描述的公式化梳理,使纷繁庞杂的数据处理变得异常清晰

2.最新常用数据清洗与描述的实战演示,使数据处理不再成为研究负担

Day 5 下午  王非

工具变量

1.  工具变量经典方法与步骤系统化梳理

2.  工具变量发展前沿及实际应用

3.  工具变量最新前沿论文的结果复制

Day 6 上午 王非

断点回归

1. 断点回归经典设计思路与实践步骤系统化梳理

2. 断点回归发展前沿及实际应用

3.断点回归最新前沿论文的结果复制

Day 6 下午 王非

合成控制及最新实证方法补充

1.合成控制经典步骤及最新发展的系统化梳理

2.合成控制最新前沿论文的结果复制

3. 因果识别方法最新发展的补充介绍

4. 跟随前沿论文学习实证研究的核心模块分析

预备通知 | Python数据挖掘与Stata应用能力提升与实证前沿国庆工作坊_第6张图片

报名信息

授课方式

依据当时当地教育主管部门的疫情防控政策,在正式开课前一到两周确定具体的授课形式(线上或线下)

每天6小时(8:30-11:30; 14:00-17:00) +30分钟答疑

培训费用

报名费用根据授课形式而定

优惠政策:两个模块一起报名九折;三人及以上九折;五人及以上八折;老学员九折;学生优惠200元/人;各类叠加不超过7.5折。

报名咨询

参加对象

全国高等院校及研究机构从事经济科学研究的青年师生。尤其适合那些希望掌握高级实证方法,提升量化研究设计能力和国家课题申报能力的研究者。

报名时间

从即日起

报名咨询

19817128496(任老师)

预备通知 | Python数据挖掘与Stata应用能力提升与实证前沿国庆工作坊_第7张图片

欢迎进群咨询

你可能感兴趣的:(数据挖掘,编程语言,机器学习,人工智能,数据分析)