五人成团,团长免费 | Python网络爬虫与文本数据分析

在过去的两年间,Python一路高歌猛进,成功窜上“最火编程语言”的宝座。惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有经济学、管理学、会计学、社会学、传播学、新闻学等等。

大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络世界数据进行研究,面临两大难点:

  • 数据的获取

  • 文本(非结构化)数据的处理与分析

数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。本次课程参照已发表的社科类的文章,希望帮助大家解决文本分析这最难的两大难点。课程设计的初衷是用最少的时间让大家学到最有用的知识点,降低学习难度。希望学习完本课程后能让各位结合研究需要对自己学科内的文本分析有一个全面深刻的了解,方便各位开展后续研究。

课程目标

  • 学会Python语言基本语法

  • 掌握Python爬虫基本原理

  • 会设计和开发Python爬虫

  • 掌握文本分析相关库

  • 理解数据挖掘,特别是文本分析的思路和流程

  • 了解文本分类、文本聚类

主讲人

大邓,哈尔滨工业大学(HIT)在读博士。曾在多所大学做 网络数据采集和文本分析 分享,运营有【公众号:大邓和他的Python】,主要分享Python、爬虫、文本分析、机器学习等相关内容。

适合人群

本课程面向0编程基础:

  • 想从网上爬数据

  • 想做文本分析

  • 想了解机器学习 包括但不限于以上几类人群。

内容要点

第一部分 Python基础(2小时)

  • python跟英语一样也是一种语言

  • 环境配置

  • jupyter notebook使用方法

  • 数据类型-list、str、dict、tuple、set

  • for循环、if逻辑

  • try-except

  • 常用函数

  • 常用库

  • pip安装问题解决办法

  • 常见错误

第二部分 网络爬虫(2小时)

  • 网络爬虫原理

  • 开发者工具使用

  • 数据抓包

  • requests库

  • pyquery库

  • 元素(数据)定位

  • 数据存储(txt,csv)

  • 案例1:天涯论坛

  • 案例2:大众点评

  • 案例3:BOSS直聘

  • 案例4:百度企业信用

  • 案例5:京东评论

第三部分 入门文本分析(2小时)

  • 文本分析应用场景

  • txt、pdf、word等类型文件的数据读取

  • 中文分词-jieba库

  • 可视化-pyecharts库

  • 英文通用情感词库-Harvard-IV4

  • 英文金融会计领域情感词库Loughran&MCdonald

  • 常见的中文情感词典

  • 中文情感词典的构建及使用

  • 数据分析-pandas库

  • 案例1-词频统计

  • 案例2-制作词云图

  • 案例3-海量公司年报文本分析

  • 案例4-使用情感词典进行情感计算

第四部分 文本分析进阶篇(2小时)

  • 什么是机器学习

  • 监督学习与非监督学习

  • 使用机器学习进行文本分析的步骤

  • 表达文本数据信息的方式(独热编码、词袋法、TF-IDF)

  • 文本可读性计算

  • 公司年报信息含量(标准信息与特有信息)计算思路

  • 理解特征矩阵、语料、文档、特征

  • 机器学习库-sklearn语法学习

  • 了解协同过滤-推荐系统

  • 案例1-在线评论情感分析

  • 案例2-文本分类

  • 案例3-LDA话题模型

  • 案例4-计算消费者异质性信息

相关文献

了解文本分析在经管研究中使用情况,可以参考

  • 沈艳,陈赟,黄卓.文本大数据分析在经济学和金融学中的应用:一个文献综述[EB/OL].http://www.ccer.pku.edu.cn/yjcg/tlg/242968.htm,2018-11-19

  • Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. Journal of Accounting Research, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics

  • 魏伟,郭崇慧,陈静锋.国务院政府工作报告(1954—2017)文本挖掘及社会变迁研究[J].情报学报,2018,37(04):406-421.

  • 孟庆斌, 杨俊华, 鲁冰. 管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. 中国工业经济, 2017 (12): 132-150.

  • 王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.管理世界.2016;5:81-98.

  • Chan J T K, Zhong W. Reading China: Predicting policy change with machine learning[J]. 2018.

  • Hansen S, McMahon M. Shocking language: Understanding the macroeconomic effects of central bank communication[J]. Journal of International Economics, 2016, 99: S114-S133.

  • Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." Information Systems Research 29.2 (2018): 273-291.

双11前夕,多重优惠

原价499元,现价199元。

拼团购买,5人成团,团长免费,团员99元

团长、团员、非团员每邀请一位学员,返现11.88元 邀请卡1个月有效期,失效后可加微信:372335839, 备注"网课"

五人成团,团长免费 | Python网络爬虫与文本数据分析_第1张图片


你可能感兴趣的:(五人成团,团长免费 | Python网络爬虫与文本数据分析)