前言
如何获取学习资源
第1章 Python基础
1.1 Python安装与第一个Python程序12
1.1.1 安装Python12
1.1.2 编写第一个Python程序13
1.1.3 PyCharm的安装与使用14
1.2 Python基础知识18
1.2.1 变量、行、缩进与注释18
1.2.2 数据类型:数字与字符串20
1.2.3 数据类型:列表与字典、元组与集合22
1.2.4 运算符27
1.3 Python语句29
1.3.1 if条件语句29
1.3.2 for循环语句30
1.3.3 while循环语句31
1.3.4 try/except异常处理语句32
1.4 函数与库33
1.4.1 函数的定义与调用33
1.4.2 函数的返回值与作用域34
1.4.3 常用基本函数介绍36
1.4.4 库38
第2章 金融数据挖掘之爬虫技术基础
2.1 爬虫技术基础1—网页结构基础41
2.1.1 查看网页源代码—F12键41
2.1.2 查看网页源代码—右键菜单43
2.1.3 网址构成及http与https协议44
2.1.4 网页结构初步了解44
2.2 爬虫技术基础2—网页结构进阶44
2.2.1 HTML基础知识1—我的第一个网页45
2.2.2 HTML基础知识2—基础结构45
2.2.3 HTML基础知识3—标题、段落、链接46
2.2.4 HTML基础知识4—区块49
2.2.5 HTML基础知识5—类与id49
2.3 初步实战—百度新闻源代码获取50
2.3.1 获取网页源代码51
2.3.2 分析网页源代码信息53
2.4 爬虫技术基础3—正则表达式54
2.4.1 正则表达式基础1—findall()函数54
2.4.2 正则表达式基础2—非贪婪匹配之(.*)55
2.4.3 正则表达式基础3—非贪婪匹配之.*57
2.4.4 正则表达式基础4—自动考虑换行的修饰符re.S60
2.4.5 正则表达式基础5—知识点补充61
第3章 金融数据挖掘案例实战1
3.1 提取百度新闻标题、网址、日期及来源63
3.1.1 获取网页源代码63
3.1.2 编写正则表达式提取新闻信息63
3.1.3 数据清洗并打印输出65
3.2 批量获取多家公司的百度新闻并生成数据报告68
3.2.1 批量爬取多家公司的百度新闻68
3.2.2 自动生成舆情数据报告文本文件69
3.3 异常处理及24小时实时数据挖掘实战71
3.3.1 异常处理实战72
3.3.2 24小时实时爬取实战72
3.4 按时间顺序爬取及批量爬取多页内容74
3.4.1 按时间顺序爬取百度新闻74
3.4.2 一次性批量爬取多页内容75
3.5 搜狗新闻与新浪财经数据挖掘实战78
3.5.1 搜狗新闻数据挖掘实战78
3.5.2 新浪财经数据挖掘实战82
第4章 数据库详解及实战
4.1 MySQL数据库简介及安装86
4.2 MySQL数据库基础89
4.2.1 MySQL数据库管理平台phpMyAdmin介绍89
4.2.2 创建数据库及数据表90
4.2.3 数据表基本操作92
4.3 Python与MySQL数据库的交互96
4.3.1 安装PyMySQL库96
4.3.2 用Python连接数据库96
4.3.3 用Python存储数据到数据库97
4.3.4 用Python在数据库中查找并提取数据101
4.3.5 用Python从数据库中删除数据102
4.4 案例实战:把金融数据存入数据库103
第5章 数据清洗优化及数据评分系统搭建
5.1 深度分析—数据去重及清洗优化105
5.1.1 数据去重105
5.1.2 常见的数据清洗手段及日期格式统一107
5.1.3 文本内容深度过滤—剔除噪声数据108
5.2 数据乱码的处理110
5.2.1 编码分析111
5.2.2 重新编码及解码112
5.2.3 解决乱码问题的经验方法114
5.3 舆情数据评分系统搭建115
5.3.1 舆情数据评分系统版本1—根据标题评分115
5.3.2 舆情数据评分系统版本2—根据正文内容评分117
5.3.3 舆情数据评分系统版本3—解决乱码问题118
5.3.4 舆情数据评分系统版本4—处理非相关信息119
5.4 完整的百度新闻数据挖掘系统搭建121
5.4.1 将舆情数据评分存入数据库121
5.4.2 百度新闻数据挖掘系统代码整合123
5.4.3 从数据库汇总每日评分127
第6章 数据分析利器:NumPy与pandas库
6.1 NumPy库基础129
6.1.1 NumPy库与数组129
6.1.2 创建数组的几种方式131
6.2 pandas库基础132
6.2.1 二维数据表格DataFrame的创建与索引的修改133
6.2.2 Excel工作簿等文件的读取和写入137
6.2.3 数据的读取与编辑139
6.2.4 数据表的拼接144
6.3 利用pandas库导出舆情数据评分147
6.3.1 汇总舆情数据评分148
6.3.2 导出舆情数据评分表格150
第7章 数据可视化与数据相关性分析
7.1 用Tushare库调取股价数据152
7.1.1 Tushare库的基本用法152
7.1.2 匹配舆情数据评分与股价数据154
7.2 舆情数据评分与股价数据的可视化155
7.2.1 数据可视化基础156
7.2.2 数据可视化实战160
7.3 舆情数据评分与股价数据相关性分析162
7.3.1 皮尔逊相关系数162
7.3.2 相关性分析实战164
第8章 金融数据挖掘之爬虫技术进阶
8.1 爬虫技术进阶1—IP代理简介165
8.1.1 IP代理的工作原理165
8.1.2 IP代理的使用方法166
8.2 爬虫技术进阶2—Selenium库详解169
8.2.1 网络数据挖掘的难点169
8.2.2 模拟浏览器ChromeDriver的下载与安装170
8.2.3 Selenium库的安装172
8.2.4 Selenium库的使用173
第9章 金融数据挖掘案例实战2
9.1 新浪财经股票实时数据挖掘实战180
9.1.1 获取网页源代码180
9.1.2 数据提取181
9.2 东方财富网数据挖掘实战182
9.2.1 获取网页源代码183
9.2.2 编写正则表达式提取数据183
9.2.3 数据清洗及打印输出185
9.2.4 函数定义及调用185
9.3 裁判文书网数据挖掘实战186
9.4 巨潮资讯网数据挖掘实战188
9.4.1 获取网页源代码189
9.4.2 编写正则表达式提取数据190
9.4.3 数据清洗及打印输出191
9.4.4 函数定义及调用191
第10章 通过PDF文本解析上市公司理财公告
10.1 PDF文件批量下载实战193
10.1.1 爬取多页内容193
10.1.2 自动筛选所需内容197
10.1.3 理财公告PDF文件的自动批量下载199
10.2 PDF文本解析基础203
10.2.1 用pdfplumber库提取文本内容203
10.2.2 用pdfplumber库提取表格内容204
10.3 PDF文本解析实战—寻找合适的理财公告206
10.3.1 遍历文件夹里所有的PDF文件207
10.3.2 批量解析每一个PDF文件209
10.3.3 将合格的PDF文件自动归档209
第11章 邮件提醒系统搭建
11.1 用Python自动发送邮件213
11.1.1 通过腾讯QQ邮箱发送邮件213
11.1.2 通过网易163邮箱发送邮件215
11.1.3 发送HTML格式的邮件216
11.1.4 发送邮件附件218
11.2 案例实战:定时发送数据分析报告221
11.2.1 用Python提取数据并发送数据分析报告邮件221
11.2.2 用Python实现每天定时发送邮件226
第12章 基于评级报告的投资决策分析
12.1 获取券商研报网站的表格数据229
12.1.1 表格数据的常规获取方法229
12.1.2 用Selenium库爬取和讯研报网表格数据232
12.2 pandas库的高阶用法235
12.2.1 重复值和缺失值处理235
12.2.2 用groupby()函数分组汇总数据238
12.2.3 用pandas库进行批量处理240
12.3 评估券商分析师预测准确度244
12.3.1 读取分析师评级报告数据进行数据预处理244
12.3.2 用Tushare库计算股票收益率247
12.3.3 计算平均收益率并进行分析师预测准确度排名251
12.4 策略延伸253
12.4.1 涨停板的考虑253
12.4.2 按分析师查看每只股票的收益率254
12.4.3 计算多阶段股票收益率255
第13章 用Python生成Word文档
13.1 用Python创建Word文档的基础知识257
13.1.1 初识python-docx库257
13.1.2 python-docx库的基本操作258
13.2 用Python创建Word文档的进阶知识261
13.2.1 设置中文字体261
13.2.2 在段落中新增文字261
13.2.3 设置字体大小及颜色262
13.2.4 设置段落格式264
13.2.5 设置表格样式267
13.2.6 设置图片样式268
13.3 案例实战:自动生成数据分析报告Word文档269
第14章 基于股票信息及其衍生变量的数据分析
14.1 策略基本思路274
14.2 获取股票基本信息及衍生变量数据275
14.2.1 获取股票基本信息数据275
14.2.2 获取股票衍生变量数据279
14.2.3 通过相关性分析选取合适的衍生变量282
14.2.4 数据表优化及代码汇总283
14.3 数据可视化呈现285
14.4 用xlwings库生成Excel工作簿287
14.4.1 xlwings库的基本用法287
14.4.2 案例实战:自动生成Excel工作簿报告290
14.5 策略深化思路292
第15章 云服务器部署实战
15.1 云服务器的购买与配置295
15.2 程序的云端部署298
15.2.1 安装运行程序所需的软件299
15.2.2 实现程序24小时不间断运行299
第16章 机器学习之客户违约预测模型搭建
16.1 机器学习在金融领域的应用300
16.2 决策树模型的基本原理300
16.2.1 决策树模型简介300
16.2.2 决策树模型的建树依据301
16.3 案例实战:客户违约预测模型搭建303
16.3.1 模型搭建303
16.3.2 模型预测及评估306
16.3.3 模型可视化呈现311