python金融数据分析与挖掘实战_[套装书]Python数据分析与挖掘实战(第2版)+Python金融大数据挖掘与分析全流程详解+Python金融数据分析(3册)...

---------------------------Python数据分析与挖掘实战(第2版)---------------------------

前言

基础篇

第1章 数据挖掘基础 2

1.1 某知名连锁餐饮企业的困惑 2

1.2 从餐饮服务到数据挖掘 4

1.3 数据挖掘的基本任务 5

1.4 数据挖掘建模过程 5

1.4.1 定义挖掘目标 6

1.4.2 数据取样 6

1.4.3 数据探索 7

1.4.4 数据预处理 8

1.4.5 挖掘建模 8

1.4.6 模型评价 8

1.5 常用数据挖掘建模工具 9

1.6 小结 11

第2章 Python数据分析简介 12

2.1 搭建Python开发平台 14

2.1.1 所要考虑的问题 14

2.1.2 基础平台的搭建 14

2.2 Python使用入门 16

2.2.1 运行方式 16

2.2.2 基本命令 17

2.2.3 数据结构 19

2.2.4 库的导入与添加 24

2.3 Python数据分析工具 26

2.3.1 NumPy 27

2.3.2 SciPy 28

2.3.3 Matplotlib 29

2.3.4 pandas 31

2.3.5 StatsModels 33

2.3.6 scikit-learn 33

2.3.7 Keras 34

2.3.8 Gensim 36

2.4 配套附件使用设置 37

2.5 小结 38

第3章 数据探索 39

3.1 数据质量分析 39

3.1.1 缺失值分析 40

3.1.2 异常值分析 40

3.1.3 一致性分析 44

3.2 数据特征分析 44

3.2.1 分布分析 44

3.2.2 对比分析 48

3.2.3 统计量分析 51

3.2.4 周期性分析 54

3.2.5 贡献度分析 55

3.2.6 相关性分析 58

3.3 Python主要数据探索函数 62

3.3.1 基本统计特征函数 62

3.3.2 拓展统计特征函数 66

3.3.3 统计绘图函数 67

3.4 小结 74

第4章 数据预处理 75

4.1 数据清洗 75

4.1.1 缺失值处理 75

4.1.2 异常值处理 80

4.2 数据集成 80

4.2.1 实体识别 81

4.2.2 冗余属性识别 81

4.2.3 数据变换 81

4.2.4 简单函数变换 81

4.2.5 规范化 82

4.2.6 连续属性离散化 84

4.2.7 属性构造 87

4.2.8 小波变换 88

4.3 数据归约 91

4.3.1 属性归约 91

4.3.2 数值归约 95

4.4 Python主要数据预处理函数 98

4.5 小结 101

第5章 挖掘建模 102

5.1 分类与预测 102

5.1.1 实现过程 103

5.1.2 常用的分类与预测算法 103

5.1.3 回归分析 104

5.1.4 决策树 108

5.1.5 人工神经网络 115

5.1.6 分类与预测算法评价 120

5.1.7 Python分类预测模型特点 125

5.2 聚类分析 125

5.2.1 常用聚类分析算法 126

5.2.2 K-Means聚类算法 127

5.2.3 聚类分析算法评价 132

5.2.4 Python主要聚类分析算法 133

5.3 关联规则 135

5.3.1 常用关联规则算法 136

5.3.2 Apriori算法 136

5.4 时序模式 142

5.4.1 时间序列算法 142

5.4.2 时间序列的预处理 143

5.4.3 平稳时间序列分析 145

5.4.4 非平稳时间序列分析 148

5.4.5 Python主要时序模式算法 156

5.5 离群点检测 159

5.5.1 离群点的成因及类型 160

5.5.2 离群点检测方法 160

5.5.3 基于模型的离群点检测方法 161

5.5.4 基于聚类的离群点检测方法 164

5.6 小结 167

实战篇

第6章 财政收入影响因素分析及预测 170

6.1 背景与挖掘目标 170

6.2 分析方法与过程 171

6.2.1 分析步骤与流程 172

6.2.2 数据探索分析 172

6.2.3 数据预处理 176

6.2.4 模型构建 178

6.3 上机实验 184

6.4 拓展思考 185

6.5 小结 186

第7章 航空公司客户价值分析 187

7.1 背景与挖掘目标 187

7.2 分析方法与过程 188

7.2.1 分析步骤与流程 189

7.2.2 数据探索分析 189

7.2.3 数据预处理 200

7.2.4 模型构建 207

7.2.5 模型应用 212

7.3 上机实验 214

7.4 拓展思考 215

7.5 小结 216

第8章 商品零售购物篮分析 217

8.1 背景与挖掘目标 217

8.2 分析方法与过程 218

8.2.1 数据探索分析 219

8.2.2 数据预处理 224

8.2.3 模型构建 226

8.3 上机实验 232

8.4 拓展思考 233

8.5 小结 233

第9章 基于水色图像的水质评价 234

9.1 背景与挖掘目标 234

9.2 分析方法与过程 235

9.2.1 分析步骤与流程 236

9.2.2 数据预处理 236

9.2.3 模型构建 240

9.2.4 水质评价 241

9.3 上机实验 242

9.4 拓展思考 242

9.5 小结 243

第10章 家用热水器用户行为分析与事件识别 244

10.1 背景与挖掘目标 244

10.2 分析方法与过程 245

10.2.1 数据探索分析 246

10.2.2 数据预处理 249

10.2.3 模型构建 260

10.2.4 模型检验 261

10.3 上机实验 262

10.4 拓展思考 264

10.5 小结 265

第11章 电子商务网站用户行为分析及服务推荐 266

11.1 背景与挖掘目标 266

11.2 分析方法与过程 267

11.2.1 分析步骤与流程 267

11.2.2 数据抽取 269

11.2.3 数据探索分析 270

11.2.4 数据预处理 279

11.2.5 构建智能推荐模型 283

11.3 上机实验 291

11.4 拓展思考 293

11.5 小结 293

第12章 电商产品评论数据情感分析 294

12.1 背景与挖掘目标 294

12.2 分析方法与过程 295

12.2.1 评论预处理 296

12.2.2 评论分词 297

12.2.3 构建模型 303

12.3 上机实验 315

12.4 拓展思考 316

12.5 小结 318

提高篇

第13章 基于Python引擎的开源数据挖掘建模平台(TipDM) 320

13.1 平台简介 321

13.1.1 模板 321

13.1.2 数据源 322

13.1.3 工程 323

13.1.4 系统组件 324

13.1.5 TipDM数据挖掘建模平台的本地化部署 326

13.2 快速构建数据挖掘工程 327

13.2.1 导入数据 329

13.2.2 配置输入源组件 331

13.2.3 配置缺失值处理组件 332

13.2.4 配置记录选择组件 334

13.2.5 配置数据标准化组件 334

13.2.6 配置K-Means组件 336

13.3 小结 339

---------------------------Python金融大数据挖掘与分析全流程详解---------------------------

前言

如何获取学习资源

第1章 Python基础

1.1 Python安装与第一个Python程序12

1.1.1 安装Python12

1.1.2 编写第一个Python程序13

1.1.3 PyCharm的安装与使用14

1.2 Python基础知识18

1.2.1 变量、行、缩进与注释18

1.2.2 数据类型:数字与字符串20

1.2.3 数据类型:列表与字典、元组与集合22

1.2.4 运算符27

1.3 Python语句29

1.3.1 if条件语句29

1.3.2 for循环语句30

1.3.3 while循环语句31

1.3.4 try/except异常处理语句32

1.4 函数与库33

1.4.1 函数的定义与调用33

1.4.2 函数的返回值与作用域34

1.4.3 常用基本函数介绍36

1.4.4 库38

第2章 金融数据挖掘之爬虫技术基础

2.1 爬虫技术基础1—网页结构基础41

2.1.1 查看网页源代码—F12键41

2.1.2 查看网页源代码—右键菜单43

2.1.3 网址构成及http与https协议44

2.1.4 网页结构初步了解44

2.2 爬虫技术基础2—网页结构进阶44

2.2.1 HTML基础知识1—我的第一个网页45

2.2.2 HTML基础知识2—基础结构45

2.2.3 HTML基础知识3—标题、段落、链接46

2.2.4 HTML基础知识4—区块49

2.2.5 HTML基础知识5—类与id49

2.3 初步实战—百度新闻源代码获取50

2.3.1 获取网页源代码51

2.3.2 分析网页源代码信息53

2.4 爬虫技术基础3—正则表达式54

2.4.1 正则表达式基础1—findall()函数54

2.4.2 正则表达式基础2—非贪婪匹配之(.*)55

2.4.3 正则表达式基础3—非贪婪匹配之.*57

2.4.4 正则表达式基础4—自动考虑换行的修饰符re.S60

2.4.5 正则表达式基础5—知识点补充61

第3章 金融数据挖掘案例实战1

3.1 提取百度新闻标题、网址、日期及来源63

3.1.1 获取网页源代码63

3.1.2 编写正则表达式提取新闻信息63

3.1.3 数据清洗并打印输出65

3.2 批量获取多家公司的百度新闻并生成数据报告68

3.2.1 批量爬取多家公司的百度新闻68

3.2.2 自动生成舆情数据报告文本文件69

3.3 异常处理及24小时实时数据挖掘实战71

3.3.1 异常处理实战72

3.3.2 24小时实时爬取实战72

3.4 按时间顺序爬取及批量爬取多页内容74

3.4.1 按时间顺序爬取百度新闻74

3.4.2 一次性批量爬取多页内容75

3.5 搜狗新闻与新浪财经数据挖掘实战78

3.5.1 搜狗新闻数据挖掘实战78

3.5.2 新浪财经数据挖掘实战82

第4章 数据库详解及实战

4.1 MySQL数据库简介及安装86

4.2 MySQL数据库基础89

4.2.1 MySQL数据库管理平台phpMyAdmin介绍89

4.2.2 创建数据库及数据表90

4.2.3 数据表基本操作92

4.3 Python与MySQL数据库的交互96

4.3.1 安装PyMySQL库96

4.3.2 用Python连接数据库96

4.3.3 用Python存储数据到数据库97

4.3.4 用Python在数据库中查找并提取数据101

4.3.5 用Python从数据库中删除数据102

4.4 案例实战:把金融数据存入数据库103

第5章 数据清洗优化及数据评分系统搭建

5.1 深度分析—数据去重及清洗优化105

5.1.1 数据去重105

5.1.2 常见的数据清洗手段及日期格式统一107

5.1.3 文本内容深度过滤—剔除噪声数据108

5.2 数据乱码的处理110

5.2.1 编码分析111

5.2.2 重新编码及解码112

5.2.3 解决乱码问题的经验方法114

5.3 舆情数据评分系统搭建115

5.3.1 舆情数据评分系统版本1—根据标题评分115

5.3.2 舆情数据评分系统版本2—根据正文内容评分117

5.3.3 舆情数据评分系统版本3—解决乱码问题118

5.3.4 舆情数据评分系统版本4—处理非相关信息119

5.4 完整的百度新闻数据挖掘系统搭建121

5.4.1 将舆情数据评分存入数据库121

5.4.2 百度新闻数据挖掘系统代码整合123

5.4.3 从数据库汇总每日评分127

第6章 数据分析利器:NumPy与pandas库

6.1 NumPy库基础129

6.1.1 NumPy库与数组129

6.1.2 创建数组的几种方式131

6.2 pandas库基础132

6.2.1 二维数据表格DataFrame的创建与索引的修改133

6.2.2 Excel工作簿等文件的读取和写入137

6.2.3 数据的读取与编辑139

6.2.4 数据表的拼接144

6.3 利用pandas库导出舆情数据评分147

6.3.1 汇总舆情数据评分148

6.3.2 导出舆情数据评分表格150

第7章 数据可视化与数据相关性分析

7.1 用Tushare库调取股价数据152

7.1.1 Tushare库的基本用法152

7.1.2 匹配舆情数据评分与股价数据154

7.2 舆情数据评分与股价数据的可视化155

7.2.1 数据可视化基础156

7.2.2 数据可视化实战160

7.3 舆情数据评分与股价数据相关性分析162

7.3.1 皮尔逊相关系数162

7.3.2 相关性分析实战164

第8章 金融数据挖掘之爬虫技术进阶

8.1 爬虫技术进阶1—IP代理简介165

8.1.1 IP代理的工作原理165

8.1.2 IP代理的使用方法166

8.2 爬虫技术进阶2—Selenium库详解169

8.2.1 网络数据挖掘的难点169

8.2.2 模拟浏览器ChromeDriver的下载与安装170

8.2.3 Selenium库的安装172

8.2.4 Selenium库的使用173

第9章 金融数据挖掘案例实战2

9.1 新浪财经股票实时数据挖掘实战180

9.1.1 获取网页源代码180

9.1.2 数据提取181

9.2 东方财富网数据挖掘实战182

9.2.1 获取网页源代码183

9.2.2 编写正则表达式提取数据183

9.2.3 数据清洗及打印输出185

9.2.4 函数定义及调用185

9.3 裁判文书网数据挖掘实战186

9.4 巨潮资讯网数据挖掘实战188

9.4.1 获取网页源代码189

9.4.2 编写正则表达式提取数据190

9.4.3 数据清洗及打印输出191

9.4.4 函数定义及调用191

第10章 通过PDF文本解析上市公司理财公告

10.1 PDF文件批量下载实战193

10.1.1 爬取多页内容193

10.1.2 自动筛选所需内容197

10.1.3 理财公告PDF文件的自动批量下载199

10.2 PDF文本解析基础203

10.2.1 用pdfplumber库提取文本内容203

10.2.2 用pdfplumber库提取表格内容204

10.3 PDF文本解析实战—寻找合适的理财公告206

10.3.1 遍历文件夹里所有的PDF文件207

10.3.2 批量解析每一个PDF文件209

10.3.3 将合格的PDF文件自动归档209

第11章 邮件提醒系统搭建

11.1 用Python自动发送邮件213

11.1.1 通过腾讯QQ邮箱发送邮件213

11.1.2 通过网易163邮箱发送邮件215

11.1.3 发送HTML格式的邮件216

11.1.4 发送邮件附件218

11.2 案例实战:定时发送数据分析报告221

11.2.1 用Python提取数据并发送数据分析报告邮件221

11.2.2 用Python实现每天定时发送邮件226

第12章 基于评级报告的投资决策分析

12.1 获取券商研报网站的表格数据229

12.1.1 表格数据的常规获取方法229

12.1.2 用Selenium库爬取和讯研报网表格数据232

12.2 pandas库的高阶用法235

12.2.1 重复值和缺失值处理235

12.2.2 用groupby()函数分组汇总数据238

12.2.3 用pandas库进行批量处理240

12.3 评估券商分析师预测准确度244

12.3.1 读取分析师评级报告数据进行数据预处理244

12.3.2 用Tushare库计算股票收益率247

12.3.3 计算平均收益率并进行分析师预测准确度排名251

12.4 策略延伸253

12.4.1 涨停板的考虑253

12.4.2 按分析师查看每只股票的收益率254

12.4.3 计算多阶段股票收益率255

第13章 用Python生成Word文档

13.1 用Python创建Word文档的基础知识257

13.1.1 初识python-docx库257

13.1.2 python-docx库的基本操作258

13.2 用Python创建Word文档的进阶知识261

13.2.1 设置中文字体261

13.2.2 在段落中新增文字261

13.2.3 设置字体大小及颜色262

13.2.4 设置段落格式264

13.2.5 设置表格样式267

13.2.6 设置图片样式268

13.3 案例实战:自动生成数据分析报告Word文档269

第14章 基于股票信息及其衍生变量的数据分析

14.1 策略基本思路274

14.2 获取股票基本信息及衍生变量数据275

14.2.1 获取股票基本信息数据275

14.2.2 获取股票衍生变量数据279

14.2.3 通过相关性分析选取合适的衍生变量282

14.2.4 数据表优化及代码汇总283

14.3 数据可视化呈现285

14.4 用xlwings库生成Excel工作簿287

14.4.1 xlwings库的基本用法287

14.4.2 案例实战:自动生成Excel工作簿报告290

14.5 策略深化思路292

第15章 云服务器部署实战

15.1 云服务器的购买与配置295

15.2 程序的云端部署298

15.2.1 安装运行程序所需的软件299

15.2.2 实现程序24小时不间断运行299

第16章 机器学习之客户违约预测模型搭建

16.1 机器学习在金融领域的应用300

16.2 决策树模型的基本原理300

16.2.1 决策树模型简介300

16.2.2 决策树模型的建树依据301

16.3 案例实战:客户违约预测模型搭建303

16.3.1 模型搭建303

16.3.2 模型预测及评估306

16.3.3 模型可视化呈现311

---------------------------Python金融数据分析---------------------------

前言

第1章Python在金融中的应用

11Python适合我吗

111免费+开源

112高级、强大、灵活的编程语言

113丰富的标准库

12面向对象编程与函数式编程

121面向对象式方法

122函数式方法

123我该使用哪种方法

13我该使用哪个版本的Python

14IPython简介

141安装IPython

142使用pip

143IPython Notebook

144Notebook单元格

145IPython Notebook简单的练习

146Notebook与金融

15总结

第2章金融中的线性问题

21资本资产定价模型与证券市场线

22套利定价模型

23因子模型的多元线性回归

24线性最优化

241安装PuLP

242一个简单的线性优化问题

243线性规划的结果

244整数规划

25使用矩阵解线性方程组

26LU分解

27Cholesky分解

28QR分解

29总结

第3章非线性与金融

31非线性建模

32非线性模型举例

321隐含波动率模型

322马尔可夫机制转换模型

323门限自回归模型

324平滑转换模型

33非线性模型求根算法概述

34增量法

35二分法

36牛顿迭代法

37割线法

38求根法的结合使用

39利用SciPy求解

391SciPy求根标量函数

392通用非线性求解器

310总结

第4章利用数值方法为衍生品定价

41什么是期权

42二叉树期权定价模型

421欧式期权定价

422编写StockOption类

423编写BinomialEuropeanOption类

424利用BinomialTreeOption类给美式期权定价

425CoxRossRubinstein模型

426LeisenReimer模型

43希腊值

44三叉树期权定价模型

45期权定价中的Lattice方法

451二叉树网格

452编写BinomialCRROption类

453三叉树网格

46有限差分法

461显式方法

462隐式方法

463CrankNicolson方法

464奇异障碍期权定价

465美式期权定价的有限差分

47隐含波动率模型

48总结

第5章利率及其衍生工具

51固定收益证券

52收益率曲线

53无息债券

54自助法构建收益率曲线

55远期利率

56计算到期收益率

57计算债券定价

58久期

59凸度

510短期利率模型

5101Vasicek模型

5102CoxIngersollRoss模型

5103Rendleman and Bartter模型

5104Brennan and Schwartz模型

511债券期权

5111可赎回债券

5112可回售债券

5113可转换债券

5114优先股

512可赎回债券定价

5121Vasicek模型定价无息债券

5122提前行权定价

5123有限差分策略迭代法

5124可赎回债券定价的其他影响因素

513总结

第6章利用Python分析欧洲斯托克 50指数波动率

61波动率指数衍生品

611STOXX与欧洲期货交易所

612EURO STOXX 50指数

613VSTOXX

614VIX

62获取EUROX STOXX 50指数和VSTOXX数据

63数据合并

64SX5E与V2TX的财务分析

65SX5E与V2TX的相关性

66计算VSTOXX子指数

661获取OESX数据

662计算VSTOXX子指数的公式

663VSTOXX子指数值的实现

664分析结果

67计算VSTOXX主指数

68总结

第7章大数据分析

71什么是大数据

72Hadoop

721HDFS

722YARN

723MapReduce

73大数据工具对我来说实用吗

74获取Apache Hadoop

741从Cloudera获取QuickStart VM

742获取VirtualBox

743在VirtualBox上运行Cloudera VM

75Hadoop中的字计数程序

751下载示例数据

752map程序

753reduce程序

754测试脚本

755在Hadoop上运行MapReduce

756使用Hue浏览HDFS

76Hadoop的金融实践

761从Yahoo! Finance获取IBM股票价格

762修改map程序

763使用IBM股票价格测试map程序

764运行MapReduce计算日内价格变化

765分析MapReduce结果

77NoSQL简介

771获取MongoDB

772创建数据目录并运行MongoDB

773获取PyMongo

774运行测试连接

775获取数据库

776获取集合

777插入文档

778获取单个文档

779删除文档

7710批量插入文档

7711统计集合文档

7712查找文档

7713文档排序

7714结论

78总结

第8章算法交易

81什么是算法交易

82带有公共API的交易平台列表

83有没有最好的编程语言

84系统功能

85通过Interactive Brokers和IbPy进行算法交易

851获取Interactive Brokers的Trader WorkStation

852获取IbPy——IB API包装器

853指令路由机制

86构建均值回归算法交易系统

861设置主程序

862处理事件

863实现均值回归算法

864跟踪头寸

87使用OANDA API进行外汇交易

871什么是REST

872设置OANDA账户

873OANDA API使用方法

874获取oandapy——OAND AREST API包装器

875获取并解析汇率数据

876发送指令

88构建趋势跟踪外汇交易平台

881设置主程序

882处理事件

883实现趋势跟踪算法

884跟踪头寸

89风险价值模型

810总结

第9章回溯测试

91回溯测试概述

911回溯测试的缺陷

912事件驱动回溯测试系统

92设计并实施回溯测试系统

921TickData类

922MarketData类

923MarketDataSource类

924Order类

925Position类

926Strategy类

927MeanReverting Strategy类

928Backtester类

929运行回溯测试系统

9210改进回溯测试系统

93回溯测试模型的10个注意事项

931模型的资源限制

932模型评价标准

933估计回溯测试参数的质量

934应对模型风险

935样本数据回测

936解决回溯测试的常见缺陷

937常识错误

938理解模型环境

939数据准确性

9310数据挖掘

94回溯测试中的算法选择

941k均值聚类算法

942KNN机器学习算法

943分类回归树分析

9442k析因设计

945遗传算法

95总结

第10章Python与Excel的融通

101COM概述

102Excel与金融

103构建COM服务器

1031先决条件

1032获取pythoncom模块

1033构建BlackScholes模型COM服务器

1034注册和注销COM服务器

1035构建CoxRossRubinstein模型COM服务器

1036构建三叉网格模型COM服务器

104在Excel中构建COM客户端

1041设置VBA代码

1042设置单元格

105COM的其他功能

106总结

你可能感兴趣的:(python金融数据分析与挖掘实战_[套装书]Python数据分析与挖掘实战(第2版)+Python金融大数据挖掘与分析全流程详解+Python金融数据分析(3册)...)