随着物联网和云计算技术的兴起,大数据已成为为当今炙手可热的明星词汇。我国政府在“十三五”规划建议中提出:“实施国家大数据战略,推进数据资源开放共享”。著名咨询公司麦肯锡称:“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
大数据分析是实现大数据价值的关键环节,需要将大数据处理技术与数据分析、数据挖掘技术相结合。目前市面上有很多大数据分析或大数据挖掘的教材,这些教材大致可分为两类:第一类以讲解大数据分析的理论为主,而对大数据分析的编程实现讲述得少。由于大数据分析的模型复杂,如果不讲述编程实现,学生往往觉得将理论应用于实际问题时无从下手。另一类以讲解大数据分析的编程为主,由于对理论讲解过少,学生对程序往往很难理解,导致无法独立编写程序解决实际问题。
为了解决以上问题,并使大数据分析更加通俗易懂,本书将大数据分析的原理与编程实现融合在一起讲述。本书的特色是对每种数据分析算法都介绍使用Sklearn编写程序来实现,Sklearn库是一种高度封装好的机器学习算法库,所有的分类算法通常使用3-5行代码就能实现,具有简单易学的特点,通过学习Sklearn能够很好地加深对数据分析和机器学习概念和模型的理解,并且掌握Sklearn库是学生进一步学习TensorFlow深度学习算法库的基础,因此学习Sklearn库的编程能帮助学习机器学习的基本原理。
本书其他特色如下:
1)与传统数据分析主要方法是统计学理论不同,大数据分析主要依靠机器学习,因此本书对机器学习的原理和步骤进行了通俗的阐述,力图使学生理解机器学习的基本思想。
2)为了提高学生的学习兴趣,本书对所有Sklearn程序 均使用MatPlotLib库实现数据的可视化,这是具有实用价值的。
3)本书在叙述有关基本理论时,安排了大量的例题和程序,主要目的是通过例题让学生能够快速理解理论。通过程序加深对有关理论的理解,达到融会贯通的目的。
4)由于大数据分析离不开大数据处理的平台,本书在第一章对Hadoop生态系统进行了较为系统的介绍,特别是对Mapreduce并行编程框架做了实例讲解。
5)本书是微课版,对于教材中一些比较复杂的软件操作、和需要用动画才能描述清楚的算法步骤,本书提供了微课视频,扫相关内容旁边的二维码即可观看视频。
作者:唐四薪
出版社:机械工业出版社
出版时间:2021年6月
ISBN:9787111682509
定价:69
目 录
第1章 大数据分析概述... 1
1.1 大数据概述... 1
1.1.1 大数据的定义和特征... 1
1.1.2 大数据处理的过程... 2
1.1.3大数据的职业岗位... 3
1.2云计算——大数据的处理架构... 3
1.2.1 云计算的定义和特点... 4
1.2.2 云计算的体系结构... 5
1.2.3 云计算的分类... 6
1.2.4 虚拟化技术... 8
1.3 Hadoop大数据处理平台... 10
1.3.1 Hadoop的发展历史及版本... 11
1.3.2 HDFS文件系统的组成... 12
1.3.3 HDFS读取和写入文件... 14
1.3.4 MapReduce并行编程框架... 15
1.3.5 Yarn资源管理器... 19
1.3.6 Hadoop生态系统及其安装... 21
1.5 大数据分析概述... 23
1.5.1大数据分析的方法... 23
1.5.2 大数据分析的种类... 24
1.5.3 大数据分析的层次... 25
1.5.4 大数据分析的工具... 26
1.5.5 大数据分析面临的挑战... 27
1.5.6大数据分析的数据类型... 28
1.6 Nosql数据库... 29
习题... 31
实验... 33
第2章Python数据分析与可视化基础... 34
2.1 Python程序入门... 34
2.1.1 一些简单的Python程序... 34
2.1.2 序列数据结构... 36
2.1.3 序列处理函数... 38
2.1.4 函数和类... 39
2.2 Python数据分析工具... 42
2.2.1 Anaconda的使用... 42
2.2.2 Spyder集成开发环境... 42
2.2.3 Numpy库... 43
2.3 数据可视化——基于MatPlotLib库... 47
2.3.1绘制曲线图... 47
2.3.2绘制散点图等其他图形... 52
2.4 SciPy库... 56
2.5 Sklearn库... 59
2.5.1 机器学习的概念和方法... 59
2.5.2 样本及样本的划分... 61
2.5.3 导入或创建数据集... 64
2.5.4 数据预处理... 67
2.5.5 数据的降维... 70
2.5.6 调用机器学习模型... 72
习题... 73
实验... 74
第3章 关联规则与推荐算法... 75
3.1 关联规则挖掘... 75
3.1.1 基本概念... 75
3.1.2 Apriori算法... 77
3.1.3 Apriori算法的程序实现... 81
3.1.4 Fp-Growth算法... 82
3.2 推荐系统及算法... 85
3.2.1 协同过滤推荐算法... 86
3.2.2协同过滤推荐算法应用实例... 89
3.2.3推荐算法的MapReduce实现... 92
3.2.4协同过滤算法的Sklearn实现... 94
习题... 97
实验... 98
第4章 聚类算法及其应用... 99
4.1 聚类的原理与实现... 99
4.1.1 聚类的概念和类型... 99
4.1.2 如何度量距离... 99
4.1.3 聚类的基本步骤... 103
4.2 层次聚类算法... 106
4.2.1 层次聚类法举例... 106
4.2.2 层次聚类法Sklearn实现... 108
4.3 K-means聚类算法... 112
4.3.1 K-means聚类算法原理和实例... 112
4.3.2 K-means聚类算法的Sklearn实现... 117
4.4 K-medoids聚类算法... 119
4.4.1 K-medoids聚类算法原理和实例... 119
4.4.2 K-medoids聚类算法的Sklearn实现... 123
4.5 DBSCAN聚类算法... 124
4.5.1 DBSCAN聚类算法原理和实例... 124
4.5.2 DBSCAN聚类算法的Sklearn实现... 129
习题... 130
实验... 131
第5章 分类算法及其应用... 131
5.1 分类的基本原理... 131
5.1.1 分类与聚类的区别... 131
5.1.2 分类的步骤... 132
5.1.3 分类模型预测结果的评估... 134
5.1.4 Sklearn库的常用分类算法... 135
5.2 K-近邻分类算法... 135
5.2.1 K-近邻算法原理和实例... 136
5.2.2 Sklearn中分类模型的编程步骤... 139
5.2.3 K-近邻分类的Sklearn实现... 141
5.2.4 绘制分类边界图... 143
5.2.5 确定最优的k值... 145
5.3 朴素贝叶斯分类算法... 146
5.3.1 朴素贝叶斯原理与实例... 146
5.3.2 朴素贝叶斯分类的常见问题... 150
5.3.3 朴素贝叶斯算法的Sklearn实现... 152
5.4 决策树分类算法... 154
5.4.1 信息论基础... 155
5.4.2 ID3算法... 159
5.4.3 C4.5算法... 163
5.4.4 CART算法... 166
5.4.5决策树分类算法的Sklearn程序实现... 168
5.5 随机森林分类算法... 170
5.5.1 集成学习理论... 170
5.5.2 随机森林分类的理论与实例... 172
5.5.3 随机森林分类算法的Sklearn实现... 178
习题... 180
实验... 181
第6章 回归与逻辑回归... 182
6.1 线性回归... 182
6.1.1 相关与回归... 182
6.1.2线性回归分析... 183
6.1.3线性回归方程参数的求法... 184
6.1.4线性回归模型的Sklearn实现... 189
6.2 逻辑回归... 193
6.2.1线性分类模型的原理... 193
6.2.2 逻辑回归模型及实例... 195
6.2.3 逻辑回归模型的Sklearn实现... 198
习题... 203
实验... 203
第7章 人工神经网络... 204
7.1 神经元与感知机... 204
7.1.1 人工神经元与逻辑回归模型... 205
7.1.2 感知机模型... 205
7.1.3 感知机模型的Python实现... 207
7.1.4 多层感知机模型... 209
7.2 人工神经网络的核心要素... 212
7.2.1 神经元的激活函数... 212
7.2.2 损失函数... 213
7.2.3 网络结构... 215
7.2.4 反向传播... 216
7.2.5 人工神经网络的Sklearn实现... 218
7.3 深度学习与深度神经网络... 221
7.3.1 深度学习的概念和原理... 221
7.3.2 TensorFlow概述... 223
7.3.3卷积神经网络... 223
习题... 226
实验... 226
第8章 支持向量机... 227
8.1支持向量机的理论基础... 227
8.1.1支持向量的超平面... 227
8.1.2 SVM间隔及损失函数... 229
8.1.3 非线性SVM与核函数... 235
8.1.4 支持向量机分类的步骤... 236
8.2支持向量机的Sklearn实现... 237
8.2.1 绘制决策边界... 238
8.2.2 绘制SVM的分类界面... 239
8.2.3支持向量机参数对性能的影响... 240
习题... 246
实验... 246
参考文献... 246