《数据之魅:基于开源工具的数据分析》
基本信息
作者: (美)雅奈特(Janert, K. P.)
译者: 黄权 陆昌辉 邹雪梅 费柳凤
出版社:清华大学出版社
ISBN:9787302290988
上架时间:2012-7-11
出版日期:2012 年7月
开本:16开
页码:1
版次:1-1
所属分类: 计算机 > 计算机科学理论与基础知识 > 数值计算 > 综合
基本信息
作者: (美)雅奈特(Janert, K. P.)
译者: 黄权 陆昌辉 邹雪梅 费柳凤
出版社:清华大学出版社
ISBN:9787302290988
上架时间:2012-7-11
出版日期:2012 年7月
开本:16开
页码:1
版次:1-1
所属分类: 计算机 > 计算机科学理论与基础知识 > 数值计算 > 综合
更多关于 》》》《 数据之魅:基于开源工具的数据分析》
内容简介
书籍
计算机书籍
《数据之魅:基于开源工具的数据分析》结合作者多年来从事数据分析工作的丰富经验,阐述了数据分析所涉及的概念和方法。本书共四部分19 章,主题包括如何通过图表来观察数据,如何通过各种建模方法来分析数据,然后着重阐述如何进行数据挖掘,最后强调数据分析在商业和金融等领域的实际应用。本书包含大量的模拟过程及结果展示,并通过实例来阐述如何使用开源工具来进行数据分析。通过本书的阅读,读者可以清楚地了解这些方法的实际用法及用途。
《数据之魅:基于开源工具的数据分析》结构合理,通俗易懂,适合数据分析爱好者和从业者阅读,也适合以科学计算为工具的科研人员参考。同时,本书还适用于计算机科学、数学、工程技术和其他相关专业本科或研究生的数据分析课程,是一本不错的参考书。
目录
《数据之魅:基于开源工具的数据分析》
第1 章导论1
数据分析1
本书内容2
关于讲习班 3
关于数学4
需要具备的知识 6
本书不涉及的内容6
第ⅰ部分图表:观察数据
第2 章单一变量:形状和
分布 11
数据点和抖动图 12
直方图和核密度估计 14
直方图15
核密度估计 19
(选学)如何选择最优带宽 22
累积分布函数23
(选学)概率图分布和qq 图
分布的对比 25
秩序图和上升图 30
仅用于适当时机:汇总统计量
和箱形图 33
汇总统计量 33
box-and-whisker 图 36
(讲习班)numpy 38
numpy 实践 38
numpy 详解 41
扩展阅读 45
第3 章两个变量:建立关系 47
散点图 47
克服噪声:平滑 48
样条 50
loess51
示例 52
残差 54
其他观点及提醒55
对数图 57
倾斜 61
线性回归以及诸如此类的方法 62
描述重要信息 66
图形分析与图形演示68
(讲习班)matplotlib 69
交互式使用matplotlib 70
案例学习:matplotlib 与
loess73
控制属性 74
matplotlib 对象模型及结构 76
目录xii
零碎知识 77
扩展阅读 78
第4 章以时间为变量:
时序分析 79
示例 79
任务 83
需求和现实 84
平滑处理 84
移动平均法 85
指数平滑法 86
不要忽视显而易见的东西 90
相关函数 91
示例 92
实现上的问题 93
(选学)过滤器和卷积 95
(讲习班)scipy.signal 96
扩展阅读 98
第5 章多变量:图形的多变量
分析 99
假色图100
概览:多值图 105
散点图矩阵105
协作图 107
变种.108
组成问题.110
组成的改变110
多维组成:树形图和
马赛克图112
新颖的曲线类型116
标识符116
平行坐标图117
交互式探索120
查询和缩放121
连接和涂层121
大游览与投影寻踪121
工具.122
(讲习班)多变量图形工具123
r 123
实验工具124
python 的chaco 库124
扩展阅读.125
第6 章插曲:数据分析会话 127
数据分析会话127
(讲习班)gnuplot 软件136
扩展阅读.138
第ⅱ部分分析:数据建模
第7 章推算和粗略计算141
推算的原理 142
估计大小143
建立关联145
使用数字146
10 的幂146
小扰动147
对数.148
目录xiii
更多示例149
我所知道的一些常见事(物)
的相关数字151
这些数字是否足够好? 151
准备工作:可行性和成本 153
完成之后:引用和
呈现数字154
(选学)进一步探索摄动理论和
误差传播 155
误差传播156
(讲习班)gnu 科学库(gsl)158
扩展阅读 161
第8 章缩放参数模型.163
模型163
建模 164
模型的运用和误用 164
参数的缩放 165
缩放参数165
示例:维度参数 167
示例:优化问题 169
示例:成本模型 170
(选学)缩放参数与
量纲分析172
其他理论174
平均场近似 175
背景知识和其他示例176
常见的时间演变方案 178
无限增长和衰减现象178
约束增长:逻辑斯谛方程.180
振荡.181
案例学习:多少台服务器才是
最好的? .182
为什么要建模? 184
(讲习班)sage.184
扩展阅读.188
第9 章关于概率模型的讨论 191
9.1 二项分布和伯努利试验191
精确的结果192
利用伯努利试验建立平均场
模型194
9.2 高斯分布和中心极限定理195
中心极限定理.195
中心项与尾项.197
为什么高斯分布如此实用? 198
(选学)高斯积分.199
幂律分布和非常规统计学201
幂律分布的用法203
(选学)期望值为无限时的
分布204
接下来的研究.206
其他分布.206
几何分布207
泊松分布207
对数正态分布.209
特殊用途的分布211
目录xiv
(选学)案例学习——随时间变化的单
一访问者数量 211
(讲习班)幂律分布215
扩展阅读 219
第10 章你真正需要了解的
经典统计学知识221
起源221
统计学的定义 223
从统计学角度解释 226
示例:公式测验
vs 图解法 229
控制实验vs 观察研究 230
实验设计232
前景 234
(选学)贝叶斯统计——
另一种观点 235
用频率论来解释概率235
用贝叶斯方法来理解概率 236
贝叶斯数据分析: 一个实际有
效的例子238
贝叶斯推理:总结与讨论.241
(讲习班)r 语言243
扩展阅读.249
第11 章插叙:数学大搜捕——
大脚怪和最小二
乘等253
11.1 如何平均均值.253
辛普森(simpson)悖论.254
标准差.256
如何计算258
(选学)应该选择哪一个259
(选学)标准误差.259
最小二乘.260
统计参数估计.261
函数逼近263
扩展阅读.264
第ⅲ部分计算:数据挖掘
第12 章模拟267
热身问题 267
蒙特卡洛模拟 270
组合问题270
获得结果分布 272
优点和缺点275
重新采样方法 276
拔靴法 277
拔靴法适用于哪些情况?.278
拔靴变量280
(讲习班)simpy 离散事件模拟280
simpy 简介281
最简单的排队过程282
(选学)排队理论.285
运行simpy 模拟288
小结290
目录xv
扩展阅读 291
第13 章找出簇293
簇由什么组成? 293
一种不同的观点296
距离计算和相似度计算 298
常见的距离和相似度
计算方法300
聚类方法 304
中心探索法305
树形构造器307
邻居生长器309
前期处理和后期处理 311
规模的规范化 311
类的属性和评估 311
其他想法 314
具体案例:超市购物篮的
分析 316
提醒319
(讲习班)pycluster 和c 聚类库 320
扩展阅读 324
第14 章一木见林:
找出重要属性327
主成分分析法328
动机.328
(选学)理论330
解释.333
计算.334
实用观点335
双标图336
可视化技术337
多元尺度法338
网络图339
柯霍南图.339
(讲习班)用r 进行pca342
扩展阅读.348
线性代数349
第15 章插曲:当数据不成
比例地增长时351
一个真实的故事353
一些建议.354
map/reduce 如何356
(讲习班)生成排列357
扩展阅读.358
第ⅳ部分应用:数据的使用
第16 章报表、商务智能和
仪表板361
商务智能 362
报表 364
企业指标和仪表板 369
关于指标计划的建议370
数据的质量问题373
数据的可用性.373
数据的一致性.375
(讲习班)berkeley db 和sqlite .376
目录xvi
berkeley db 377
sqlite 379
扩展阅读 381
第17 章金融计算与建模383
货币的时间价值384
一次性支付:未来值和
现值 384
多笔付款:复利 386
复利的计算技巧 387
概览:现金流分析和
净现值 389
计划成本和机会成本中的
不确定性 391
用账户的期望值来考虑
不确定性391
机会成本393
成本概念及贬值394
直接成本和间接成本394
固定成本和可变成本396
资本开支与运营成本397
是否应该加以关注? 398
这些就是全部吗? 399
(讲习班)报纸经销商问题 400
(选学)精确解402
扩展阅读 403
报纸经销商问题 404
第18 章预测分析.405
预测分析的主题406
一些分类术语407
分类算法.408
基于实例的分类和最近邻
分类算法409
贝叶斯分类器.409
回归.413
支持向量机414
决策树和基于规则的
分类器416
其他分类算法.418
流程419
集成方法:bagging 和
boosting 419
估计预测误差.420
类不平衡问题.421
私家秘诀.423
统计学习的本质424
(讲习班)自己编写的两个
分类器.426
扩展阅读.431
第19 章结语:事实并非
现实433
附录a 科学计算与数据分析的
编程环境435
附录b 应用:微积分447
附录c 使用数据485
索引499
本 图书信息来源: 中国互动出版网
内容简介
书籍
计算机书籍
《数据之魅:基于开源工具的数据分析》结合作者多年来从事数据分析工作的丰富经验,阐述了数据分析所涉及的概念和方法。本书共四部分19 章,主题包括如何通过图表来观察数据,如何通过各种建模方法来分析数据,然后着重阐述如何进行数据挖掘,最后强调数据分析在商业和金融等领域的实际应用。本书包含大量的模拟过程及结果展示,并通过实例来阐述如何使用开源工具来进行数据分析。通过本书的阅读,读者可以清楚地了解这些方法的实际用法及用途。
《数据之魅:基于开源工具的数据分析》结构合理,通俗易懂,适合数据分析爱好者和从业者阅读,也适合以科学计算为工具的科研人员参考。同时,本书还适用于计算机科学、数学、工程技术和其他相关专业本科或研究生的数据分析课程,是一本不错的参考书。
目录
《数据之魅:基于开源工具的数据分析》
第1 章导论1
数据分析1
本书内容2
关于讲习班 3
关于数学4
需要具备的知识 6
本书不涉及的内容6
第ⅰ部分图表:观察数据
第2 章单一变量:形状和
分布 11
数据点和抖动图 12
直方图和核密度估计 14
直方图15
核密度估计 19
(选学)如何选择最优带宽 22
累积分布函数23
(选学)概率图分布和qq 图
分布的对比 25
秩序图和上升图 30
仅用于适当时机:汇总统计量
和箱形图 33
汇总统计量 33
box-and-whisker 图 36
(讲习班)numpy 38
numpy 实践 38
numpy 详解 41
扩展阅读 45
第3 章两个变量:建立关系 47
散点图 47
克服噪声:平滑 48
样条 50
loess51
示例 52
残差 54
其他观点及提醒55
对数图 57
倾斜 61
线性回归以及诸如此类的方法 62
描述重要信息 66
图形分析与图形演示68
(讲习班)matplotlib 69
交互式使用matplotlib 70
案例学习:matplotlib 与
loess73
控制属性 74
matplotlib 对象模型及结构 76
目录xii
零碎知识 77
扩展阅读 78
第4 章以时间为变量:
时序分析 79
示例 79
任务 83
需求和现实 84
平滑处理 84
移动平均法 85
指数平滑法 86
不要忽视显而易见的东西 90
相关函数 91
示例 92
实现上的问题 93
(选学)过滤器和卷积 95
(讲习班)scipy.signal 96
扩展阅读 98
第5 章多变量:图形的多变量
分析 99
假色图100
概览:多值图 105
散点图矩阵105
协作图 107
变种.108
组成问题.110
组成的改变110
多维组成:树形图和
马赛克图112
新颖的曲线类型116
标识符116
平行坐标图117
交互式探索120
查询和缩放121
连接和涂层121
大游览与投影寻踪121
工具.122
(讲习班)多变量图形工具123
r 123
实验工具124
python 的chaco 库124
扩展阅读.125
第6 章插曲:数据分析会话 127
数据分析会话127
(讲习班)gnuplot 软件136
扩展阅读.138
第ⅱ部分分析:数据建模
第7 章推算和粗略计算141
推算的原理 142
估计大小143
建立关联145
使用数字146
10 的幂146
小扰动147
对数.148
目录xiii
更多示例149
我所知道的一些常见事(物)
的相关数字151
这些数字是否足够好? 151
准备工作:可行性和成本 153
完成之后:引用和
呈现数字154
(选学)进一步探索摄动理论和
误差传播 155
误差传播156
(讲习班)gnu 科学库(gsl)158
扩展阅读 161
第8 章缩放参数模型.163
模型163
建模 164
模型的运用和误用 164
参数的缩放 165
缩放参数165
示例:维度参数 167
示例:优化问题 169
示例:成本模型 170
(选学)缩放参数与
量纲分析172
其他理论174
平均场近似 175
背景知识和其他示例176
常见的时间演变方案 178
无限增长和衰减现象178
约束增长:逻辑斯谛方程.180
振荡.181
案例学习:多少台服务器才是
最好的? .182
为什么要建模? 184
(讲习班)sage.184
扩展阅读.188
第9 章关于概率模型的讨论 191
9.1 二项分布和伯努利试验191
精确的结果192
利用伯努利试验建立平均场
模型194
9.2 高斯分布和中心极限定理195
中心极限定理.195
中心项与尾项.197
为什么高斯分布如此实用? 198
(选学)高斯积分.199
幂律分布和非常规统计学201
幂律分布的用法203
(选学)期望值为无限时的
分布204
接下来的研究.206
其他分布.206
几何分布207
泊松分布207
对数正态分布.209
特殊用途的分布211
目录xiv
(选学)案例学习——随时间变化的单
一访问者数量 211
(讲习班)幂律分布215
扩展阅读 219
第10 章你真正需要了解的
经典统计学知识221
起源221
统计学的定义 223
从统计学角度解释 226
示例:公式测验
vs 图解法 229
控制实验vs 观察研究 230
实验设计232
前景 234
(选学)贝叶斯统计——
另一种观点 235
用频率论来解释概率235
用贝叶斯方法来理解概率 236
贝叶斯数据分析: 一个实际有
效的例子238
贝叶斯推理:总结与讨论.241
(讲习班)r 语言243
扩展阅读.249
第11 章插叙:数学大搜捕——
大脚怪和最小二
乘等253
11.1 如何平均均值.253
辛普森(simpson)悖论.254
标准差.256
如何计算258
(选学)应该选择哪一个259
(选学)标准误差.259
最小二乘.260
统计参数估计.261
函数逼近263
扩展阅读.264
第ⅲ部分计算:数据挖掘
第12 章模拟267
热身问题 267
蒙特卡洛模拟 270
组合问题270
获得结果分布 272
优点和缺点275
重新采样方法 276
拔靴法 277
拔靴法适用于哪些情况?.278
拔靴变量280
(讲习班)simpy 离散事件模拟280
simpy 简介281
最简单的排队过程282
(选学)排队理论.285
运行simpy 模拟288
小结290
目录xv
扩展阅读 291
第13 章找出簇293
簇由什么组成? 293
一种不同的观点296
距离计算和相似度计算 298
常见的距离和相似度
计算方法300
聚类方法 304
中心探索法305
树形构造器307
邻居生长器309
前期处理和后期处理 311
规模的规范化 311
类的属性和评估 311
其他想法 314
具体案例:超市购物篮的
分析 316
提醒319
(讲习班)pycluster 和c 聚类库 320
扩展阅读 324
第14 章一木见林:
找出重要属性327
主成分分析法328
动机.328
(选学)理论330
解释.333
计算.334
实用观点335
双标图336
可视化技术337
多元尺度法338
网络图339
柯霍南图.339
(讲习班)用r 进行pca342
扩展阅读.348
线性代数349
第15 章插曲:当数据不成
比例地增长时351
一个真实的故事353
一些建议.354
map/reduce 如何356
(讲习班)生成排列357
扩展阅读.358
第ⅳ部分应用:数据的使用
第16 章报表、商务智能和
仪表板361
商务智能 362
报表 364
企业指标和仪表板 369
关于指标计划的建议370
数据的质量问题373
数据的可用性.373
数据的一致性.375
(讲习班)berkeley db 和sqlite .376
目录xvi
berkeley db 377
sqlite 379
扩展阅读 381
第17 章金融计算与建模383
货币的时间价值384
一次性支付:未来值和
现值 384
多笔付款:复利 386
复利的计算技巧 387
概览:现金流分析和
净现值 389
计划成本和机会成本中的
不确定性 391
用账户的期望值来考虑
不确定性391
机会成本393
成本概念及贬值394
直接成本和间接成本394
固定成本和可变成本396
资本开支与运营成本397
是否应该加以关注? 398
这些就是全部吗? 399
(讲习班)报纸经销商问题 400
(选学)精确解402
扩展阅读 403
报纸经销商问题 404
第18 章预测分析.405
预测分析的主题406
一些分类术语407
分类算法.408
基于实例的分类和最近邻
分类算法409
贝叶斯分类器.409
回归.413
支持向量机414
决策树和基于规则的
分类器416
其他分类算法.418
流程419
集成方法:bagging 和
boosting 419
估计预测误差.420
类不平衡问题.421
私家秘诀.423
统计学习的本质424
(讲习班)自己编写的两个
分类器.426
扩展阅读.431
第19 章结语:事实并非
现实433
附录a 科学计算与数据分析的
编程环境435
附录b 应用:微积分447
附录c 使用数据485
索引499
本 图书信息来源: 中国互动出版网