《深入浅出数据分析》读书分享

这本书通过13个故事来讲述十三个数据分析的知识点,每个故事情节大同小异,一般是一家公司经营出现了问题,公司老板通过邮件告知数据分析师目前的问题是什么,有什么背景和条件,然后数据分析师进行数据分析输出建议。本书基本没有专业术语和概念,全书四五百页都用对话加插图的形式讲述,每章有问答和作业。如果不做书本中的那些作业,大概5到6个小时可以阅读完。

这本书主要有以下内容:

1.分解数据

数据分析的流程:确定问题,分解问题和数据(找出高效的比较因子),评估(核心是作出有效的比较),决策(作出自己明确的假设和结论);

统计模型决定于心智模型;

分析报告的组成:背景、数据解说、建议;

2.实验

比较法:最基本的原理;

观察研究法:精心选择分组,避免受到混杂因素的影响;

控制组:一组体现现状的处理对象,未经过任何新的处理;

历史控制法/同期控制法;

随机访谈:从对象池中随机选择对象是避免混杂因素的好办法;

3.最优化

将数据分组:无法控制因素\可控制因素;

转成目标函数、找出可行域、得出最大值;

Excel插件的使用:solver;

4.数据图形化

标签云:http://www.wondle.net;

散点图:寻找因果关系;

优秀的图形有利于思考;

5.回归预测

散点图在于寻找变量中的因果关系;

相关性:两种变量的线性关系;

系数r:衡量相关性的强弱;

相关性取决于实际经验判断;

6.假设检验

证伪:剔除无法证实的假设;

满意法:选出一个最可信的假设;(太主观)

证据诊断性能够帮忙评估假设相对强度;

7.贝叶斯统计

条件概率:以一件事的发生为前提另一件事发生的概率;

基础概率:已经知道的概率;

贝叶斯规则,在计算概率时需要将基础概率考虑在内;

8.主观概率

主观概率数据化有利于直观比较概率的大小;

标准偏差,度量分析点和平均值的偏差;

贝叶斯规则可以修正主观概率偏差;

9.启发法

凭借人类的天性做分析(其实就是人的直觉~);

快省树,固定模式访谈;

10.直方图

显示数据点在数值范围内的分布情况;

正态分布\高斯分布,只要峰的数量超过一个就不是正太分布;

11.误差

外插法:用回归方程预测数据范围外的值;

内插法:对数据范围内的值进行预测;

机会误差:实际结果与预测结果之间的偏差;

均方根误差来描述回归线的分布;

12.关系数据库

表格之间都有量化关系;

关系数据库管理系统(RDBMS);


以上是这本书主要的内容,看完这本书之后有一个很深的感受,太浪费纸张了!(心疼买书的钱~~)将近五百页厚厚的一本书,里面讲述的内容少得可怜,而且有些内容真的很浅,只有浅出没有深入。讲一个求最大值居然用了五六十页,实际内容就讲了高中数学中很基础的一个知识点线性规划求最值(高考试卷中最多放在大题的第二题~)。一个直方图也讲了几十页,中间穿插了很多用处不大的对话和情节。还有,没读这本书之前看到评论说这本书构思跌宕起伏,行文妙趣横生,但是我在阅读的过程中真没有感受到~~

不过这本书对于完全没有统计学基础的同学还是有一定作用的,里面讲了一些数据统计分析的基本套路和思维方法,有利于统计分析意识的建立。

综上,体验不达预期,不推荐。

你可能感兴趣的:(《深入浅出数据分析》读书分享)