「曾哥读书」深入浅出数据分析

Head first系列的书向来是针对初学者快速入门,这本书也不例外。

但是本书的问题是只浅出,并没有深入。所以看起来很轻松,看完之后不了了之。

推荐指数:6.5颗星(本来是7颗星,糟糕的翻译和bug扣掉0.5颗星)

01 整体评价

本书多达430页,看完却只需要一两个小时,原因就是信息密度太小了,大量的插图和空白是本系列图书的惯有风格,这个可以理解,但是实际内容来说真的很入门又缺乏连贯性的框架。

深入浅出数据分析

所以,本书作为“浅出”的数据分析科普读物是可以的,如果真的想"深入",恐怕还得还得读点别的。

02 分章节评价

第1章讨论了数据分析的基本步骤:确定问题 - 分解 - 评估 - 决策。这个步骤在不同的书上有不同的说法,但是步骤是基本一致的,值得学习。

第2章介绍了实验的基本方法,简单来说,就是分成对照组和实验组,然后进行实验和分析。

第3章讨论了最优化,也就是多限制因素下如何寻找最大值。另外介绍了Solver这个工具,比较实用。

第4章是数据图形化,也就是俗称的可视化。包括散点图、多元图形等。顺便提一句,对这一块感兴趣的入门读者可以看看《Excel图表之道》这本书。

第5章是假设检验方法,注意不是统计学里面的假设检验。这里的假设检验其实是证伪法,简单来说就是提出假设然后寻找证据来一一排除这些假设,最终找出否定性最小的假设。

第6章是贝叶斯统计。贝叶斯和贝叶斯统计估计读者都听过了,这里不多说。

第7章介绍了主观概率,事实上就是首先把定性的概率转变成定量,然后通过第6章介绍的贝叶斯规则来修正。

第8章介绍了启发法(有点拗口),简单来说是第4章介绍的最优化方法比较难直接实现,那么通过启发法可以在直觉和最优化之间架起桥梁,使用决策树来实现。

第9章介绍了直方图:一种有效的探索性分析工具。另外介绍了R语言的入门使用。

第10章和11章分别是回归和误差,通过回归可以预测,但是要注意误差范围。

第12和13章介绍了数据库与数据整理,看看就好。

03 阅读顺序

除了第1章和倒数2章,其他各章基本上是平行的,所以看完第1章后,其他的就可以随意了。

但是我的建议是,对初学者来说,首先精读第1章,建立数据分析的思维方法。然后从第2章泛读至第11章即可,至于后面两章和附录可看可不看。

04 后话

本书罗列了各种分析方法,也用了一些简单的案例来运用这些方法,对初学者是非常友好的。但是看完本书,我有个感受是:我学了很多概念,但是到底什么情况下我应该用什么方法呢?这就是我前面提到的,本书缺少一个框架。对于初学者来说,可以花一两个小时翻一遍就好了,估计也不会看第二遍。

你可能感兴趣的:(「曾哥读书」深入浅出数据分析)