《深入浅出数据分析》笔记

全书一共13章：1.数据分析引言：分解数据 2.实验：检验你的理论 3.最优化：寻找最大值 4.数据图形化：图形让你更精明 5.假设检验：假设并非如此 6.贝叶斯统计：穿越第一关 7.主观概率：信念数字化 8.启发法：凭人类的天性作分析 9.直方图：数字的形状 10.回归：预测 11.误差：合理误差 12.相关数据库：你能关联吗？ 13.整理数据：井然有序

一、数据分析引言：分解数据

1.固定基本流程：确定→分解→评估→决策 {这个过程需要循环迭代}

2.尽量从客户那里多了解一些信息，才能确定问题 (你的客户可能是上司，CEO，本人)

3.将大问题划分为小问题将问题划分为可管理、可解决的组块

@提问的艺术：例：您希望产量提高多少？您觉得我们怎样才能办到呢？您觉得销量提高多少是可行的？目标销量合理吗？我们的竞争对手销量如何？广告和社交网络营销预算是怎么回事？

@回答提问的言论也许会给出重要的基准假设——它们是分析的基础

4.评估分解组块的关键就是比较比较客户确信无疑的观点和你对数据的想法

5.数据分析师的职责：让自己和客户仔细研究你对数据的评估，洞察先机，从而有能力作出更好的决策（确保自己的意见传达到位）

6.数据分析报告经典格式：背景、数据解说、建议

7.心智模型——你对外界的假设和你确信的观点 （务必尽量明确你的心智模型）

8.统计模型取决于心智模型（你无法看到一切，因此你的大脑必须做出选择，以便集中注意力，这就是所谓的心智模型大大决定观察结果）心智模型应当包括你不了解的因素——不确定因素 {虽让人不爽，但回报显著，这种“反查”方法会揭示未知信息。数据分析也是如此，了解自己的知识缺陷非常重要}

@提问的艺术：关于XX的销售情况，你觉得自己在哪方面最缺乏了解？关于广告对提高销量的贡献，你有多少信心？除了少女消费者，还有谁可能会买这些产品？有没有我该知道的其他难以排解的不确定因素？ {CEO承认自己有所不知}

二、实验：检验你的理论

1.一个好实验能让你摆脱对观察数据的无限依赖，能帮助你理清2因果联系。可靠的实证数据将让你的分析判断更有说服力

2.务必使用比较法——统计与分析最基本的原理之一（数据只有通过互相比较才有意义。比较越多，分析结果越正确）

3.观察研究法——被研究的人自行决定自己属于哪个群体的一种研究方法 {局限性：只是理论上的判断、应当假定其他因素会混杂你的结论}

4.当你开始怀疑因果关系的走向时，请进行反向思考，看看结果怎么样

5.有时候一线人员的直觉比统计数据更能说明问题

6.混杂因素——研究对象的个人差异（实验照样会毁于混杂因素）

7.控制组——一组体现现状的处理对象，未经过任何新的处理（也称对照组）无控制组意味着没有比较，没有比较就意味着无法对所发生的情况进行判断

8.随机控制是各种实验的黄金标准。随机控制实验能让你最大限度地接近数据分析的核心：证明因果关系

三、最优化：寻找最大值

@你需要哪些数据才能解决这个问题？（最好能知道约束这个问题的其他因素）

1.可将所需的数据分为两类：无法控制的因素，可以控制的因素 （决策变量是你能控制的因素）

2.任何最优化问题都有一些约束条件和一个目标函数

3.一切模型都是错误的，但其中一些是有用的

4.你的假设立足于不断变化的实际情况

四、数据图形化：图形让你更精明

1.体现数据（创建优秀数据图形的第一要务就是促使客户谨慎思考并制定正确决策）

2.数据图形化的根本在于正确比较

3.散点图是探索性数据分析的奇妙工具（分析师喜欢用散点图发现因果关系）

4.尽量让图形多元化（最有可能促成最有效的比较）

5.当你描述你的数据图形时，需要论述可相互换用的两种因果模型或图解

五、假设检验：假设并非如此

1.证伪法（更可靠）（让人们对各种假设感觉更敏锐）（假设检验的核心是证伪）

2.变量之间可以正相关，也可以负相关 {利用变量的这些关系建立一个更大的模型}

3.现实世界中的各种原因呈网络关系，而非线性关系（线性等于直觉）

4.满意法——选出看上去最可信的第一个假设的做法 （别用满意法）

@如何在剩下的三个假设中做出选择？稍等，把看上去最强的假设排在最前面会有风险吧，这不是变成用满意法选出我们喜欢的假设，而不是选出具有最强证据支持的假设？

5.只要是通过观察诊断性对证据和假设进行比较，就不会如此（只要证据能够帮助你按照强弱程度对假设进行排列，它就具有诊断性）借助诊断性找出否定性最小的假设（无法一一剔除所有假设，但可以判定哪个假设最强）{要是没有更多信息，这个假设就是你最好的选择}

六、贝叶斯统计：穿越第一关

1.贝叶斯规则（能帮你利用基础概率和波动数据做到明察秋毫）

2.用简单的整数思考复杂的概率 {真阳、假阴、真阴、假阳}

七、主观概率：信念数字化

1.主观概率——用一个数字形式的概率来表示自己对某事的确认程度

2.标准偏差量度分析点与平均值的偏差（标准偏差的单位取决于测量单位）

3.贝叶斯规则是修正主观概率的好办法（根本在于找出在假设成立的条件下，证据出现的概率）

八、启发法：凭人类的天性作分析

{任何数据分析都是有代价的，具体到模型（约束条件、决策变量）就是数据的获取往往是有代价的}

{启发法很好的解决了数据获取代价和收益平衡的问题，通过选取一两个变量，通过这些变量对整个系统/模型分析得出结论}

启发法是从直觉走向最优化的桥梁，通常直觉分析中我们只看到一个选项，通过启发法我们可以看到多个选项，并可能获取最优答案（所有可选答案）。

启发法 1.（心理学定义）用一种便于理解的属性代替一种难解的、令人困惑的属性）

2.（计算机科学定义）解决问题的方法，可能会得出正确答案，但不保证得出最优化答案

{在解决复杂或者模糊问题时可以大大提高我们处理的效率}

九、直方图：数字的形状

{直方图是一个很好的观察数据分布、差异、集中趋势等的工具}

十、回归：预测

1.回归线——最准确地贯穿平均值图中的各个点的直线（回归线对于具有线性相关特点的数据很有用）

十一、误差：合理误差

1.机会误差——实际结果与模型预测结果之间的偏差（又称残差）

2.定量地指定误差（残差分布）

3.优秀的回归分析兼具解释功能和预测功能

{ 回归模型有适用的数据范围，如果超出范围进行预测（外插法）往往失准

回归模型中存在残差，通常我们有均方根误差进行计量（残差的标准差）

回归模型的合理分拆，有助于减少误差实现更准确的预测 }

十二、相关数据库：你能关联吗？

1.关系数据库管理系统让多变量数据的存储和检索变得极其简单

十三、整理数据：井然有序

{数据分析过程中耗时最长的往往是数据整理、清洗。

在数据整理的过程中，我们一定要明确目标（输出格式），基于目标进行原始数据和目标数

据的映射匹配。}