深入浅出数据分析 2018-12-16

未完待续。。。。。


一、序言(整体内容概括和总结)

        本书讲的主要是通过具体实例向我们展示了数据分析中的几种常见数据处理方法与其中的数据思维模式,由于配有实例应用,所以能够很好的理解书中所提到的思维方法与数据处理方式,更多的是教会我们在现实生活中碰到具体问题该如何去进行问题分解与数据搜集和分析;总体流程可以分为: 

深入浅出数据分析 2018-12-16_第1张图片
数据分析流程

“目标与计划” :分析问题,进行问题分解与猜想

“实验与数据收集”: 针对猜想和分解问题,设计合理实验,收集和整合历史数据所需数据等(主要是进行猜想的验证和尝试)

“结果分析与修正”:结果验证与分析,验证和修正猜想;通过不断加入实际过程的影响因素进行修正和优化

”可行性方案与建议“:不能够忘记数据分析的最终目的---解决问题而非进行数据描述(描述显现),需要针对问题提出具体的方案或者指导性意见;可通过数据分析可视化与图标方式进行分析过程给你与结论的展示;(字不如表,表不如图;一图胜千言)

“方案追踪”:需要进行持续追踪验证分析结论的可行性,可以通过目标客户的反馈以及相关指标重新调整与优化。

二、章节及其对应知识点回顾

1.数据分解(问题剖析)

案例:化妆品销量提升

关键点(知识点):针对数据分析并不只是简单的数据处理分析,也需要了解真实的业务流程


目标: 确定问题——销量提升,了解业务并将问题/需求进行分解。

了解业务: 进行询问,确定目标受众,了解客户的目标期望值;估算是否合理以及大致改善方向(以现有历史数据和客户的描述--主要受众是少女人群,近期的营销方式有广告和社会网络推广)

提出建议: 通过进行数据的比对与分析,进行数据解读——降价并不能带来销量的提升;由于中间过程中广告费与社会推广的费用比例调整;因此进行猜测尝试--更改销售方式。

跟踪效果,不断修正: 通过外部得知客户的产品在市场上是占有率很高而且好评如潮,因此对于广告推广已经足够完美,可能提高广告费用来促进产品销量并不能带来可观的效果;因此需要进行对原始数据信息进行重新评估;主要问题心智模式在作祟(你对外界的假设和你确信的观点就是你的心智模式),你在得到客户的信息后并没有进行验证分析,认为客户的认知与心智模式就是正确的市场现状。

由于外部现状发生改变需要针对其进行重新分析,跟踪产品的真实用户;发现潜在用户,进行销售计划的重新制定,并跟踪方案效果。

总结: 对于以后的数据分析过程中,需要调整自己的心智模式,尽量用辩证的态度去看待问题,对于数据与信息,在有条件的情况下需要进行验证。

2.对照试验(用事实说话)

案例: 咖啡业寒冬

关键点:什么样的数据能够成为你说服别人的可靠依据,如何进行合理的对照实验


目标:经济形势不好,找出咖啡销量下降的真正原因

提出建议:研究总体调研数据,发现客户对于咖啡价值评分有降低;而且存在区域因素影响;如何通过对比实现避免混杂因素对于实验结果的影响,需要通过地域划分,去除地域选址对于研究的影响,其次需要控制变量(减价/价值游说)和对照组来说明方案/计划的可行性/效果;

效果追踪: 超出前期的预估,通过时间轴的销量趋势线可以看出:产生销量提升的真实原因并不是减价促销,而是价值游说使得客户重返咖啡店。

总结: 对于方案计划/建议的实施过程中,需要尽可能的剔除混杂因素对于实验结果的影响,通过控制变量的方法,研究实验组与对照组的效果差异进行评判。当然这种情况是可以进行实验,而并非抉择性方案需要直接做出选择,现实生活中还是需要依照现状灵活应用。

3.最优化(最优化求解)

案例: 橡皮鸭与橡皮鱼

关键点: 需要明确知道求解目标和约束条件(只有知道约束条件才能确定求解域)


目标:有限的生产资源(人力和橡胶),通过以最小的生产成本获取最大的利润;

了解业务: 工厂的橡胶资源以及生产能力;单只成本/利润;

效果跟踪: 利润跌穿地板;原因:真实情况中并不像数学中的最优化求解那样,此种条件下理论中的最优解并没有反应出现时情况——销量首市场影响,市场会存在饱和;因此需要针对求解域进行重新调整,添加新的约束条件;

总结: 针对最优化求解,EXCEL中有“规划求解”可以帮我们快速解决;需要提供足够多的约束条件,可变变量,以及明确的优化目标函数。而且一般模型时效性较强,并不能一味,不加调整与优化的盲目使用,需要依照近期情况做出优化调整,也有可能需要重新定义约束求解阈值。

4.图形数据化(正确比较)

案例:网页设计方案的评估

关键点: 图形化的主要目的在于正确比较,美观并不是最主要的问题


目标:网络页面效果比对(直观明确)

建议/方案: 通过对比网页三个主要因素:浏览时间、浏览次数,回头率与营业额之间的关系,对于关系的表述与探究——使用散点图;并在散点图中增加期望值与真实的平均值标线,方便观察与对比。

效果追踪: 通过比对研究分析网页之间的差异,找出好的元素进行不断优化个改进,提高网页营销额。

总结: 模型是你对数据的认知,假设以及解释,可以通过图表等其他方式进行展现;当你描述你的数据图形时,需要论述可相互换用的两种因果模型或图解。

5.假设检验(伪证法,摆脱主管直觉的不确定)

案例: 手机皮肤方案的开展时机

关键点: 需要在种类繁多啊的建议与意见中选出最为合理的方案是件不容易的事;不过你需要知道那件是不对的却比较方便,从而一步步接近“正确”的方案;


目标: 通过已知信息,决断手机皮肤包的生产时间

提议方案:整合已知信息,通过变量之间的相互关系编制网络结构模型,找出有可能的几种猜测方案,然后通过手头信息进行假设检验,使用伪证法而非满意法进行假设剔除。可以减少主观因素对于结果的影响,伪证法还能够让人们对于各种假设更加敏锐,防止掉入认知陷阱。

总结: 可以通过关系网络模型来梳理对于问题的分析和整体把握,方便与后续的分析。

6. 贝叶斯统计(条件概率)

案例:老生常谈(经典案例)检测阳性而真正患病的概率

关键点: 明确基础概率以及条件概率,可以通过基础概率和相关关系推导得到不易观察的数据,做到明察秋毫。


目标: 检测呈阳性时患病的概率有多大?

方案: 在此之前我们需要了解明确,病征的基础概率,从而依照贝叶斯公式推导出自己想要的结果(贝叶斯是建立在条件概率的基础上);为了进一步确定自己是否患病,我们可以进行另一种可靠性更高的检测,然后继续使用贝叶斯公式进行推到,不过需要注意的是,使用时的基础概率需要更改,因为你通过第一次检测基础患病概率已经提升(异于常人,哈哈)

总结: 避免基础概率谬误唯一方法就是对基础概率提高警惕,务必将基础概率整合到分析中

7. 主观概率(标准偏差)

案例:油田抛售

关键点: 标准偏差量度分析点与平均值的偏差,贝叶斯是修正主观概率的好办法

由于在生活中,有很多事情需要我们针对已知信息进行加工从而产生结论,而对于最终意见汇总时,我们总是各抒己见。从而有可能会造成过多分歧,导致意见的不统一,决策无法制定。因此我们需要通过数字化猜测概率,从而寻找出真正的分歧点。(主观概率是对分歧内容与分歧大小的一种精确规范,可以通过主观概率来抓住问题的焦点)使用标准偏差表示人们对于一种观点的分歧程度,在图中的展现就是人们的主观概率是否集中在平均值附近,分歧越大数据的离散程度越明显。

然而现实生活中事情总是多变的,可能刚做完的决定在遇到新的信息时需要重新进行评估决策;不过我们可以通过贝叶斯进行主观概率的修正,只需要将新证据整合到针对假设检验的信念中。

8. 启发法(侧面体现目标度量)

案例: 并不能或成本较高的垃圾量度量(劳动成效的检测)

关键点:由于部分检测量量的计量成本较高,而且实际过程中的真实意义也远没有成本所付出的那么大,因此我们可以使用启发法从侧面描述问题体现出计划或方案的成效;

启发法是从直觉走向最优化的桥梁: 启发法:1.(心理学定义)用一种更便于理解的属性代替一种难以理解的,令人困惑的属性。2. (计算机定义)一种解决问题的方法,可能会得出正确答案,但不保证得出最优化答案。

9.直方图(简单,直白,高效)

案例:加薪计算器(1)

关键点: 度量数据的分布,差异,集中趋势;可以用于简单快速的进行数据的可视化描述;

10. 回归(预测分析,内插与外插)

案例: 加薪计算器(2)

关键点: 人们总是对未知充满好奇,通过已知的事实作为基础数据,通过观察分析+回归分析,可以帮助你进行预测某些未知值。 散点图(可与用来很好的用来体现两个变量之间的关系)

11. 误差(合理误差,误差范围)

案例: 加薪计算器(3)

关键点: 世界错综复杂,预测精度有失为常事,需要指出合理的误差范围——均方根误差等

12. 关系数据库(数据之间的关联)

案例:数据联邦新闻

关键点: 明确表格之间的相互关系,有必要的话进行比较各种关系,确定比较好的模式以及关系路线,放此案后续数据的查询以及数据分析

13. 整理数据(数据清洗)

案例:

关键点:

你可能感兴趣的:(深入浅出数据分析 2018-12-16)