第一章:数据分析基本流程
1、确定问题——向客户提问确定需求
2、分解问题和数据,使其成为更小的组成部分——分析数据里面的信息,找到高效的比较因子
3、评估
4、决策
例如:acme化妆品公司分析报告
背景:貌洁超强保湿霜的客户是少女消费者(具体是11~15岁)。她们基本上是唯一的客户群。acme正在尝试增加用于扩展社交网络的广告费,但迄今为止,这个新做法是否成功尚未可知。我们看出产品在少女消费者中的销售潜力巨大。acme的竞争对手极为危险。
数据解说:2月份的销量与上年9月份相比略有增长,但仍属持平。销量与目标相去甚远,削减广告费用可能会印象acme的销售达标能力。降价看来无助于销量达标。
建议:销量相对目标下降可能与广告费相对从前的广告费下降有关。没有充分的证据让我们相信社交网络建设已如我们所愿取得成功,我将把广告费重新调整到9月的水平,看看少女消费者是否有反应。针对少女消费者做广告是让总销售额重新达到销售目标的手段。
要特别关注,客户给出的信息是否是正确的?从数据中能提炼哪些信息出来?这两者在某种程度上是否保持一定的一致性?
acme化妆品公司分析报告(第二次)
一开始,我试图想办法提高少女消费者市场的销量,因为我们相信这些消费者是貌洁保湿霜唯一的客户群。当我们发现少女消费着市场已经饱和后,我深入挖掘数据,寻找提高销量的源泉。在这个过程中,我改变了心智模型,结果表明热衷于使用貌洁的人比我们意识到的要多——尤其是上了年纪的男人。由于这个消费群并不宣扬自己对产品的热衷,我建议大幅度增加对这个群体的广告宣传,用更易被男性接收的特色销售同样的产品,这将提高销量。
acme貌洁保湿霜销量分析过程
1、确定——你收到首席执行官的论点和数据
2、分解——把手头的资料汇总为有用的格式
3、评估——比较汇总表中各个因素
4、决策——你提出提高对少女消费者时长的广告力度,这可能有助于销量回升
5、新的信息介入——这时,少女消费者市场报告让你的心智模型受到质疑
6、重新确定——你查看不确定范围,再重新调整问题
7、分解——搜集更多的貌洁保湿霜客户数据
8、评估——发现老年男子跻身貌洁消费群体
9、决策——你建议扩大老年男子市场
第二章:检验你的理论
1、务必使用比较法
2、好的实验总是有一个好的控制组(对照组),使分析师能够将检验情况与现状进行比较
3、注意混杂因素对结果的影响
4、混杂因素就是研究对象的个人差异,它不是你试图进行比较的因素,最终会导致分析结果的敏感度变差。
5、为了控制观察研究混杂因素,有时候,将数据拆分为更小的数据块是个好想法。这些小数据块更具同质性。
6、可以将大的地理区域分成小的地理区域,随机将这些微区域分进控制组合实验组
第三章:寻找最大值
Excel软件包solver可以帮助我们调整决策变量,找出解决方案和优化点,使我们最大限度地达到目标。
1、需要首先明确目标函数和约束条件,用约束条件求出可行区域
2、特别注意:约束条件中的“和”和“或”。如产量不会高于400只橡皮鸭和300条橡皮鱼,还是产量不会高于400只橡皮鸭或300条橡皮鱼。
3、特别注意:一切模型都是错误的,但其中一些是有用的(George Box)
4、solver求解出来的只是这个产能下,如果都能卖出去的话,能得到的最大利润。但实际上消费者对于产品的选择偏好,我们是不清楚的。
5、模型中没有任何因素表明人们真正会购买产品。实际人们的购买情况谁也不清楚,但是可以通过历史数据来近似预测各种产品的销量
6、所以需要增加一个新约束条件,用于估计某个月的橡皮鸭和橡皮鱼的最高销量,同时要假设下个月的销量仍然保持前几个月的销售趋势
第四章:数据图形化
1、数据表远非你所需
2、数据图形化的根本在于正确比较
3、体现数据——创建优秀数据图形的第一要务就是促使客户谨慎思考并制订正确决策,优秀的数据分析由始至终都离不开“用数据思考”
4、一个优秀的数据图形实例,需要展示数据,做了比较,展示多个变量,例如
5、使用散点图探索原因,最好用空心的散点图
散点图是探索性数据分析的奇妙工具,统计学家用这个术语描述在一组数据中寻找一些假设条件进行测试的活动
分析师喜欢用散点图发现因果关系,即一个变量影响另一个变量的关系
不必论证自变量是影响应变量的原因,因为我们终归是在探索数据,而原因正是我们的探索目标
6、如果一个图形能对三个以上变量进行比较,就是多元图形,再加上有效的比较是数据分析的基础。
7、同时展示多张图形,体现更多变量,这个图需要用R语言来绘制,例如
8、数据关系展示之后,如果想再探究原因,可以对提出的一些假设想法进行数据验证
第五章:假设检验
1、大量的收集信息
2、分析各种信息中的变量之间的关系,是正相关还是负相关
3、集合所有变量的关系,绘制一幅网络因果关系图
4、大胆提出几个备选方案
5、不要试图选出最合理的假设(满意法),只需剔除无法证实的假设——这就是假设检验的基础:证伪法
6、证违法结束后,对剩余的假设,进行评级,不利证据少的排在越前面
7、借助诊断性找出否定性最小的假设,无法一一剔除所有假设,但可以判定哪个假设最强
第六章:贝叶斯统计
1、条件概率:P(L|+)表示,以阳性实验结果为条件下,得蜥蜴流感的概率
2、基础概率:基础概率数据不一定在每种情况下都存在,但是假如确实有这个数据,而你却不用,那么你将毁于基础概率喵呜,及忽略事前数据并因此做出错误决策
3、P(A)=0,P(B|A)=P(AB)/P(A)
4、贝叶斯公式:P(L|+)=P(L)*P(+|L)/{P(L)*P(+|L)+P(~L)*P(+|~L)}
第七章:主观概率
1、主观概率:如果用一个数字形式的概率来表示自己对某事的确认程度,就是主观概率,主观概率体现专家信念。
2、让概率用词更精确,将这个概率用词量化为百分数:可能,极不可能,可能性更大,有可能,可能不,不可能,可能会,肯定,大有机会
3、然后用散点图来表示这些百分数,例如
4、如果想再清晰显示问题,可以考虑加入标准差。标准偏差度量的是典型的分析点与数据集平均值的差距。
5、在Excel中可以用STDEV(数据范围)函数来计算标准偏差,偏差越大分歧越大
6、如果出现了新的信息,需要重新计算主观概率,可以用贝叶斯规则来修正主观概率,因为已经有了基础概率,只需要让分析师们提供新条件下的条件概率,即可算出。
1)E:俄罗斯宣布他们将卖出油田;S1:俄罗斯将继续支持石油业
2)之前就已知,P(S1)和P(~S1)
3)只需要分析师再提供,P(E|S1)和P(E|~S1)
4)就可以通过贝叶斯公式求出P(S1|E)=P(S1)*P(E|S1)/{P(S1)*P(E|S1)+P(~S1)*P(E|~S1)}
5)再观察散点图的情况
第八章:启发法
1、总有一些数据渴望不可及,即时有所能及,最优化方法也往往艰深耗时。所幸,生活中的大部分世纪思维活动并非以最理性的方式展开,而是利用既不齐全也不确定的信息,凭经验进行处理,迅速做出决策。
2、太多的变量时,如果你打算选取一两个变量,然后根据这些变量对整个系统作出结论,据此来评价邋遢集的工作成效,这就是在使用启发法。
3、对于数据分析师来说,最优化可谓理想境界,要是所有的分析问题都能确定无疑地获得解答,可谓顺风顺水。然而,大多数思维活动都是启发式的。
4、快省数就是一种启发法,描述了处理有垃圾需要废弃这个问题的不同方式,规则很简单,如果旁边有垃圾箱,就把垃圾扔进垃圾箱,否则就等找到垃圾箱后再扔。例如
第九章:直方图
直方图很好地体现了平均值、中间值和标准偏差。通过观察直方图,虽然无法看出具体的数值,但可以形成对数字的感觉。
第十章:回归
1、可以用散点图来显示两种变量之间的关系
2、平均值图,是一种散点图,这种散点图显示出与X轴上的每个区间相对应的Y轴数值
3、可以在图山画出一条预测线,可以是线性的也可以是非线性的
4、只要能看出两个变量之间具有密切的关系,只要回归线有意义,你就可以充满信心地让软件计算各个系数。
第十一章:误差
1、预测的模型一定会有它的范围限定,超过这个范围就无法进行预测
2、机会误差=残差,无论你的回归分析是否无可挑剔,都免不了要进行这样那样的预测,这些预测很少不偏不倚,这种实际结果与预测结果之间的偏差就叫做机会误差。
3、指出误差并不意味着你的分析是错的,只能说明你对预测的真实程度无所隐瞒。你的客户越是理解你的预测,越是能根据做出正确的决策。
4、用均方根误差定量表示残差分布,均方根误差描述的是回归线周围的分布情况,假如根据要求值预测实际值的均方根误差为5%,那么典型的观察结果与回归方程预测出来的值可能偏离5%。
5、标准误差描述的是平均值周围的分布情况。
6、R的内部使用这个公式计算均方根误差:y的标准偏差*开根号(1-相关系数的平方)例如
7、算出均方根误差之后,是否有办法让误差更小?
8、可以将散点图分隔成不同取值区间进行观察。在回归线的不同区间内,均方根误差是否有差异?如图
9、分隔的根本目的是管理误差,将数据分拆为几个组,称为分隔。如果为几个分组分别创建预测模型,比单独使用一个模型,更能减小误差,则应进行分割
第十二章:关系数据库
1、数据库就是一系列相互有特定关系的数据
2、关系数据库管理系统(RDBMS)是最重要最有效的数据管理方法之一
3、RDBMS中的每一行都有一把要是,通常成为ID(标识),钥匙可以确保这些量化关系不被破坏。如图
4、可以用SQL(structured query language)结构化查询语言,是一种关系数据库检索方法。可以通过输入代码或使用能创建SQL代码的图形界面,令数据库回答你的SQL问题
第十三章:整理数据
1、Excel的分列,可以通过分隔符来分列
2、find——在单元格中的那个位置查找搜索字符串
3、left——取单元格左边的字符
4、right——取单元格右边的字符
5、trim——删除单元格中的空格
6、len——求单元格的长度
7、concatenate——取两个值,然后合并在一起
8、value——求以文本格式存储的数字的数值
9、substitute——以指定的新文本替代单元格中不需要的文本
10、处理数据中的重复值