干货 :百度数据分析之道(PPT)

百度《数据分析之道》目录:

  • 什么是数据分析(道)

    –数据分析是什么?

    –什么是做好数据分析的关键?

    –分析要思考业务,尤其接地气

    –分析要言之有物,行之有效

  • 数据分析方法(术)

  • 常见统计陷阱


内容摘要:

1)数据分析是什么?

  • 字面拆解: 数据 + 分析

  • 有骨有肉方成一个人
    –分析是骨架(主)
    –数据是血肉(附)

  • 常见错误
    –只有数据:机器报表不行么?
    –只有分析:你是瞎猜的吧?


2)什么是做好数据分析的关键?

  • 数据分析的核心:思路 > 方法
    –思路:业务调研+逻辑思考+创新灵感+可行建议
    –方法:汇总统计,Make it Simple(切忌喧兵夺主)

  • 数据分析的价值与定位
    –百度的T序列不重视数据分析(数据分析的能力难以评价)
    –麦肯锡一个分析报告卖了上千万(仅有简单统计)
    –数据分析对一个企业有巨大价值,作用于业务发展的前(探索)期或阶段性改进期(颠覆创新),先有数据分析,才能定业务模型,再后是建模优化(机器学习)

  • 数据分析人才
    –同样的数据,仁者见仁智者见智,分析人才的不可复制性
    –做好数据分析的人不一定能当老大,但至少能当军师

干货 :百度数据分析之道(PPT)_第1张图片 
数据分析 之道


干货 :百度数据分析之道(PPT)_第2张图片 


干货 :百度数据分析之道(PPT)_第3张图片 
数据分析是什么?


字面拆解: 数据 + 分析
有骨有肉方成一个人
–分析是骨架(主)
–数据是血肉(附)
常见错误
–只有数据:机器报表不行么?
–只有分析:你是瞎猜的吧?


干货 :百度数据分析之道(PPT)_第4张图片 
什么是做好数据分析的关键?


数据分析的核心:思路 > 方法
–思路:业务调研+逻辑思考+创新灵感+可行建议
–方法:汇总统计,Make it Simple(切忌喧兵夺主)
数据分析的价值与定位
–百度的T序列不重视数据分析(数据分析的能力难以评价)
–麦肯锡一个分析报告卖了上千万(仅有简单统计)
–数据分析对一个企业有巨大价值,作用于业务发展的前(探索)期或阶段性改进期(颠覆创新),先有数据分析,才能定业务模型,再后是建模优化(机器学习)
数据分析人才
–同样的数据,仁者见仁智者见智,分析人才的不可复制性
–做好数据分析的人不一定能当老大,但至少能当军师


干货 :百度数据分析之道(PPT)_第5张图片 
分析要思考业务,尤其要接地气


数据分析要轻方法,重调研
–方法上,基本统计即可
–调研上,亲临一线去询问、了解实际情况,切近“数据空想”
–只有熟悉业务,才能提供有价值的分析和建议


干货 :百度数据分析之道(PPT)_第6张图片 
客户流失仅仅是推广效果不够理想吗?



干货 :百度数据分析之道(PPT)_第7张图片 
分析要言之有物,行之有效


数据分析,我们真的是仅仅想分析么? 价值
–分析报告的及格线是“言之有物” --- 事实
–优秀线是“振聋发聩”或“醍醐灌顶” --- 分析
–满分线是产生了切实有效的行动方案 --- 建议
分析实例:我们处于市场领先地位,针对次位的竞争对手近期发展进行数据分析
–及格线:竞争对手发展势头很猛,市场份额怎样变化
–优秀线:虽然竞争对手近期势头发展很猛,但实际上他突出的优势在X,劣势在Y,未来可能会采取什么行动,同时市场上的其它竞争对手也不容忽视
–满分线:针对于竞争对手的可能动作,我们有如下方面需要改进:加强优势A、B、C,与X达成进一步战略合作关系,并收购Y等等


干货 :百度数据分析之道(PPT)_第8张图片 


干货 :百度数据分析之道(PPT)_第9张图片 
汇总统计


起源:用单个数或者数的小集合捕获可能很大值集的各种特征
–频率度量:众数
–位置度量:均值和中位数
–散度度量:极差和方差
–数据分布:频率表、直方图
–多元汇总统计:相关矩阵、协方差矩阵


干货 :百度数据分析之道(PPT)_第10张图片 
汇总数据指标的设计,源于非常朴素的思想


标准差:想设计一个指标,可以用来衡量数据集合的发散性,经过如下思考
–每个样本的偏差累加就可以衡量 (real num - mean)加和
–偏差较大的值应该具有更大的权重 (real num - mean)^2
–集合中数字越多,方差越大,应该与集合大小无关 Mean((real num - mean)^2)
–量纲与原始数据不同,无法比 Sqrt(Mean((real num - mean)^2))
–最终结果,RMSE


干货 :百度数据分析之道(PPT)_第11张图片 
汇总统计 --- 需要多少样本


在美国总统选举的各种民意测验中,关于支持率的一个常用标准是置信度为95%(误差在+-2.5%以内,置信区间宽度为5%),那么要达到这样的标准需要多少人呢?


计算出N=1067,至少要一千个样本以上,才能满足需求
–Z0.025=1.96, 通过R语句 qnorm(0.025, low=F)得到
–n是样本数量,n越大,置信区间越小
–p是真实的概率,p=0.5时候,p(1-p)最小,所需n最大


干货 :百度数据分析之道(PPT)_第12张图片 
汇总统计 --- 细拆与汇总的权衡


在数据量充足的时候,加一些维度、拆的更细,使得每个小格里的样本更加类似,结论更加准确但数据不足或分拆未带来结论改变,就不能再拆,以免结果失去统计意义。


干货 :百度数据分析之道(PPT)_第13张图片 
OLAP 概念 --- 汇总统计的极致工具


干货 :百度数据分析之道(PPT)_第14张图片 
机器学习 --- 模型为什么work?


为什么存在实例“毛泽东抽烟比林彪不抽烟活的久”,还要劝人不要抽烟?
–概率分布问题,“人事”与“天命”
–虽然选择健康的生活方式(尽人事),我们也得听天命(自己是正态曲线的好尾巴,还是坏尾巴),但是天命整体分布可以变得更好(正态曲线的中轴向好的一面偏移)
如果没有附加的抽烟信息,如何从一组寿龄数据中作预测?
–目标:MSE做为评价指标,MSE越小越好
–方法:数据为正态分布的话,中位数(即波峰)做为预测值使得MSE最小
通过如上两点,证明抽烟信息对预测是有效的,如果一个人抽烟,那么我们预测他活到70岁,否则75岁
如果再多一个酗酒的信息呢?


干货 :百度数据分析之道(PPT)_第15张图片


干货 :百度数据分析之道(PPT)_第16张图片


干货 :百度数据分析之道(PPT)_第17张图片 
精心挑选的平均数


实例:小区业主申请减税 vs 卖房子
当数据分布呈现正态分布特点(钟形的曲线)时,均值、中位数、众数都落在相同的点上。而数据分布成有偏差的特征(类似于滑梯)时,那么均值、众数、中位数就相差甚远了。
以书思今,学以致用
–分布与平均数一样重要
–两个特例往往使得数据的统计结果产生很大的变化


干货 :百度数据分析之道(PPT)_第18张图片 
无所不能的图形


同样一份数据,2010年的前6个月,使用产品的客户数量由最初的2w,以每个月100个的速度增长。


干货 :百度数据分析之道(PPT)_第19张图片 
缺失或不匹配的比较


实例1(缺失的比较)
–临床显示,本药品在10分钟内可以杀死5w个感冒病毒
–数据因为缺失了比较对象,而毫无意义
实例2(不匹配的比较)
–美国海军的死亡率是0.9%, 而同时期纽约市民的死亡率是1.6%,得出结论参军是很安全的。
–比较对象不明确、或者根本不可比,也是常见的
以书思今,学以致用
–为什么评估策略效果要有对照组?


干货 :百度数据分析之道(PPT)_第20张图片 
偏差的抽样


实例
–10个硬币抛1000次,总会出现10个正面或9个正面的情况
–全国人民喜闻乐见油价上涨,水价听证会大家纷纷反馈价格上涨影响不大
–采用有偏差的样本,可以产生任何人需要的任何结果
在抽样统计的时候,要充分思考抽样的过程对样本造成了怎样的偏差,以及这个偏差对我们的结论有什么影响
以书思今,学以致用
–分层抽样


干货 :百度数据分析之道(PPT)_第21张图片 
挂羊头卖狗肉的推理


实例
–公司与工会发生了摩擦,于是公司进行了一项“调查”来统计多少职员对工会不满。公司公布了这样的结论:“大多数(78%)的职员反对工会,所以有必要取消工会。”
–360打官司老败诉,腾讯打官司总胜诉,周鸿祎:“真的是东方不败!与腾讯强大的法务相比,我们实力不济,自愧不如!”
最普遍的表现是将看上去极像,而完全不同的两件事混淆在一起,得出了似是而非的推理。
笑一下
–小品《卖拐》中“脚麻”的桥段


干货 :百度数据分析之道(PPT)_第22张图片


干货 :百度数据分析之道(PPT)_第23张图片


干货 :百度数据分析之道(PPT)_第24张图片


干货 :百度数据分析之道(PPT)_第25张图片


干货 :百度数据分析之道(PPT)_第26张图片


干货 :百度数据分析之道(PPT)_第27张图片


干货 :百度数据分析之道(PPT)_第28张图片

转自: Useit知识库;原文链接:http://www.useit.com.cn/thread-11532-1-1.html;

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。

END


关联阅读:

原创系列文章:

1:从0开始搭建自己的数据运营指标体系(概括篇)

2 :从0开始搭建自己的数据运营指标体系(定位篇)

3 :从0开始搭建自己的数据运营体系(业务理解篇)

4 :数据指标的构建流程与逻辑

5 :系列 :从数据指标到数据运营指标体系

6:   实战 :为自己的公号搭建一个数据运营指标体系

7:  从0开始搭建自己的数据运营指标体系(运营活动分析)

数据运营 关联文章阅读:  

运营入门,从0到1搭建数据分析知识体系    

推荐 :数据分析师与运营协作的9个好习惯

干货 :手把手教你搭建数据化用户运营体系

推荐 :最用心的运营数据指标解读

干货 : 如何构建数据运营指标体系

从零开始,构建数据化运营体系

干货 :解读产品、运营和数据三个基友关系

干货 :从0到1搭建数据运营体系

数据分析、数据产品 关联文章阅读:

干货 :数据分析团队的搭建和思考

关于用户画像那些事,看这一文章就够了

数据分析师必需具备的10种分析思维。

如何构建大数据层级体系,看这一文章就够了

干货 : 聚焦于用户行为分析的数据产品

如何构建大数据层级体系,看这一文章就够了

80%的运营注定了打杂?因为你没有搭建出一套有效的用户运营体系

从底层到应用,那些数据人的必备技能

读懂用户运营体系:用户分层和分群

做运营必须掌握的数据分析思维,你还敢说不会做数据

合作请加qq:365242293  


更多相关知识请回复:“ 月光宝盒 ”;

数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

干货 :百度数据分析之道(PPT)_第29张图片

你可能感兴趣的:(干货 :百度数据分析之道(PPT))