活用数据笔记2--数据分析底层逻辑

数据类读书笔记

  1. 必看的大数据思维
  2. 活用数据笔记1 – 营销业务数据分析概览
  3. 活用数据笔记2 – 数据分析底层逻辑
  4. 增长黑客笔记1:概览
  5. 增长黑客笔记2:方法论与底层逻辑

数据分析底层逻辑

1. 内容

关于数据分析的底层逻辑

  1. 数据分析思路过程,如何实现不重不漏的分析;
  2. 提升分析价值,使得分析不仅仅停留在数羊的水平,而是能够为企业的经营提供有价值的分析。

2. 数据分析思路:如何不重不漏?

数据分析思路是从研究目的到研究内容的分解过程,是对需求的细化。
开启分析思路的三种方法:学会提问、熟悉模型、掌握结构化思维。

表1:不重不漏的数据分析思路

方法 内容
学会提问:
发散思维寻找
要分析的关键内容
提问是开启分析思路的钥匙
(1)如果自己手里有资金会投资这个项目吗?如果投资会担心什么问题?所担心的问题就是要分析的内容。
(2)收益和风险(为什么投);
(3)对未来的现金流进行预测;
(4)公司内容介绍及其对项目的影响(所谓的企业基因);
(5)项目投资的机会窗口和环境等等。
熟悉模型 使用成熟的模型更容易做到不重不漏,例如构建用户满意度的RATER指数模型。没有成熟模型的话,可以通过下面四种逻辑线进行思考。
结构化思维整理分析
使分析不重不漏,有条理
(1)从时间角度分析用户购买和使用过程中的具体行为,用户行为五阶段理论;RATER指数模型属于空间结构分析。
(2)从空间角度分析用户行为构成要素,5W2H法。
(3)标准式演绎思维:大前提(共性或假设)、小前提(研究对象的个性)、结论(从共性原理或假设推出研究对象的判断);
常见式演绎思维:4W模式。
(4)重要性思维:好钢用在刀刃上。KANO模型

对表1中部分内容的补充说明:

  1. RATER指数模型:Reliability(信赖度)、Assurance(专业度)、Tangibles(有形度)、Responsiveness(反应度)
  2. 用户行为五阶段理论:
    3.5W2H法:时间(When)、地点(Where)、人物(Who)、事件(What)、原因(Why)、方式方法(How)、程度(How much);应用范围很广,不重不漏地考虑了用户行为的构成要素。其套在用户行为分析上,就是回答:谁, 在什么时间,在什么地点,购买什么东西,为什么买,如何买,买了多少、花了多少钱、买过多少次。
  3. 4W模式:what’s going on?(目前发生了什么?), why did this happen?(这件事为什么发生?), what lies ahead?(未来如何发展?), which course of action should I take?(如何应对?)
  4. KANO模型:我的理解是这样的:KANO模型是站在用户需求的视角上,研究产品性能和用户满意度之间的关系。其最大特色之处在于细分用户需求为五类(基本型需求、期望型需求、魅力型需求、无差异型需求、反向型需求),并且分配不同的权重来刻画每类需求对用户满意的影响水平。KANO模型的意义是使得企业对产品和服务质量的分析更具体,并且能够为企业的经营活动提供有价值的分析,例如,确保产品哪些方面的性能可以满足用户的基本需求;指导提升产品的哪些方面性能来满足用户的魅力型需求,从而提高用户的忠诚度等等;指导减少产品的哪方面性能的资源投入来降低对用户的无差异型需求的满足,从而为公司节约资源。
  5. 结构化思维中的时间、空间、演绎、重要性四条逻辑线常常会并行使用

3. 提升分析价值:为企业经营活动提供有价值的分析

表2:提升数据分析的价值

方法 子主题 内容
对比视角 纵向和横向对比 (1) 纵向对比,对比过去和现在,总结发展变化
(2)横向对比,和竞品对比,判断自己的优势和劣势。
指标对比:频数和均值 对问卷类反馈数据中的 类别数据或者区间数据进行频数或均值统计
对比的可信度 (1)时间上可比性:对比的对象在时间分布上要有可比性。对象的数据(如零售业)在时间上并不一定都是均匀分布的,所以任意时间为单位的同期对比不一定合理,通常零售业对比周期为一周,因为零售业每周具有明显的淡旺季,工作日淡季、双休日旺季。
(2) 空间上可比性,对比的对象要在空间上具有可比性,例子美国征兵用海军死亡率千分之九低于美国民众的死亡率千分之十六,以此证明参军安全。这两者死亡率在空间上没有可比性,因为老人和小孩子的死亡率比年轻人高得多,会把死亡率抬高。
(3)数量上可比性 对比指标要定量,而且要同量纲。也就是说定性的指标不可以进行数量对比,量纲不同的也不可以对比。在量纲不同方面的例子,公司员工工资和工龄哪个差异大?不可以直接对比工资和工龄的标准差,因为两者量纲不同(元,年),可以使用无量纲的变异系数对比(变异系数=标准差/均值)*100%
相关性视角 相关性分析用处1:
预测规模
例如,通过与产出正向相关的变量(技术、资本和劳动力)建立回归模型预测产出。这个模型就是道格拉斯生产函数。
相关性分析用处2:
精准营销
通过不同用户的颜色偏好的例子说明
(1)通过单因素方差分析(因素为性别,数据为用户颜色偏好),说明在颜色偏好上,不同性别这存在显著性差异;
(2) 如果方差分析证明在某个因素(这里是性别)上对用户偏好存在显著性差异,再通过交叉分析(行是性别, 列为颜色偏好)分析差异的内容(内容是男生偏好灰色,女生偏好黄、绿、橙和紫),最后针对不同性别给出不同的营销策略(针对男生主推灰色,女生主打黄、绿、橙和紫)。
分类视角 为什么要对客户进行分类 相比于针对单一个体的营销,针对群体营销的难度和强度都会大大降低。
分类的步骤和方法 (1)通过机器学习中的无监督的聚类方法实现对客户的分类。(这个分类不同于机器学习中的有监督分类,是和机器学习中的聚类相同的概念)
(2)除了聚类之外,SWOT分析法、矩阵分析、Graveyard模型和KANO模型都可以帮助分类用户。
描述视角 集中趋势和离中趋势 集中趋势由平均值刻画,离中趋势表示数据的波动情况,由标准差刻画。
个体波动的研究价值
(书中这部分描述的不是很全面,右面的是借助数据挖掘的方法对其进行补充)
这里对应的是异常检测问题:
常用的方法有统计学方法(书中只提到了这个部分的内容)、机器学习和数据挖掘的方法。
异常检测的应用:欺诈检测、入侵检测等。

表2的补充:

  1. 道格拉斯生产函数: y = A K α L β μ y=AK^{\alpha}L^{\beta}\mu y=AKαLβμ, 其中, A , K , L A,K,L A,K,L分别是技术、资本和劳动力, α \alpha α为资本弹性系数, β \beta β为劳动力弹性系数, μ \mu μ为随机干扰。
  2. 显著性检验:核心是 总的离差和=组间离差和+组内离差和。因为对分析的数据来说,总的离差和是固定的,如果组间离差和很大,则表明组间差异是造成数据总体差异的主要原因。反之,如果组间离差和很小,则表明组间差异不是造成数据总体差异的主要原因。而显著性水平 α \alpha α是组间差异影响水平的间接表示。最直接的表示是F统计量,显著性水平 α \alpha α与统计量F有联系。
  3. 如果显著性水平 0.01 < α ≤ 0.05 0.01<\alpha\leq0.05 0.01<α0.05,则说明组间因素的不同水平对总体有显著性影响。如果显著性水平 α ≤ 0.01 \alpha\leq 0.01 α0.01,则说明组间因素的不同水平对总体有极其显著性影响。

4.总节与思考

  1. 数据分析的开始阶段:此阶段目标是要分析得面面俱到。因为刚开始阶段所有因素的重要性都是不确定的,此时任何遗漏都很危险。为了实现这一目标,于是通过发散思维来确定要分析的内容,然后通过结构化思维来确保分析不重不漏。
  2. 数据分析的价值提升阶段:这一阶段的目标使得数据分析不能只停留在“数羊”的阶段,要使得数据分析具有指导企业经营活动的能力,尤其是要在公司有限的资源的状况下,获得最大的收益。该部分的四个视角正是为这一目标服务的。通过下面的例子来具体说明。
  3. 书中航空公司旅客满意度分析的例子:(1)小组座谈会头脑风暴发散思维,建立旅客对公司的满意度指标体系。通过问卷调研可以得到每个旅客对公司在这些指标上的打分情况,于是我们有了各个指标的满意度数据。(2)因为公司资源的有限,公司更倾向于关注那些会影响旅客满意度的重要指标。因此,通过第一部分中结构化思维中的重要性中的KANO模型对满意度指标体系进行分析,确定满意度指标体系中各个指标的优先级。这个部分是对比视角。(3) 至此有了满意度和重要性两个维度属性,综合利用这两个维度对满意度指标体系中的各个指标进行分类,可以通过四分图模型来刻画。这个就是分类视角。至此可以为航空公司提升满意度提供方向性指导。(4) 由表2可知,我们还可以通过描述性视角来进一步分析,通过旅客满意度均值表示不同站点的服务水平的高低,而标准差则代表不同站点的服务水平的稳定性。我们可以根据旅客满意度和推荐度之间的正相关关系来考察满意度情况。而对(推荐度,满意度)散点图中的离群数据的挖掘,可以分析其背后不满意的原因,这部分也是航空公司改进服务的方向之一。(5) 最后还有相关视角,由表2可知,相关分析主要是用于规模预测和精准营销。航空公司的旅客满意度调查不涉及市场规模预测,但是针对不同旅客开展精准营销是很有意义的。这部分的分析思路是这样的:通过分析旅客特征(性别地区等)和旅客满意度之间的相关性,找出与旅客满意度相关性最高的旅客特征具体是什么,并分析其背后的原因,然后针对符合这部分的特征的旅客展开精准营销。以是否对不同性别旅客就机上餐饮服务方面展开精准营销为例,首先,通过方差分析探讨不同性别的旅客对某项指标满意度(如对机上餐饮的满意度)的是否有显著性差异。假设有显著性差异,其次,再通过交叉分析,探讨显著性差异的内容(假设是相较于男性旅客,女性旅客对机上餐饮的要求更高),那么如果航空公司考虑提升机上餐饮的服务水平,则应该重点关注满足女性的旅客要求。综上四个视角,能够为航空公司提供更有价值的分析。
  4. 四分图模型:
活用数据笔记2--数据分析底层逻辑_第1张图片
图1 四分图模型
  1. 我认为KANO模型的逻辑本质是“分而治之”,即把一个问题分解为若干小型而独立的小问题。

参考

  1. 活用数据:驱动业务的数据分析实战(博文视点出品),陈哲 著, 电子工业出版社
  2. https://baike.baidu.com/item/KANO%20%E6%A8%A1%E5%9E%8B/19907824?fromtitle=kano%E6%A8%A1%E5%9E%8B&fromid=4708399
  3. https://baike.baidu.com/item/%E5%9B%9B%E5%88%86%E5%9B%BE%E6%A8%A1%E5%9E%8B/6081221

你可能感兴趣的:(数据类,数据分析,概率论,数据挖掘)