【数分】1. 常用的效应和定律

文章目录

    • 1. 马太效应
    • 2. 辛普森悖论
    • 3. 本福特定律
    • 4. 幸存者偏差
    • 5. 帕累托法则

1. 马太效应


马太效应,一种强者愈强、弱者愈弱的两极分化的现象

缺乏辩证思维

  1. 只看到事物发展的短期趋势,只反映了数量方面的变化,忽视了性质的变化,不能用于分析事物发展的长期趋势;事实上,在客观世界,任何事物都遵循发生-发展-成熟-衰老-灭亡的规律,没有什么是永远不变的。
  2. 不具备普遍意义,只是对短期趋势理论的一种假说,难以证明普遍的真理性。

场景示例:

推荐算法中,被判定为质量较好的用户所得到的资源就越多,这种情况也会形成反馈,得到的资源越多越会被判定为质量较好的用户,从而加剧这种效应。


2. 辛普森悖论


辛普森悖论,是概率和统计中的一种现象,其中趋势出现在几个维度的数据中,但当这些维度被合并后趋势消失或反转。

辛普森悖论更多的时候是从总体拆分到细项维度的时候发现的,而触发辛普森悖论,就是因为你选择了这个维度做拆分。所以,在数据分析中,对决策危害最大的错误就是:在分析的时候遗漏了关键的维度,而触发辛普森悖论的维度,恰恰是最不应该遗漏的!

所以,辛普森悖论的扩展定义可以归纳为:在增加了维度后使得数据结论反转的现象,均可称为是辛普森悖论现象。


场景示例:

在对数据的相关性、甚至因果性的分析时,线性回归分析是一个常用的手段。例如我们想知道客户端某个按钮的用户点击次数与客户端使用时长的关系(基于大家的业务认知,这个按钮对用户的时长是有比较明显的带动作用的)。

【数分】1. 常用的效应和定律_第1张图片
**这和业务认知是完全不符的!**问题出在哪儿呢?很简单,在进行相关性分析的时候,遗漏了关键的维度,要知道客户端的用户,活跃度是不一样的,有高活用户、中活用户、低活用户,而不同活跃度的用户,数据表现相差是很远的。所以,如果按照用户的活跃度(全勤、高活、中活、低活、超低活)分别来看的话,其实是这个样子的:

【数分】1. 常用的效应和定律_第2张图片


3. 本福特定律


本福德定律(也称为第一位数法或本福特分布)是一种概率分布,以1为首位数字的数(eg:12、135等)的出现概率约为总数的三成,本福特分布公式:
P ( d ) = l o g 10 ( 1 + 1 / d ) P(d)=log_{10}(1+1/d) P(d)=log10(1+1/d)

本福德定律是一种用途广泛的数据检验方法,通过自然生成的数字中1到9的使用频率对数据进行检验。如果你的数据具备一定规模没有人工设定的最大值和最小值,并且数据本身受人为因素影响较小,那么就可以使用本福德定律对数据进行检验,甄别数据是否经过人为修饰。
【数分】1. 常用的效应和定律_第3张图片
在大部分情况下,本福特定律可以适用于具有以下特征的数据:

  • 具有通过来自多个分布的数字的数学组合形成的值的数据。
  • 具有多种数字的数据,如具有数百,数千,数万等数值的数据。
  • 数据集相当大。
  • 数据是右倾斜的,即平均值大于中值,并且分布具有长的右尾而不是对称的。
  • 数据没有预定义的最大值或最小值(最小值为零)

场景示例:

本福特定律应用之甄别数据造假


4. 幸存者偏差


幸存者偏差用统计学的专业术语来解释是——“选择偏倚”,即我们在进行统计的时候忽略了样本的随机性和全面性,用局部样本代替了总体随机样本,从而对总体的描述出现偏倚。

互联网人如何避免幸存者偏差?

  • 判断样本的随机性,即必须知道样本是否是随机的。
  • 判断样本和剩余样本中会不会存在显著差异。
  • 分析剩余样本数据,验证结论。

场景示例——Facebook 视频广告案例

2016 年 9 月年 Facebook 关于视频广告数据偏差的问题变成了该公司广告历史上不大不小的负面新闻,Facebook 在其官方博客中承认:其提交给广告主的数据报告中,视频广告平均播放时长的数字只统计了那些播放时长超过 3 秒的播放行为,也就是说,如果视频播放没超过 3 秒,Facebook 居然就把它舍去了,很显然,广告主的平均播放时长被拉长了,因为播放时间短的压根不统计,而这一偏差居然存在了长达两年之久。


5. 帕累托法则


帕累托法则认为:原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡。一般来说,投入和努力可以分为两种不同的类型:多数,它们只能造成少许的影响; 少数,它们造成主要的、重大的影响。


场景示例
帕累托法则(Pareto Principle,80/20法则)

你可能感兴趣的:(数据分析进阶之路,数据分析)