数据挖掘04-常见数据分布

小白入门数据挖掘,从零开始,每周一更


01 均匀分布

  • 均匀分布很好理解,随机取区间内的值X,每个值出现的概率相等

  • 实际应用场景没有找到,可能要到深入学习算法的时候才会用到。

  • 公式

  • 概率密度图如下

02 伯努利分布

  • 又称为“两点分布”,随机变量X取值只有0或1两个值

  • 实际场景中,试验一次的丢硬币是老掉牙的案例了。

  • 概率计算公式

  • 概率密度函数
  • 期望方差公式

03 二项分布

  • 如果做n次伯努利试验,每次结果只有0,1两种结果

  • 实际场景中,多次丢硬币,只有正面或者反面两个结果;工厂产品检测只有合格、不合格两个结果

  • 应用条件

    • 各观察单位只能具有相互对立的一种结果,如阳性或阴性,生存或死亡等,属于两分类资料
    • 已知发生某一结果(阳性)的概率为π,其对立结果的概率为1-π,实际工作中要求π是从大量观察中获得比较稳定的数值
    • n次试验在相同条件下进行,且各个观察单位的观察结果相互独立,即每个观察单位的观察结果不会影响到其他观察单位的结果。如要求疾病无传染性、无家族性等
  • 公式


04 泊松分布

  • 描述单位时间内随机事件发生的次数

  • 实际场景中,某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数等等

  • 案例:假设我们一个产品,统计用户性别比例男性占60%,假设有100个注册新用户,这100个注册用户,有1个为男的概率是多少?有两个为2男的概率是多少?有3个为男的概率是多少?依次下去,显然泊松分布也是离散型分布

  • 再来一个案例:观测得到平均一小时通过的汽车数量时10,那么λ=10 ,那么平均每分钟通过汽车的数量为λ/n=10/60=1/6,所以在这段时间内,该随机事件(比如1小时经过3辆车的概率,将1小时划分为60分钟,要进行60次试验,发生3次通过)发生k次的概率服从二项分布。

  • 应用条件

    • 给定区域内的特定事件产生的次数,可以是根据时间,长度,面积来定义
    • 各段相等区域内的特定事件产生的概率是一样的
    • 各区域内,事件发生的概率是相互独立的
  • 特点

    • 当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np
    • 如果n≥20且p≤0.05,用泊松分布近似二项分布的结果是良好的;
    • 如果n≥100且p≤0.01,那么泊松分布近似二项分布的效果极好,两者的计算结果基本相同
  • 公式


05 指数分布

  • 描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。

  • 某医院平均每小时出生3个婴儿,接下来15分钟有婴儿出生的概率是?

  • 与泊松分布的关系:泊松分布是单位时间内独立事件发生次数的概率分布,指数分布是独立事件的时间间隔的概率分布。

  • 公式


05 beta分布

  • 用一句话来说,beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能性大小。

  • 案例

    现在有一个棒球运动员,我们希望能够预测他在这一赛季中的棒球击球率是多少。
    你可能就会直接计算棒球击球率,用击中的数除以击球数,但是如果这个棒球运动员只打了一次,而且还命中了,那么他就击球率就是100%了,这显然是不合理的,因为根据棒球的历史信息,我们知道这个击球率应该是0.215到0.36之间才对啊。
    对于这个问题,我们可以用一个二项分布表示(一系列成功或失败),一个最好的方法来表示这些经验(在统计中称为先验信息)就是用beta分布,这表示在我们没有看到这个运动员打球之前,我们就有了一个大概的范围。beta分布的定义域是(0,1)这就跟概率的范围是一样的。

  • 详情参见大神文章


文章仅作为自己学习记录,内容来源于秦路老师的文章。

Day Day up !

你可能感兴趣的:(数据挖掘04-常见数据分布)