数据挖掘04-常见数据分布

小白入门数据挖掘，从零开始，每周一更。

如果做n次伯努利试验，每次结果只有0，1两种结果
实际场景中，多次丢硬币，只有正面或者反面两个结果；工厂产品检测只有合格、不合格两个结果
应用条件
- 各观察单位只能具有相互对立的一种结果，如阳性或阴性，生存或死亡等，属于两分类资料
- 已知发生某一结果（阳性）的概率为π，其对立结果的概率为1-π，实际工作中要求π是从大量观察中获得比较稳定的数值
- n次试验在相同条件下进行，且各个观察单位的观察结果相互独立，即每个观察单位的观察结果不会影响到其他观察单位的结果。如要求疾病无传染性、无家族性等
公式

描述单位时间内随机事件发生的次数
实际场景中，某一服务设施在一定时间内到达的人数，电话交换机接到呼叫的次数，汽车站台的候客人数，机器出现的故障数，自然灾害发生的次数等等
案例：假设我们一个产品，统计用户性别比例男性占60%，假设有100个注册新用户，这100个注册用户，有1个为男的概率是多少？有两个为2男的概率是多少？有3个为男的概率是多少？依次下去，显然泊松分布也是离散型分布
再来一个案例:观测得到平均一小时通过的汽车数量时10，那么λ=10 ，那么平均每分钟通过汽车的数量为λ/n=10/60=1/6，所以在这段时间内，该随机事件（比如1小时经过3辆车的概率，将1小时划分为60分钟，要进行60次试验，发生3次通过）发生k次的概率服从二项分布。
应用条件
- 给定区域内的特定事件产生的次数，可以是根据时间，长度，面积来定义
- 各段相等区域内的特定事件产生的概率是一样的
- 各区域内，事件发生的概率是相互独立的
特点
- 当二项分布的n很大而p很小时，泊松分布可作为二项分布的近似，其中λ为np
- 如果n≥20且p≤0.05，用泊松分布近似二项分布的结果是良好的；
- 如果n≥100且p≤0.01，那么泊松分布近似二项分布的效果极好，两者的计算结果基本相同
公式

用一句话来说，beta分布可以看作一个概率的概率分布，当你不知道一个东西的具体概率是多少时，它可以给出了所有概率出现的可能性大小。
案例

现在有一个棒球运动员，我们希望能够预测他在这一赛季中的棒球击球率是多少。
你可能就会直接计算棒球击球率，用击中的数除以击球数，但是如果这个棒球运动员只打了一次，而且还命中了，那么他就击球率就是100%了，这显然是不合理的，因为根据棒球的历史信息，我们知道这个击球率应该是0.215到0.36之间才对啊。
对于这个问题，我们可以用一个二项分布表示（一系列成功或失败），一个最好的方法来表示这些经验（在统计中称为先验信息）就是用beta分布，这表示在我们没有看到这个运动员打球之前，我们就有了一个大概的范围。beta分布的定义域是(0,1)这就跟概率的范围是一样的。
详情参见大神文章

文章仅作为自己学习记录，内容来源于秦路老师的文章。

Day Day up !