统计学中有很多常见的分布,在此对这些分布进行梳理。
若随机变量有n个不同值,具有相同概率,则我们称之为离散均匀分布,通常发生在我们不确定各种情况发生的机会,且认为每个机会都相等,例如:投掷骰子等.
离散型均匀分布
离散型均匀分布-维基百科
伯努利分布是二项分布在n=1时的特例。一次随机试验,成功概率为p,失败概率为q=1-p。
伯努利分布
二项分布是n重伯努利试验成功次数的离散概率分布。
二项分布的典型例子是扔硬币,硬币正面朝上概率为p, 重复扔n次硬币,k次为正面的概率即为一个二项分布概率。
二项分布
对N件产品(其中M件次品)进行不放回抽样,在n次抽样中抽到次品数X,服从超几何分布。
超几何分布
对N件产品(其中M件次品)进行不放回抽样,在n次抽样中抽到次品数X,X记首次成功的概率,服从几何分布。
几何分布
有些事件,我们可以预估这些事件的总数,但是没法知道具体的发生时间。
如,已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?
泊松分布
均匀分布是指闭区间 [a, b] 内的随机变量,且每一个变量出现的概率是相同的。
连续型均匀分布
指数分布是事件的时间间隔的概率。
如,婴儿出生的时间间隔。
指数分布
反应误差的最重要的分布,确定了均值和标准差就能确定一种正态分布。
当正态分布的均值为 0、方差为 1 的时候,它就是标准正态分布,这也是我们最常用的分布。
正态分布
t-分布(Student t-distribution)用于根据小样本来估计呈正态分布且变异数未知的总体,其平均值是多少。
t 分布的长尾占比更多,这意味着 t 分布更容易产生远离均值的样本。
学生t-分布
卡方分布(Chi-squared)可以理解为,k 个独立的标准正态分布变量的平方和服从自由度为 k 的卡方分布。
卡方分布
F分布是由2个卡方分布构造的,而卡方分布一般用于度量样本方差和误差之和。所以引出F分布的三个重要应用:两个正态总体的抽样分布、方差分析、回归分析。
数据统计基础之F分布及其应用
F分布及其分布
相当于平均值。
就是方差。
定义表示X, Y 相互关系的数字特征,即协方差。
cov(X, Y) = E(X-E(X))(Y-E(Y))。
当 cov(X, Y)>0时,表明 X与Y 正相关;
当 cov(X, Y)<0时,表明X与Y负相关;
当 cov(X, Y)=0时,表明X与Y不相关。
相关系数也可以看成协方差:剔除了两个变量量纲影响、标准化后的特殊协方差。
中位数,均值,众数
偏态系数
峰态系数
大数定律:如果实验次数足够大,样本均值就会趋近于总体的期望。
比如,我们投骰子,如果我们投100次,求出现的数的平均,我们觉得会差不多是(1+6)/2=3.5 因为我们按照期望计算,算出来就是3.5。
大数定律
当满足某些条件的时候,比如样本量比较大,采样次数区域无穷大的时候,样本均值就越接近正态分布。
中心极限定理
https://baijiahao.baidu.com/s?id=1645256431232755893&wfr=spider&for=pc
https://www.cnblogs.com/leezx/p/7340045.html