零碎知识——统计相关

文章目录

    • 1. 贝叶斯估计与最大后验概率估计?
    • 2. 极大似然估计?
    • 3. 协方差与相关系数?标准差与标准误?
    • 4. 怎么从很大的样本池中抽样?
    • 5. 均值和中位数?
    • 6. 辛普森悖论?
    • 7. 假设检验?
    • 8. 非参数置信区间?给定1000个样本,如何估计标准差?
    • 9. 无偏估计和相合估计?
    • 10. 泊松分布?

1. 贝叶斯估计与最大后验概率估计?

贝叶斯估计属于贝叶斯学派,其和频率学派最大的不同就是贝叶斯学派认为参数的真值是不固定的,是随机的,而频率学派则认为参数是固定的常数,只是未知。

贝叶斯估计就是利用参数的先验概率,结合当前样本,来计算参数的后验概率,后验概率就是基于样本,修正原来的先验概率后所获得的更接近实际情况的概率估计,从而估计参数。

如果把先验概率看作原因,当前样本看作结果,那么后验概率就是由结果推原因。
先验概率,是根据以往经验和分析得到的概率,后验概率正比于先验概率乘以似然函数,即P(A | B) = P(A) P(B | A)/P(B),P(B)为归一化因子。

最大后验概率估计是估计出参数的值,即通过令后验概率最大得到参数的值。

最大后验概率估计的求解步骤:
1.确定参数的先验分布以及似然函数
2.确定参数的后验分布函数
3.将后验分布函数转换为对数函数
4.求对数函数的最大值(求导,解方程)

贝叶斯估计并不是估计参数的某个值,而是估计参数的分布。

2. 极大似然估计?

极大似然估计是频率学派的代表,和贝叶斯学派不同,频率学派认为未知参数是固定的参数,只是未知而已。所以,极大似然估计是基于参数固定且未知进行分析的。

极大似然估计的基本思想是 认为概率最大的事情最有可能发生。即当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。

所以极大似然估计通过极大化样本的似然函数求解。

3. 协方差与相关系数?标准差与标准误?

协方差表示的是两个变量的总体的误差, 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。
但协方差的大小会受到变量量纲的影响,所以常用的是标准化了的协方差,也就是相关系数。

两个变量的相关系数等于它们的协方差除以它们的标准差,相关系数也可以看作中心标准化后的随机变量的协方差,它的符号和大小更好的反映变量间的相关程度。

标准差是样本离散程度的度量。
标准误是样本的某个统计量的抽样分布的标准差,衡量的是统计量的离散程度。bootstrap

肯德尔相关系数:适用于有序分类变量。取值范围在-1到1之间,当τ为1时,表示两个随机变量拥有一致的等级相关性;当τ为-1时,表示两个随机变量拥有完全相反的等级相关性;当τ为0时,表示两个随机变量是相互独立的。

R^2 : 因变量的全部变异能通过回归关系被自变量解释的比例。变量个数越多,
R^2 越大,为防止过拟合,可用调整后的R^2,即对变量个数做出惩罚,放在分母的位置上。

4. 怎么从很大的样本池中抽样?

蓄水池抽样:

  1. 把前m个数据放入蓄水池。
  2. 当接收到第i个数据时,i > m,在[1, i]范围内取一随机整数d,若d落在[1, m]范围内,则用接收到的第i个数据替换蓄水池中的第d个数据。random.randint(1, n)生成1-n之间的一个随机整数,包含1和n。
  3. 重复步骤2。

证明?每个数据在蓄水池中的概率等于被选中的概率*后续过程不被替换掉的概率

  1. 当i<=m时,数据直接放进蓄水池,所以第i个数据进入过蓄水池的概率为1。
  2. 当i<=m时,程序从接收到第m+1个数据时开始执行替换操作,第m+1次处理会替换池中数据的概率为m/(m+1),替换的话,替换掉第i个数据的概率为1/m,所以第m+1次处理时,第i个数据被替换掉的概率为(m/(m+1))*(1/m)=1/(m+1),不被替换的概率为1-1/(m+1)=m/(m+1)。
  3. 依次,第m+2次处理时,第i个数据概率不被替换掉的概率为(m+1)/(m+2)……,第N次处理时,第i个数据不被替换掉的概率为(N-1)/N。
  4. 所以,第i个数据不被替换的概率=m/(m+1)(m+1)/(m+2)…*(N-1)/N=m/N。
  5. 换句话说,i<=m时,遍历一遍数据集后,第i个数据仍留在蓄水池中的概率为m/N。
  6. 当i>m时,第i个数据被选中的概率为m/i,程序从接收到第i+1个数据时开始有可能替换第i个数据,通过刚刚的分析可知,第i个数据不被替换的概率=i/N。
  7. 所以,当i>m时,第i个接收到的数据留在蓄水池中的概率=m/i*i/N=m/N。
  8. 综上可知,每个数据最后被选中留在蓄水池中的概率为m/N

5. 均值和中位数?

对于非对称分布,中位数较均值对总体的中心位置来说,是更加稳健的估计。

但样本均值是总体均值很好的估计(大数定律和中心极限定理)

6. 辛普森悖论?

在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。
如原来男性20人,点击1人;女性100人,点击99人,总点击率100/120。 现在男性100人,点击6人;女性20人,点击20人,总点击率26/120。

数据分析中,遗漏了不该遗漏的维度,分析结论很有可能就是错误的,甚至是完全相反的。(司机在线时长与司机平均收入,应该是正相关)

要得到科学可信的AB测试试验结果,就必须合理的进行正确的流量分割,保证试验组和对照组里的用户特征是一致的,并且都具有代表性,可以代表总体用户特征。

流量正交让业务关联度很小的实验有足够的流量同时进行(实现流量的高可用)
流量互斥让业务关联度较大的实验流量分开,避免干扰,保证实验结果的可信度

7. 假设检验?

假设检验是先对感兴趣的问题做出一个假设,然后利用实验样本来决定是拒绝原假设还是接受原假设。具体来讲,将样本空间划分为互斥的两部分,一部分是拒绝域,一部分是接受域。如果样本落入了拒绝域,就拒绝原假设;如果样本落入了接受域,就接受原假设。

那该怎么划分拒绝域呢?
主要由显著性水平α和所选用统计量的分布决定。显著性水平是为了控制第一类错误概率,当我们给定了一个显著性水平α时,我们就能保证我们的决策犯第一类错误的概率不超过α

为什么p值越小,越能拒绝原假设?
p值是在原假设为真的前提下,获得当前样本数据或更极端样本数据的概率。p值越小,说明获得当前样本的概率越低,但还是获得了当前样本,说明小概率事件发生了,而根据小概率事件不可能发生原理,我们就有理由推翻原假设为真这一前提,所以就越能拒绝原假设。

具体p值要小到什么程度,这就要和显著性水平α比较了。

第一类错误概率和第二类错误概率的关系?
一个检验要么犯第一类错误,要么犯第二类错误,不可能同时犯这两种错误。
第二类错误概率会随着真实总体参数、第一类错误概率和样本容量的变化而变。
真实总体参数和第一类错误概率固定的情况下:第二类错误概率会随样本容量的增大而降低,样本容量的变小而变大。
真实总体参数和样本容量固定的情况下:第二类错误概率会随一类错误概率增大而变小,第一类错误概率减小而变大。
从第二类错误概率的公式即可看出。

为什么控制第一类错误概率?
一方面,第二类错误概率不易求出,和真实总体参数有关。
另一方面,选取损失更小的错误为第一类错误,或者选取H0为维持现状。

假设检验与置信区间的区别?
置信区间不仅能看出是否有差异(即看是否在置信区间内,如果不在,则说明有差异),还能看出差异多少。以双样本为例,假设差异为0,但95%的置信区间为[0.1, 0.15]

8. 非参数置信区间?给定1000个样本,如何估计标准差?

booststrap法。利用booststrap抽样计算B个参数的估计值,然后从小到大排序,取0.025样本分位数和0.975样本分位数,就是置信水平为0.95的置信区间。

理由:由B个参数的估计值可以得到参数的样本经验分布函数,这个函数可以近似为参数的累积分布函数,然后求经验分布函数的逆,就能得到参数的置信区间了。

做booststrap抽样np.random.choice(a, size=None, replace=True, p=None)。replace默认为True,意思是可以重复选择数据,即有放回抽样。

9. 无偏估计和相合估计?

无偏估计是指估计量的期望等于待估计的参数。
渐进无偏估计是指当样本量n趋于无穷的时候,估计量的期望等于待估计的参数。

相合估计是指当样本量n趋于无穷的时候,统计量依概率收敛于待估计的参数,即对于任意ϵ>0,有lim_{n->∞} P { | T_n - θ|≥ϵ } = 0。
强相合估计是指当样本量n趋于无穷的时候,统计量以概率1收敛于待估计的参数,即P{ lim_{n->∞} T_n =θ} = 1。

所以区别在于:无偏估计有期望这个条件,相合估计有样本量n趋于无穷这个条件。一个是增加实验次数,一个是只做一次实验,但增加样本量。

从正态分布中抽取n个样本,x1,……,xn
T = x1,是无偏估计,但不是相合估计。
T = \bar x,是无偏估计,也是相合估计。
T = sum x/(n-1),是相合估计,但不是无偏估计。

10. 泊松分布?

泊松分布是一种离散型分布,可取值一切非负整数,取每个值的概率由分布函数给出。
泊松分布的另一种定义是假定一个事件在一段时间内随机发生,且符合3个条件,分别是:

  1. 平稳性:事件在[t0, t0+t)内发生的次数只与时间间隔t有关,而和t0无关
  2. 独立增量性:该事件在不同的小时间段里,发生与否相互独立。
  3. 普通性:在每一个极小时间段内,该事件发生两次及以上的概率恒等于零。
    那么该事件在时间间隔t内的发生次数服从参数为λt的泊松分布。

所以,泊松分布适合于描述单位时间(或空间)内随机事件发生的次数

期望和方差都是λ。图象右偏?矩估计和极大似然估计都是样本均值。

和指数分布的关系?
首先,指数分布是一种连续型分布,期望为1/λ。

如果某一事件在特定时间间隔(0,t)内发生的次数服从泊松分布(λt),则该事件先后两次发生之间的 时间间隔 服从指数分布(λ)。
所以,如果泊松分布中的参数λ比较大,说明发生的期望次数λ较大,所以先后两次发生之间的时间间隔就比较小,1/λ。

证明:可以假设时间间隔为T。
则t<0时,F(t) = P{T t≥0时, F(t) = P{T 证毕。

指数分布的无记忆性:P{T>s+t | T>t} = P{T>s}。和几何分布一样,P{η=m+k | η>m} = P{η=k}

你可能感兴趣的:(零碎知识,概率论,机器学习,人工智能)