学习:StatQuest-总体参数

前言:

一开始我们先举个例子,


image.png

gene x可以编码不同转录本,有时候编码0个,多的时候编码将近40个,究竟编码多少转录本出现的情况多,我们可以做个直方图直方图,所谓参数,即它们的均值方差,可通过计算得知
我们可以根据直方图情况拟合一条曲线(分布曲线)

参数类型:

1.总体均值(μ):假设我们的总体是240000000000次统计,每一次都会得到不同的转录本数量


image.png

把240000000000个样品点对应的值做加和再除以总数。
2.样本均值(x-bar):
假设我们从总体里面抽取5个样品点


image.png

我们可以观察到,如何取样好的话,样本均值和总体均值较为相近
3.总体方差:

这个概念很好理解,按照图中的公式计算即可,当然总数是240000000000


image.png

式中减去的是总体均值
4.总体标准差:
即方差取算术平方根即可:
image.png

因为方差有平方项,所以在画图的时候往往数值太大而不好可视化,故引入标准差的概念
5.样本方差(用样本估计总体):
image.png

我们引用样本均值的例子,式中减去的是样本均值,并除以样本数减1
6.样本标准差(用样本估计总体):
image.png

同理,样本方差取算数平方根即样本标准差

为啥用n-1:

我们先说答案,若在以样本估计总体的过程中,若计算方差时除以n会低估了方差。
回顾下:这是总体方差,标准差计算方法:


image.png

切换到另一个频道,若我们计算样本方差是采用除以n的话,假设样本均值(x-bar) = 0


image.png

显然计算得到391
我们依次改变样本均值的大小(x-bar = 0,5,10,15,17.6,20,25,30.......)
并把他们画在一张图上(横轴为x-bar,纵轴为var)


image.png

此时我们可知当x-bar = 17.6时,var = 81.4
我们此时将样本均值(x-bar)换成总体均值,计算出总体方差
image.png

显然左式<右式,所以除以n-1校正下
我们可以看下修正的过程:


摘自CSDN

我们用样本方差估计总体方差一定想得到一个无偏估计,即:
摘自CSDN

摘自CSDN

那么我们如果不校准:
摘自CSDN

明显可以看到样本方差恒小于总体方差
那么下一步就是求样本方差的期望,根据期望公式:
摘自CSDN

因为有:
摘自CSDN

那么我们做下转化以后可以得知:


摘自CSDN

由式子中我们可以发现E(s^2) 不等于总体方差,他们之间相差n-1/n,这就解释了为什么之前做校正要反乘n/n-1了:
摘自CSDN

所以最后的结果为:
摘自CSDN

抛出另一个问题,我们在用样本估计总体的时候,往往想到的是,减去样本均值(x-bar)能否得到最小方差


求导
image.png

我们对这个式子求导可得,取样本均值(x-bar)可使方差最小化

你可能感兴趣的:(学习:StatQuest-总体参数)