可汗统计学

第一课,均值 中位数  众数

    均值(mean):集中趋势的最常用测度值,目的是确定一组数据的均衡点。是一组数据的样本和除以样本的数量n。

   

    中位数(median):一组数据,这群数据的一半的数据比它大,而另外一半数据比它小。

    众数(mode):一组中出现次数最多的数据值。



第二课,极差 中程数

    极差(range):一组数据中最大值减最小值后所得数值。

    中程数(midrange):一组数据最大数和最小数的平均值。



第三课——第十课为统计图形课,在其他的专题讨论



第十一课、集中趋势mean,median,mode

    描述性统计量(descriptive):描述性统计量提供数据的简要汇总。可以用数值或图形方式汇总数据。例如,快餐店的经理跟踪一周内午餐期间客户的等待时间,并对数据进行汇总。

    推断性统计量(inferential):推断性统计使用从总体中随机抽取的数据样本,描述总体并对其进行推断。当不方便或不可能检查整个总体的每个成员时,推断性统计非常有用。例如,测量铣床中制造的每个钉子的直径可能不现实,但是您可以测量钉子的代表性随机样本的直径并使用此信息概括生产的所有钉子的直径。


第十二课,样本和总体

    样本(sample):从总体中选取的一部分。例如:3年二班同学身高。

样本均值:

    总体(population):研究对象的整个群体。例如:全中国人的身高。

总体均值:


第十三课,离散趋势

总体方差(variance):总体中变量离其平均值距离的平均。一组数据

第十四课,离散趋势

样本方差(variance):样本中变量离其平均值距离的平均。一组数据

到这你可能会想:为什么样本方差中分母是而不是?好,那我们假设是看看会怎样:

从上式可以看出除非:,否则一定有


再想为什么除以不是??请看:

所以有即

而且我们可以直观的看到随着样本总量的增大,会越接近。


第十五课,标准差

总体标准差(population standard deviation):总体方差的平方根

样本标准差(sample standard deviation):样本方差的平方根


第十六课,诸方差公式

对上节的方差公式进行简化:

\sigma^2= \operatorname{E}\left[X^2 - 2X\operatorname{E}[X] + (\operatorname{E}[X])^2\right] = \operatorname{E}\left[X^2\right] - 2\operatorname{E}[X]\operatorname{E}[X] + (\operatorname{E}[X])^2 = \operatorname{E}\left[X^2 \right] - (\operatorname{E}[X])^2

我们可以这样记:平方的期望減掉期望的平方。也许你会想一个问题,既然都有方差了为什么还要标准差?原因是:标准差和均值的量纲(单位)是一致的,在描述一个波动范围时标准差比方差更方便。

比如一个班男生的平均身高是170cm,标准差是10cm,那么方差就是100cm^2。可以进行的比较简便的描述是本班男生身高分布是170±10cm,方差就无法做到这点。


第十七课,随机变量

假设一个随机试验的可能结果(称为基本事件)的全体组成一个基本空间Ω。那么,随机变量是定义于Ω上的函数,即对每一基本事件ωΩ,有一数值(ω)与之对应。

例如抛一枚硬币,定义随机变量。即当时,我们说硬币正面朝上。

如果的取值是有限的或者是可数无穷尽的值:,则称为离散型随机变量(discrete random variable)。如抛硬币只有2个基本事件。

如果由全部实数或者由一部分区间组成:

则称为连续型随机变量(continues random variable)。如明天的降雨量,可以是1米,1.1米,1.11米...。


第十八课,概率密度函数

概率密度函数(probability density function):一个描述连续随机变量的输出值,在某个确定的取值点附近的可能性的函数。图中,横轴为随机变量的取值,纵轴为概率密度函数的值,而随机变量的取值落在某个区域内的概率为概率密度函数在这个区域上的积分。

:

例如:将某一区间分成n份并向其中随机地扔球,那么f(x)越大,在点x附近的球就越多,也就是说,f(x)是小球的“密度”。


第十九课,二项分布

    排列(permutation):是将相异对象或符号根据确定的顺序重排。每个顺序都称作一个排序。从个元素中取个元素进行排序。排序的数量为:

理解排序的关键在于有序。排序AB和排序BA是不一样的。

    组合(combination):从个元素中取个元素形成一个组合,组合不考虑顺序。组合AB和BA是 一样的。组合的数量为:

联系:排序相当于从个元素中取个元素,然后将这个元素进行排序,于是有:

有了以上背景,我们借助以下例子来理解二项分布。

例子:你卖三明治,70% 的人买鸡肉三明治,其他的买猪肉。接下来的三个顾客买两个鸡肉,一个猪肉三明治的概率是多少?

我们来画个数图:


黄色为买两个鸡肉一个猪肉三明治的概率

由上看出和出现的概率都为,也就是说两个鸡肉和一个猪肉的各种组合方式出现的概率相同。那么我们很自然就会想到用两个鸡肉,一个猪肉三明治能形成的组合数量乘以组合出现的概率,是不是就能得到买两个鸡肉,一个猪肉三明治(事件A)的概率:

答案确实如此,你要是不相信可以试试计算买买两个猪肉,一个鸡肉三明治的概率。

到此我们给出二项分布的总结:试验是独立的,每个试验只有两个可能结果,每个试验里的 "成功" 概率是不变的。假设每一次独立实验中,n个里有k个B(事件C)的概率:


第二十三课,期望值

    期望(expectation)是试验中每次可能的结果乘以其结果概率的总和。如果

离散的随机变量,输出值为,和输出值相应的概率为(概率和为1)。则期望的公式:

如果是连续的随机变量,对应的概率密度函数为,则期望公式为:


第二十四课,二项分布的期望与方差

    设二项分的概率分布函数为:,则有:

% <![CDATA[\begin{aligned}&E(X)\\=&\sum_{k=0}^{n}k\binom{n}{k}p^k(1-p)^{n-k}\\=&np\sum_{k=1}^{n}\binom{n-1}{k-1}p^{k-1}(1-p)^{n-k}\\=&np\sum_{k=0}^{n-1}\binom{n-1}{k}p^{k}(1-p)^{n-1-k}\\=&np\end{aligned} %]]>


% <![CDATA[\begin{aligned}&Var(X)\\=&\sum_{k=0}^{n}k^2\binom{n}{k}p^k(1-p)^{n-k}-(np)^2\\=&\sum_{k=0}^{n}k(k-1)\binom{n}{k}p^k(1-p)^{n-k}+\sum_{k=0}^{n}k\binom{n}{k}p^k(1-p)^{n-k}-(np)^2\\=&n(n-1)p^2\sum_{k=0}^{n-2}\binom{n-2}{k}p^{k}(1-p)^{n-2-k}+np\sum_{k=0}^{n-1}\binom{n-1}{k}p^{k}(1-p)^{n-1-k}-(np)^2\\=&np(1-p)\end{aligned} %]]>


第二十五课,泊松分布

    首先了解一下重要极限:

然后二项分布的定义:

最后,在二项分布中,如果试验次数n很大,二项分布的概率p很小,且乘积λ = np 比较适中,则事件出现的次数的概率可以用泊松分布来逼近。事实上,二项分布可以看作泊松分布在离散時間上的对应物。证明如下:

令,趋近于无穷时的极限:

\begin{align}\lim_{n\to\infty} P(X=k)&=\lim_{n\to\infty}{n \choose k} p^k (1-p)^{n-k} \\ &=\lim_{n\to\infty}{n! \over (n-k)!k!} \left({\lambda \over n}\right)^k \left(1-{\lambda\over n}\right)^{n-k}\\&=\lim_{n\to\infty}\underbrace{\left[\frac{n!}{n^k\left(n-k\right)!}\right]}_F\left(\frac{\lambda^k}{k!}\right)\underbrace{\left(1-\frac{\lambda}{n}\right)^n}_{\to\exp\left(-\lambda\right)}\underbrace{\left(1-\frac{\lambda}{n}\right)^{-k}}_{\to 1} \\&= \lim_{n\to\infty}\underbrace{\left[ \left(1-\frac{1}{n}\right)\left(1-\frac{2}{n}\right) \ldots \left(1-\frac{k-1}{n}\right)  \right]}_{\to 1}\left(\frac{\lambda^k}{k!}\right)\underbrace{\left(1-\frac{\lambda}{n}\right)^n}_{\to\exp\left(-\lambda\right)}\underbrace{\left(1-\frac{\lambda}{n}\right)^{-k}}_{\to 1}      \\&= \left(\frac{\lambda^k}{k!}\right)e^{-\lambda}\end{align}


你看完上面的证明后,可能会产生说:恩,我知道泊松分布怎么来的了,但泊松分布具体是怎么个分布法?这里推荐一篇博文,同时感谢作者:

http://www.ruanyifeng.com/blog/2015/06/poisson-distribution.html


第二十七课,大数定理

    大数定律(law of large numbers),是描述相当多次数重复实验的结果的定律,即样本数量越多,则其样本均值就有越高的概率接近总体期望。

其中独立同分布,。则

例如:掷一枚骰子出现点数的期望是:

随着掷骰子次数的增加,出现点数的均值就有很高的概率接近期望。


第二十九,正态分布

    正态分布(normal distribution),是一种非常常见的分布,也叫钟形分布。

若随机变量服从位置参数为(期望),尺度常数(方差)的正态分布,记为:

,其概率密度为:。


标准分数(z-score):

Z值的量代表着原始值和总体期望之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z则为负数,反之则为正数。换句话说,Z值是从感兴趣的点到均值之间有多少个标准差。

经验法则:假设一组数据具有近似于正态分布的概率分布。则约68.3%数值分布在距离平均值有1个标准差之内的范围,约95.4%数值分布在距离平均值有2个标准差之内的范围,以及约99.7%数值分布在距离平均值有3个标准差之内的范围。



第三十六课,中心极限定理

中心极限定理(central limit theorem):设从均值为,方差为的任意一个总体中抽取样本量为的样本,当充分大时,样本均值的抽样分布近似服从均值为,方差为的正态分布。


以上就是中心极限定理的实质,它意味着不管总体服从什么样的分布。只需要从总体中取个的样本,计算其均值。然后重新从总体中取个样本计算其均值。然后不断取样得到。然后抽样均值分布与总体的关系为:

推荐一篇好的博文,同时感谢作者:

https://www.jqr.com/article/000534


第四十课,置信区间

另开一篇文章:置信区间


第四十七课,假设检验

另开一篇文章:


第四十九课,Z分布 VS T分布

如果总体方差已知且样本足够多时,则应该用正态分布来估计总体均值。

但Z分布(正态分布)用在小样本时会产生很大的误差,因此必须改用T分布以求准确。

如果总体方差未知则只能用T分布,T分布的自由度为。

随着T分布自由度的增大(样本数量增大),T分布逐渐类似Z分布。如图所示


随着T分布自由度增大,不断趋向正态分布


随着自由度的增大,统计量不断近似统计量:


第五十四课,期望的性质

1.是常数:

2.是常数:

3.

4.独立,则


第六十二课,线性回归

    在统计学中,线性回归(Linear regression)是利用称为线性回归方程的最小二乘法函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,多于一个自变量情况的叫做多元回归。

例如简单回归中,通俗的解释就是找一条直线,尽可能去拟合所有的点。我们寻找目标直线的方法就是最小二乘法。即如图所示,最合适的线性回归线(Best fitting regression)就是使所有点Error的方差和最小的直线。


           

            

其中             

                    

原函数是一个凸函数,当分别对求偏导,且偏导为时,得到



解方程组可得:


      第六十八课,决定系数      

决定系数,一般用在回归模型用用于评估预测值和实际值的符合程度,的定义如下:

其中是回归模型的估计值,为。

决定系数可以通俗的解释为:用回归模型拟合相较于直接用均值拟合的提升。越接近1,表示回归分析中自变量对因变量的解释越好。


第七十一课,协方差与线性回归线

    协方差(Covariance)用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。

随机变量和的期望值分别为,则两个随机变量之间的协方差为:

我们回想一下线性回归模型中的,其中

所以有:,这便是线性回归系数与协方差之间的关系。


第七十二课,分布

卡方分布(chi-square distribution 写作分布),是一种常见的概率分布。k个独立的标准正态分布变量的平方和服从自由度为k-1的卡方分布。

其中:为实际值,为期望。实际的例子推荐一篇好文,同时感谢作者

https://www.shuxuele.com/data/chi-square-test.html


第七十五课,方差分析




第七十九课,演绎推理和归纳推理

演绎推理(inductive inference)是由普通性的前提推出特殊性结论的推理。是一个由一般到个别的过程。例子:

前提:所有人都是会死;苏格拉底是人;

结论:苏格拉底会死。

归纳推理是由特殊的前提推出普遍性结论的推理。例子:

前提:锐角三角形的面积等于底乘高的一半;直角三角形的面积等于底乘高的一半;钝角三角形的面积等于底乘高的一半;

结论:凡三角形的面积等于底乘高的一半。

演绎推理和归纳推理的区别在于:假设前提正确,演绎推理的结果是正确的。而归纳推理的结果不一定是正确的。

你可能感兴趣的:(可汗统计学)