概率与统计

统计,根据过去的数据,进行归纳,做出总结(结论)

比如:小新过去10年有十次创业,均失败了,推测他不适合创业。

概率,根据给定的条件,做出推测

比如:小新的爸爸是马化腾,推测出他创业成功的概率是99%。

统计学:已知局部 猜 整体

概率论:已知整体 估 局部

互逆

(1)演绎:从基本假设(即公理)、定理和条件顺推概率(分布),得到的是先验概率;这是概率论的主要领域,重在理论(原理)。

(2)归纳:从样本的概率(分布)逆推总体的概率(分布),得到的是后验概率,这是统计学的主要领域,重在实践(试验)。

概率论是理论模型,统计学是实用科学。

概率论为统计学的理论提供原理,统计学的各项检验来源于概率论。

概率论提供的是随机事件发生的情况,而统计学更多地关注随机事件背后隐藏的规律。

概率论是告诉你一个箱子里有50个白球和50个黑球,问你拿出一个球是黑球的概率是多少?

统计学是从一个箱子往外拿球,让你推测箱子里白球和黑球的比例。

概率论:研究随机事件,将人的直观认识产生的“可能”或“不可能”进行量化。

统计学:根据样本推测总体的情况。

个人感受,经验之谈

1)观察数量太少

2)选择偏差,更关注自己认为对的事件,忽略了反例

3)确认偏差,相信这种事件的人会提供例子

4)不准确,可能是记忆、传闻,信息量可能会丢失

统计方法

1)收集数据,收集方法需要有好的设计

2)描述性统计,评价维度和可视化

3)探索性数据分析,寻找模式、差异等特征;检查不一致性,并确认其局限性

4)假设检验,评估影响差异的因素是否是随机的

5)估计,根据样本的模式、规律推断更多的情况和结论

横断面研究:一个时间点的数据

纵贯研究:一段时间内反复研究某事物

直观效应:似乎发生了有意思的事情,但还不确定。这种直观效应有没有可能是因为选择偏差或是实验设置中的错误导致的?如果是,那么这种直观效应就是人为的,也就是我们意外创造的,而并非发现了事实。

统计显著:若一个直观效应不太可能是由随机因素引起的,就是统计显著的。

代表性:被调查的对象都有同等的机会进入样本,那么这个样本就具有代表性。

汇总统计量:通过计算将一个数据集归结到一个数字(或者是少量的几个数字),而这个数字能表示数据的某些特点。比如“均值”。

思考自己感兴趣的问题,例如传统观念、有争议的话题或是有社会影响的问题,看看你能否将这些问题转换成统计学问题。

1)寻找能解决问题的数据,http://wolframalpha.com

“ 平均值”是若干种可以用于描述样本的典型值或集中趋势(central tendency)的汇总统计量之一。

如果我买了6个苹果,总重量是3斤,那么就可以说每个苹果的重量大概是半斤。

但是南瓜就不一样了。假如我在花园里种了一些蔬菜,到了收获的时候,我收获了三个装饰用的南瓜,每个1斤重;两个制南瓜饼的南瓜,每个3斤重;还有一个重达591斤的大西洋巨型南瓜。这组样本的均值是100斤,但如果我告诉你:“我种的南瓜的平均重量是100斤。”那就有问题了,至少这也是一种误导。

在这个例子中,平均值是没有意义的,因为“典型”的南瓜是不存在的。

一个值无法描述南瓜的重量特征,那两个值是否可以呢?比如加入“方差”。用“均值”和“方差”。

均值是为了描述集中趋势,而方差则是描述分散情况。

通过“样本方差”推断“总体方差”。

均值:整体趋势

方差:离散程度

分布:频繁程度

频数:指的是数据集中一个值出现的次数

概率:就是频数除以样本数量(定义的一种,频率概率论),概率的定义很多,也存在争议。

归一化:把频数转换成概率,这称为归一化

概率质量函数(PMF):值到其概率的映射。以函数的形式表示分布,该函数将值映射到概率。

不足:如果要处理的数据比较少,PMF 很合适。但随着数据的增加,每个值的概率就会降低,而随机噪声的影响就会增大。

众数: 一个分布的众数就是它的最频繁值/分布中出现次数最多的值

形状:分布的可视化样子

异常值:远离众数的值,可能是收集数据有误,可能是真的。

条件概率:就是依赖于某个条件(已知的事实)的概率。

相对风险:两个概率的比值,通常用于衡量两个分布的差异。

积累分布函数——

百分位数/百分等级

积累分布函数(CDF):值到其在分布中百分等级的映射

条件分布:根据某个条件选择的数据子集的分布。

再抽样:根据已有的样本生成随机样本的过程。

中位数:百分等级是50的值。

语料库:特定语言中用做样本的正文文本。

经验分布:些分布都是基于经验观察的,其中的样本都是有限的

连续分布:它的特点是其 CDF(积累分布函数)是一个连续函数(跟阶跃函数完全不同)。很多实际现象都近似于连续分布

1)指数分布

2)帕累托分布,来描述财富分布情况

3)正态分布(高斯分布)

4)对数正态分布:如果一组数值做对数变换后服从正态分布,我们就称其服从对数正态分布(lognormal distribution)

试验(trial):如果E表示一个事件,那么P(E)就表示该事件发生的概率。检测E发生情况的过程叫做试验。

大部分都可以接受:用一系列假想的重复试验来表示概率,例如抛硬币或掷骰子。但有一些事件是无法通过重复试验来计算概率,比如谁赢得选举的概率更大。

频率论(frequentism),就是用频率来定义概率。如果没有一系列相同的试验,那就不存在概率。

频率论在哲学上是没有错误的,但它却限制了概率的使用范围,只限于随机的物理系统(例如原子衰变)或因无法预测而被视做随机的系统(例如意外死亡)。任何涉及人为因素的情况都不适用。

贝叶斯认识论:将概率定义为事件发生的可信度。根据这个定义,概率几乎能用于所有情况。

举个例子,他信·西那瓦成为泰国总理的概率有多大?频率学派会说这个事件没有概率,因为找不到一系列试验来验证这个问题。他信是否能成为总理跟概率没有关系。

反之,贝叶斯学派会根据其自己所掌握的信息赋予这个事件一个概率。看一下维基百科,你就会知道他信不是泰国的总理,有了这个信息,你可能就会将这个概率定位 0.01,反映了维基百科针对此事件出错的可能性。

概率法则,即“不同事件概率关系”:

1)频率概率的法则,就是计算方法:

事件独立:P(AB) = P(A)P(B)

事件不独立,计算条件概率:计算条件概率 P(A|B),即在事件B已经发生的情况下事件 A 发生的概率:

P(A|B) = P(AB)/P(B)

两件事情都发生的更一般的表达:P(AB) = P(A)P(B|A),——两件事情同时发生就是第一件事发生后第二件事情也发生了。

事件发生的先后顺序是没有影响的:P(AB) = P(B)P(A|B)

如果事件是独立的:P(A|B) = P(A),及有B是否发生,与A发生一点关系都没有

概率的范围是 0 到 1:P(AB) ≤ P(A)

变异系数:标准差除以均值,σ/μ

2)其他概率法则

互斥:P(A|B)=P(B|A)=0

二项分布

聚类错觉:看上去好像有某种特点的聚类实际上是随机的。

神枪手谬误:的典型例子(Sharpshooter Fallacy,详见http://wikipedia.org/wiki/Texas_sharpshooter_fallacy)

贝叶斯定理(通过有限的试验数据推断出事物的真实情况,逆概):解释某一特定现象的证据E如何影响假设H的概率——

P(H|E) = P(H)*P(E|H)/P(E)——在看到 E 之后 H 的概率 P(H|E),等于看到该证据前H的概率 P(H),乘以假设H为真的情况下看到该证据的概率P(E|H)与在任何情况下看到该证据的概率 P(E)的比值P(E|H)/P(E)。

先验概率:P(H) ,H发生的概率,H独立发生的概率(没有E的前提)

后验概率:P(H|E),E发生的情况下H发生的概率

似然值:P(E|H),H发生的情况下,E发生的概率

归一化常量:P(E),理论上的概率

分布的运算

1)偏度:是度量分布函数不对称程度的统计量

皮尔逊中值偏度系数:3(均值 - 中位数)/σ

2)概率密度函数

累积分布函数的导数称为概率密度函数——概率密度函数的值并不是概率,它表示的是一种概率密度

3)卷积

两个随机变量的和的分布就等于两个概率密度的卷积——爱尔朗分布

正态分布对线性变换和卷积运算是封闭的(closed)。

4)中心极限定理

假设随机变量X的均值和标准差为μ和σ,那么n个随机变量 X 的和渐进地服从 N(nμ, nσ2)。

中心极限定理部分解释了为什么正态分布在自然界中广泛存在。绝大多数动物(或者其他生命形式)的特征,如体重,都会受到大量遗传和环境因素的影响,而且这些影响是具有可加性的。我们观测到的这些特征是大量微效因素的加和,所以它们都近似地服从正态分布。

假设检验:有点类似于数学书的反证法。

为了检验某个直观效应是否真实存在,我们首先假设这个效应不是真实存在的,即偶然造成的(原假设)。然后基于这个原假设计算出发生这种效应的概率(p值)。如果p值非常小,我们就可以认为原假设不大可能是真的。

使用“假设检验”的步骤:

1)从问题中提炼出“原假设”;

2)想办法接收或者推翻这个“原假设”——双边检验/单边检验

具体:

首先,定义原假设(效应不存在)为H0;然后定义p值为P(E|H0),这里的E表示的是与表观效应相符以

及比表观效应更显著的效应。最后我们可以计算得到p值,并将其与阈值α作比较

均值:样本均值和分布均值的区分

估计量:用来估计分布参数的统计量

分布估计方法:

1)均值估计,如果样本没有异常值

2)先找出异常值,修剪掉,然后再均值估计

3)采用中位数作为估计

点估计:用估计量产生一个值来估计参数,是单个值而不是值的取值范围

火车头问题:极大似然;最小均方误差;无偏性

相关性:变量之间的关系,它们可能单位不同,可能相同但分布不同等,但它们之间存在相关性。

具体:比如一般身高高的人体重也比较重。

度量不同,无法放在一起比较的问题:

解决:

1)将所有的值转换成标准分数(standard score),这就引出了皮尔逊相关系数。

2)将所有的值转换成百分等级,这就引出了斯皮尔曼相关系数。

扰动(jitter)

从相关性的信号中得到因果关系的结果

协方差:衡量两个变量变化方向是否一致的统计量

最小二乘拟合:最小化残差平方和的数据拟合方法

残差:衡量模型预测结果与真实值离差的值

你可能感兴趣的:(概率与统计)