深度学习统计学基础

统计基础:
概率Probabilities
分布Distributions
似然Likelihood ,可能性,与概率是同义语。
描述性统计技术:
柱状图Histograms
箱形图Boxplots
散点图Scatterplots
均值Mean
标准差Standard deviation
相关系统Correlation coefficient
推断性统计技术:
P值p-values
置信区间credibility intervals
概率:从总体到样本。在已知总体时,某个样本是什么情况。
推断统计:从样本到总体。在已知一些样本时,总体是什么情况。


概率:0到1,用浮点数或百分数表示,各样本的概率之和为1.
抛硬币试验,每面的概率为:P( E ) = 0.5, 表示为:事件E的概率为0.5
概率(Probability)VS 胜算(Odds):
概率定义:事件E的机会/机会总和,如一副扑克中抽出A的概率是 4/52=0.077
胜算定义:事件E的机会/不发生事件E的机会,如一副扑克中抽出A的胜算是4 : (52 – 4) = 1/12 = 0.0833333...
概率是特征抽取和分类的核心概念。
贝叶斯(Bayesian) VS 频率(Frequentist)
这是统计学上的两种不同的方法,主要的差异在于对概率的定义不同。
用频率的观念,是一个纯客观的东西,只在重复一件事情上有意义。从样本上收集到的数据叫频率,如果样本无限接近总体,就变成了概率。
用贝叶斯的观念,有一个先入为主的东西(信仰)在里面,如果我们认为事件E的概率为0.3,不需要无限采样下去,我们认为接下来的事件中,E发生的可能性就是0.3。这个信仰就是数学中的分布(distributions)。
条件概率:
P( E | F ):在事件F已发生时,E的概率是多大。事件F表示条件。
在深度学习中,E指lable,F指事件的特征Feature.
贝叶斯公式:P(A/B)=P(B/A)P(A)/P(B)
例:一种病可检查,阴性表示有病A,阳性表示没病B,但也有少量误诊。大数据体检统计得到P(A)=0.1,P(B)=0.9,大部分人没病。同时知道,查出阴性但实际上没毛病的概率为P(B/A)=0.15(虚惊一场),通过这个公式可知:查出阳性但实际上有毛病的概率为:P(A/B)=0.15*0.1/0.9=0.01667,即漏网的概率为百分之一点六七。
后检概率Posterior Probability:
后验概率实际上就是条件概率. 
见:https://baike.baidu.com/item/%E5%90%8E%E9%AA%8C%E6%A6%82%E7%8E%87/6106704?fr=aladdin,
softmax即指出在发生样本事件的条件下,lable的概率是多少,也是条件概率或后验概率。
分布distribution:常见的分布是正态分布(又称为高斯分布或钟形分布),都是一回事。
连续分布:如正态分布
离散分布:如二项式分布
伯努利试验(Bernoulliexperiment)是在同样的条件下重复地、相互独立地进行的一种随机试验。
二项分布是n个独立的‘是/非’试验中‘成功的次数’的离散概率分布。
其它分布还有:
逆高斯分布Inverse Gaussian distribution
对数正态分布Log normal distribution
分布会影响到数据如何向量化,进而影响建模。
中心级限定理:(中心极限定理被认为是(非正式地)概率论中的首席定理)
设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的正态分布。
有两个特点:
一是服从任意分布的总体,总体的分布没有约束。
二是观察的是样本的均值,不是其它值。
这个定理为深度学习从样本中任意抽取一部分去估计总体均值提供了理论基础。
长尾分布包括:
Zipf分布:在自然语言的语料库里,一个单词出现的次数与它在频率表里的排名成反比。
幂律power laws:
所谓幂律,是说节点具有的连线数和这样的节点数目乘积是一个定值,也就是几何平均是定值,比如有10000个连线的大节点有10个,有1000个连线的中节点有100个,100个连线的小节点有1000个……,在对数坐标上画出来会得到一条斜向下的直线。
帕累托分布Pareto distributions:二八定律。
意义:在训练中,不要漏掉长尾中的有趣的样本,否则达不到好的训练效果。
长尾分布处理那些具有5倍标准差的事件的真正概率。
重采样方法:
自助法Bootstrapping:
是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。
https://baike.baidu.com/item/%E8%87%AA%E5%8A%A9%E6%B3%95/13025931?fr=aladdin
交叉验证cross-validation:
交叉验证(Cross Validation),有的时候也称作循环估计(Rotation Estimation)
交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。
https://baike.baidu.com/item/%E4%BA%A4%E5%8F%89%E9%AA%8C%E8%AF%81/8543100?fr=aladdin

你可能感兴趣的:(深度学习)