算法工程狮三、数学基础 概率论及统计学

传统机器学习对于概率论的使用可谓是无所不用其及。

概率论

1.全概率公式与贝叶斯公式

全概率公式
$$P(A)=\sum\limits_{j=1}^{n}P(B_j)P(A|B_j)$$
贝叶斯公式
$$P(B_i|A)=\dfrac{P(A,B_i)}{P(A)}=\dfrac{P(B_i)P(A|B_i)}{\sum\limits_{j=1}^{n}P(B_j)P(A|B_j)}$$
贝叶斯公式是贝叶斯统计学的核心利器。贝叶斯派认为事件发生的概率不像频率派那样单纯,而是应该加入人类的先验,使得实验结果不至于偏差太大。换句话说,贝叶斯派认为参数的取值也符合一定的概率分布,不是单纯的从观测推测。

2.随机变量概率分布与概率密度

指数分布

$$f(x)=\begin{cases}\lambda e^{-\lambda x},x>0 \\\ 0,x<=0 \end{cases}$$
指数分布无记忆性指的是$t_0>0,t>0,P(x>t_0+t|x>t_0)=P(x>t)$

伯努利分布

$P(X=x)=\phi^x(1-\phi)^{1-x},X非0即1$

正态分布

当缺乏先验知识时,选用高斯准没错。由中心极限定理可知,独立同分布的变量相加符合高斯分布。另外,在具有相同方差的所有可能的概率分布中,高斯分布是对模型加入先验知识最少的分布
若$X\sim N(\mu,\sigma^2),Y=aX+b,则Y\sim N(a\mu+b,a^2\sigma^2)$

二元随机变量$f(x,y)$
  • 边际概率密度$f_X(x)=\int f(x,y)dy$
  • 条件概率密度$f(y|x)=\dfrac{f(x,y)}{f_X(x)}$
  • 若两个随机变量X和Y相互独立,则概率分布函数

$$F(x,y)=F_X(x)\cdot F_Y(y)\Leftrightarrow P(X\leq x,Y\leq y)=P(X\leq x)\cdot P(Y\leq y)$$
而概率密度函数$f(x,y)=f_X(x)\cdot f_Y(y)$,等价地,几乎处处成立

Laplace分布和Dirac分布

拉普拉斯分布允许在μ处设置峰值,是离散变量分布。$Laplace(X;\mu,\gamma)=\dfrac{1}{2\gamma}e^{-\dfrac{|x-\mu|}{\gamma}}$
狄雷克分布对应于连续随机变量,在X=μ处无限高$P(X)=\delta(X-x^{(i)})$,对于经验分布,使用狄雷克分布可以将频率变为概率,这样在训练集上似然是最大的。
其他,对于任意平滑的概率密度函数,都可以用高斯分布近似。

3.期望与方差

  • 若X,Y相互独立,则$E(XY)=E(X)E(Y)$
  • $D(X)=E(X^2)-[E(X)]^2$
  • $D(nX)=n^2D(X)$
  • $D(X+Y)=D(X)+D(Y)+2E[(X-E(X))(Y-E(Y))],若X和Y相互独立,则D(X+Y)=D(X)+D(Y)$
  • 协方差就是$Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)(Y)$,根据上条,相互独立则协方差为0
  • 相关系数$\rho_{XY}=\dfrac{Cov(X,Y)}{\sqrt{D(X)\cdot D(Y)}}$,相关系数在[-1,1]之间,越大越相关,接近0为不相关

4.大数定律

依概率收敛

频率依概率收敛于P,背过也就理解了$\lim\limits_{n\rightarrow \infin}P(|\frac{n_A}{n}-P|\ge\epsilon)=0$

辛钦大数定律

n个独立同分布的随机变量期望为μ;或者说当n足够大时,随机变量之和的期望依概率收敛于μ。如果想估计X的期望,只需要从X分布中取足够多的点,平均值依概率收敛于μ。

中心极限定理

独立同分布的随机变量之和近似于正态分布

5.条件概率的链式法则

$$P(X^{(1)},X^{(2)},...,X^{(n)})=P(X^{(1)})\prod_{i=2}^{n}P(X^{(i)}|X^{(1)},...,X^{(i-1)})$$

统计学

1.统计量与抽样分布

统计量就是样本的不含未知参数的函数,知道了样本,统计量也就确定了
抽样分布就是统计量的分布,常见的抽样分布有:

  • $\chi^2$分布:$\chi^2=\sum\limits_{i=1}^{n}X_i^2$,称为自由度为n的卡方分布$E(\chi^2)=n,D(X^2)=2n$
  • t分布:$T=\dfrac{X}{\sqrt{Y/N}},X\sim N(0,1),Y\sim \chi^2(N)$
  • F分布:$F=\dfrac{X/n_1}{Y/n_2},X,Y\sim \chi^2$

2.总体与样本分布

如果总体分布$X\sim N(\mu,\sigma^2),X_1,X_2,...,X_n$是样本,那么
$$\bar{X}=\frac{1}{n}\sum \limits_{i=1}^{n}X_i$$

$$S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2$$
其中
$$E(\bar{X})=E(\frac{1}{n}\sum X_i)=\frac{1}{n}\sum (X_i)=\mu$$

$$D(\bar{X})=D(\frac{1}{n}\sum X_i)=\frac{1}{n^2}\sum D(X_i)=\dfrac{\sigma^2}{n}$$
由上面也可以看出,标准差=$\dfrac{\sigma}{\sqrt{n}}$,以小于样本数量线性的速度下降,比如梯度下降中,梯度的估计的标准差以小于样本数量线性的速度下降,收益的增速随数量增大逐渐下降,因此GD的批量太大可能代价和收益并不是正比

3.点估计

对于参数的估计,我们往往希望找到参数的一个合理且优秀的值就足够了,而不是找到参数的概率分布。这里的参数,可以是事件发生的概率,可以是函数的实际参数等等。
点估计有两种,矩估计和极大似然估计,矩估计就是样本矩代替总体矩估计,来推出参数。而极大似然估计在统计学习中真是太太太常用了,它属于频率派的思想,简单的通过样本来求解参数,而不加入任何先验
极大似然估计MLE思想很简单:$\theta_{MLE}=\argmax\limits_\theta\prod_{i=1}^nP(X_i;\theta)$,为了计算方便,使用log将连乘转换为加法$\theta_{MLE}=\argmax\limits_\theta\sum_{i=1}^n\log P(X_i;\theta)$,后面会专门写一篇介绍极大似然估计

4.估计量的评价准则

前面不是说了参数估计嘛,参数估计出来总要有个评价标准看你评价的好不好,那参数的评价标准一共有四条:

  • 无偏性:$E(\hat{\theta})=\theta,则称估计量无偏,当\lim\limits_{n\rightarrow \infin}E(\hat{\theta})=\theta称为渐近无偏估计量,比如:E(\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2)=\sigma^2$
  • 有效性:如果$D(\hat{\theta_1})\leq D(\hat{\theta_2}),则称\hat{\theta_1}比\hat{\theta_2}有效$
  • 均方误差性:$mse=E(\hat{\theta}-\theta)^2,如果mse(\hat{\theta_1})\leq mse(\hat{\theta_2}),则\hat{\theta_1}在此方面优秀,注意,有时均方误差性比无偏性更重要$
  • 相合性:若$\hat{\theta}$依概率收敛于$\theta$,则称为相合估计量

比如,由有效性:$\hat{\theta}_k=\dfrac{1}{k}(X_1+...+X_k)$作为估计参数,则$D(\hat{\theta}_k)=\dfrac{1}{k}\sum D(X_i)=\dfrac{\sigma^2}{k}$,当k增加时,D下降,所以由有效性,当样本越多时,参数估计越有效
再比如,由均方误差准则可知,当n很小时,$S^2优于二阶矩B^2$,当n上升时,二者无差别

信息论及其他

1.信息论

  • 自信息:单个事件的不确定性,越大越不确定,越混乱,但是信息也越多

$$I(x)=-logP(x)$$

  • 香农熵:分布的不确定性,上同

$$H(X)=E_{X\sim p}(I(X))=-E_{X\sim p}logP(x)$$

  • KL散度:衡量两个分布间的差异,越小越相似

$$D_{KL}(P||Q)=E_{X\sim p}[log\dfrac{P(X)}{Q(X)}]=E_p(logP-logQ)$$

  • 交叉熵:等价于针对Q最小化KL散度,因为P是已知的,所以为了尽量使分布差异小,所以只优化Q即可

$$H(P,Q)=-E_{X\sim p}logQ(X)=-\sum\limits_{x\in X}P(x)logQ(x)$$
其中,P为真实分布,Q为预测分布

2.其他

$softplus:log(1+e^x)$:激活函数的一种,在后面会看到它是Relu的平滑版本,但效果一般

你可能感兴趣的:(算法,机器学习,人工智能,深度学习,数据挖掘)