机器学习----深刻理解极大似然估计

1.什么叫极大似然估计

首先介绍一下似然函数和概率函数:

对于p(x|\theta ), 当\theta确定时,x是变量,该公式描述的是不同的x对应的概率是多少;
x确定,\theta是变量时,该公式描述的是对于不同的模型参数,出现x的概率是多少。 

极大似然就是在不同的模型参数中,找到出现x的概率最大的参数,举例说明一下:

对于一个黑箱子,里面只有黑球和白球,想知道黑球和白球的比例,可以做100次有放回的取球实验,其中70次拿到了白球,30次拿到了黑球,那么我们认为白球和黑球的比例为7/3(类似于抛硬币实验,频率流派)。其实我们无形中已经使用了最大似然估计,先假设拿到白球的概率为p,拿到黑球的概率为1-p,那么拿到70次白球和30次黑球的概率为P0=p^70*(1-p)^30, 既然出现了该情况,我们就认为在不同的p中,P0最大所对应的p才是最合理的,接下来通过求导不难发现p为0.7时P0才是最大的。

2. 极大似然估计和分类问题

 这里直接截取了本人在硕士论文中分析的一部分:

机器学习----深刻理解极大似然估计_第1张图片
机器学习----深刻理解极大似然估计_第2张图片

3. 最大似然和回归问题

分类问题:假设为伯努利事件,one-hot编码后的每个编码的分类都是独立的
回归问题:误差假设为高斯分布,误差相互独立,且误差的方差都相等(在研究神经网络的不确定度时发现,方差也可以不相等,用一条神经网络支路输出)。换句话说就是每个变量服从均值为标签的正态分布。

m个变量相互独立,根据概率公式:p(x|y)=p(x0|y0)*p(x1|y1)*...*p(xm|ym))
且每个变量都是服从正态分布的,根据极大似然估计,其真实值就是均值,因为在均值的地方概率最大;那么所有变量的分布可以表示为m个正态分布的乘积,则m个变量分布可以表示为:

\prod(\frac{1}{\sqrt{2\pi }\delta }e^{-\frac{(y-f(x))^2}{2\delta ^2}})

根据极大似然估计的法则,就是找到f中的参数,使得上式的值最大,之后取log,就可以变成了:

机器学习----深刻理解极大似然估计_第3张图片

看着是不是很熟悉,这不就是MSEloss,非常像不是吗?相比着MSEloss,多了方差,由于方差不是那么容易计算的,所以只能假设方差相等(相当于常数,不管了),因此MSEloss比较常用。机器学习通常使得损失最小,其本质就是使得模型逼近我们的假设。在调研神经网络不确定度的时候,发现了这个公式,有人提出了在神经网络设置一条支路,将其看成方差,然后用上式来作为损失函数,也是可以的。
神经网络的不确定度https://zhuanlan.zhihu.com/p/74398458

有了以上的假设,还需要对假设进行检验,最直接的方法就是回归或者分类的结果很好,那就没必要去分析了,但是若不好,那该怎么分析的,这里提供了对假设进行检验的方法:

https://blog.csdn.net/Noob_daniel/article/details/76087829

你可能感兴趣的:(机器学习,机器学习,概率论,人工智能)