李宏毅机器学习笔记——概率模型

很有意思的一门课,但关于如何利用P(x)生成x还存在疑惑。

在神经网络中y=w*x+b,为什么是这个形式?这门课将在最后归结到这一点上。

举一个实际的例子,训练集中A类71个B类69个

我们假定A类的71个点遵循gaussion distribution,上图涉及的函数:输入一个点(代表一个实例的特征vector),输出sample中该点的概率,在下文中即为P(x|A)与P(x|B)

该函数有两个参数,μ与\sum

 使用最大似然估计的方法,为使得L函数达到最大值,可确定相关参数。

于是乎,得到参数\mu _{1}\mu _{2}\sum1,\sum

为了减少参数,我们令\sum​​​​​​​=\sum​​​​​​​1=\sum​​​​​​​2 

李宏毅机器学习笔记——概率模型_第1张图片

同样的方法得到\mu _{1}\mu _{2}\sum

那么我们做这么多是为了什么呢?

为的是判断x属于哪个类。

x属于A的可能性是P(A|x)

 x属于B的可能性是P(B|x)

使用贝叶斯公式求解——

 但这还没到最后

将P(A|x)的函数形式转化成sigmoid激活函数的形式

 并化简z的表达式

这不就得到了神经网络中y=w*x+b

李宏毅机器学习笔记——概率模型_第2张图片

因此神经网络连接层的含义在classification中是——假定该类中的点服从gaussion distribution等等,那么这种分布拥有两个参数,而这两个参数在后续是要不停更新的,那么根据结果=sigmoid(w*x+b)=P(A|x),再反向传播更新参数。

你可能感兴趣的:(机器学习,人工智能,神经网络)