在机器学习任务中,最最经常遇到的一个问题就是给定一组训练样本,学习到生成这组样本的模型的参数,这也是统计学习的根本任务。我们知道统计学上分频率学派和贝叶斯学派,那么自然的,对这个问题的解决就有两种模型,一种是频率学派推崇的极大似然估计,一种是贝叶斯学派主张的贝叶斯估计,下面我们就来介绍下这两种估计
频率学派认为给定一个模型,她的参数是一个固定值,因此可以直接根据训练数据估计出参数的值。其思想如下:我们之所以能够得到目前的训练数据,那是因为通过函数生成这组数据的概率最大。因此,给定训练集 D={x1,...,xN} D = { x 1 , . . . , x N } ,即 f(x1,...,xN|θ) f ( x 1 , . . . , x N | θ ) 是最大的。因此我们需要计算得到 θ θ 使得 f(x1,...,xN|θ) f ( x 1 , . . . , x N | θ ) 最大,即:
θ=argmaxθ(f(x1,...,xN|θ)) θ = a r g m a x θ ( f ( x 1 , . . . , x N | θ ) )
而我们假设样本都是独立生成的,因此有:
θ=argmaxθ(f(x1,...,xN|θ))=argmaxθ(∏Ni=1f(xi|θ)) θ = a r g m a x θ ( f ( x 1 , . . . , x N | θ ) ) = a r g m a x θ ( ∏ i = 1 N f ( x i | θ ) )
为了解决连乘的问题,我们求对数,就可以得到参数的极大似然函数:
l(θ)=(∑Ni=1logf(xi|θ)) l ( θ ) = ( ∑ i = 1 N l o g f ( x i | θ ) )
通过求导,既可以求得参数 θ θ 的最大值。
频率学派认为参数是一个固定值,而贝叶斯学派认为参数也是有分布的,这就是他们两个的矛盾。这个矛盾不可调和啊。
针对贝叶斯学派,给定输入x,他的输出并不是一个确定的值,而是一个期望,即:
E[y|x,D]=∫p(y|x,D)p(θ|D)dθ E [ y | x , D ] = ∫ p ( y | x , D ) p ( θ | D ) d θ
而:
p(θ|D)=p(D|θ)p(θ)∫p(D|θ)p(θ)dθ p ( θ | D ) = p ( D | θ ) p ( θ ) ∫ p ( D | θ ) p ( θ ) d θ
分母不影响 θ θ ,因此:
θ=argmaxθ(p(D|θ)p(θ)) θ = a r g m a x θ ( p ( D | θ ) p ( θ ) )
也就是说贝叶斯估计和极大似然估计之间差一个 p(θ)) p ( θ ) ) 。
在实际问题中, θ θ 需要以超参数的形式给出。
在训练数据有限时,贝叶斯估计的泛化能力强。
当数据量极大时,这两种方法结果是一致的。