Logistic regression 为什么用 sigmoid ?

假设我们有一个线性分类器:

我们要求得合适的 W ,使 0-1 loss 的期望值最小,即下面这个期望最小:

一对 x y 的 0-1 loss 为:

在数据集上的 0-1 loss 期望值为:

由 链式法则 将概率p变换如下:

为了最小化 R(h),只需要对每个 x 最小化它的 conditional risk:

由 0-1 loss 的定义,当 h(x)不等于 c 时,loss 为 1,否则为 0,所以上面变为:

又因为

所以:

为了使 条件风险 最小,就需要 p 最大,也就是需要 h 为:

上面的问题等价于 找到 c*,使右面的部分成立:

取 log :

在二分类问题中,上面则为:

即,我们得到了 log-odds ratio !

接下来就是对 log-odds ratio 进行建模,最简单的就是想到线性模型:

则:

于是得到 sigmoid 函数:

由此可见,log-odds 是个很自然的选择,sigmoid 是对 log-odds 的线性建模。

学习资料:
https://onionesquereality.wordpress.com/2016/05/18/where-does-the-sigmoid-in-logistic-regression-come-from/
https://stats.stackexchange.com/questions/162988/why-sigmoid-function-instead-of-anything-else

你可能感兴趣的:(Logistic regression 为什么用 sigmoid ?)