Logistic的基本形式:
需要明确的概念:
假设 x,y∼B(±1,p)
考虑一个二分类问题: f(x)→{+1,−1} :
其极大化条件似然估计:
注:红线是logistic回归损失函数,绿虚线是SVM损失函数
交叉熵函数:
假设 x,y∼B(0,1|p)
考虑一个二分类问题 f(x)→{0,1}, (与极大似然视角下的+1,-1不同)
似然: ∏Ni=1P(y|xi,w)=∏Ni=1P(1|xi,w)yiP(0|xi,w)1−yi
交叉熵损失函数(cross-entropy):
因为极大似然视角下的二分类标签为 y∗ (+1,-1),而熵视角下的二分类标签为 y (1,0),这导致其最终的损失函数(损失函数A和损失函数B)的形式不一样,但其最优解是一样的。下面介绍单个实例下两个损失函数如何转换:
那么:
所以这两个损失函数是可以相互转化的,只不过对了一个常系数项2,不影响变量的最优解,具体可参考:
https://www.zhihu.com/question/38777817/answer/78140608
MarginCost:
minJ(w)=1n∑ni=1H(yif(xi,w)),
whereH(t)=ln(1+exp(−t))
可用的优化方法:
如果logistic回归最后只是需要一个非线性激活函数将线性内积输出 WTx 映射到 (0,1) 范围内,那么可不可以不用softmax?(一般不, 考虑到概率机器学习观点)
因为sigmoid刚刚好可以表示为等方差高斯分布下的后验概率
1. 集智公开课
2. 知乎