在线学习FTRL

FM:
回归问题:最小均方误差(the least square error) 均方(一组数的平方的平均值)

在线学习FTRL_第1张图片
二分类问题:对数损失函数,其中表示的是阶跃函数Sigmoid
在这里插入图片描述

对数损失是用于最大似然估计的,一组参数在一堆数据下的似然值,等于每一条数据的概率之积,而损失函数一般是每条数据的损失之和,为了把积变为和(我的理解:方便计算),就取了对数。再加个负号是为了让最大似然值和最小损失对应起来(本来求和最大时对应的参数,加上负号后,求和最小时对应的参数,则等价于求最小损失)。

这个就是标准形式的对数损失函数,将sigmoid函数带入,符号抵消,即为log(1+exp(-yf(x)))

对于回归问题:
在线学习FTRL_第2张图片

在使用SGD训练模型时,在每次迭代中,只需计算一次所有f的,就能够方便得到所有V i,f的梯度,(上述偏导结果求和公式中没有i,即与i无关,只与f有关)显然计算所有f的的复杂度是O(kn),模型参数一共有nk + n + 1个。因此,FM参数训练的复杂度也是O(kn).综上可知,FM可以在线性时间训练和预测,是一种非常高效的模型。

FTRL:
在线学习FTRL_第3张图片
四个参数的设定结合paper里的指导意见以及反复实验测试,找一组适合自己问题的参数就可以了。这里我想提一点,即上面所谓的per-coordinate,其意思是FTRL是对w每一维分开训练更新的,每一维使用的是不同的学习速率,也是上面代码中lamda2之前的那一项。与w所有特征维度使用统一的学习速率相比,这种方法考虑了训练样本本身在不同特征上分布的不均匀性,如果包含w某一个维度特征的训练样本很少,每一个样本都很珍贵,那么该特征维度对应的训练速率可以独自保持比较大的值,每来一个包含该特征的样本,就可以在该样本的梯度上前进一大步,而不需要与其他特征维度的前进步调强行保持一致。

你可能感兴趣的:(ML)