FFM原理与 LR

FM(Factorization Machine)
因式分解机 应用范围 解决稀疏数据下的特征组合问题
问题原因 :经过One-Hot编码之后,样本的维度大幅增加,大部分样本数据特征是比较稀疏的。
通过观察大量的样本数据可以发现,某些特征经过关联之后,与label之间的相关性就会提高。那么如何进行特征组合就是问题的关键。
多项式模型是包含特征组合的最直观的模型。
对于二阶多项式模型,两个特征之间,假设参数相互独立。
在数据稀疏性普遍存在的实际应用场景中,二次项参数的训练是很困难的。其原因是,每个参数 wijwij 的训练需要大量 xixi 和 xjxj 都非零的样本;由于样本数据本来就比较稀疏,满足“xixi 和 xjxj 都非零”的样本将会非常少。训练样本的不足,很容易导致参数 wijwij 不准确,最终将严重影响模型的性能。

解决二次项参数训练问题的办法:
矩阵分解
对二阶多项式参数进行矩阵分解
即N N = (Ni) (iN)
把以前的高维度矩阵拆开成两个低维度的矩阵就可以了
一个特征的隐变量应该理解为这个特征的低维度向量表示
所有包含“xixi 的非零组合特征”(存在某个 j≠ij≠i,使得 xixj≠0xixj≠0)的样本都可以用来学习隐向量 vivi,这很大程度上避免了数据稀疏性造成的影响。

在训练FFM的过程中,有许多小细节值得特别关注。
第一,样本层面的数据是推荐进行归一化的。
第二,特征归一化。尤其是数值型特征归一化。CTR/CVR模型采用了多种类型的源特征,包括数值型和categorical类型等。但是,categorical类编码后的特征取值只有0或1,较大的数值型特征会造成样本归一化后categorical类生成特征的值非常小,没有区分性。例如,一条用户-商品记录,用户为“男”性,商品的销量是5000个(假设其它特征的值为零),那么归一化后特征“sex=male”(性别为男)的值略小于0.0002,而“volume”(销量)的值近似为1。特征“sex=male”在这个样本中的作用几乎可以忽略不计,这是相当不合理的。因此,将源数值型特征的值归一化到 [0,1] 是非常必要的。
第三,省略零值特征。从FFM模型的表达式(4)
可以看出,零值特征对模型完全没有贡献。包含零值特征的一次项和组合项均为零,对于训练模型参数或者目标值预估是没有作用的。因此,可以省去零值特征,提高FFM模型训练和预测的速度,这也是稀疏样本采用FFM的显著优势。

作者:严林
链接:https://www.zhihu.com/question/27043630/answer/159374527
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

在广告系统中,FM的使用其实是越来越多了,目前百度、头条和bing等广告系统中都有使用,而且效果不错,毕竟FM对比LR多了二阶kernel嘛。
FM一直以来有两个问题,阻碍了其在广告上的更大规模应用,目前来看已经得到了一定的解决。这两个问题主要是:1. 预估性能;2. 可解释性。预估性能:FM的预估时间复杂度是 ,目前可以通过SIMD指令基本做到了近似 ,这里要感谢Intel的SSE、AVX和AVX2,以AVX2为例,一次可以操作256bit位宽,意味着在向量用float类型分解,k小于等于8时就是严格 的,实际上k会大一些,比如64、128,这个时候一般会用到float的q2.13编码和AVX2的循环展开与流水拼接技术,尽量降低 前面的常数因子(做得好的话,常数因子是完全可以降到1的)。2.可解释性:由于FM增加了二阶kernel,不是线性的,直观意义上的可解释性肯定是不如LR的,但这个问题并非无解,跟某司交流,他们从理论到实践,完整解决了二阶kernel以内的非线性模型可解释问题,由于没有得到授权,就不在这里展开讲了,一种简单粗暴的方案是将预估特征逐个的一阶、二阶项置为0,衡量预估变化程度来做解释性(特征是非IID分布时会有判断误差)。
谈到FM,那么绕不开的话题肯定包含FFM。FFM风头始于台大打KDD Cup和Kaggle,一时风头无俩。FM可以通过简单的数学变化将复杂度做到 ,FFM由于field划分,就没有类似的变换了,看似FFM的标准复杂度只能硬抗 (尽管FFM的k会小一些)。实际上,这个问题也是有解的。一种比较好的策略是将FFM的向量做类似caffe里边的img2col展开,然后在做向量乘法,那么就完全跟FM相同了。可能会说,FFM做img2col展开是 ,这里还是要再次感谢SIMD指令,以Intel的三种SIMD指令来说,它提供shuffle指令,一次计算好Mask,就可在后续的计算中以 复杂度做类似img2col变化啦。所以,FFM在内存上做出一些牺牲,是可以在性能上做到和FM相接近的时间复杂度的;工程做好了,前面的常数可以更小,毕竟k更小嘛。
SIMD指令还有非常多的应用,比如存储领域的纠删码实现,SIMD也是实力担纲,有机会再展开讲。
好的算法模型的应用,离不开良好的工程实现。算法研究人员平时多思考工程上的改进,也是一项不错的休闲娱乐活动。

你可能感兴趣的:(机器学习)