推荐系统与深度学习(8): [Adobe] FEFM和DeepFEFM模型

以下仅仅为个人对文章的阅读记录，如有错误，欢迎指正。如需转载注明来源即可~~

Pande H. Field-Embedded Factorization Machines for Click-through rate prediction[J]. arXiv preprint arXiv:2009.09931, 2020.
原文链接：https://arxiv.org/pdf/2009.09931.pdf

零、写在前面

FEFM模型和上一篇 FMFM模型的思路很类似，所以就抓紧一起介绍一下，看看这篇有什么值得学习的地方。就像之前说的，LE、Poly2、FM、FFM、FwFM之后，FMFM和FEFM这样的IDEA就自然而然会被提出来。

一、简介和相关工作

点击率(CTR)预测模型在快速增长的数十亿美元的在线广告行业中扮演着重要角色。提高平台的点击预测率不仅仅可以提高平台的收益，而且可以提升用户的满意度。在CTR任务中，特征的数量一般特别大，这给特征学习造成了困难。同时，一个特征在于其他特征进行交互的时候可能表现不相同(FFM的思想)，本文为了说明这一点，提及了CNN和LSTM的能力：通过归纳偏差实现对应的功能。其次，本文提到虽然为了建模高阶的特征交互会使用多层网络，但是一般都是使用3层及以下。
本文的主要贡献：

提出了FEFM，使用域对对称矩阵嵌入(symmetric field pair matrix embeddings)来捕获特征交互的不同重要性。和FFM相比明显降低了模型的参数。
使用域对对称矩阵的特征值来表示域对交互的强度。
结合FEFM，提出了DeepFM的变体——DeepFEFM。
通过完整的实验对比，说明FEFM和DeepFEFM的有效性，在Criteo和Avazu数据集上，超过了现有的浅层和深度CTR模型。

二、FEFM以及DeepFEFM模型

关于LR、FM、FFM、FWFM的相关介绍可以看看FMFM模型中的介绍。这里不做重复介绍，
给出一个FM变体的模型的统一公式。可以看到主要都是对交互部分进行改进。而不仅仅是FM-based模型，有效建建模特征交互也是深度CTR的主要研究方向之一。

2.1 FEFM

对于FM、FFM，他们直接学习Field-specific feature embeddings，但是在FEFM中，第i-th个和j-th个交互特征需要通过对称矩阵间接获得。如下，重点关注画圈的部分:

FEFM模型

矩阵是基于域对的，例如Criteo中有39个Field，那么一共需要初始化39*38/2个矩阵。
方便对比，给出前一篇FMFM模型的计算公式（两者其实是一样的）。

FMFM模型

模型的复杂度：

其中m表示feature的数量；n表示field的数量，例如在criteo中一般为39；k表示embedding的维度。n<

2.2 DeepFEFM

理解了FEFM以及DeepFM之后，再看DeepFFM模型，则几乎没有什么难度。简单来看，就是用FEFM替代FM模块，就不做详细介绍了。

DeepFEFM模型

三、实验对比

0、实验准备

数据集： Criteo、Avazu
数据划分：

评价指标：AUC和Logloss

1、主要的实验结果：

在实验数据集上，AUC和Logloss的效果超越了SOTAs的模型。

2、Embedding 维度的影响

直接看图吧。
在浅层模型上(FM-based models)：

在深度CTR模型上：

3、模型训练中的收敛情况

直接看图吧。

四、个人小结

本文的主要工作还是在FEFM，不过idea和FMFM模型不能说一模一样，只能说几乎相同。凑巧的是，就在晚上，还看到一个采用这个思路的模型，名叫Bi-FFM。有兴趣的可以自己搜索一下。当然这些文章在其他分析的方面各不相同。不得不说，现在做研究速度还是很重要的。最直观的感受就是，当某个领域出了一篇突破性的进展，如之前的Transformer模型，被应用到CV、RS等领域中都取得了成功。可以想象，也是在拼速度。同时实验分析、写作也很重要。同样idea，不同的人写，可能结果就完全不同。有时候在想，FM的idea给我们写，我们能完成到什么程度？？道阻且长，继续努力。