Miracle8070

AI上推荐之 FM和FFM(九九归一)

1. 前言

随着信息技术和互联网的发展，我们已经步入了一个信息过载的时代，这个时代，无论是信息消费者还是信息生产者都遇到了很大的挑战：

信息消费者：如何从大量的信息中找到自己感兴趣的信息？
信息生产者：如何让自己生产的信息脱颖而出，受到广大用户的关注？

为了解决这个矛盾，推荐系统应时而生，并飞速前进，在用户和信息之间架起了一道桥梁，一方面帮助用户发现对自己有价值的信息，一方面让信息能够展现在对它感兴趣的用户前面。推荐系统近几年有了深度学习的助推发展之势迅猛，从前深度学习的传统推荐模型(协同过滤，矩阵分解，LR, FM, FFM, GBDT)到深度学习的浪潮之巅(DNN, Deep Crossing, DIN, DIEN, Wide&Deep, Deep&Cross, DeepFM, AFM, NFM, PNN, FNN, DRN), 现在正无时无刻不影响着大众的生活。

推荐系统通过分析用户的历史行为给用户的兴趣建模，从而主动给用户推荐给能够满足他们兴趣和需求的信息，能够真正的“懂你”。想上网购物的时候，推荐系统在帮我们挑选商品，想看资讯的时候，推荐系统为我们准备了感兴趣的新闻，想学习充电的时候，推荐系统为我们提供最合适的课程，想消遣放松的时候，推荐系统为我们奉上欲罢不能的短视频…, 所以当我们淹没在信息的海洋时，推荐系统正在拨开一层层波浪，为我们追寻多姿多彩的生活！

这段时间刚好开始学习推荐系统，通过王喆老师的《深度学习推荐系统》已经梳理好了知识体系，了解了当前推荐系统领域各种主流的模型架构和技术。所以接下来的时间就开始对这棵大树开枝散叶，对每一块知识点进行学习总结。所以接下来一块目睹推荐系统的风采吧！

这次整理重点放在推荐系统的模型方面，先从传统推荐模型开始，然后到深度学习模型。传统模型的演化关系拿书上的一张图片，便于梳理传统推荐模型的进化关系脉络，对知识有个宏观的把握：

今天是推荐系统传统模型的第四篇，也是传统推荐模型的最后一篇，迎来的是因子分解机(Factorization Machine, FM)和域感知因子分解机(Field-aware Factorization Machine, FFM), 这两个属于因子分解机模型族，在传统逻辑回归的基础上，加入了二阶部分，使得模型具备了特征组合的能力，在上一篇文章里面谈到了逻辑回归，这是一个简单、直观、应用的模型，但是局限性就是表达能力不强，无法进行特征交叉和特征筛选等，因此为了解决这个问题，推荐模型朝着复杂化发展， GBDT+LR的组合模型就是复杂化之一，通过GBDT的自动筛选特征加上LR天然的处理稀疏特征的能力，两者一结合初步实现了推荐系统特征工程化的开端。其实，对于改造逻辑回归模型，使其具备交叉能力的探索还有一条线路，就是今天这篇文章要介绍的POLY2->FM->FFM，这条线路在探索特征之间的两两交叉，从开始的二阶多项式，到FM，再到FFM，不断演化和提升。

所以今天这篇文章的脉络会很清晰，首先会先从POLY2开始，简单介绍一下POLY2模型的原理以及存在的不足，从而引出后面的FM模型，这个模型是2010年提出来的，在POLY2的基础上把二阶交叉特征前面的权重换成了各自特征隐向量的内积形式，这个模型还是比较重要的，虽然现在不怎么用了，但是他里面的隐向量思想的身影在深度学习的embedding里面得到了继承和发展，所以接下来就会介绍FM模型的原理和一些公式的推导，这个模型依然有点不足，所以最后会介绍FFM模型的原理，这个模型基于FM模型对权重又进行了改进，引入了域的概念，使得交叉特征的信息表达更近一步，对了，这个模型是2016年提出来的，比GBDT+LR模型还晚了一些。这个模型感觉思路也是非常的有意思，所以也是挺重要的，为了更好的理解FM和FFM，每一块的后面也会加上代码实践部分，亲自玩一下这些模型

大纲如下：

FM？我们先从POLY2开始
FM模型的原理及代码实战
FFM模型的原理及代码实战

Ok, let’s go!

2. FM？我们先从POLY2开始

在前一篇文章中已经说过，逻辑回归模型已经把TOPN推荐的问题转成了CTR预估的问题，也就是将特征做一个线性组合，然后通过sigmoid得到一个概率值，这个概率值表示用户点击某个商品的概率，逻辑回归模型相对于传统的协同过滤来讲，已经可以把用户特征，商品特征以及上下文特征进行了利用，但是逻辑回归存在很大的一个问题就是只对单一特征做简单加权，不具备特征交叉生成组合特征的能力，因此表达能力受到了限制，还记得逻辑回归中 $y$ 的公式吗？
$w_0+\sum_{i=1}^nw_ix_i$
这里就可以看到，只是对单一特征进行了加权，这样我们说不好，因为很多情况下，特征之间的组合是非常有意义的，比如“USA”与“Thanksgiving”、“China”与“Chinese New Year”这样的关联特征，对用户的点击有着正向的影响。换句话说，来自“China”的用户很可能会在“Chinese New Year”有大量的浏览、购买行为，而在“Thanksgiving”却不会有特别的消费行为。这种关联特征与label的正向相关性在实际问题中是普遍存在的，如“化妆品”类商品与“女”性，“球类运动配件”的商品与“男”性，“电影票”的商品与“电影”品类偏好等。

那么我们能不能进行特征之间的组合呢？

在逻辑回归里面，如果想得到组合特征，往往需要人工在特征工程的时候手动的组合特征，然后再进行筛选，但这个比较低效，第一个是这个会有经验的成分在里面，第二个是可能会比较玄学，不太好找到有用的组合特征。于是乎，采用POLY2模型进行特征的“暴力”组合就成了可行的选择。 POLY2是二阶多项式模型，数学形式如下：

$w_0+\sum_{i=1}^nw_ix_i+\sum_{i=1}^{n-1}\sum_{i+1}^nw_{ij}x_ix_j$

看到这个基本上不用怎么解释就明白了，这个模型对所有的特征进行了两两的交叉，然后又算得了一个权重，这个其实和逻辑回归依然是超级像的，如果我们在逻辑回归中，做特征工程的时候，也可以自己做出这样的一些特征来的，就是所谓的：

for i in range(n-1):
	for j in range(i, n):
		data[cols[i]_cols[j]] = data[cols[i]] * data[cols[j]]

这样，其实用逻辑回归再做就相当于那个POLY2的模型了。

但是这个模型会存在两个比较大的问题：

推荐系统中的数据往往是非常稀疏的(类别型数据经过独热）, 这样会导致特征向量非常的稀疏，这时候如果再交叉的时候，往往 $x_i$ 和 $x_j$ 同时不为0的情况很少，这会导致交叉特征的权重缺乏有效的数据进行训练而无法收敛。就比如下面这个数据：假设一个广告分类的问题，根据用户和广告位相关的特征，预测用户是否点击了广告（本数据来自美团技术团队分享的paper）

“Clicked?”是label，Country、Day、Ad_type是特征。由于三种特征都是categorical类型的，需要经过独热编码（One-Hot Encoding）转换成数值型特征。

由上表可以看出，经过One-Hot编码之后，大部分样本数据特征是比较稀疏的。上面的样例中，每个样本有7维特征，但平均仅有3维特征具有非零值。那这样进行交叉的时候，其实很多交叉特征的项由于 $x_ix_j=0$ 使得 $w_{ij}$ 没有机会训练。因此，数据稀疏性是实际问题中不可避免的挑战。
POLY2中权重参数的数量是 $\frac{(n-1)n}{2}$ ，任意两个参数相互独立，这时候如果数据非常稀疏，再要训练这么多参数，无疑是非常困难的，最终模型也不会很好。

因此， POLY2模型虽然是引入了特征的二阶交叉组合，但是由于其模型参数，稀疏场景受限的问题使得FM登场了！

3. FM模型的原理及代码实践

3.1 FM模型的原理

在介绍FM之前，依然是抛出一个问题，就是上面的POLY2模型在特征交叉的时候采用的单独的权重，这使得在稀疏的场景下无法适用，那么这种问题应该怎么解决呢？其实，前面的矩阵分解算法就提供了一种思路—隐向量，还记得矩阵分解吗？这个是把用户评分矩阵分解成了user矩阵和item矩阵相乘的方式，即每个user和item都采用了一个隐向量来表示，如果忘了，把前面的图拿过来：

这个评分矩阵也是非常稀疏的，如果采用普通的协同过滤算法，真的不太好判断用户相似或者物品相似，但是如果把这个矩阵分解成了两个矩阵相乘的形式，那么就可以把单独考虑某个用户或者某个物品变成综合考虑所有用户和用品，基于打分的这些数据就可以得到每个用户和物品的向量，然后相乘得到最后的评分。

既然对于稀疏的评分矩阵，我们有办法分解成两个向量相乘的形式，那么为何不把这种思想用到解决POLY2的缺陷上呢？无非就是评分矩阵换成POLY2后面的 $W$ 矩阵(所有二次项系数 $w_{ij}$ 组成的）。于是乎，这种思想真的就用过来了，那就是把 $W$ 矩阵进行分解成两个矩阵相乘的方式，可是有依据的哟：

任意一个实对称矩阵（正定矩阵） $W$ 都存在一个矩阵 $V$ ，使得 $W=V.V^T$ 成立。

所以，对于二次项参数 $w_{ij}$ 组成的对称阵 $W$ (为了方面说明FM的由来，对角元素设置为正实数)，我们就可以分解成 $V^TV$ 的形式， $V$ 的第 $j$ 列 $v_j$ 表示的是第 $j$ 维特征 $x_j$ 的隐向量。换句话说，特征分量 $x_i$ 和 $x_j$ 的交叉系数就等于 $x_i$ 和 $x_j$ 对应的隐向量的内积，即每个参数 $w_{ij}=$ ，这就是FM模型的核心思想。转换过程如下：
$W^{\star}=\left[\begin{array}{cccc} \omega_{11} & \omega_{12} & \ldots & \omega_{1 n} \\ \omega_{21} & \omega_{22} & \ldots & \omega_{2 n} \\ \ldots & \ldots & \ldots & \ldots \\ \omega_{n 1} & \omega_{n 2} & \ldots & \omega_{n n} \end{array}\right]=V^{T} V=\left[\begin{array}{c} V_{1} \\ V_{2} \\ \ldots \\ V_{n} \end{array}\right] \times\left[V_{1}, V_{2}, \ldots, V_{n}\right]=\left[\begin{array}{cccc} v_{11} & v_{12} & \ldots & v_{1 k} \\ v_{21} & v_{22} & \ldots & v_{2 k} \\ \cdots & \cdots & \cdots & \cdots \\ v_{n 1} & v_{n 2} & \ldots & v_{n k} \end{array}\right] \times\left[\begin{array}{cccc} v_{11} & v_{21} & \ldots & v_{n 1} \\ v_{12} & v_{22} & \ldots & v_{n 2} \\ \cdots & \cdots & \cdots & \cdots \\ v_{1 k} & v_{2 k} & \cdots & v_{n k} \end{array}\right]$
这时候，为了求 $w_{ij}$ ，我们需要求出特征分量 $x_i$ 的辅助向量 $v_i=(v_{i1}, v_{i2}, ...v_{ik})$ ， $v_j=(v_{j1}, v_{j2},...v_{jk})$ 。

所以，有了这样的一个铺垫，就可以写出FM的模型方程了，就是POLY2 的基础上，把 $w_{ij}$ 写成了两个隐向量相乘的方式。
$\hat{y}(X) = \omega_{0}+\sum_{i=1}^{n}{\omega_{i}x_{i}}+\sum_{i=1}^{n-1}{\sum_{j=i+1}^{n} \color{red}{x_{i}x_{j}}}$

需要估计的参数有 $\omega_{0}∈ R$ ， $\omega_{i}∈ R$ ， $V \in R$ ， $\cdot, \cdot>$ 是长度为 $k$ 的两个向量的点乘，其中：
$\sum_{f=1}^{k}{v_{i,f}\cdot v_{j,f}}$
上面的公式中：

$\omega_{0}$ 为全局偏置；
$\omega_{i}$ 是模型第 $i$ 个变量的权重;
$\omega_{ij} = < v_{i}, v_{j}>$ 特征 $i$ 和 $j$ 的交叉权重;
$v_{i}$ 是第 $i$ 维特征的隐向量;
$<\cdot, \cdot>$ 代表向量点积;
$为隐向量的长度，包含 k 个描述特征的因子。$

FM模型中二次项的参数数量减少为 $k n$ 个，远少于多项式模型的参数数量。另外，参数因子化使得 $x_{h}x_{i}$ 的参数和 $x_{i}x_{j}$ 的参数不再是相互独立的，因此我们可以在样本稀疏的情况下相对合理地估计FM的二次项参数。具体来说， $x_{h}x_{i}$ 和 $x_{i}x_{j}$ 的系数分别为 $\lt v_{h},v_{i}\gt$ 和 $\lt v_{i},v_{j}\gt$ ，它们之间有共同项 $v_{i}$ 。也就是说，所有包含“ $x_{i}$ 的非零组合特征”（存在某个 $\ne i$ ，使得 $x_{i}x_{j}\neq 0$ ）的样本都可以用来学习隐向量 $v_{i}$ ，这很大程度上避免了数据稀疏性造成的影响。而在多项式模型中, $w_{hi}$ 和 $w_{ij}$ 是相互独立的。关于上面说的如果不太理解， FFM论文中有个例子解释的特别贴切：

这是一个点击率数据集，左边的±表示的点击和不点击的数量。右边两列是特征。对于上面那句话的举例如下：

这句话直接就道出了FM相比较于POLY2的优势所在，能够更好地解决数据稀疏，具备计算从未出现特征组合权重的能力(和MF一样， POLY2类似于仅考虑 $x_i,x_j$ 本身，而FM综合考虑其他特征)。

FM的公式是一个通用的拟合方程，可以采用不同的损失函数用于解决regression、classification等问题，比如可以采用MSE（Mean Square Error）loss function来求解回归问题，也可以采用Hinge/Cross-Entropy loss来求解分类问题。当然，在进行二元分类时，FM的输出需要使用sigmoid函数进行变换，该原理与LR是一样的。直观上看，FM的复杂度是 $O(kn^2)$ 。但是FM的二次项可以化简，其复杂度可以优化到 $O (k n)$ 。由此可见，FM可以在线性时间对新样本作出预测。这个地方的推导如下：

$\begin{aligned} \sum_{i=1}^{n-1} \sum_{j=i+1}^{n}x_{i} x_{j} &=\frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n}x_{i} x_{j}-\frac{1}{2} \sum_{i=1}^{n}x_{i} x_{i} \\ &=\frac{1}{2}\left(\sum_{i=1}^{n} \sum_{j=1}^{n} \sum_{f=1}^{n} v_{i, f} v_{j, f} x_{i} x_{j}-\sum_{i=1}^{n} \sum_{f=1}^{k} v_{i, f} v_{i, f} x_{i} x_{i}\right) \\ &=\frac{1}{2} \sum_{f=1}^{k}\left[\left(\sum_{i=1}^{n} v_{i, f} x_{i}\right) \cdot\left(\sum_{j=1}^{n} v_{j, f} x_{j}\right)-\sum_{i=1}^{n} v_{i, f}^{2} x_{i}^{2}\right] \\ &=\frac{1}{2} \sum_{f=1}^{k}\left[\left(\sum_{i=1}^{n} v_{i, f} x_{i}\right)^{2}-\sum_{i=1}^{n} v_{i, f}^{2} x_{i}^{2}\right] \end{aligned}$

这样，就对上面的公式进行了化简，方便用梯度下降法求解参数。但是这个式子最上面那个等式为啥成立呢？其实，这个就是矩阵的一个运算化简，这里用文文大佬画的那个图看一下：

这个应该一目了然了，就不过多解释了。总之有了这个式子，就可以用SGD求进行梯度更新：
$\frac{\partial \hat{y}(x)}{\partial \theta}=\left\{\begin{array}{ll} 1, & \text { if } \theta \text { is } \omega_{0} \\ x_{i}, & \text { if } \theta \text { is } \omega_{i} \\ x_{i} \sum_{j=1}^{n} v_{j, f} x_{j}-v_{i, f} x_{i}^{2} & \text { if } \theta \text { is } v_{i, f} \end{array}\right.$
由这个式子也可以看出来，更新 $v_{i,f}$ 的时候，只需要样本 $x_i$ 特征非0即可，适合于稀疏数据。

在使用SGD训练模型时，在每次迭代中，只需计算一次所有 $f$ 的 $\sum_{j=1}^{n} v_{j, f} x_{j}$ 就能够方便的得到所有 $v_{i,f}$ 的梯度，而如果有 $k$ 维的话，复杂度是 $O (k n)$ ，即FM参数训练的复杂度就是这个。

由此可见， FM可以在线性时间训练和预测，模型非常高效和灵活，相比后面的深度学习模型复杂的网络结构导致难以部署和线上服务， FM容易实现的模型结构使得线上推断过程相对简单，也更容易线上部署和服务。因此， FM在2012-2014前后，成为了业界主流的推荐模型之一。

3.2 FM模型的代码实战

FM这里的代码实战部分比较丰富，尝试整理了两种使用FM的思路，一种是通过pyFM直接掉包，二是手动实现这个模型。掉包使用的时候，我们需要弄清楚这里的FM参数，还有就是数据集的格式，必须处理成相应的格式，否则会报错。接下来，尝试整理这两种方式的使用。

实战中的数据集和具体详细代码可以参考最后的GitHub链接，这里只整理重点。实战部分分为分类和回归，回归任务用到的数据集是前面协同过滤时电影评分的预测，而分类任务中的数据集是CBDT+LR里面的criteo CTR数据集，具体情况参考链接吧。

3.2.1 调包版FM的使用

这个需要调用pyFM这个包，所以首先需要安装一下这个包。下面的pyFM包里面介绍了最简单粗暴的pip方法，但是我按照的有报错提示，所以这里再提供一种方式：

在https://github.com/coreylynch/pyFM中手动下载包
将包解压，更改里面的setup.py文件，去掉setup.py文件里面的libraries=[“m”]一行
cd到当前文件夹下python setup.py install

这种方法安装过程中，如果报C++ 14.0 is required的错误，那么就再来看这个Microsoft Visual C++ 14.0 is required 的解决方案, 第二种方法亲测了一下。

安装好包之后，我们重点看一下怎么使用，其实pyFM的GitHub里面也在下面写了几个上手的案例。如果把人家那个直接复制过来，就没啥意思了，这里补充一点别的。掉包版依然是分为回归和分类任务，关于回归， GitHub项目里面已经给出了电影评分的案例，这里强调的是输入格式，一定要按照这个格式来，否则会报错，这里它用的是[{'fea1': 'value1', 'fea2': 'value2'}, {}, {}]的格式，然后将这个通过DictVectorizer()进行转换才能用它的包进行训练。具体的看我给出的GitHub吧，这里不整理这个。

回归任务
关于回归任务，这里还是用我前面协同过滤和矩阵分解里面用的那个简单例子，猜测用户Alice对物品5的打分。这样才有利于把知识连起来嘛，哈哈。

还是这个熟悉的任务，前面已经用协同过滤和MF完成了一下，这里我们看看FM如何用于这个任务。通过这个和电影评分的两个，应该可以使用这个pyFM的包了。如果要使用FM，这里和前面两个模型不同的地方就是数据的存储格式，我们知道协同过滤和矩阵分解都是直接基于这个交互矩阵，那么在存储的时候往往是用字典，记录用户对物品评了多少分即可。但是FM不能直接用这样的数据，因为FM是把上面这个问题转成一个监督的问题，监督问题的话就需要特征列和标签。所以要先把这个数据格式进行一个处理。具体代码是这样：
```
# 导入数据这部分还是原来的那个代码
def loadData():
    rating_data={
       1: {
       'A': 5, 'B': 3, 'C': 4, 'D': 4},
           2: {
       'A': 3, 'B': 1, 'C': 2, 'D': 3, 'E': 3},
           3: {
       'A': 4, 'B': 3, 'C': 4, 'D': 3, 'E': 5},
           4: {
       'A': 3, 'B': 3, 'C': 1, 'D': 5, 'E': 4},
           5: {
       'A': 1, 'B': 5, 'C': 5, 'D': 2, 'E': 1}
          }
    return rating_data
    
rating_data = loadData()
```
这个没变，为了和原来的保持一致，但是这里需要处理一下格式：
```
df = pd.DataFrame(rating_data).T
df = df.stack().reset_index()
df.columns = ['user', 'item', 'rating']
df['user'] = df['user'].astype('str')
```
这里，就把数据变成了特征-标签的形式，这个起作用的是stack函数，具体的可以参考我整理的另一篇博客。

下面再一步处理，把item这个进行数字编码，然后把前两列当做特征，后一列当做标签划分开数据集：
```
item_map = {
       item: str(idx) for idx, item in enumerate(set(df['item']))}
df['item'] = df['item'].map(item_map)

# 划分， 得到数据集
train_data = df[['user', 'item']]
y = df['rating']
```
下面把特征进行one-hot编码，这里由于是pandas的DataFrame，我用DictVectorizer()会报错，所以这里我直接用sklearn的OneHotEncoder()处理。
```
one = OneHotEncoder()
x = one.fit_transform(train_data)
```
这个处理完是一个稀疏矩阵存储格式，巧了，下面的FM还就是用这种格式的， DictVectorizer()也是处理成这个格式。长下面这样：

这个OneHotEncoder不过多解释了，这样每一行的两个特征都用了独热的形式。下面就是建立FM模型了，主要是看看这个咋用。
```
# 建立模型
fm = pylibfm.FM(num_factors=10, num_iter=100, verbose=True, task='regression', initial_learning_rate=0.001, learning_rate_schedule='optimal')
```
建立模型，只需要一句话。但是这里面有好多参数，我们需要知道
FM的具体参数函数如下: 这里面重点需要设置的我已标出(详细的可以参考源码)
- num_factors: 隐向量的维度，也就是k
- num_iter: 迭代次数，由于使用的SGD，随机梯度下降，要指明迭代多少个epoch
- k0, k1: k0表示是否用偏置（看FM的公式)， k1表示是否要第二项，就是单个特征的，这俩默认True
- init_stdev: 初始化隐向量时候的方差, 默认0.01
- validation_size: 验证集的比例，默认0.01
- learning_rate_schedule: 学习率衰减方式，有constant, optimal, 和invscaling三种方式，具体公式看源码
- initial_learning_rate: 初始学习率，默认0.01
- power_t， t0: 逆缩放学习率的指数，最优学习率分母常数，这两个和上面学习率衰减方式的计算有关
- task: 分类或者回归任务，要指明
- verbose: 是否打印当前的迭代次数，训练误差
- shuffle_training: 是否在学习之前打乱训练集
- seed: 随机种子
建立了模型之后，下面训练和预测就非常简单，还是fit和predict.
```
# 模型训练
fm.fit(x, y)

# 测试集
test = {
       'user': '1', 'item': '4'}
x_test = one.transform(pd.DataFrame(test, index=[0]))

# 预测
pred_rating = fm.predict(x_test)
print('FM的预测评分:{}'.format(pred_rating[0]))   # FM的预测评分:3.513755892491899
```
这样就用FM完成了之前预测用户商品评分的例子，看懂了这个再看它给的电影评分的例子就会非常简单了。

分类任务
掉包完成分类任务， pyFM GitHub里面给出了一个随机生成的数据集完成分类，这里为了衔接下面的造轮子的内容，用调包的方式在criteo数据集进行实战。这里非常重要的一个点依然是数据的格式。如果处理不当，就无法用人家的包训练。首先是导入数据集，并简单处理，这部分代码直接用的GBDT+LR里面的代码，与前面的衔接。

# 数据读取
path = 'criteo/'
df_train = pd.read_csv(path + 'train.csv')
df_test = pd.read_csv(path + 'test.csv')

# 简单的数据预处理
# 去掉id列， 把测试集和训练集合并， 填充缺失值
df_train.drop(['Id'], axis=1, inplace=True)
df_test.drop(['Id'], axis=1, inplace=True)

df_test['Label'] = -1

data = pd.concat([df_train, df_test])
data.fillna(-1, inplace=True)

"""下面把特征列分开处理"""
continuous_fea = ['I'+str(i+1) for i in range(13)]
category_fea = ['C'+str(i+1) for i in range(26)]

下面进行类别特征的编码，这里用LabelEncoder()，并生成数据集

# 类别特征编码
lab = LabelEncoder()
for col in category_fea:
    data[col] = data[col].astype('str')
    data[col] = lab.fit_transform(data[col])
 
# 分开
df_train = data[:df_train.shape[0]]
df_test = data[df_train.shape[0]:]
del df_test['Label']

# 生成数据集
x_train = df_train.drop(columns='Label')
y_train = df_train['Label'].values
x_test = df_test

下面是进行数据归一化，因为我发现如果不归一化，下面训练的时候会出现loss为nan

# 标准化
scaler = MinMaxScaler()
x_train = scaler.fit_transform(x_train)
x_test = scaler.transform(x_test)

下面是最关键的一部，转换格式，这也是我花最多时间探索的一步，需要这种格式：

# 转换格式  [{'0': 'value', '1': 'value', }, {}, {}...{}]， 这样的格式， 一个列表， 然后里面元素是字典表示每个样本， 字典的键是特征的索引下标， 值是特征值
x_train = [{
       v: k for k, v in zip(i, range(len(i)))} for i in x_train]
x_test = [{
       v: k for k, v in zip(i, range(len(i)))} for i in x_test]

x_tr, x_val, y_tr, y_val = train_test_split(x_train, y_train, test_size=0.1, random_state=2020)

# 这里需要进行转换一下才能用这个包  这一步也非常关键， 这样才能成为稀疏矩阵
v = DictVectorizer()
x_tr = v.fit_transform(x_tr)
x_val = v.transform(x_val)
x_test = v.transform(x_test)

下面就是建立模型了：分类任务，注意task参数

# 建立模型
fm = pylibfm.FM(num_factors=200, num_iter=100, verbose=True, task='classification', initial_learning_rate=0.001, learning_rate_schedule='optimal')

# train
fm.fit(x_tr, y_tr)

# envalueate
val_pre = fm.predict(x_val)
log_loss(y_val, val_pre)    # 0.4677241466075124

3.2.2 造轮子版FM

造轮子版来自于Datawhale的推荐系统组队学习，如意哥写的，向大佬学习了一下这个代码，这个是通过keras写的，也是用的criteo的数据集，所以和上面正好又对起来。思路就是读入数据之后，特征编码，然后构建FM的组合层，写成了类似神经网络的那种形式。不是太难理解，下面一块块的来看：

# dense特征取对数， sparse特征类别编码
def process_feat(data, dense_feats, sparse_feats):
    df = data.copy()
    
    # dense
    df_dense = df[dense_feats].fillna(0.0)
    for f in tqdm(dense_feats):
        df_dense[f] = df_dense[f].apply(lambda x: np.log(1+x) if x > -1 else -1)
        
    # sparse
    df_sparse = df[sparse_feats].fillna('-1')
    for f in tqdm(sparse_feats):
        lbe = LabelEncoder()
        df_sparse[f] = lbe.fit_transform(df_sparse[f])
    
    df_new = pd.concat([df_dense, df_sparse], axis=1)
    return df_new

这个函数的作用就是完成编码，数值特征用了对数转换，类别特征LabelEncoder()编码。下面就是FM的造轮子实现：

# FM 特征组合层
class crossLayer(layers.Layer):
    def __init__(self, input_dim, output_dim=10, **kwargs):
        super(crossLayer, self).__init__(**kwargs)
        
        self.input_dim = input_dim
        self.output_dim = output_dim
        
        # 定义交叉特征的权重
        self.kernel = self.add_weight(name='kernel', shape=(self.input_dim, self.output_dim), initializer='glorot_uniform', trainable=True)
    
    def call(self, x): # 对照上述公式中的二次项优化公式理解
        a = K.pow(K.dot(x, self.kernel), 2)
        b = K.dot(K.pow(x, 2), K.pow(self.kernel, 2))
        return 0.5 * K.mean(a-b, 1, keepdims=True)

这里首先，自定义了一个交叉特征的层，完成的是公式里面的第三部分运算。 self.kernel就是w矩阵，和上面的公式唯一不同的就是这里统一采用了矩阵运算的形式。应该比较好理解。

# 定义FM模型
def FM(feature_dim):
    inputs = Input(shape=(feature_dim, ))
    
    # 一阶特征
    linear = Dense(units=1, kernel_regularizer=regularizers.l2(0.01), bias_regularizer=regularizers.l2(0.01))(inputs)
    
    # 二阶特征
    cross = crossLayer(feature_dim)(inputs)
    add = Add()([linear, cross])            # 将一阶特征与二阶特征相加构建FM模型
    
    pred = Activation('sigmoid')(add)
    model = Model(inputs=inputs, outputs=pred)
    
    model.compile(loss='binary_crossentropy', optimizer=optimizers.Adam(), metrics=['binary_accuracy'])
    
    return model

这里定义了FM模型，这个就是完全是实现了FM的公式。一阶特征部分是一个Dense层, 二阶特征交叉就是上面定义的那个层，最后Add()连接，再用sigmoid激活。这里我也是新学到的这种思路，竟然可以这样写， interesting . 后面就是常规操作了，一块写下来吧：

# 读入数据
path = 'criteo/'
data = pd.read_csv(path + 'train.csv')

# 去掉id列， 把测试集和训练集合并， 填充缺失值
data.drop(['Id'], axis=1, inplace=True)

# dense 特征开头是I, sparse特征开头是C， label是标签
cols = data.columns.values

dense_feats = [f for f in cols if f[0] == 'I']
sparse_feats = [f for f in cols if f[0] == 'C']

# 数据预处理
feats = process_feat(data, dense_feats, sparse_feats)

# 划分训练和验证数据
x_trn, x_tst, y_trn, y_tst = train_test_split(feats, data['Label'], test_size=0.2, random_state=2020)

# 定义模型
model = FM(feats.shape[1])
model.fit(x_trn, y_trn, epochs=100, batch_size=128, validation_data=(x_tst, y_tst))
# 预测
y_pred = model.predict(x_tst)

关于FM的实战部分，目前就学了这么多，所以先整理到这里吧，具体详细代码和数据集，可以去后面的GitHub。

3.3 FM模型的应用

最直接的想法就是直接把FM得到的结果放进sigmoid中输出一个概率值，由此做CTR预估，事实上我们也可以做召回。

由于FM模型是利用两个特征的Embedding做内积得到二阶特征交叉的权重，那么我们可以将训练好的FM特征取出离线存好，之后用来做KNN向量检索。

工业上，应用FM的具体操作步骤：

离线训练好FM模型（学习目标可以是CTR）
将训练好的FM模型Embedding取出
将每个uid对应的Embedding做avg pooling（平均）形成该用户最终的Embedding，item也做同样的操作
将所有的Embedding向量放入Faiss等
线上uid发出请求，取出对应的user embedding，进行检索召回

关于工业上的更多应用，这里先占个坑，等探索完了，后面会再来补充。

4. FFM模型的原理及代码实践

2015年，基于FM提出的FFM在多项CTR预估大赛中夺魁，并被Criteo、美团等公司深度应用在推荐系统、CTR预估等领域，相比于FM模型， FFM模型引入了特征域感知(filed-aware) 这个概念，使得模型的表达能力更强。下面就来看看这个模型的原理。

4.1 FFM模型的原理

既然这个模型是基于FM模型，那么应该是从FM模型上面进行的改进，那么回顾上面的FM模型，哪个地方会存在问题呢？ FM的模型公式如下：
$\hat{y}(X) = \omega_{0}+\sum_{i=1}^{n}{\omega_{i}x_{i}}+\sum_{i=1}^{n-1}{\sum_{j=i+1}^{n} \color{red}{x_{i}x_{j}}}$
说得对，就是后面的这个权重计算。就拿上面的那个例子来看：

我们知道，如果是FM进行两两特征交叉的时候，比如"USA"和"1/7/14"交叉和"USA"和"Movie"交叉的时候，其实用的“USA"的隐向量都是 $V_{USA}$ ，即( $V_{USA}，V_{1/17/14})$ 和( $V_{USA}，V_{Movie})$ ，当然在学习 $V_{USA}$ 的时候，也是综合了 $V_{1/17/17}, V_{movie}$ 等很多个和 $V_{USA}$ 有交互的特征学习到的。这样存在的一个问题就是学习的 $V_{USA}$ 需要考虑全部的与其交互的特征，但是其实我们会发现一个问题，像“Day=26/11/15”、“Day=1/7/14”、“Day=19/2/15”这三个都是属于日期类的特征，而"Movie"和"Game"都是属于Ad_type类的，也就是说 $V_{1/17/14}$ 和 $V_{Movie}$ 的相差可能会很大，而"USA"和"1/7/14"交叉和"USA"和"Movie"交叉的时候，都是用的同一个 $V_{USA}$ 好像不太合理，且学习这个隐向量的时候，也得权衡各个类别里面的交互特征学到，这样可能会使得模型的表达能力受到一定的限制，感觉论文里面的这句话解释的很好：

那么，我们为啥不先把特征先分一下类(因为很多都是one-hot之后的特征嘛，就比如上面的Day, Ad_type，这些特征其实是可以属于一类总体的日期类或者广告类型类)，然后对于每个特征，我们按照不同的域学习不同的隐向量呢？也就是一个特征对应多个隐向量。这样在与不同域(类）里面特征交叉的时候，用相应的隐向量去交叉计算权重， emmm, 这倒是一种思路，并且这样做的好处是学习隐向量的时候只需要考虑相应的域的数据，且与不同类的特征进行关联采用不同的隐向量，这和不同类特征的内在差异也比较相符。这其实就是FFM在FM的基础上做的改进， 引入了域的概念，对于每个特征，针对不同的交叉域要学习不同的隐向量特征。

这么说，如果有点抽象，那么就拿上面的那个例子来看一下FFM的好处，还是"USA"和"1/7/14"交叉和"USA"和"Movie"交叉。这时候不同于FM， FFM在USA这个特征下会有两个隐向量 $V_{USA, date}和V_{USA,Ad\_type}$ ，这时候，如果是前两者交叉，那么权重就是( $V_{USA, date}，V_{1/17/14})$ 的内积，如果是后两者交叉，那权重就是( $V_{USA,Ad\_type}，V_{Movie})$ 的内积。注意体会一下FFM和FM的不同。这样的好处就是交叉的时候，可以更能够体现出不同域里面特征的差异性(这就是FFM里面"field-aware"的由来)，表达能力更强，另外一个就是学习USA特征的多个隐向量的时候，不是综合考虑所有的类别特征，而是自个学习自个的，也就是 $V_{USA, date}$ 的学习只用USA与日期的交互数据， $V_{USA, Ad\_type}$ 学习只用USA与Ad_type的交互数据，这样 $V_{USA, date}$ 和 $V_{USA, Ad\_type}$ 隐向量的维度就可以少很多。

但这个由于又考虑了域嘛，即一个特征会根据不同的域学习不同的隐向量，那么时间复杂度上会从FM的 $O (n k)$ 到FFM的 $O (n f k)$ ，这里的 $f$ 就是域的个数，这里的时间复杂度会到 $O(kn^2)$ ，因为隐向量和field有关， FFM的二次项并不能够化简。

这里的域理解起来的话其实就是先对特征根据性质的不同进行了一个分类，不同的分类就是不同的域，域内特征一般都是同一个categorical特征经过One-Hot编码生成的数值特征，比如用户性别，职业，日期啊等等。比如：

对于连续特征，一个特征就对应一个域，或者可以对连续特征离散化，一个分箱成为一个特征，总的分箱是一个域。对于离散特征，就像上面说的，采用one-hot编码，同一种属性的归到一个域。

好了，如果经过上面的铺垫感觉FFM差不多了，那么下面就是模型的方程了：
$\hat{y}(X) = \omega_{0}+\sum_{i=1}^{n}{\omega_{i}x_{i}}+\sum_{i=1}^{n-1}{\sum_{j=i+1}^{n} \color{blue}{x_{i}x_{j}}}$
这里可以和FM进行一个对比，其实就是权重计算的那块变了。

下面先用文文大佬的一个例子看一下FFM的特征组合方式，然后简单的推导一下上面这个方程具体怎么学习求参数。
假设输入记录如下：

这条记录可以编码成5个特征，其中“Genre=Comedy”和“Genre=Drama”属于同一个field，“Price”是数值型，不用One-Hot编码转换。为了方便说明FFM的样本格式，我们将所有的特征和对应的field映射成整数编号。

那么，FFM的组合特征有10项，如下图所示。

其中，红色是field编号，蓝色是特征编号。

下面来讨论FFM的具体训练细节，我们依然会使用梯度下降来更新参数，那么涉及到的一点依然是求导。看看FFM这里如何求导。关于公式的前面两部分，和FM一样，这里不说了，主要是蓝色的那一部分，拿下来单独看：
$\hat{y} = \sum_{i=1}^{n-1}{\sum_{j=i+1}^{n} \color{blue}{x_{i}x_{j}}}$
以上面表格里面的用户1的 $\hat y$ 为例：
$\hat{\boldsymbol{y}}= x_{1} x_{2}+ x_{1} x_{3}+ x_{1} x_{4}+\cdots$
这里由于 $x_2,x_3,x_4$ 都属于field2域，所以这里的 $f_2,f_3,f_4$ 都可以用 $f_2$ 来代替，即

$\hat{\boldsymbol{y}}= x_{1} x_{2}+ x_{1} x_{3}+x_{1} x_{4}+\cdots$
这时候，计算一下 $\hat y$ 对 $v_{1,f_2}$ 的偏导：
$\frac{\partial \hat{y}}{\partial v_{1, f 2}}=v_{2, f 1} x_{1} x_{2}+v_{3, f 1} x_{1} x_{3}+v_{4, f 1} x_{1} x_{4}$
注意此时 $x_2,x_3,x_4$ 属于同一属性的one-hot表示，即三个里面只有一个是1，其他为0，比如这里面 $x_2=1$ ，那么
$\frac{\partial \hat{y}}{\partial v_{1, f 2}}=v_{2, f 1} x_{1} x_{2}$
推广到一般情况就是：
$\frac{\partial \hat{y}}{\partial v_{i, f j}}=v_{j, f i} x_{i} x_{j}$
$x_j$ 属于Field $f_j$ , 且同一个Field里面的其他 $x_m$ 都等于0，实际项目里面 $x$ 是非常高维的稀疏向量，求导时只关注非0项即可。

那么有了导数，后面就是采用梯度下降法进行更新了。但是这里或许会有个疑问，就是一般求导，不是损失函数对参数的导数吗？这里包括上面的FM，为啥是 $\hat y$ 对参数的导数呢？这个如果你发现了这一步，说明你对ML梯度更新这块掌握的很不错了。这里就把这个疑问给解开：

在实际点击率预测的时候，我们一般是不会直接用这个 $\hat{y}$ 的，而是会在外面在套一层sigmoid函数，即
$z=\phi(v, x)=\sum_{i=1}^{n} \sum_{j=i+1}^{n} v_{i, f j} \cdot v_{j, f i} x_{i} x_{j} \\ a=\sigma(z)=\frac{1}{1+e^{-z}}=\frac{1}{1+e^{-\phi(v, x)}}$
这里的 $a$ 是我们对点击率预测值。那么这时候，假设 $y = 0$ 表示负样本， $y = 1$ 表示正样本， $C$ 为交叉熵损失的话，那么
$\frac{\partial C}{\partial z}=a-y=\left\{\begin{array}{cl} -\frac{e^{-z}}{1+e^{-z}} & i f y \text { 是正样本 } \\ \frac{1}{1+e^{-z}} & i f y \text { 是负样本 } \end{array}\right.$

这个式子如果想推一推，可以参考我写的那篇逻辑回归，那么此时如果再把这个划开，其实就是
$\frac{\partial C}{\partial v_{i, f j}}=\frac{\partial C}{\partial z} \frac{\partial z}{\partial v_{i, f j}}$

这不就是损失函数对参数的求导了。后面的那一块就是上面求得那个。

当然，如果看论文，会发现参数更新公式长这样：

这是因为这里面y=1是正样本， y=-1是负样本。这时候损失函数就不是我们之前所学的那种逻辑回归的形式，而是：
$\min _{\mathbf{w}} \sum_{i=1}^{L} \log \left(1+\exp \left\{-y_{i} \phi\left(\mathbf{w}, \mathbf{x}_{i}\right)\right\}\right)+\frac{\lambda}{2}\|\mathbf{w}\|^{2}$
但有了上面的推导过程，这个应该很好理解了。无非就是损失函数换了换样子，穿了另一个马甲而已

4.2 FFM模型的代码实战

关于FFM的代码实战，这里参考了下面的FFM代码实现，这个是从头手撸了一个，在这里简单的整理一下我学习到的一些思想吧，具体可以参考下面链接的分析。

首先，FFM模型的话，需要的数据是有格式要求的，一般是存储稀疏矩阵，且格式会是

所以，在代码具体实现中，把这种一一看成了链表节点的形式，所以一开始定义了一个FFM_Node

class FFM_Node(object):
    '''
    通常x是高维稀疏向量，所以用链表来表示一个x，链表上的每个节点是个3元组(j,f,v)
    '''
    __slots__ = ['j', 'f', 'v']    # 按照元组不是字典的方式存储类的成员属性
    
    def __init__(self, j, f, v):
        """
            j: Feature index (0-n-1)
            f: field index(0-m-1)
            v: value
        """
        self.j = j
        self.f = f
        self.v = v

这个类就是以元组的形式储存数据，方便后面的操作。 FFM模型具体实现的时候，这个和FM不一样的就是这里没法先将公式化简，然后使用向量运算一步到位，对于交叉特征，这里只能写两重循环去实现。所以看看FFM这个模型具体实现的时候，需要哪些自己的属性：

def __init__(self, m, n, k, eta, lambd):
        """
            m: Number of fields
            n: Number of features
            k: Number of latent factors
            eta: learning rate
            lambd: regularization coefficient
        """
        self.m = m
        self.n = n
        self.k = k
        
        #超参数
        self.eta = eta
        self.lambd = lambd
        
        # 初始化三维权重矩阵w~U(0, 1/sqrt(k))
        self.w = np.random.rand(n, m, k) / math.sqrt(k)
        
        # 初始化累积梯度平方和， AdaGrad时要用到
        self.G = np.ones(shape=(n, m, k), dtype=np.float64)
        self.log = Logistic()

比较核心的就是域的个数，特征的个数，隐向量的维度， w矩阵。学习率和lambda是和训练相关的参数，而G这个是采用了Adagrad算法，这里面更新的时候要用到。下面看一下前向传播，要注意那个两层的循环计算权重，这里其实是FFM的核心部分了：

# 这个是计算第三项
    def phi(self, node_list):
        """
        特征组合式的线性加权求和
        param node_list: 用链表存储x中的非0值
        """
        z = 0.0
        for a in range(len(node_list)):
            node1 = node_list[a]
            j1 = node1.j
            f1 = node1.f
            v1 = node1.v
            for b in range(a+1, len(node_list)):
                node2 = node_list[b]
                j2 = node2.j
                f2 = node2.f
                v2 = node2.v
                w1 = self.w[j1, f2]
                w2 = self.w[j2, f1]
                z += np.dot(w1, w2) * v1 * v2
        return z

这里只计算的公式里面的第三项，传入参数是node_list，也就是所有的数据都以链表的形式穿起来了。当然具体实现的时候一个列表即可。这里应该不用过多解释，就是严格按照FFM的计算公式算的第三项。下面再来看看反向传播，也就是求导数的过程，这里用的随机梯度下降：

# 随机梯度下降
    def sgd(self, node_list, y):
        """
        根据一个样本更新模型参数：
        node_list: 链表存储x中的非0值
        y: 正样本1， 负样本-1
        """
        kappa = -y / (1+math.exp(y*self.phi(node_list)))    # 论文里面的那个导数
        for a in range(len(node_list)):
            node1 = node_list[a]
            j1 = node1.j
            f1 = node1.f
            v1 = node1.v
            for b in range(a+1, len(node_list)):
                node2 = node_list[b]
                j2 = node2.j
                f2 = node2.f
                v2 = node2.v
                c = kappa * v1 * v2      # 这是求导数
                
                # self.w[j1,f2]和self.w[j2,f1]是向量，导致g_j1_f2和g_j2_f1也是向量
                g_j1_f2 = self.lambd * self.w[j1, f2] + c * self.w[j2, f1]
                g_j2_f1 = self.lambd * self.w[j2, f1] + c * self.w[j1, f2]
                
                # 计算各个维度上的梯度累积平方和
                self.G[j1, f2] += g_j1_f2 ** 2
                self.G[j2, f1] += g_j2_f1 ** 2
                
                # Adagrad 算法
                self.w[j1, f2] -= self.eta / np.sqrt(self.G[j1, f2]) * g_j1_f2  # sqrt(G)作为分母，所以G必须是大于0的正数
                self.w[j2, f1] -= self.eta / np.sqrt(
                    self.G[j2, f1]) * g_j2_f1  # math.sqrt()只能接收一个数字作为参数，而numpy.sqrt()可以接收一个array作为参数，表示对array中的每个元素分别开方

这个代码从远处看或许比较复杂，但思路依然不难，我们是先要求各个交叉项参数的导数，然后根据梯度下降公式更新参数。求导数，根据上面推导的公式，就会一目了然。

唯一不一样的时候，就是求出导数之后，参数的更新方式，这里用的Adagrad算法。

这里就把FFM具体实现过程中的细节整理了一下，更多的参考下面的链接吧。文文大佬还给了一个TensorFlow版本的，也可以参考一下计算方式。

5. 总结

这篇文章也是用了一周的时间整理，因为推荐这边的文章也是现学现卖哈哈，所以难免会有疏漏或者理解错误之处，还请各位伙伴如果发现了即使指正。这篇文章由于涉及到了两个模型，所以篇幅还是比较长，依然是各取所需即可。

下面简单的梳理一下这篇文章和推荐系统深度学习的前夜模型。这篇文章是深度学习前夜里面的最后一篇，主要是围绕着两个模型FM和FFM模型展开，逻辑非常清楚，首先是先抛出了之前的逻辑回归存在的手动交叉特征的问题，从而先整理了POLY2模型的思路，也就是二项交叉，但是这个模型会有一些不足，分析了一下，然后引出了FM模型，整理了FM模型的原理及代码实践部分。接着在FM的基础上进行了扩展，得到了FFM模型，又整理了FFM模型的原理及代码实践部分。

不知不觉，从开始学习推荐系统到现在，用了大约不到1个月的时间吧，已经过了一遍前深度学习模型时代的四五个比较重要的Model和代码，并整理了四篇文章。虽然花费了很多时间，但收获很大，并且这次亲自体验了一下任务驱动的学习方式，确实效率会高一些（这次有幸参与了Datawhale10月推荐系统组队的文档编写任务)，下面简单的回顾一下前深度学习时代这四篇文章之间的联系

这次是按照王喆老师梳理好的这个框架进行的展开的，逻辑应该是一目了然，这里不再啰嗦了，还有一个LS-PLM模型，这个曾是阿里的主流推荐模型，当然也是2017年以前了吧，再这里没有具体详细整理，这个模型是在逻辑回归的基础上采用了分而治之的思想，先对样本进行分组(聚类)，再在样本中使用逻辑回归。因为有时候，用户群里的类别不同，行为会有很大的不同，比如男性往往喜欢数码产品，而女性往往喜欢衣服等。那么这时候，考虑用户点击数码广告的时候，往往不用把女性点击衣服等行为考虑进来，因为这些和目标相关性不大，所以为了让CTR模型对不同用户群体，不同使用场景更有针对性，阿里就提出了LS-PLM模型， 先对全量样本进行聚类，再对每个分类用逻辑回归完成CTR预估，这其实是提供了另外一种新思路，因为模型可不一定非得逻辑回归哟，这些处理问题的idea往往是我们需要学习的。这个模型已经有了深度学习的味道，类似于一个加入注意力机制的三层神经网络模型。当然具体的细节还是看王喆老师的那本书吧。下面是模型的大总结：

关于前深度学习时代的模型，就先到这里了，下面就是深度学习的浪潮之巅了，这里面才更能体会到这几年深度学习对于推荐系统发展的驱动， 2016年开始，推荐系统进入了深度学习的浪潮，至今为止，依然高速发展。最后，再梳理一下时间线：

后面依然是保持一周更新一个推荐模型，因为根据这四篇文章大体算了一下，由于也是刚学这些知识，所以整理的时候，一般需要先从原论文开始，到参考很多优质的文章，再到代码实践部分，每天去除掉其他任务的一些时间，感觉五天学习，周末整理刚刚好哈哈，下面继续Rush吧

参考：

王喆 - 《深度学习推荐系统》
推荐系统遇上深度学习(一)–FM模型理论和实践
推荐系统遇上深度学习(二)–FFM模型理论和实践
FM算法解析
FM算法原理分析与实践
深入理解FFM原理与实践
FFM原理及公式推导
FM在特征组合中的应用
FFM算法解析及Python实现
FFM代码实现
pyFM包
文文大佬的GitHub

论文：

FM论文原文
FFM论文原文

整理这篇文章的同时，也刚建立了一个GitHub项目，准备后面把各种主流的推荐模型复现一遍，并用通俗易懂的语言进行注释和逻辑整理，今天的FM+FFM模型代码已经上传，感兴趣的可以看一下

筋斗云：https://github.com/zhongqiangwu960812/AI-RecommenderSystem

你可能感兴趣的:(推荐系统学习笔记,推荐系统,FM,FFM,POLY2)

【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
golang学习笔记--MPG模型 xxzed golang #学习笔记学习笔记 golang
MPG模式：M（Machine）：操作系统的主线程P（Processor）：协程执行需要的资源（上下文context），可以看作一个局部的调度器，使go代码在一个线程上跑，他是实现从N：1到N：M映射的关键G（Goroutine）：协程，有自己的栈。包含指令指针（instructionpointer）和其它信息（正在等待的channel等等），用于调度。一个P下面可以有多个G1、当前程序有三个M,
碎片化学习笔记分享剑客写作
现在生活节奏很快，学习力成为了我们拥有的最大财富。碎片化学习是最好的。首先，不要太过自信，学会虚心学习，是我们面对现实的好方法，才能够常保新鲜。平时我们要拥有什么工具呢？1.思维导图2.写在印象笔记里3.听书，消燥耳机4.教学输出5.录音笔里面最好的方式就是教学输出法，记忆里最好。当输出时我们集中精力记忆里最好。有人认为缩短睡眠时间来学习，其实最好的方式是保持最好的睡眠，记忆力会更好。剥夺睡眠，会
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
《随园诗话》学习笔记三百零六飞鸿雪舞
卷五凡诗之传者，都在灵性五、五斗米与诗【原文】丁丑，余觅一抄书人，或荐黄生，名之纪，号星岩者，人甚朴野。偶过其案头，得句云；“破庵僧卖临街瓦，独井人争向晚泉。”余大奇之，即饷米五斗。自此欣然大用力于诗。五言句云：“云开日脚直，雨落水纹圆。竹锐穿泥壁，蝇酣落酒尊。钓久知鱼性，樵多识树名。笔残芦并用，墨尽指同磨。＂七言云：＂小窗近水寒偏觉，古木遮天曙不知。旧生萍处泥犹绿，新落花时水亦香。旧甓恐闲都贮水
D15 论语学习笔记许小兔Angelina
悟：上级对下级的宽容：凡事成定局，就不你说了；已接近完结的事，也没必要匡正和挽回了；既然是过去的事，也没必要追究得失和责任了。对待孩子教育也是，不用“问责制”，这样容易让孩子因为害怕担责而说谎。应当循循善诱，避免再犯错才是最重要的。3.16：【原文】子曰：“射不主皮，为力不同科，古之道也。”【译文】孔子说：“射箭比赛不以射透为主，而主要看是否射得准确，因为人的力量不同，自古如此。”3.17：【原文
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
网络工程师学习笔记（一）专业白嫖怪网络工程师学习笔记学习笔记网络
为了备战下半年的软考——网络工程师，利用每天的下班的闲暇时间看书听课，然后自己手敲整理的系列资料。希望能够对你们有所帮助第一章__计算机网络概述计算机网络的定义：将分散的具有独立运算功能的计算机系统，通过通信线路和通信设备进行连接起来的实现资源的共享。ARPAnet网络的特征：资源共享、分散控制、分组交换1946年第一台通用计算机—埃尼亚克能够相互连通进行数据交换。1960年提出巨型网络，出现了对
K8S学习笔记02——K8S组件沉淅尘 #Docker #K8S kubernetes
Kubernetes组件一、控制平面组件（ControlPlaneComponents）(1)kube-apiserver(2)etcd(3)kube-scheduler(4)kube-controller-manager(5)cloud-controller-manager二、Node组件1.kubelet2.kube-proxy3.容器运行时（ContainerRuntime）三、插件（Add
「Python」2020.04.08学习笔记 | 第六章文件（a+）模式+把随机手机号写入文件小练习 Yetta的书影屋
学习测试开发的Day97，真棒！学习时间为40M第九次全天课(下午视频二20M-50M）>>>fp.seek(0)0>>>fp.read()'你好11你好12你好13你好14你好15\n你好16\n你好17\n你好18\n'>>>fp.seek(0,0)0>>>fp.write("*********************************\n")34>>>fp.seek(0,0)0>>>f
《金文成〈中庸〉学习笔记401。2020-2-24》金吾生
《金文成〈中庸〉学习笔记401。2020-2-24》今天是庚子年戊寅月丁酉日，二月初二，2020年2月24日星期一。二月二龙抬头。第二十二章【唯天下至诚，为能尽其性；能尽其性，则能尽人之性；能尽人之性，则能尽物之性；能尽物之性，则能赞天地之化育；能赞天地之化育，则可以与天地参矣。】上一节，船山讲解说，性作为天用之本体，于圣人和匹夫匹妇而言并无二致，区别来自于诚。诚的区别来自于纯粹与掺杂。掺杂什么呢
CDGA学习笔记三-《数据安全》 zy_chris 网络安全
七、数据安全7.1引言数据安全包括安全策略和过程的规划、建立与执行，为数据和信息资产提供正确的身份验证、授权、访问和审计。要求来自以下方面：（1）利益相关方（2）政府法规（3）特定业务关注点（4）合法访问需求（5）合同义务7.1.1业务驱动因素1、降低风险信息安全首先对组织数据进行分级分类，对组织数据进行分类分级的整个流程：1）识别敏感数据资产并分类分级2）在企业中查找敏感数据3）确定保护每项资产
vue学习笔记——关于对Vue3 ref(), toRef(), toRefs(), unref(), isRef(), reactive()方法的理解。 chen_sir_sh vue学习笔记 javascript 前端 vue
VUE3出现了很多新的API，下面是自己的一些理解进行的总结。欢迎大家一起交流补充。ref()使用ref创建一个数据类型，ref有value这个属性constname1={age:"14",name:"bob1"};constname2=ref({name:"bob2"});//使用ref创建一个数据类型相对于reactive，ref有value属性name2.value="bob3"consol
遇到僵尸进程，怎么处理---学习笔记 summer@彤妈性能优化 linux
僵尸进程解释当iowait升高时，进程很可能因为得不到硬件的响应，而长时间处于不可中断状态。从ps或者top命令的输出中，你可以发现它们都处于D状态，也就是不可中断状态（UninterruptibleSleep）。既然说到了进程的状态，进程有哪些状态你还记得吗？我们先来回顾一下。top和ps是最常用的查看进程状态的工具，我们就从top的输出开始。下面是一个top命令输出的示例，S列（也就是Stat
C++学习笔记----6、内存管理（五）---- 智能指针（3）王俊山IT c++学习笔记开发语言
2、shared_ptr有时候吧，有些对象或者一部分代码需要同一个指针的拷贝。那么unique_ptr不能被拷贝，因此就不能用于些场景。这样的话，std::shared_ptr就是一个支持能够被拷贝的拥有共享属主的智能指针。但是，如果有指向同一个资源的多个shared_ptr实例，那么怎么知道什么时候去释放资源呢？这可以通过对于引用记数来解决，这个我们以后再聊。首先，让我们看一下怎么构造与使用sh
【学习笔记】武志红心理学—潜意识决定命运万万千千
冰山一角什么构成了我们的命运？命运是由我们的显意识和潜意识来决定的。我们可以用一张图做一个比喻。看过“冰山一角”图片的都知道，潜意识就是水面以下的部分，显意识是水面以上的部分，从体积来看，潜意识占了大部分，而显意识只是冰山一角，纵向来看，庞大的潜意识支撑着冰山一角的显意识，才得以让冰山漂浮在水面。延伸到我们的人生，我们对自己显意识层面的想法很容易感知到，所以我们会说这是“我”自己做的选择。而潜意识
Prism 教程 yang_B621 Prism IOC
http://t.csdnimg.cn/VXSSvhttps://blog.csdn.net/u010476739/article/details/119341731Prism-随笔分类-Hello——寻梦者！-博客园(cnblogs.com)C#IoC学习笔记-缥缈的尘埃-博客园(cnblogs.com)WPF_SchuylerEX的博客-CSDN博客
绘本讲师训练营【第30期】2/21阅读原创《绘本之力》学习笔记2 郑贤钰
30028郑贤钰今天读了绘本之力《留在灵魂里的东西》读了心里有非常大的感触！两个年幼什么都不懂的孩子，为了自己心爱的东西，攒下来自己的零花钱，却买了一个自己不知道怎么用的东西，当他们觉得这个东西根本就不好，准备扔掉的时候，这是故事中的有趣有爱的老爷爷出现了，帮助孩子们再一次发现之前别人拉出优美的音乐，原来自己买的这一个琴，自认为没用的琴也能够经过老爷爷熟练的演奏也能拉出这样优美的声音，这让孩子们十
仿老师悟耕海者
毕业十年了，今天去拜访老师，看到老师的学习笔记，看到老师努力学习，积极提高的状态，我觉着自己真是有些懈怠了，孩子们，老师的老师都在孜孜不倦，我们岂能偷懒！
C++学习笔记----7、使用类与对象获得高性能（一）---- 书写类（2）王俊山IT c++学习笔记开发语言
2.2、定义成员函数前面对SpreadsheetCell类的定义足以让你生成类的对象。然而，如果想调用setValue()或者getValue()成员函数，连接器就会抱怨这些函数没有定义。这是因为到目前为止，这些成员函数只有原型，而还没有实现。通常，类的定义会在模块接口文件。对于成员函数的定义，你有一个选择：可以在模块定义文件或者在模块实现文件。下面是SpreadsheetCell类，在类内对成员
易效能时间管理小结（一）草莓丸子_1892
图片发自App图片发自App图片发自App管理大师德鲁克说：时间是一个人最稀缺的资源，人人都需要时间管理。两天的时间管理线下课，心得体会：一、课前准备：1、听喜马拉雅FM叶武滨老师《时间管理100讲》《时间管理进阶课》做笔记、写思维导图。2、购买的装备（跑步、电子设备…），以新的面貌改变。让生活充满仪式感！3、分享时间管理到身边的小伙伴，用生命影响生命。也就是所谓的输出倒逼输入。二、领悟了“五大思
Spring6学习笔记4：事务 ·云扬· SSM Java #Spring 学习笔记 spring
1JdbcTemplate1.1简介Spring框架对JDBC进行封装，使用JdbcTemplate方便实现对数据库操作准备工作①搭建子模块搭建子模块：spring-jdbc-tx②加入依赖org.springframeworkspring-jdbc6.0.2mysqlmysql-connector-java8.0.30com.alibabadruid1.2.15③创建jdbc.propertie
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

AI上推荐 之 FM和FFM(九九归一)