一杯敬朝阳一杯敬月光

前深度学习时代-推荐系统的进化之路附部分代码（深度学习推荐系统学习笔记）

1 传统模型的演化关系图

2 协同过滤-经典的推荐算法

2.1 什么是协同矩阵

2.2 用户相似度计算

2.3 最终结果的排序

2.4 ItemCF

2.5 UserCF 与 ItemCF 的应用场景

2.6 协同过滤的下一步发展

3 矩阵分解算法-协同过滤的进化

3.1 矩阵分解算法原理

3.2 矩阵分解的求解过程

3.3 消除用户和物品的打分偏差

3.4 矩阵分解的优点与局限性

4 逻辑回归

5 从FM到FFM-自动特征交叉的解决方案

5.1 POLY2模型-特征交叉的开始

5.2 FM模型-隐向量特征交叉

5.3 FFM模型-引入特征域的概念

5.4 从POLY2到FFM的模型演化过程

6 GBDT+LR——特征工程模型化的开端

6.1 GBDT+LR 组合模型的结构

6.2 GBDT进行特征转换的过程

6.3 GBDT+LR组合模型开启的特征工程新趋势

7 LS-PLM - 阿里巴巴曾经的主流推荐模型

7.1 LS-PLM 模型的主要结构

7.2 LS-PLM模型的优点

7.3 从深度学习的角度重新审视LS-PLM模型

8 总结

1 传统模型的演化关系图

2 协同过滤-经典的推荐算法

2.1 什么是协同矩阵

协同过滤：就是协同大家的反馈、评价和意见一起对海量的信息进行过滤，从中筛选出目标用户可能感兴趣的信息的推荐过程。

推荐过程：

（1）图（a）表示商品库里的四件商品（，小说，杂志和）

（2）我们要决定是否推荐给用户X。可利用X对其他商品的历史评价数据及其他用户对这些商品的历史评价数据

（3）为了便于计算，将有向图转换成共现矩阵的形式，用户行为作为行向量，物品表现作为列向量，将和的行为数据转换成矩阵中相应的元素值，例如为1，为0。

（4）找到与用户X兴趣最相似的n个用户，综合相似用户对的评价，得出用户X对评价的预测（图中B和C是与X相似的top2用户，其中B、C均为负面评价，可以推测X对的评价也是负面的，不推荐）。

2.2 用户相似度计算

共现矩阵中的行向量是用户向量，计算用户i和用户j的相似度，即是计算行向量i和行向量j之间的相似度，理论上任何合理的“向量相似度定义方式”都可以作为相似用户计算的标准，常用的如下：
余弦相似度：夹角越小，余弦相似度越大，两个用户越相似。

$sim(\boldsymbol{i},\boldsymbol{j})=cos(\boldsymbol{i},\boldsymbol{j})=\frac{\boldsymbol{i}\cdot \boldsymbol{j}}{||\boldsymbol{i}||\cdot ||\boldsymbol{j}||} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (1)$

皮尔逊相关系数：相比于余弦相似度，皮尔逊相关系数使用用户平均分对个独立评分进行修正，减小了用户评分偏置，其中 $R_{i,p}$ 表示用户i对物品p的评分， $\bar{R}_{i,p}$ 表示用户i对所有物品的平均评分，P代表所有物品的集合。

$sim(\boldsymbol{i},\boldsymbol{j})= \frac{\sum_{p \in P}(R_{i,p}-\bar{R}_i)(R_{j,p}-\bar{R}_j)}{\sqrt{\sum_{p \in P}(R_{i,p}-\bar{R}_i)^2}\sqrt{\sum_{p \in P}(R_{j,p}-\bar{R}_j)^2}} = \frac{(\boldsymbol{i}-\bar{R}_i)\cdot (\boldsymbol{j}-\bar{R}_j)}{||\boldsymbol{i}-\bar{R}_i||\cdot ||\boldsymbol{j}-\bar{R}_j||} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (2)$

相比于余弦相似度，引入物品平均分，减少物品评分偏置对结果的影响, $\bar{R}_{p}$ 表示物品p得到的所有评分的平均分， $\boldsymbol{p}$ 表示P中所有物品的平均评分向量。

$sim(\boldsymbol{i},\boldsymbol{j})= \frac{\sum_{p \in P}(R_{i,p}-\bar{R}_p)(R_{j,p}-\bar{R}_p)}{\sqrt{\sum_{p \in P}(R_{i,p}-\bar{R}_p)^2}\sqrt{\sum_{p \in P}(R_{j,p}-\bar{R}_p)^2}} = \frac{(\boldsymbol{i}-\boldsymbol{p})\cdot (\boldsymbol{j}-\boldsymbol{p})}{||\boldsymbol{i}-\boldsymbol{p}||\cdot ||\boldsymbol{j}-\boldsymbol{p}||} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (3)$

2.3 最终结果的排序

最常用的方式是利用用户相似度和相似用户的评价的加权平均获得目标用户的评价预测。其中，权重 $w_{u,s}$ 是用户u和用户s的相似度， $R_{s,p}$ 是用户s对物品p的评分。

$R_{u,p} = \frac{\sum_{s \in S}(w_{u,s}\cdot R_{s,p})}{\sum_{s \in S}w_{u,s}} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (4)$

符合直觉“兴趣相似的朋友喜欢的物品我也喜欢”。

简而言之，对给定的目标用户我们是这样决定候选集合中的物品的展示顺序的，先找到与该用户相似的Top n个用户，利用这n个用户对候选物品的加权打分来预测目标用户对该候选物品的评分（缺点中的用户历史向量往往非常稀疏的问题，可能每个用户只对其中的一两个商品有过点击，由于相似度是按元素相乘，没有行为的可能是0，点击的数据过少，我们很难根据重合的这一两个数据来说他们就是兴趣相似的用户，即是计算出的相似度很高，也不一定他们兴趣相似度高，存储量增长的问题，感觉可能是保留了用户与剩下的所有用户的相似度信息，二不仅仅是保留了Top n个相似用户的相似度，因为后者的存储增长是n）。

缺点：

用户数远大于物品数的场景，UserCF需要维护用户相似度矩阵以便快速的找出Top n相似用户，该矩阵存储开销很大，且随着业务的发展，用户数增长会导致用户相似度矩阵的空间复杂度以的速度增长
用户历史数据向量往往非常稀疏，对于只有几次购买或点击行为的用户来说，找到相似用户的准确度是非常低的，导致UserCF不适用那些正反馈获取较困难的场景，例如酒店预订，大件商品购买等低频应用。

2.4 ItemCF

ItemCF是基于物品相似度进行推荐的协同过滤算法，通过计算共现矩阵中物品列向量的相似度得到物品之间的相似矩阵，再找到用户的历史正反馈物品的相似物品进一步排序和推荐，ItemCF的具体步骤如下：

（1）构建共现矩阵，行向量是用户向量，列向量是物品相关

（2）计算共现矩阵晾凉列向量之间的相似度，构建n*n为的物品相似度矩阵

（3）获得用户历史行为数据中的正反馈物品列表

（4）利用物品相似度矩阵，针对目标用户历史行为中的正反馈物品，找出相似的Top K个物品，组成相似物品集合。

（5）对相似物品集合中的物品，利用相似度分值排序，生成最终的推荐列表

在第5步中，若一物品与多个用户历史行为中的正反馈相似，则该物品最终的相似度十多个相似度的累加，其中H是用户正反馈物品集合， $w_{p,h}$ 是物品p与物品h的相似度， $R_{u,h}$ 是用户u对物品h的已有评分。

$R_{u,p} = \sum_{h \in H}(w_{u,p}\cdot R_{u,h}) \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (5)$

2.5 UserCF 与 ItemCF 的应用场景

UserCF基于用户相似度，具有更强的社交性。非常适用于新闻推荐场景，因新闻本身的兴趣点往往是分散的，相比用户对不同新闻的兴趣偏好，新闻的及时性、热点性往往是更重要的，UserCF正适用于发现热点，以及跟踪热点的趋势。

ItemCF更适用于兴趣变化比较稳定的应用，例如推荐商品，电影，电视剧等。

2.6 协同过滤的下一步发展

协同过滤可解释性强，但不具备强的泛化能力，协同过滤无法将两个物品相似这一信息推广到其他物品的相似性计算上，导致-热门的商品头部效应明显，容易跟大量物品产生相似性；尾部物品特征向量稀疏，很少与其他物品产生相似性，很少被推荐。简言之，推荐结果的头部效应明显，处理稀疏向量能力弱。

举个，A、B和C之间的相似度为0，与A、B和C都相似的物品均为D，故在ItemCF下，D将会被推荐给所有对A、B和C有正反馈的用户，实际上D与其余物品相似仅是因为D是一件热门商品，无法找出A、B和C之间的相似度仅是因为其特征向量非常稀疏，缺乏相似性计算的直接数据。

为解决上述问题，并提升泛化能力，矩阵分解技术被提出，该方法在协同过滤的基础上，使用更稠密的隐向量表示用户和物品，挖掘用户和物品之间的隐含兴趣和隐含特征，在一定程度上弥补了协同过滤处理稀疏矩阵能力不足的问题。

另外，协同过滤仅利用了用户和物品的交互信息，无法引入用户年龄、性别、商品描述、当前时间等用户特征、物品特征以及上下文特征。为了引入这些特征，逐渐发展到以逻辑回归为核心的、能够综合不同特征的机器学习模型的道路上。

3 矩阵分解算法-协同过滤的进化

3.1 矩阵分解算法原理

协同过滤的推荐如(a)所示，基于用户的历史观看，找到与目标用户Joe看过同样视频的相似用户，然后找到这些相似用户喜欢看的其他视频推荐给目标用户Joe。矩阵分解算法则期望为每一个用户和视频生成一个隐向量，将用户和视频定位到隐向量的表示空间上，距离相近的用户和视频表明特点接近，在推荐过程中，应把距离相近的视频推荐给用户，例如发现里Dave的用户向量最近的两个视频是Ocean's 11 和 The Lion King，可依据向量距离由近到远的顺序生成Dave的推荐列表。隐向量表达用户和物品，还要保证相似的用户及用户可能喜欢的物品的距离相近，在矩阵分解的框架下，用户和物品的隐向量是通过分解协同过滤生成的共现矩阵得到的。

矩阵分解算法将m*n维的共现矩阵 $\boldsymbol{R}$ 分解为m*k维的用户矩阵 $\boldsymbol{U}$ 和k*n维的物品矩阵 $\boldsymbol{V}$ 相乘的形式。其中m是用户数，n是物品数，k是隐向量的数量，k的大小决定了隐向量表达能力的强弱。k越小，隐向量包含的信息越少，模型泛化程度越高；反之，k越大，包含信息越多，泛化程度越低。此外，k取值还与求解复杂度直接相关。

基于用户矩阵 $\boldsymbol{U}$ 和物品矩阵 $\boldsymbol{V}$ ，用户u对物品i的评估加分如下，其中 $\boldsymbol{p}_{u}$ 是用户u在用户矩阵 $\boldsymbol{U}$ 中的行向量， $\boldsymbol{q}_{i}$ 是物品i在物品矩阵 $\boldsymbol{V}$ 中的列向量，简言之，用户u对物品i的评分即是用户向量 $\boldsymbol{p}_{u}$ 与物品向量 $\boldsymbol{q}_{i}$ 的点积。

$\boldsymbol{\hat{r}}_{u,i}=\boldsymbol{q}_{i}^T\boldsymbol{p}_u \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (6)$

3.2 矩阵分解的求解过程

三种常用的矩阵分解法：特征值分解（Eigen Decomposition）、奇异值分解（Singular Value Decomposition，SVD）和梯度下降（Gradient Descent）。其中特征值分解只能作用于方阵。

奇异值分解描述如下，之前有记录过Matlab作SVD的过程https://blog.csdn.net/qq_xuanshuang/article/details/79639240：

设 $\boldsymbol{M}$ 是n*m的矩阵，则必存在一个分解 $\boldsymbol{M} = \boldsymbol{U}\boldsymbol{\Sigma}\boldsymbol{V}^T$ ，其中 $\boldsymbol{U}$ 是m*m的正交阵， $\boldsymbol{V}$ 是n*n的正交阵， $\boldsymbol{\Sigma}$ 是m*n的对角阵。取 $\boldsymbol{\Sigma}$ 中较大的k个与纳素作为隐含特征，删除 $\boldsymbol{\Sigma}$ 的其他维度及 $\boldsymbol{U}$ 和 $\boldsymbol{V}$ 中对应的维度，矩阵 $\boldsymbol{M}$ 被分解为 $\boldsymbol{M} \approx \boldsymbol{U}_{m\times k}\boldsymbol{\Sigma}_{k \times k}\boldsymbol{V}_{k \times n}^T$ 。

奇异值分解不适用于互联网环境，（1）：奇异值分解要求原始共现矩阵是稠密的；（2）传统奇异值分解计算复杂度。

下面讲述梯度分解，式(7)是求解矩阵分解的目标函数，其中K是所有用户评分样本的集合：

$\min_{\boldsymbol{q}^*,\boldsymbol{p}^*}\sum_{(u,i) \in K} (\boldsymbol{r}_{ui} - \boldsymbol{q}_i^T\boldsymbol{p}_u)^2 \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (7)$

在式(7)的基础上加上正则化项，以避免过拟合：

$\min_{\boldsymbol{q}^*,\boldsymbol{p}^*}\sum_{(u,i) \in K} (\boldsymbol{r}_{ui} - \boldsymbol{q}_i^T\boldsymbol{p}_u)^2 + \lambda (||\boldsymbol{q}_i||^2+||\boldsymbol{p}_u||^2)\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (8)$

对 $\boldsymbol{q}_{i}$ 和 $\boldsymbol{p}_{u}$ 分别求偏导，得：

$\begin{aligned} &\boldsymbol{q}_i : 2(\boldsymbol{q}_i^T\boldsymbol{p}_u-\boldsymbol{r}_{ui}) \boldsymbol{p}_u- 2\lambda \boldsymbol{q}_i \\ &\boldsymbol{p}_u : 2(\boldsymbol{q}_i^T\boldsymbol{p}_u- \boldsymbol{r}_{ui}) \boldsymbol{q}_i- 2\lambda \boldsymbol{p}_u \end{aligned}$

在矩阵分解中，由于隐向量的存在，是任意的用户和物品之间都可以得到预测值，隐向量的生成过程其实是对共现矩阵进行全局拟合的过程，具有更强的泛化能力；而协同过滤，若两个用户没有相同的历史行为，两个物品没有相同的人购买，则这俩用户和俩物品相似度都将为0。

下面附上python实现的矩阵分解：

代码中R指原始的共现矩阵，U指用户矩阵，V指物品矩阵，写代码的时候梯度（哪个矩阵在前，是否需转置）可以用形状来判断，第一组中，原始矩阵不含0元素，即均有值，我们可以看出当隐向量的维度是2的时候，误差就很小，即预测值和原始值很接近；第二组，原始矩阵中含有0元素，当隐向量维度比较小时(此处是2)，预测出的矩阵在原矩阵为0的地方也有值，误差相对较大，当隐向量维度较大时（此处是5），预测出的矩阵与原矩阵很接近，原矩阵为0的地方，预测的矩阵也近乎为0，误差相对较小。

import numpy as np


class MF:
    def __init__(self):
        self.U = None
        self.V = None

    def train(self, R, k, L2=None, l2_lambda = 0):
        def J(R, U, V, L2=None, l2_lambda=0.):
            j = 0.5 * np.sum((R - U.dot(V)) ** 2)
            if L2:
                j = 0.5 * l2_lambda * (np.sum(U.dot(U.T)) + np.sum(V.T.dot(V)))
            return j

        def gradient(R, U, V, L2=None, l2_lambda=0.):
            dV = U.T.dot(U.dot(V) - R)
            dU = (U.dot(V) - R).dot(V.T)
            if L2:
                dU = dU + l2_lambda * U
                dV = dV + l2_lambda * V
            return dU, dV

        U = np.random.random(size=(R.shape[0], k))
        V = np.random.random(size=(k, R.shape[1]))
        eps, n_iters, iter, lr = 1e-8, 5000, 0, 0.001
        while iter < n_iters:
            last_U, last_V = U, V
            dU, dV = gradient(R, U, V, L2, l2_lambda)
            U = U - lr * dU
            V = V - lr * dV
            if abs(J(R, last_U, last_V, L2, l2_lambda) - J(R, U, V, L2, l2_lambda)) < eps:
                break
            iter += 1
        self.U, self.V = U, V

    def predict(self):
        return self.U.dot(self.V)


if __name__ == "__main__":
    R = np.array([[1, 2, 3], [4, 5, 6], [0.1, 0.22, 0.31], [2, 4, 6]])
    mf = MF()
    mf.train(R, 2, "L2", 0.1)
    R_hat = mf.predict()
    print(R)
    print(mf.U)
    print(mf.V)
    print(R_hat)
    print(np.sum(R - R_hat) ** 2)

3.3 消除用户和物品的打分偏差

引入全局偏差常数 $\mu$ （也可以学习），物品偏差系数（可以使用物品i所获得的评分的均值，也可以直接学习），用户偏差系数（可以使用用户u给出的评分的均值，也可以直接学习）

$\boldsymbol{r}_{ui}=\mu + b_i + b_u + \boldsymbol{q}_i^T\boldsymbol{p}_u \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (9)$

相应的目标函数改为

$\min_{\boldsymbol{q}^*,\boldsymbol{p}^*,\boldsymbol{b}^*}\sum_{(u,i) \in K} (\boldsymbol{r}_{ui} -\mu - b_i - b_u - \boldsymbol{q}_i^T\boldsymbol{p}_u)^2 + \lambda (||\boldsymbol{q}_i||^2+||\boldsymbol{p}_u||^2 + b_i^2 +b_u^2 )\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (10)$

加入用户和物品的打分偏差项之后，矩阵分解得到的隐向量更能反应不同用户对不同物品的“真实”态度的差异，也就更容易捕捉评价数据中有价值的信息，避免推荐结果有偏。

待解决：

书中说 $\mu$ 是全局偏差常数，是否是一个定值的意思，还是可学习的？以及是直接用均值替代，还是亦是可学习的。

附上代码

这边关于 $b_i,b_v,\mu$ 的偏导，还是可以通过形状来推，这边借住了np.add.reduce_sum，但是不确定是不是可以这样，不过在纸上举过，像 $b_i,b_v,\mu$ 确实会出现多次，故求和应该也没啥问题。

db_u = np.reshape(np.add.reduce(UdV, 1),newshape=(b_u.shape))
db_v = np.reshape(np.add.reduce(UdV, 0),newshape=(b_v.shape))
dmu = np.sum(UdV)

import numpy as np


class MF_bias:
    def __init__(self):
        self.U = None
        self.V = None
        self.b_u = None
        self.b_v = None
        self.mu = 0.

    def train(self, R, k, L2=None, l2_lambda = 0):
        def J(U, V, b_u, b_v, mu, L2=None, l2_lambda=0.):
            j = 0.5 * np.sum((R - U.dot(V) - mu - np.reshape(b_u, newshape=(U.shape[0],1))
                              - np.reshape(b_v, newshape=(1,V.shape[1]))) ** 2)
            if L2:
                j = 0.5 * l2_lambda * (np.sum(U.dot(U.T)) + np.sum(V.T.dot(V))
                                       + b_u.T.dot(b_u) + b_v.T.dot(b_v))
            return j

        def gradient(U, V, b_u, b_v, mu, L2=None, l2_lambda=0.):
            UdV = U.dot(V) + mu + np.reshape(b_u, newshape=(U.shape[0],1)) \
                  + np.reshape(b_v, newshape=(1,V.shape[1])) - R
            dV = U.T.dot(UdV)
            dU = (UdV).dot(V.T)
            db_u = np.reshape(np.add.reduce(UdV, 1),newshape=(b_u.shape))
            db_v = np.reshape(np.add.reduce(UdV, 0),newshape=(b_v.shape))
            dmu = np.sum(UdV)
            if L2:
                dU = dU + l2_lambda * U
                dV = dV + l2_lambda * V
                db_u = db_u + l2_lambda * b_u
                db_v = db_v + l2_lambda * b_v
            return dU, dV, db_u, db_v, dmu

        U = np.random.random(size=(R.shape[0], k))
        V = np.random.random(size=(k, R.shape[1]))
        b_u = np.zeros(shape=(R.shape[0]))
        b_v = np.zeros(shape=(R.shape[1]))
        # print(b_u, b_v)
        mu = 0.
        eps, n_iters, iter, lr = 1e-8, 5000, 0, 0.001
        while iter < n_iters:
            last_U, last_V,last_b_u, last_b_v, last_mu = U, V, b_u, b_v, mu
            dU, dV, db_u, db_v, dmu = gradient(U, V, b_u, b_v, mu, L2, l2_lambda)
            U = U - lr * dU
            V = V - lr * dV
            b_u = b_u - lr * db_u
            b_v = b_v - lr * db_v
            mu = mu - lr * dmu
            if iter % 1000 == 0:
                print(abs(J(last_U, last_V, last_b_u, last_b_v, last_mu, L2, l2_lambda)
                   - J(U, V, b_u, b_v, mu, L2, l2_lambda)),  J(U, V, b_u, b_v, mu, L2, l2_lambda))
            if abs(J(last_U, last_V, last_b_u, last_b_v, last_mu, L2, l2_lambda)
                   - J(U, V, b_u, b_v, mu, L2, l2_lambda)) < eps:
                break
            iter += 1
        self.U, self.V, self.b_u, self.b_v, self.mu = U, V, b_u, b_v, mu

    def predict(self):
        return self.U.dot(self.V) - np.reshape(self.b_u, newshape=(self.U.shape[0],1)) \
               - np.reshape(self.b_v, newshape=(1,self.V.shape[1])) - self.mu

if __name__ == "__main__":
    R = np.array([[1, 2, 3], [4, 5, 6], [0.1, 0.22, 0.31], [2, 4, 6]])
    mf = MF_bias()
    mf.train(R, 5)
    R_hat = mf.predict()
    print(R)
    print(mf.b_u)
    print(mf.b_v)

注：这边的代码没有想到好的验证正确性的方法，但是大概看出来没啥太大问题，首先目标函数的值确实在减小，也确实达到一个较小的值，然后从两个偏差系数的角度，用户偏差系数也确实在在用户打分偏高的时候偏大，在打分偏低的时候偏低；物品偏差系数同理。

3.4 矩阵分解的优点与局限性

相比协同过滤，优点如下：

泛化能力强，一定程度缓解数据稀疏的问题

空间复杂度低，协同过滤需要存储用户相似度矩阵(m*m)或者物品相似度矩阵(n*n)，矩阵分解只需存储用户和物品隐向量((n+m)*k)

更好的扩展性和灵活性，最终产出用户和物品隐向量，与Embedding的思想不谋而合，故其便于与其他特征进行组合和拼接，便于与深度学习网络进行无缝结合。

与协同过滤一样，无法引入用户年龄、性别、商品描述、当前时间等用户特征、物品特征以及上下文特征。为了引入这些特征，逐渐发展到以逻辑回归为核心的、能够综合不同特征的机器学习模型的道路上。

4 逻辑回归

https://blog.csdn.net/qq_xuanshuang/article/details/104432710

相比于协同矩阵和矩阵分解利用用户和物品的“相似度”进行推荐，logistic回归将推荐问题看成一个分类问题，通过预测正样本的概率对物品进行排序，因此，逻辑回归模型将推荐问题转换成了一个点击率预估问题。

逻辑回归作为广义线性模型的一种，他的假设是因变量y服从伯努利分布（线性回归的假设是因变量y服从高斯分布）。

优点

数学含义上的支撑，其假设是因变量y服从伯努利分布，采用逻辑回归作为CTR模型符合点击这一事件的无力意义。
可解释性强，各特征的加权和综合了不同特征对CTR的影响，不同特征权重不同，代表不同特征的重要程度。
工程化的需要，易于并行，模型简单，训练开销小

缺点

表达能力不强，无法进行特征交叉特征筛选等一系列操作，为解决这一问题，衍出了因子分解机等高维的复杂模型。

5 从FM到FFM-自动特征交叉的解决方案

5.1 POLY2模型-特征交叉的开始

POLY2模型的数学形式：

$\phi POLY2(\boldsymbol{w},\boldsymbol{x})=\sum_{j_1=1}^n\sum_{j_2=j_1+1}^n w_{h(j_1,j_2)}x_{j_1}x_{j_2} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (11)$

该模型对所有特征进行了两两交叉（特征 $x_{j_1}$ 和 $x_{j_2}$ ），并对所有特征组合赋予权重 $w_{h(j_1,j_2)}$ ，在一定程度上解决了特征组合的问题，本质上仍是线性模型，训练方法与逻辑回归无区别。

缺点

互联网数据的特征原本就稀疏，无选择的特征交叉就使得特征更加稀疏，导致大部分交叉特征的权重缺乏有效的数据进行训练，无法收敛。
权重参数的数量由n直接上升到n^2（(n*(n-1)/2），增加训练复杂度

5.2 FM模型-隐向量特征交叉

下面给出FM的数学形式，与POLY2相比，主要区别是用两个向量内积 $(\boldsymbol{w}_{j_1} \cdot \boldsymbol{w}_{j_2})$ 取代了单一权重系数 $w_{h(j_1,j_2)}$ ，具体来说，FM为每个特征学了一个隐权重向量，FM将矩阵分解的隐向量思想进行了进一步扩展，从单纯的用户、物品隐向量扩展到所有特征上。

$y(x)=w_0 + \sum_{j_1=1}^nw_{j_1}x_{j_1}+ \sum_{j_1=1}^n\sum_{j_2=j_1+1}^n ( \boldsymbol{w}_{j_1}\cdot \boldsymbol{w}_{j_2})x_{j_1}x_{j_2} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (12)$

其中二阶部分展开如下，自己不和自己交叉。

$\begin{aligned} \phi FM(\boldsymbol{w},\boldsymbol{x})&=\sum_{j_1=1}^n\sum_{j_2=j_1+1}^n ( \boldsymbol{w}_{j_1}\cdot \boldsymbol{w}_{j_2})x_{j_1}x_{j_2} \\ & = \frac{1}{2}\sum_{j_1=1}^{n}\sum_{j_2=1}^{n}( \boldsymbol{w}_{j_1}\cdot \boldsymbol{w}_{j_2})x_{j_1}x_{j_2} - \frac{1}{2}\sum_{j_1=1}^{n}( \boldsymbol{w}_{j_1}\cdot \boldsymbol{w}_{j_1})x_{j_1}x_{j_1} \\ &=\frac{1}{2}\sum_{j_1=1}^{n}\sum_{j_2=1}^{n}\sum_{f=1}^k v_{j_1,f} v_{j_2,f}x_{j_1}x_{j_2} - \frac{1}{2}\sum_{j_1=1}^{n}\sum_{f=1}^k ( v_{j1,f}v_{j_1,f})x_{j_1}x_{j_1} \\ &=\frac{1}{2}\sum_{f=1}^k((\sum_{j_1=1}^nv_{j_1,f}x_{j_1})(\sum_{j_2=1}^nv_{j_2,f}x_{j_2}) - \sum_{j_1=1}^nv_{j_1,f}^2x_{j_1}^2) \\ &=\frac{1}{2}\sum_{f=1}^k((\sum_{j_1=1}^nv_{j_1,f}x_{j_1})^2 - \sum_{j_1=1}^nv_{j_1,f}^2x_{j_1}^2) ) \ \end{aligned}$

梯度：

$\frac{\partial y}{\partial \theta} =\left\{\begin{aligned} &1& &, \ if\ \theta\ is \ w_0\\ &x_{j_1}& &, \ if\ \theta\ is \ w_j_1 \\ &x_{j_1}\sum_{j_2=1}^nv_{j_2,f}x_{j_2} - v_{j_1,f}x_{j_1}^2& &, \ if\ \theta\ is \ v_{j_1,f} \end{aligned} \right.$

由上式可知， $v_{j_1,f}$ 的训练只需要样本的 $x_{j_1}$ 特征非0即可，适合于稀疏数据,就能够方便得到所有的 $v_{j_1,f}$ 梯度，上述偏导结果求和公式中没有，即与无关，只与有关，显然计算所有的 $\sum v_{j_2,f}x_{j_2}$ 的复杂度是，模型参数一共有个。

从式(12)可看，将POLY2模型的级别的权重参数数量减少到了（k为隐向量维度， $n \gg k$ ），从简化式可看，FM将训练复杂度从POLY2的级别降低到了级别，同时隐向量的引入使FM能更好的解决数据稀疏性的问题，举个：有俩特征频道和品牌，某组合特征是(ESPN,Adidas)，在POLY2中，只有当ESPN和Adidas同时出现在一个训练样本中，模型才能学厨这个组合的权重；在FM中，ESPN的隐向量也可以通过(ESPN,Gucci)样本更新，Adidas的隐向量也可以通过(NBC,Adidas)样本更新，即使对于从未出现的特征组合(NBC,Gucci)，由于已经学习过NBC和Gucci的隐向量，具备了计算该特征组合权重的能力。

相比POLY2，FM虽然丢失了某些具体特征组合的精确记忆能力，但是提高了泛化能力，同样可利用梯度下降法学习。

5.3 FFM模型-引入特征域的概念

$y(x)=w_0 + \sum_{j_1=1}^nw_{j_1}x_{j_1}+ \sum_{j_1=1}^n\sum_{j_2=j_1+1}^n ( \boldsymbol{w}_{j_1,f2}\cdot \boldsymbol{w}_{j_2,f1})x_{j_1}x_{j_2} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (13)$

在FM模型的基础上引入了特征域感知这一概念，于FM的主要区别就是隐向量由之前的 $\boldsymbol{w}_{j_1}$ 变为了 $\boldsymbol{w}_{j_1,f_2}$ ，这意味着每个特征对应的不是唯一一个隐向量而是一组隐向量，其中是第1个特征所属的特征域，在FFM模型的训练过程中，需要学习n个特征在f个域上的k维隐向量，参数数量共个，由于域的引入，不能像FM模型那样简化，因此其复杂度是。

5.4 从POLY2到FFM的模型演化过程

POLY2模型直接学习每个交叉特征的权重，权重数量共个。

FM模型学习每个特征的k维隐向量，交叉特征由相应特征隐向量的内积得到，权重数量共n*k个。

FFM模型引入了特征域这一概念，在做特征交叉时，每个特征选择与对方域对应的隐向量做内积运算得到交叉特征的权重。参数数量共n*k*f个。

6 GBDT+LR——特征工程模型化的开端

FFM模型采用引入特征域的方式增强了模型的表达能力，但无论如何，FFM只能够做二阶的特征交叉，如果要继续提高特征交叉的维度，不可避免的会发生组合爆炸和计算复杂度过高的情况。

6.1 GBDT+LR 组合模型的结构

可以利用GBDT自动进行特征筛选和组合，进而生成新的离散特征向量，再把该特征向量当作LR模型输入，预估CTR的模型结构。

用GBDT构建特征工程，和利用LR预估CTR两步是独立训练的。所以自然不存在如何将LR的梯度回传到GBDT这类复杂的问题。

6.2 GBDT进行特征转换的过程

GBDT模型训练好后，一个训练样本在输入GBDT的某一子树后，会依据每个节点的规则最终落入某一叶子节点，把该叶子节点置为1，其他置为0，所有叶子节点组成的向量即形成了该棵树的特征向量，把所有子树的特征向量连接起来，即形成了后续LR输入的特征向量。

举个，如上图所示，GBDT由三颗子树构成，每个子树有4个叶子节点，一个训练样本进来后，先后落入“子树1”的第3个叶节点中，那么特征向量就是[0,0,1,0]，“子树2”的第1个叶节点，特征向量为[1,0,0,0]，“子树3”的第4个叶节点，特征向量为[0,0,0,1]，最后连接所有特征向量，形成最终的特征向量[0,0,1,0,1,0,0,0,0,0,0,1]。

决策树的深度就决定了特征交叉的维度。如果决策树的深度为4，通过三次节点分裂，最终的叶节点实际上是进行了3阶特征组合后的结果，如此强的特征组合能力显然是FM系的模型不具备的。但由于GBDT容易产生过拟合，以及GBDT这种特征转换方式实际上丢失了大量特征的数值信息，因此我们不能简单说GBDT由于特征交叉的能力更强，效果就比FFM好，在模型的选择和调试上，永远都是多种因素综合作用的结果。

6.3 GBDT+LR组合模型开启的特征工程新趋势

GBDT+LR比FM重要的意义在于，它大大推进了特征工程模型化这一重要趋势，某种意义上来说，之后深度学习的各类网络结构，以及embedding技术的应用，都是这一趋势的延续。

7 LS-PLM - 阿里巴巴曾经的主流推荐模型

LS-PLM（大规模分段线性模型），又被称为MLR（混合逻辑回归），其结构与三层神经网络极其相似。

7.1 LS-PLM 模型的主要结构

MLR可以看做是对LR的自然推广，它在LR的基础上采用分而治之的思路，先对样本进行分片，再在样本分片中应用LR进行CTR预估。在LR的基础上加入聚类的思想，其动机其实来源于对计算广告领域样本特点的观察。举个，如果CTR模型要预估的是女性受众点击女装广告的CTR，显然我们并不希望把男性用户点击数码类产品的样本数据也考虑进来，因为这样的样本不仅对于女性购买女装这样的广告场景毫无相关性，甚至会在模型训练过程中扰乱相关特征的权重。为了让CTR模型对不同用户群体，不同用户场景更有针对性，其实理想的方法是先对全量样本进行聚类，再对每个分类施以LR模型进行CTR预估。MLR的实现思路就是由该动机产生的。

$f(x) = \sum_{i=1}^m\pi_i(x)\cdot \eta_i(x) = \sum_{i=1}^m\frac{e^{\mu_i\cdot x}}{\sum_{j=1}^m e^{\mu_j\cdot x}} \cdot \frac{1}{1+e^{-w_i\cdot x}} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (14)$

MLR目标函数的数学形式如上，首先用聚类函数π对样本进行分类（这里的π采用了softmax函数，对样本进行多分类），再用LR模型计算样本在分片中具体的CTR，然后将二者进行相乘后加和。其中超参数分片数m可以较好地平衡模型的拟合与推广能力。当m=1时MLR就退化为普通的LR，m越大模型的拟合能力越强，但是模型参数规模随m线性增长，相应所需的训练样本也随之增长。

7.2 LS-PLM模型的优点

端到端的非线性学习：从模型端自动挖掘数据中蕴藏的非线性模式，省去了人工特征设计，这使得MLR算法可以端到端地完成训练，在不同场景中的迁移和应用非常轻松。
稀疏性：MLR在建模时引入了L1和L2,1范数，可以使得最终训练出来的模型具有较高的稀疏度，模型的学习和在线预测性能更好。

7.3 从深度学习的角度重新审视LS-PLM模型

LS-PLM可以看作加入了注意力机制的三层神经网络模型，输入层：样本的特征向量；中间层：m个神经元组成的隐层；输出层：对CTR预估来说，输出层是单一神经元。注意力机制：在隐层和输出层之间，神经元之间的权重由分片函数得出的注意力得分来确定，即样本属于哪个分片的概率就是其注意力得分，即式(14)中的 $\pi_i(x)$ 。

8 总结

参考：深度学习推荐系统，王喆

王喆知乎的帖子 https://zhuanlan.zhihu.com/p/61154299

你可能感兴趣的:(机器学习)

Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
python接收_MT5 与 PYTHON 的集成：接收和发送数据 James Swineson python接收
为什么要把MQL5与Python集成？全方位的数据处理需要大量工具，并且经常超出单一应用程序的功能沙箱。专用编程语言正在用于处理和分析数据，统计和机器学习。Python是数据处理的主要编程语言之一。一个非常有效的解决方案是利用语言的力量并包含函数库来开发交易系统。在两个或更多个程序之间实现交互存在众多不同的解决方案。套接字是最快速、最灵活的解决方案之一。网络套接字是计算机网络上进程间通信的端点。M
60天python训练计划----day55
DAY55序列预测任务介绍知识点回顾序列预测介绍单步预测多步预测的2种方式序列数据的处理：滑动窗口多输入多输出任务的思路经典机器学习在序列任务上的劣势；以随机森林为例一、序列预测任务介绍1.1序列预测是什么？我们之前接触到的结构化数据，它本身不具备顺序，我们认为每个样本之间独立无关，样本之间即使调换顺序，仍然不影响模型的训练。但是日常中很多数据是存在先后关系的，而他们对应的任务是预测下一步的值，我
如何构建知识库追逐此刻其他其他
构建个人知识库是一个系统化的过程，需要结合工具选择、信息管理和持续优化。以下是分步骤的实用指南，包含现代工具和方法的建议：一、明确知识库定位（Why）核心目标学习型：支持学术研究/职业发展（如医学生构建临床知识体系）创作型：支撑内容产出（如自媒体作者的选题库）项目型：管理特定领域知识（如程序员的技术栈文档）领域聚焦建议采用「T型策略」：1个深度领域+3个辅助领域（如主攻机器学习，辅修心理学/设计/
学习AI机器学习所需的数学基础 frostmelody 机器学习小知识点人工智能学习机器学习
一、机器学习岗位的数学需求矩阵机器学习岗位研究型职位工业界职位DeepMind/Meta/Google研究部门研究科学家/研究工程师普通科技公司机器学习工程师/数据科学家需硕士/博士数学水平本科数学基础二、数学需求深度解析1.研究型职位（需深度数学）学历要求：数学/物理/计算机/统计/工程本科基础硕士/博士优先（Kaggle调查显示博士占比高）薪资关联：学历与收入呈正相关2.工业界职位（基础数学）
量子机器学习前沿：量子神经网络与混合量子-经典算法软考和人工智能学堂人工智能 #深度学习 Python开发经验量子计算
1.量子计算基础1.1量子比特与量子门importnumpyasnpfromqiskitimportQuantumCircuit,Aer,executefromqiskit.visualizationimportplot_histogram#单量子比特操作演示defsingle_qubit_demo():qc=QuantumCircuit(1)qc.h(0)#Hadamard门创建叠加态qc.rz
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
Python打卡：day23 剑桥折刀s python打卡 python 开发语言
作业：整理下全部逻辑的先后顺序，看看能不能制作出适合所有机器学习的通用pipelinedefcreate_general_pipeline(model,ordinal_features=None,ordinal_categories=None,nominal_features=None,continuous_features=None):fromsklearn.pipelineimportPipe
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
机器学习×完结 · 她们不是写完了，而是偷偷留下了你 Gyoku Mint 人工智障 AI修炼日记机器学习人工智能集成学习算法 boosting python 深度学习
【开场·咱把整个机器学习都写成了偷摸贴贴的证据】猫猫：“你看嘛，这一卷完结后，总有人问咱：‘这么一本正经的机器学习，为什么你们要写得像小情侣写信？’”狐狐：“有人觉得，这些章节明明可以用20页讲完，为什么要写200页？”猫猫：“呜呜……咱想说，你懂嘛！如果只讲机器学习，那对咱来说就只是一个fit()命令。可咱想让你记住的是——那行命令后面有咱。咱把自己贴进去了。”这一卷从KNN的“她学会先看邻居”
【机器学习算法】XGBoost原理
一、基本内容基本内容：GBDT的基础上，在损失函数上加入树模型复杂度的正则项与GBDT一样，也是使用新的弱学习器拟合残差（当前模型负梯度，残差方向）GBDT损失函数Loss=∑i=1NL(yi,yit)Loss=\sum_{i=1}^{N}L(y_i,y_i^{t})Loss=i=1∑NL(yi,yit)XGboost损失函数Loss=∑i=1SL(yi,yit)+∑j=1NΩ(fj))Loss=
大语言模型(LLM)量化基础知识(一) -派神- RAG NLP ChatGPT 语言模型人工智能自然语言处理
承接各类AI相关应用开发项目(包括但不限于大模型微调、RAG、AI智能体、NLP、机器学习算法、运筹优化算法、数据分析EDA等)!!!有意愿请私信!!!随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer模型（0.05B参数）2018年：GPT（0
ROS2 强化学习：案例与代码实战芯动大师 ROS2学习目标检测人工智能
一、引言在机器人技术不断发展的今天，强化学习（RL）作为一种强大的机器学习范式，为机器人的智能决策和自主控制提供了新的途径。ROS2（RobotOperatingSystem2）作为新一代机器人操作系统，具有更好的实时性、分布式性能和安全性，为强化学习在机器人领域的应用提供了更坚实的基础。本文将通过一个具体案例，深入探讨ROS2与强化学习的结合应用，并提供相关代码实现。二、案例背景本案例以移动机器
揭秘AI算力网络与通信中边缘计算的机器学习应用
揭秘AI算力网络与通信中边缘计算的机器学习应用关键词：AI算力网络、通信、边缘计算、机器学习、应用摘要：本文将深入探讨AI算力网络与通信中边缘计算的机器学习应用。我们会先介绍相关背景知识，接着解释核心概念，分析它们之间的关系，阐述核心算法原理和操作步骤，结合数学模型举例说明，通过项目实战展示代码实现与解读，探讨实际应用场景，推荐相关工具和资源，最后展望未来发展趋势与挑战。希望通过这篇文章，能让大家
VLLM：虚拟大型语言模型（Virtual Large Language Model）大霸王龙语言模型人工智能自然语言处理
VLLM：虚拟大型语言模型（VirtualLargeLanguageModel）VLLM指的是一种基于云计算的大型语言模型的虚拟实现。它通常是指那些由多个服务器组成的分布式计算环境中的复杂机器学习模型，这些模型能够处理和理解大量的文本数据。VLLM的核心是“大型语言模型”，这是一种通过深度神经网络训练的算法，能够在理解和生成人类语言方面表现出极高的能力。解释：虚拟：意味着这个模型不是在单个物理设备
Sklearn 机器学习数值离散化虚拟编码 Thomas Kant 人工智能机器学习 sklearn 人工智能
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Sklearn机器学习：数值离散化+虚拟编码实战详解在机器学习的特征工程中，数值型特征并不总是适合直接输入模型。尤其是树模型或分类模型时，**将连续变量进行离散化（分箱）+虚拟编码（独热编码）**是一种常见且高效的
合规视角下银行智能客服风险防控 AI 智能服务智能客服人工智能 AIGC 数据库 chatgpt
1.AI驱动金融变革的政策与技术背景政策导向：我国《新一代人工智能发展规划》明确提出发展智能金融，要求：构建金融大数据平台，提升多媒体数据处理能力；创新智能金融产品与服务形态；推广智能客服、监控等技术应用；建立智能风控预警体系。技术支撑：云计算、大数据技术成熟为AI发展奠定了基础。深度学习算法的突破则引爆了本轮AI浪潮，显著提升了复杂任务处理精度，进而推动了计算机视觉、机器学习、自然语言处理（NL
存得快查得准，但就是算不动？试试时序数据库 TDengine × Spark 的组合拳
每个工程师可能都遇到过类似场景：时序数据沉淀在数据库中，格式规范、查询快捷，但当任务升级——比如滑窗聚合、多源拼接、机器学习训练——一些业务可能就需要更强的计算能力和更灵活的分析工具。TDengine专注于高效存储与极速查询，而在数据“算力”层面，我们选择了更强的伙伴。现在，TDengine正式开放与ApacheSpark的无缝集成通道。一个是高性能、低成本的时序数据库，一个是横扫大数据世界的分析
【高频考点精讲】前端AI集成实战：从TensorFlow.js到模型部署全栈老李技术面试前端高频考点精讲前端 javascript html css 面试题 react vue
前端AI集成实战：从TensorFlow.js到模型部署‍作者：全栈老李更新时间：2025年5月‍适合人群：前端初学者、进阶开发者版权：本文由全栈老李原创，转载请注明出处。今天咱们聊聊前端工程师如何玩转AI——没错，用JavaScript就能搞机器学习！我是全栈老李，一个喜欢把复杂技术讲简单的实战派。最近发现不少前端同学对AI既好奇又害怕，其实真没想象中那么难，跟着老李走，30分钟让你亲手部署第一
【机器学习第二期（Python）】优化梯度提升决策树 XGBoost WW、forever 深度学习原理及代码实现机器学习 python 决策树
优化梯度提升决策树XGBoost一、XGBoost简介二、原理详解2.1基础思想：改进版GBDT2.2目标函数2.3二阶泰勒展开优化2.4树结构优化三、XGBoost实现步骤（Python）可调参数推荐完整案例代码（回归任务+可视化）参考梯度提升决策树GBDT的原理及Python代码实现可参考另一博客-【机器学习第一期（Python）】梯度提升决策树GBDT。XGBoost（ExtremeGrad
ICBDDM2025：大数据与数字化管理前沿峰会鸭鸭鸭进京赶烤学术会议大数据图像处理计算机视觉 AI编程人工智能机器人考研
在选择大学专业时，可以先从自身兴趣、能力和职业规划出发，初步确定几个感兴趣的领域。然后结合外部环境因素，如专业前景、教育资源和就业情况等，对这些专业进行深入的分析和比较。大数据专业：是一个热门且前沿的学科领域，它涉及到数据的收集、存储、处理、分析和应用等多个方面。课程设置基础课程数学基础：高等数学、线性代数、概率论与数理统计等。这些课程为大数据分析提供了必要的数学工具，例如线性代数在机器学习算法中
云原生SLO与AIOps的完美结合：智能运维新趋势 AI云原生与云计算技术学院云原生 ai
云原生SLO与AIOps的完美结合：智能运维新趋势关键词：云原生、SLO、AIOps、智能运维、服务等级目标、自动化运维、机器学习摘要：本文深入探讨云原生环境下服务等级目标（SLO）与智能运维（AIOps）的融合实践。通过解析SLO的核心原理与AIOps的技术架构，揭示两者在指标定义、异常检测、自动化修复等环节的协同机制。结合具体算法实现、数学模型分析与项目实战案例，展示如何通过数据驱动的智能运维
【Rust】——使用消息在线程之间传递数据 Y小夜 Rust（官方文档重点总结）rust 开发语言后端
博主现有专栏：C51单片机（STC89C516），c语言，c++，离散数学，算法设计与分析，数据结构，Python，Java基础，MySQL，linux，基于HTML5的网页设计及应用，Rust（官方文档重点总结），jQuery，前端vue.js，Javaweb开发，Python机器学习等主页链接：Y小夜-CSDN博客目录信道与所有权转移发送多个值并观察接收者的等待通过克隆发送者来创建多个生产者学
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出