用户角度
推荐系统用于在“信息过载”的情况下,使用户高效获取感兴趣的信息。用户需求层面讲,推荐系统使在用户需求模糊的情况下进行信息的过滤。
公司角度
推荐系统解决产品能够最大限度地吸引用户、留存用户、增加用户黏性、提高用户转化率地问题,从而使公司商业目标连续增长。对于公司而言,需要达到商业目标、增加公司收益。
推荐系统解决的用户痛点:
用户如何在“信息过载”的情况下高效的获取有用的信息
形式化定义推荐系统解决的问题:
对于用户 U U U,在特定场景 C C C下,针对海量信息,构建函数 f ( U , I , C ) f(U,I,C) f(U,I,C),来预测用户对特定候选物品 I I I的喜好程度,再根据喜好程度对所有候选物品进行排序,生成推荐列表的问题
实际工程中着重解决的问题
”数据和信息“部分发展为推荐系统中融合了数据离线批处理、实时流处理的数据流框架;“算法和模型”细化为推荐系统中集训练、评估、部署、线上推断为一体的模型框架。
推荐系统的数据部分
主要负责“用户信息”、“物品信息”、“场景信息”的信息收集与处理。将负责数据收集与处理的三种平台按照实时性的强弱排序,依次为客户端及服务端实时数据处理、流处理平台准实时数据处理、大数据平台离线数据处理。在实时性由强到弱递减时,三种平台的海量数据处理能力由弱到强。
在得到原始的数据信息后,推荐系统的数据处理系统会将原始数据加工,加工后的数据出口有三个:
推荐系统的模型部分
模型部分是推荐系统的主体,一般由“召回层”、“排序层”、“补充策略与算法层”构成
模型服务:从推荐模型接收到所有候选物品集,到最后产生推荐列表的过程
在线环境进行模型服务之前,需要模型训练确定模型结构、结构中不同参数权重的具体值,以及模型相关算法和策略中的参数取值。
模型的训练方式根据模型训练环境不同:分为”离线训练“和”在线更新“两部分。
协同过滤
协调大家的反馈、评价和意见一起对海量的信息进行过滤,从中筛选出目标用户可能感兴趣的信息的推荐的过程。
将带有标识的有向图转换成共现矩阵,该矩阵中的行向量代表相应用户的用户向量,用户 i i i和用户 j j j的相似度转换为处理用户向量 i i i和用户向量 j j j之间的相似度。
余弦相似度
余弦相似度衡量向量 i i i和 j j j之间的向量夹角大小,夹角越小,余弦相似度越大,两个用户越相似。
s i m ( i , j ) = c o s ( i , j ) = i ⋅ j ∣ ∣ i ∣ ∣ ⋅ ∣ ∣ j ∣ ∣ sim(i,j)=cos(i,j)=\frac{i \cdot{j}}{||i||\cdot{||j||}} sim(i,j)=cos(i,j)=∣∣i∣∣⋅∣∣j∣∣i⋅j
皮尔逊相关系数
皮尔逊系数通过使用用户平均分对各独立评分进行修正,减少用户评分偏置的影响
s i m ( i , j ) = ∑ p ∈ P ( R i , p − R ‾ i ) ( R j , p − R ‾ j ) ∑ p ∈ P ( R i , p − R ‾ i ) 2 ∑ p ∈ P ( R j . p − R ‾ j ) 2 sim(i,j)=\frac{\sum_{p\in P}{(R_{i,p}-\overline{R}_i)(R_{j,p}-\overline{R}_j)}}{\sqrt{\sum_{p\in P}{(R_{i,p}-\overline{R}_i)^2}}\sqrt{\sum_{p\in P}{(R_{j.p}-\overline{R}_j)^2}}} sim(i,j)=∑p∈P(Ri,p−Ri)2∑p∈P(Rj.p−Rj)2∑p∈P(Ri,p−Ri)(Rj,p−Rj)
其中, R i , p R_{i,p} Ri,p代表用户 i i i对物品 p p p的评分。 R ‾ i \overline{R}_i Ri代表用户 i i i对所有物品的平均评分, P P P代表所有物品的集合。
在获得Top n相似用户后,生成的最终推荐结果过程如下。假设”目标用户与其相似用户的喜好相似的“,可以根据相似用户的已有评价对目标用户的偏好进行预测。
常见方式是利用用户相似度和相似用户的评价的加权平均获得目标用户的评价预测。
R u , p = ∑ s ∈ S ( w u , s ⋅ R s , p ) ∑ s ∈ S w u , s R_{u,p}=\frac{\sum_{s\in S}{(w_{u,s}\cdot{R_{s,p}})}}{\sum_{s\in S}{w_{u,s}}} Ru,p=∑s∈Swu,s∑s∈S(wu,s⋅Rs,p)
其中,权重 w u , s w_{u,s} wu,s是用户 u u u和用户 s s s的相似度, R s , p R_{s,p} Rs,p是用户 s s s对物品 p p p的评分。
在获得用户 u u u对不同物品的评价预测后,最终的推荐列表根据预测得分进行排序得到。至此,完成协同过滤的全部过程。
以上算法是基于用户近似度进行推荐,称为基于用户的协同过滤(UserCF)
UserCF存在的缺点
基于物品平均分方式,减少物品评分偏置对结果的影响
s i m ( i , j ) = ∑ p ∈ P ( R i , p − R ‾ p ) ( R j , p − R ‾ p ) ∑ p ∈ P ( R i , p − R ‾ p ) 2 ∑ p ∈ P ( R j . p − R ‾ p ) 2 sim(i,j)=\frac{\sum_{p\in P}{(R_{i,p}-\overline{R}_p)(R_{j,p}-\overline{R}_p)}}{\sqrt{\sum_{p\in P}{(R_{i,p}-\overline{R}_p)^2}}\sqrt{\sum_{p\in P}{(R_{j.p}-\overline{R}_p)^2}}} sim(i,j)=∑p∈P(Ri,p−Rp)2∑p∈P(Rj.p−Rp)2∑p∈P(Ri,p−Rp)(Rj,p−Rp)
其中, R i , p R_{i,p} Ri,p代表用户 i i i对物品 p p p的评分。 R ‾ p \overline{R}_p Rp代表物品 p p p得到所有评分的平均评分, P P P代表所有物品的集合。
ItemCF是基于物品相似度进行推荐的协同过滤算法。通过计算共现矩阵中物品列向量的相似度得到物品之间的相似矩阵,再找到用户的历史正反馈物品的相似物品进一步排序和推荐
ItemCF算法流程
协同过滤不具备较强的泛化能力,无法将两个物品相似这一信息推广到其他物品的相似性计算上
协同过滤缺陷
矩阵分解技术
为了解决上述问题,同时增加模型的泛化能力,提出矩阵分解技术,即在协同过滤共现矩阵的基础上,使用更稠密的隐向量表示用户和物品,挖掘用户和物品的隐含兴趣和隐含特征,一定程度上弥补了协同过滤你想处理稀疏矩阵能力不足的问题。
对于图a
,协同过滤算法基于用户观看历史,找到与目标用户看过同样视频的相似用户,然后找到这些相似用户喜欢看的其他视频,推荐给目标用户
对于图b
,矩阵分解算法期望为每一个用户和视频生成一个隐向量,将用户和视频定位到隐向量的表示空间上,距离相近的用户和视频表明兴趣特点相近,在推荐过程中,就把距离相近的视频推给目标用户
用隐向量表示用户和物品并保证相似的用户及用户可能喜欢的物品距离相近,找出该隐向量
在”矩阵分解“的算法框架下,用户和物品的隐向量是通过分解协同过滤生成的共现矩阵得到的
矩阵分解算法将 m × n m×n m×n维的共现矩阵 R R R分解为 m × k m×k m×k 维的用户矩阵 U U U和 k × n k×n k×n维的物品矩阵 V V V乘积形式。其中 m m m是用户数量, n n n是物品数量, k k k是隐向量的维度。 k k k的取值越小,隐向量包含的信息越少,模型的泛化程度越高; k k k的取值越大,隐向量包含信息越多,模型的泛化程度降低。
基于用户矩阵 U U U和物品矩阵 V V V,用户 u u u对物品 i i i的预估评分表示为 r ^ u i = q i T p u \hat{r}_{ui}=q_i^Tp_u r^ui=qiTpu,其中 p u p_u pu是用户 u u u在用户矩阵 U U U中的对应行向量, q i q_i qi是物品 i i i在物品矩阵 V V V中对应列向量
矩阵分解方式主要有 特征值分解、奇异值分解、梯度下降
[奇异值分解介绍在机器学习系列,自行食用即可]
奇异值分解的描述
假设矩阵 M M M是一个 m × n m×n m×n的矩阵,则一定存在一个分解 M = U Σ V T M=U\Sigma V^T M=UΣVT,其中 U U U是 m × m m×m m×m的正交矩阵, V V V是 n × n n×n n×n的正交矩阵, Σ \Sigma Σ是 m × n m×n m×n的对角阵。
取对角阵 Σ \Sigma Σ中较大的 k k k个元素作为隐含特征,删除 Σ \Sigma Σ的其他维度及 U U U和 V V V中对应的维度,矩阵 M M M被分解为 M ≈ U x × k Σ k × k V k × n T M≈U_{x×k}\Sigma_{k×k}V_{k×n}^T M≈Ux×kΣk×kVk×nT,至此完成隐向量维度维 k k k的矩阵分解
奇异值分解存在的缺陷(互联网场景难以使用奇异值分解解决矩阵分解问题)
选择梯度下降法解决矩阵分解问题
求解矩阵分解的目标函数目的是让原始评分 r u i r_{ui} rui与用户向量和物品向量之积 q i T p u q_i^Tp_u qiTpu差尽量小,这样才能最大限度保存共现矩阵的原始信息。
O b j e c t F u n c t i o n min q ∗ , p ∗ ∑ ( u , i ) ∈ K ( r u i − q i T p u ) 2 Object\quad Function\quad\min_{q^*,p^*}\sum_{(u,i)\in K}{(r_{ui}-q_i^Tp_u)^2} ObjectFunctionq∗,p∗min(u,i)∈K∑(rui−qiTpu)2
其中 K K K是所有用户评分样本的集合。为了减少过拟合现象,对其进行正则化。
O b j e c t F u n c t i o n min q ∗ , p ∗ ∑ ( u , i ) ∈ K ( r u i − q i T p u ) 2 + λ ( ∣ ∣ q i ∣ ∣ 2 + ∣ ∣ p u ∣ ∣ 2 ) Object\quad Function\quad\min_{q^*,p^*}\sum_{(u,i)\in K}{(r_{ui}-q_i^Tp_u)^2}+\lambda(||q_i||^2+||p_u||^2) ObjectFunctionq∗,p∗min(u,i)∈K∑(rui−qiTpu)2+λ(∣∣qi∣∣2+∣∣pu∣∣2)
梯度下降求解目标函数
1.确定目标函数
min q ∗ , p ∗ ∑ ( u , i ) ∈ K ( r u i − q i T p u ) 2 + λ ( ∣ ∣ q i ∣ ∣ 2 + ∣ ∣ p u ∣ ∣ 2 ) \min_{q^*,p^*}\sum_{(u,i)\in K}{(r_{ui}-q_i^Tp_u)^2}+\lambda(||q_i||^2+||p_u||^2) q∗,p∗min(u,i)∈K∑(rui−qiTpu)2+λ(∣∣qi∣∣2+∣∣pu∣∣2)
2.对目标函数求偏导,求取梯度下降的方向和幅度
对 q i 求偏导,得 2 ( r u i − q i T p u ) p u − 2 λ p i 对 q u 求偏导,得 2 ( r u i − q i T p u ) q i − 2 λ p u 对q_i求偏导,得\quad2(r_{ui}-q_i^Tp_u)p_u-2\lambda p_i\\ 对q_u求偏导,得\quad2(r_{ui}-q_i^Tp_u)q_i-2\lambda p_u 对qi求偏导,得2(rui−qiTpu)pu−2λpi对qu求偏导,得2(rui−qiTpu)qi−2λpu
3.利用求导结果,沿梯度的反方向更新参数
q i ← q i − γ ( ( r u i − q i T p u ) p u − λ q i ) p u ← p u − γ ( ( r u i − q i T p u ) q i − λ p u ) 其中, γ 为学习率 q_i\leftarrow q_i-γ((r_{ui}-q_i^Tp_u)p_u-\lambda q_i)\\ p_u\leftarrow p_u-γ((r_{ui}-q_i^Tp_u)q_i-\lambda p_u)\\ 其中,γ为学习率 qi←qi−γ((rui−qiTpu)pu−λqi)pu←pu−γ((rui−qiTpu)qi−λpu)其中,γ为学习率
4.当迭代次数超过上限 n n n或损失低于阈值 θ \theta θ时,结束训练,否则循环第3步
在完成矩阵分解过程后,即可得到所有用户与物品的隐向量。在对某用户进行推荐时,可利用该用户的隐向量与所有物品的隐向量进行逐一的内积运算,得出该用户对所有物品的评分预测,再依次进行排序,得到最终的推荐列表。
矩阵分解具有更强的泛化能力的解释
在矩阵分解算法中,由于隐向量的存在,使任意的用户和物品之间都可以得到预测分值。隐向量的生成过程其实是对共现矩阵进行全局拟合的过程,因此隐向量是利用全局信息生成的,具有更强的泛化能力,而协同过滤只能利用用户和物品自己的信息进行相似度计算,因此不具备利用全局信息的能力
由于不同用户的打分体系不同,不同物品的衡量标准也有所区别,为了消除用户和物品打分的偏差,常用做法是矩阵分解时加入用户和物品的偏差变量
r u i = μ + b i + b u + q i T p u r_{ui}=μ+b_i+b_u+q_i^Tp_u rui=μ+bi+bu+qiTpu
其中 μ μ μ是全局偏差常数, b i b_i bi是物品偏差系数,可使用物品 i i i 收到的所有评分的均值, b u b_u bu是用户偏差系数,可使用用户 μ μ μ给出的所有评分的均值
矩阵分解的目标函数优化如下:
min q ∗ , p ∗ , b ∗ ∑ ( u , i ) ∈ K ( r u i − μ − b u − b i − q i T p u ) 2 + λ ( ∣ ∣ q i ∣ ∣ 2 + ∣ ∣ p u ∣ ∣ 2 + b u 2 + b i 2 ) \min_{q^*,p^*,b^*}\sum_{(u,i)\in K}{(r_{ui}-μ-b_u-b_i-q_i^Tp_u)^2}+\lambda(||q_i||^2+||p_u||^2+b_u^2+b_i^2) q∗,p∗,b∗min(u,i)∈K∑(rui−μ−bu−bi−qiTpu)2+λ(∣∣qi∣∣2+∣∣pu∣∣2+bu2+bi2)
加入用户和物品的打分偏差项后,矩阵分解得到的隐向量更能反映不同用户对不同物品的”真实“态度差异,即容易捕捉评价数据中有价值的信息,进而避免推荐结果有偏
优点
局限性
解决
逻辑回归模型和因子分解机模型可以融合多特征,弥补其不足
相较协同过滤模型仅利用用户与物品的相互行为信息进行推荐而言,逻辑回归模型综合利用用户、物品、上下文多特征进行“全面”推荐,相较协同过滤和矩阵分解利用用户和物品的相似度矩阵进行推荐而言,逻辑回归将推荐系统归类为分类问题,通过预测正样本的概率对物品进行排序(这里正样本表示用户对物品的正反馈行为),因此逻辑回归模型将推荐问题转换为点击率CTR预估问题。
重点
基于逻辑回归模型的推荐流程的重点在于样本特征向量和在线推断
整个训练过程的逻辑回归模型函数表示
f ( x ) = 1 1 + e − ( w ⋅ x + b ) f(x)=\frac{1}{1+e^{-(w\cdot{x}+b)}} f(x)=1+e−(w⋅x+b)1
1.确定目标函数
假设逻辑回归数学表达为 f w ( x ) f_w(x) fw(x),对于输入样本 x x x,预测结果为正样本(类别1)和负样本(类别0)的概率如下:
{ P ( y = 1 ∣ x ; w ) = f w ( x ) , P ( y = 0 ∣ x ; w ) = 1 − f w ( x ) ( 式 2 − 1 ) \begin{cases} P(y=1|x;w)=f_w(x),\\ P(y=0|x;w)=1-f_w(x) \quad\quad(式2-1) \end{cases} {P(y=1∣x;w)=fw(x),P(y=0∣x;w)=1−fw(x)(式2−1)
将式2-1
优化成式2-2
形式:
P ( y ∣ x ; w ) = ( f w ( x ) ) y ( 1 − f w ( x ) ) ( 1 − y ) ( 式 2 − 2 ) P(y|x;w)=(f_w(x))^y(1-f_w(x))^{(1-y)}\quad\quad(式2-2) P(y∣x;w)=(fw(x))y(1−fw(x))(1−y)(式2−2)
根据极大似然估计法写出逻辑回归目标函数,如式2-3
:
L ( w ) = ∏ i = 1 m P ( y ∣ x ; w ) ( 式 2 − 3 ) L(w)=\prod^m_{i=1}P(y|x;w) \quad\quad(式2-3) L(w)=i=1∏mP(y∣x;w)(式2−3)
继续优化,将求极大值问题转换成求极小值问题,最终目标函数见式2-4
:
J ( w ) = − 1 m l ( w ) = − 1 m l o g L ( w ) = − 1 m ( ∑ i = 1 m ( y i l o g f w ( x i ) + ( 1 − y i ) l o g ( 1 − f w ( x i ) ) ) ) ( 式 2 − 4 ) J(w)=-\frac{1}{m}l(w)=-\frac{1}{m}logL(w)=-\frac{1}{m}(\sum_{i=1}^{m}(y^ilogf_w(x^i)+(1-y^i)log(1-f_w(x^i))))\quad\quad (式2-4) J(w)=−m1l(w)=−m1logL(w)=−m1(i=1∑m(yilogfw(xi)+(1−yi)log(1−fw(xi))))(式2−4)
得到目标函数后,对每个参数求偏导,获取梯度方向,对参数 w j w_j wj求偏导:
∂ ∂ w j J ( w ) = 1 m ∑ i = 1 m ( f w ( x i ) − y i ) x j i \frac{\partial{}}{\partial{w_j}}J(w)=\frac{1}{m}\sum_{i=1}^{m}{(f_w(x^i)-y^i)}x_j^i ∂wj∂J(w)=m1i=1∑m(fw(xi)−yi)xji
给出模型参数更新公式:
w j ← w j − γ 1 m ( f w ( x i ) − y i ) x j i w_j\leftarrow w_j-γ\frac{1}{m}(f_w(x^i)-y^i)x_j^i wj←wj−γm1(fw(xi)−yi)xji
2.4.4 逻辑回归模型的评价
优点
缺点
表达能力弱,无法进行特征交叉、特征筛选等操作,会造成信息损失
解决
逻辑回归模型的不足促使因子分解机等高维复杂模型诞生,如今的深度学习背景,多层感知机完全取代逻辑回归模型