推荐系统 推荐算法 (小红书为例) 笔记 1
推荐系统 推荐算法 (小红书为例) 笔记 2
推荐一篇文章:推荐系统中的排序学习-卢明冬
标题结构
一、二、三、四、…
1、2、3、4、…
(1) (2) (3) (4)、…
黑体字
需得到分数的预估值:(精排模型)
每一个任务都是二元分类,使用交叉熵损失函数,p1
越接近y1
,损失函数就越小。
αi
是根据实际情况调节的。
困难:类别不平衡
每100次曝光,约有10次点击、90次无点击
每100次点击,约有10次收藏、90次无收藏
解决⽅案:负样本降采样(down-sampling)
保留⼀⼩部分负样本。
让正负样本数量平衡,节约计算
n+
和 n-
α·n-
个负样本,α
∈ (0, 1) 是采样率 (用来减少负样本数量)由上面的公式可以得到校准公式:
将特征向量输入到三个神经网络,三个神经网络参数不同。
将特征向量输入到另外一个神经网络,在之后加一个softmax激活函数,输出一个三维向量。
其中pi
和qi
都是权重,用于之后的加权平均。
下面是更上层:
用加权平均去评估某个业务指标
softmax激活函数会发生极化。
极化: Softmax输出值⼀个接近1,其余接近0 。例如
为<0,0,1>
,
为<0,1,0>
。那就以为这第一个专家神经网络dead。
解决极化现象:
在训练时,对 softmax 的输出使⽤ dropout
n
个数值被 mask 的概率都是 10%p_click,p_like,p_collect,p_time
为点击,点赞,收藏,预估短视频观看时长的概率。
p_click
和p_like
的乘积是有意义的。
超参数α1
和α2
需要手动调
视频排序的依据还有播放时长和完播
p
。y
是自己定义的,t
表示用户实际观看时长。p
= y
,那么 exp(z) = t
。那么可以用exp(z)
作为播放时长的预估把最后⼀个全连接层的输出记作 z
。设 p=sigmoid(z)
。(z是个实数,可以是正数,可以是负数)
实际观测的播放时长记作 t
。(如果没有点击,则 t = 0
)(t被记录在训练数据中)
做推理:把 exp (z)
作为播放时长的预估
把 exp (z)
作为融分公式中的⼀项 (会影响到视频的排序)
y=0.4
p
拟合 y
:(y基于0到1之间)p = 0.73
,意思是预计播放 73% 。(反映出用户的兴趣)完播80%
。(自义定时长)播放>8分钟
作为正样本,播放 <8分钟
作为负样本。播放>80%
vs 播放<80%
。p = 0.73
,意思是 ℙ(播放 > 80%) = 0.73
(完播概率为0.73)对于时间很短的视频,完播率很高,反之比较低。(横坐标表示视频时长,纵坐标表示完播率)
用函数f
来拟合万博率,需要对完播率进行调整。
排序需要用到的特征:
模型需要为新老,活跃不活跃的用户做优化。
30天指标很好,但是最近的指标很差,可能是笔记过时了。
需要考虑当特征缺失时,需要何种数据作为默认值。
用户画像
物品画像
统计数据
1 发送用户请求给主服务器,主服务器会将请求发给召回服务器。
2 召回服务器有多条召回通道,将召回的结果做归并,将ID返回给主服务器。
3 将三种数据传入排序服务器,其中物品ID是召回的结果,用户ID和场景特征是从用户请求中过去的,场景特征包含用户的时刻,用户的地点和手机型号等等。
用户画像数据库压力小,用户特征可以有很多的数据。相反,物品画像数据库压力十分大,数据应该尽量简洁尽量少。
用户画像一般不变,较为静态,其他请思考。
精排模型
双塔模型
后期融合∶把用户、物品特征分别输入不同的神经网络,不对用户、物品特征做融合。
线上计算量小
用户塔只需要做一次线上推理,计算用户表征a。
物品表征b事先储存在向量数据库中,物品塔在线上不做推理。
预估准确性不如精排模型
介于前期融合和后期融合之间,前期融合就是把底层特征做Concatenation,而这里是将三个输出的向量做Concatenation。
模型下层:
用户塔:可以很大很复杂,即使用户塔很大,推理很慢也无所谓,用户塔的计算对整个粗排的计算影响很小。
物品塔:好在物品特征相对稳定,可以将物品塔的输出结果缓存,每个一段时间进行一次刷新。基于此,物品几乎不用做推理,只有遇到新物品需要做推理。
交叉塔:需要足够小,计算够快。通常来说只有一层,宽度较小。
模型上层:
从多个数据源取特征∶
1个用户的画像、统计特征
n个物品的画像、统计特征
用户塔︰只做1次推理
物品塔︰未命中缓存时需要做推理
交叉塔∶必须做n次推理
上层网络做n次推理,给n个物品打分。
视频地址
本文是在观看此系列视频做出的笔记,我觉得讲的超级好,干货满满。
很多内容都是ppt中的,图形也是ppt中的(为了偷懒直接复制上传了,所以会有水印),有少数文字描述是自己写上去的。
本文仅供学习参考