1.冷启动问题是指用户在没有历史数据的前提下做个性化推荐
2.冷启动一般分为用户冷启动、物品冷启动和系统冷启动
3.推荐系统效果评估分为用户调研、在线评估和离线评估
4.用户调研要尽可能保证测试样本的代表性和实验的双盲性
5.在线评估常用方法是ABTest,常用指标是点击率、转化率和成交额
6.ABTest要注意证实偏差、幸存偏差、辛普森悖论和均值回归现象
推荐系统的冷启动
用户没有历史数据的情况下为用户做个性化推荐称为冷启动问题。一般分为三类:
用户冷启动:给新用户进行个性化推荐
物品冷启动:将新物品推荐给用户
系统冷启动:新系统没有用户只有物品下给新用户做推荐
冷启动的实现方式一般有6种,我们逐一介绍。
基于热门数据推荐
热门数据是指物品按照一定规则进行排序得到的排名靠前的数据。比如基于地域与热度特征的推荐物品。它反映了大众的偏好,最典型的就是网络的“热搜”。
利用用户注册信息
一般新用户需要注册相关信息,根据用户填写的信息可以对他进行推荐。通常情况注册信息分为三类:
(1)人口统计学信息:如年龄、身高、体重、居住地等
(2)用户兴趣描述:让用户选填自己喜欢的兴趣偏好
(3)三方数据:用户通过微信、QQ等登录第三方网站
获取相关信息后,其推荐的大致流程如下:根据用户信息对用户进行分类,从所在分类里面推荐最喜欢的物品。
利用用户上下文信息
用户的上下文信息,除了在文章基于上下文的推荐提到的时间特征、地域特征和热度特征,还能构造更加丰富的维度,比如用户的设备信息、所看到的物品展示信息等。
在冷启动中,针对用户上下文信息的实现原理是:根据用户的历史数据分析出用户在相应属性下的行为偏好,为相应的物品打上对应的时间和地域信息。在新用户来访时,通过获取时间和地域信息,召回对应属性下的数据,按照一定规则排序,返回相应物品推荐给用户。
利用用户与系统的交互信息
通过用户与系统之间的交互可以获取用户主观意义上的兴趣偏好,引导用户选择感兴趣的频道和话题,也是冷启动的一种典型方式。这种交互方式可以有多种,如话题选择、选项选择、口味测试、游戏引导等。
利用物品的内容属性
对于新加入的物品,也可以利用算法把它推荐出去。首先,按照物品的内容属性可以分为三类:
(1)物品的本身属性:具有宏观唯一性,如编码、标题名字、产出时间
(2)物品的归纳属性:具有宏观概括性,如类别、品牌、标签、风格
(3)物品的被动属性:具有客观概括性,如浏览量、点击率、评论
利用物品的内容属性解决冷启动通常有两种方法:
根据物品内容属性将其加入相应的召回类型中,再将物品加入召回池
将物品内容属性构造为特征,根据这些特征计算物品相似度
利用专家标注数据
这是针对系统冷启动的问题。这是最核心的问题就是对物品进行标注,比如人工标注或者利用深度学习技术进行数据标注。
推荐系统效果评估
在去年一开始介绍推荐算法的时候,就给出了一些评测指标。如准确率召回率等,这里再补充一些。
传送门:推荐算法起步:协同过滤
一般来说,推荐系统的评估方法分为用户调研、在线评估和离线评估。
用户调研
要评估一个新算法的好坏,最直接的办法是上线,但这样会有很大的风险。因为高预测准确率不代表高用户满意度,因此上线测试前一般需要做一次用户调研。用户调研尽可能保持双盲实验,测试样本的分布尽可能与真实分布接近。
用户调研的好处是可以获得体现用户主观感受的指标;缺点则很明显,测试用户样本量通常很小,测试结果的统计意义不足。
在线评估
最常用的在线实验方式是ABTest。它是指为了实现同一个目标制定两个方案,让一部分用户使用A方案,另一部分用户使用B方案,记录两部分的反馈信息,然后根据评估指标确认哪种方案更好。
一套标准的ABTest流程如下图所示:
(1)用户分流:将用户唯一ID编码进行Hash分桶,不同用户落入不同分桶中
(2)分桶召回:对不同的桶使用不同的召回策略,得到的召回物品池有差异
(3)用户打散:将用户随机打散,重新分桶
(4)分桶排序:对不同的桶指定不同的排序算法
(5)物品展示:根据排序输出进行物品展示
ABTest也有缺点,需要注意四个问题:证实偏差,幸存偏差,辛普森悖论和均值回归。
除了ABTest,在线评估指标也是评估推荐系统好坏的指标,最常见的是点击率、转化率和GMV。
点击率,是指物品的点击次数与曝光次数的比率:
点击率进一步可以分为PV点击率和UV点击率。
PV是page view的缩写,即页面浏览量:用户每1次对网站中的每个网页访问均被记录1次;用户对同一页面的多次访问,访问量累计。UV是unique visitor的缩写,即独立访客:指访问某个站点的不同IP地址的人数。
UV点击率侧重反映页面对整个用户群的粘性。PV点击率侧重的是页面对合适用户群的粘性。
转化率,顾名思义,是指事物从状态A到状态B的概率。在推荐系统中,通常是指发生目标行为的物品与发生目标行为条件的比率。
比如一个推荐频道,被点击商品数目为100,购买商品的数为10,则转化率为10%
GMV,是指网站成交额,这也是衡量页面物品推荐效果的指标。
离线评估指标在推荐算法起步:协同过滤已经介绍过,这里不再赘述了。
参考资料:《推荐系统开发实战》