推荐系统的冷启动问题

推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣,因此大量的用户行为 数据就成为推荐系统的重要组成部分和先决条件。如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统, 就是冷启动的问题。冷启动问题主要分为三类,用户冷启动,物品冷启动,系统冷启动。

用户冷启动

用户冷启动主要解决如何给新用户做个性化推荐的问题。当新用户到来时, 我们没有他的行为数据,所以也无法根据他的历史行为预测其兴趣,从而无法借此给他做个性化推荐。

利用用户注册信息

基于注册信息的个性化推荐流程基本如下:
(1) 获取用户的注册信息;
(2) 根据用户的注册信息对用户分类;
(3) 给用户推荐他所属分类中用户喜欢的物品。

选择合适的物品启动用户的兴趣

解决用户冷启动问题的另一个方法是在新用户第一次访问推荐系统时,不立即给用户展示推 荐结果,而是给用户提供一些物品,让用户反馈他们对这些物品的兴趣,然后根据用户反馈给提

物品冷启动

物品冷启动主要解决如何将新的物品推荐给可能对它感兴趣的用户这一问题供个性化推荐。物品冷启动在新闻网站等时效性很强的网站中非常重要,因为那些网站中时时刻刻都有新加人的物品,而且每 个物品必须能够在第一时间展现给用户,否则经过一段时间后,物品的价值就大大降低了。

对于 UserCF算法

对于 UserCF算法就需要解决第一推动力的问题,即第一个用户从哪儿发现新的物品。只要有一小部分 人能够发现并喜欢新的物品,UserCF算法就能将这些物品扩散到更多的用户中。解决第一推动力最简单的方法是将新的物品随机展示给用户,但这样显然不太个性化,因此可以考虑利用物品的 内容信息,将新物品先投放给曾经喜欢过和它内容相似的其他物品的用户。

对于ItemCF算法

对于ItemCF算法来说,物品冷启动就是一个严重的问题了。因为ItemCF算法的原理是给用户推荐和他之前喜欢的物品相似的物品,ItemCF算法每隔一段时间利用用户行为计算物品相似度表(一般一天计算一次)。因此,当新物品加入时,内存中的物品相关表中不会存在这个物品,新物品如果不展示给用户,用户就无法对其产生行为,从而ItemCF无法推荐新的产品。为此,我们只能利用物品的内容信息计算物品相关表,并且频繁地更新相关表。

系统冷启动

系统冷启动主要解决如何在一个新开发的网站上(还没有用户,也没有用 户行为,只有一些物品的信息)设计个性化推荐系统,从而在网站刚发布时就让用户体 验到个性化推荐服务这一问题。

发挥专家作用

很多推荐系统在建立时,既没有用户的行为数据,也没有充足的物品内容信息来计算准确的物品相似度。那么,为了在推荐系统建立时就让用户得到比较好的体验,很多系统都利用专家进行标注。
众所周知,计算音乐之间的相似度是比较困难的。首先,音乐是多媒体,如果从音频分析人手计算歌曲之间的相似度,则技术门槛很高, 而且也很难计算得令人满意。其次,仅仅利用歌曲的专辑、歌手等属性信息很难获得令人满意的歌曲相似度表,因为一名歌手、一部专辑往往只有一两首好歌。为了解决这个问题,Pandora雇
用了一批懂计算机的音乐人进行了一项称为音乐基因的项目。他们听了几万名歌手的歌,并对这些歌的各个维度进行标注。最终,他们使用了400多个特征Pandora称这些特征为基因)。标注完所有的歌曲后,每首歌都可以表示为一个400维的向量,然后通过常见的向量相似度算法可以计算出歌曲的相似度。
Jinni在电影基因工程中采用了半人工、半自动的方式。首先,它让专家对电影进行标记,每个电影都有大约50个基因,这些基因来自大约1000个基因库。然后,在专家标记一定的样本后,Jinni会使用自然语言理解和机器学习技术,通过分析用户对电影的评论和电影的一些内容属性对电影(特别是新电影)进行自己的标记。总之,Jinn通过专家和机器学习相结合的方法解决了系统冷启动问题。

你可能感兴趣的:(推荐系统实践—项亮,推荐算法,算法,机器学习)