项亮《推荐系统实践》读书笔记3-利用用户标签数据进行推荐

利用用户标签数据进行推荐

  1. 推荐系统联系用户和物品的三种方式:
    (1) 利用用户喜欢过的物品,给用户推荐与他喜欢过的物品相似的物品,也就是ICF算法;
    (2) 利用与用户兴趣相似的其他用户,给用户推荐那些和他们兴趣爱好相似的其他用户喜欢的物品;
    (3) 通过一些特征联系用户和物品,给用户推荐那些具有用户喜欢的特征的物品。这些特征可以是物品的属性集合,也可以表现为隐语义向量。
  2. 标签是一种重要的特征表现方式,标签是一种无层次化结构,用来描述信息的关键词,它可以用来描述物品的语义。标签一般分为两种:一种是让作者或者专家给物品打标签;另一种是让普通用户给物品打标签,也就是UGC(User Genarated Content,用户生成的内容)的标签应用。
  3. UGC标签系统的代表应用:
    (1) Delicious
    标签系统的鼻祖,它允许用户给互联网上的每个网页打标签,从而通过标签重新组织整个互联网。
    (2) CiteULike
    著名的论文书签网站,通过群体智能,让每个研究人员对自己了解的论文进行标记,借此帮助其他研究人员更好更快地发现自己感兴趣的论文。
    (3) Last.fm
    为了在不进行复杂音频分析的情况下获得音乐的内容信息,它引入了UGC标签系统。
    (4) 豆瓣
    中国本土评论和社交网站,个性化推荐领域的领军企业之一。
    (5) Hulu
    美国视频网站。
  4. 标签系统中的推荐问题:
    标签系统中的推荐问题主要有两个:
    (1) 基于标签的推荐:如何利用打标签的行为为其推荐?
    (2) 标签推荐:如何在用户给物品打标签时为其推荐适合该物品的标签?
    首先,需要关注下面三个问题:
    (1) 用户为什么要打标签?
    社会维度:有些标签是给内容上传者使用的,便于上传者组织自己的信息,而有些用户标注是给广大用户使用的,便于帮助其他用户找到信息。
    功能维度:有些标注用户更好地组织内容,方便用户将来的查找,而另一些标注用于传达某种信息,比如照片的拍摄时间和地点等。
    (2) 用户怎么打标签?
    标签的流行度分布也呈现出非常典型的长尾分布,它的双对数曲线几乎是一条直线。
    (3) 用户打什么样的标签?
    标签大致分为如下几类:
    表明物品是什么、表明物品的种类、表明谁拥有物品、表达用户的观点、用户相关的标签、用户的任务、类型、时间、人物、地点、语言、奖项、其它。
  5. 标签清理:不是所有标签都能反应用户的兴趣,同时,标签系统里经常出现词形不同、词义相同的标签。标签清理的另一个重要意义在于将标签作为推荐解释,所以这些标签不能包含没有意义的停止词或者表示情绪的词,其次这些推荐解释里不能包含很多意义相同的词语。
    一般来说有如下几种标签清理方法:
    (1) 去除词频很高的停止词;
    (2) 去除因词根不同造成的同义词;
    (3) 去除因分隔符造成的同义词。
  6. 基于标签的推荐解释:
    基于标签的推荐的最大好处就是可以利用标签做推荐解释。有代表性的就是豆瓣的个性化推荐。让用户直观直观上感觉推荐结果有道理是很困难的。豆瓣将推荐结果的可解释性拆分为两部分,首先让用户觉得标签云是有道理的,然后让用户觉得从某个标签推荐出某本书也是有道理的。
    用户对标签的兴趣对帮助用户理解为什么给他推荐某个物品更有帮助;
    用户对标签的兴趣和物品标签相关度对于帮助用户判定自己是否喜欢被推荐物品具有同样的作用。
    物品标签相关度对于帮助用户判定被推荐物品是否符合他当前的兴趣更有帮助。
    客观事实类标签比主管感受类标签对用户更有作用。
  7. 给用户推荐标签:
    (1) 为什么给用户推荐标签?
    方便用户输入标签;提高标签质量。
    (2) 如何给用户推荐标签?
    推荐最热门标签;给用户u推荐物品i上最热门的标签;给用户u推荐他自己经常使用的标签;第2,3种方法的融合。
    同时,第2,3种方法有个缺点,就是对新用户或者不热门的物品很难有推荐效果,这里有两个解决思路:第一个思路是从物品的内容数据中抽取关键词作为标签,第二种是对于有结果但是结果不太多的情况做关键词拓展,加入与之相关的标签。

[1]: 项亮《推荐系统实践》

你可能感兴趣的:(标签,推荐系统,UGC,项亮)