Naive的算法:
p(u, i) = (对b求和)N(u, b) * N(b, i)
其中,N(u,b)是用户u打过标签b的次数,N(b, i)是物品i被打过标签b的次数。得到用户u喜欢物品i的可能性。
下边逐个分析其缺点,并一步步改进。
改进算法:
1.借鉴TF-IDF,惩罚热门标签、标签指向的热门物品。即在上面公式的基础上,两个N分别除以 log(1+ N(b))、log(1 + N(i)), 其各自含义分别为:该标签被多少个用户打过、该物品被多少个用户打过标签。
2.新用户或者新物品,标签较少(稀疏)。此时可以考虑把他标注的标签的“同义词”也引过来当作用户打过的标签。称之为“标签扩展”。而获取这个同义词的方法一般有两种:1)获取语义,话题模型;2)计算标签的相似度,并维护一个标签的相似度矩阵。
简要介绍2),如果认为同一个物品的两个标签具有相似性,那么当两个标签A、B经常出现在同一个物品的标注信息中时,我们认为A、B是高度相似的。余弦公式计算之即可。
3、标签清理。主要清理以下3种标签:
1)词频很高的 “停止词”;
2)词根不同的同义词:如 recommender system 和 recommendation system;
3)分隔符不同的同义词:如collaborative_filter 和 collaborative filter