UserCF算法 - 改进用户相似度计算

前面计算用户间兴趣相似度使用的是余弦相似度,该公式过于粗糙,需要改进该公式。

      以图书为例,如果两个用户都曾经买过《新华字典》,这丝毫不能说明他们兴趣相似,因为绝大多数中国人小时候都买过《新华字典》。但如果两个用户都买过《数据挖掘导论》,那可以认为他们的兴趣比较相似,因为只有研究数据挖掘的人才会买这本书。换句话说,两个用户对冷门物品采取过同样的行为更能说明他们兴趣的相似度。因此,John S. Breese在论文中提出了如下公式,根据用户行为计算用户的兴趣相似度:


      其中,N(i)表示用户u,v共同感兴趣的物品的个数。该公式通过惩罚了用户u,v共同兴趣商品中热门商品对他们相似度的影响。

你可能感兴趣的:(推荐系统)