协同过滤算法

小白一枚,网上看到一篇挺详细的文章,mark一下。

一、两种协同过滤算法
协同过滤算法分基于用户(UBCF)和基于物品(IBCF)两种,主要思路是根据对用户历史行为进行评分,寻找相似用户和相似物品,从而做出推荐。
详细地说,关于UBCF,即是根据不同用户对相同若干商品的“喜好”(通过浏览记录、购买记录、收藏等行为进行评分),得出用户之间的相似度,从而根据某用户相似用户的选择对其做出成功率更高的推荐。【此处主要问题在于如何进行评分才能最合适效率最高,每种行为分值占比多少,这点基于不同的目的评分方式也应不一样(小白观点)】
关于IBCF,类似UBCF,是根据相同若干用户对不同商品的评分得出商品间的相似度。CF分为两个过程,一个为预测过程,另一个为推荐过程。预测过程是预测用户对没有购买过的物品的可能打分值,推荐是根据预测阶段的结果推荐用户最可能喜欢的一个或Top-N个物品。
在数据比较稀疏时,推荐的准确性不高;数据量很大时,推荐的效率很低;某个商品没有评分时,会出现不被推荐的情况。这些问题后续学习~
二、具体实现
CF的主要方法有欧几里得距离评价皮尔逊相关度评价,前者容易理解,后者更实用。
在UBCF中:
欧几里得距离评价,即以不同商品为坐标轴,用户对不同商品的评分确定了用户在坐标系内的位置,位置越近的用户相似度越高。
皮尔逊相关度评价,即通过计算皮尔逊相关系数,得出用户之间的相似度。在对某用户进行推荐时,选择未购买过且相似用户评分较高的商品,并用与相似用户间的相似度进行加权,选择评分最高的商品推荐。
IBCF类似。
关于相似度计算等,原文都写得很详细。
点此阅读原文

你可能感兴趣的:(协同过滤算法)