推荐系统的分类:
基于应用领域分类:电子商务推荐,社交好友推荐,搜索引擎推荐,信息内容推荐
基于设计思想:基于协同过滤的推荐,基于内容的推荐,基于知识的推荐,混合推荐
基于使用何种数据:基于用户行为数据的推荐,基于用户标签的推荐,基于社交网络数据,基于上下文信息(时间上下文,地点上下文等等)
协同过滤:
协同过滤一般是在海量的用户中发掘出一小部分和你品味比较类似的,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的其他东西组织成为一个排序的目录作为推荐给你
核心问题:
如何确定一个用户是不是和你有相似的品味?
如何将邻居们的喜好组织成一个排序的目录?
收集用户偏好
找到相似的用户或物品
计算推荐(基于用户,基于物品)
通过收集用户把用户的特征变成向量(一般变成向量前需要降噪(抛去或者修改),归一化)
当已经对用户行为迚行分析得到用户喜好后,我们可以根据用户喜好计算相似用户和物品,然后基于相似用户戒者物品迚行推荐,这就是最典型的CF 的两个分支:基于用户的CF 和基于物品的CF。这两种方法都需要计算相似度
把数据看成空间中的向量(降噪,归一化)
欧几里得距离
其它距离
基于距离计算相似度:
皮尔逊相关系数:
同现相似度模型:根据用户评分数据表,生成物品的相似矩阵;
固定数量的邻居:K-neighborhoods
基于相似度门槛的邻居:Threshold-based neighborhoods
前面小节:前面讲解了相似度怎么计算,我们通过调查、收集数据得到用户的一些偏好,然后组成了用户的特征向量,然后我们在用数学上的
距离或者相关系数等作为指标可以算出两个特征向量之间的相似度,有了用户的相似度以后,我们可以通过k近邻法或者邻居法来求出相应特征点的邻居‘
这个时候可以有两大流派的走向:如果特征向量代表的是用户,那就是说我首先在用户之间计算用户的相似度,然后找出与该用户
相似口味的一些用户出来,然后看看那些用户买过一些什么东西,然后看看他买过的但是该用户没有买过,就把这些东西推荐给该用户,这个叫做基于
用户的协同过滤算法;如果特征代表的是物品,当用户面对一个商品的时候,我们会把与该商品相似的商品推荐给该用户;
基于用户的协同过滤,通过不同用户对物品的评分来评测用户之间的相似性,基于用户不间的相似性做出推荐。
简单来讲就是:给用户推荐和他兴趣相似的其他用户喜欢的物品。
基于UserCF的基本思想相当简单,基于用户对物品的偏好找到相邻邻居用户,然后将邻居用户喜欢的推荐给当前用户。
计算上,就是将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,找到K 邻居后,根据邻居的相似度权重以及他们对物品的偏好,预测当前用户没有偏好的未涉及物品,计算得到一个排序的物品列表作为推荐。
上图给出了一个例子,对于用户A,根据用户的历史偏好,这里只计算得到一个邻居–用户C,然后将用户C 喜欢的物品D 推荐给用户A。
基于item的协同过滤,通过用户对不同item的评分来评测item之间的相似性,基于item之间的相似性做出推荐。
简单来讲就是:给用户推荐和他之前喜欢的物品相似的物品。
基于物品的协同过滤算法ItemCF
基于ItemCF的原理和基于UserCF类似,只是在计算邻居时采用物品本身,而不是从用户的角度,即基于用户对物品的偏好找到相似的物品,然后根据用户的历史偏好,推荐相似的物品给他。
从计算的角度看,就是将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度,得到物品的相似物品后,根据用户历史的偏好预测当前用户还没有表示偏好的物品,计算得到一个排序的物品列表作为推荐。
上图给出了一个例子,对于物品A,根据所有用户的历史偏好,喜欢物品A 的用户都喜欢物品C,得出物品A 和物品C 比较相似,而用户C 喜欢物品A,那么可以推断出用户C 可能也喜欢物品C。
对于电子商务,用户数量一般大大超过商品数量,此时Item CF的计算复杂度较低
在非社交网络的网站中,内容内在的联系是很重要的推荐原则,它比基于相似用户的推荐原则更加有效。比如在购书网站上,当你看一本书的时候,推荐引擎会给你推荐相关的书籍,这个推荐的重要性进进超过了网站首页对该用户的综合推荐。可以看到,在这种情况下,Item CF 的推荐成为了引导用户浏览的重要手段。基于物品的协同过滤算法,是目前电子商务采用最广泛的推荐算法。
在社交网络站点中,User CF 是一个更丌错的选择,User CF 加上社会网络信息,可以增加用户对推荐解释的信服程度。
推荐多样性和精度,各有千秋
用户对推荐算法的适应度
分为2个步骤
1. 计算物品之间的相似度
2. 根据物品的相似度和用户的历史行为给用户生成推荐列表
算例:
互联网某电影点评网站,主要产品包括电影介绍,电影排行,网友对电影打分,网友影评,影讯&购票,用户在看|想看|看过的电影,猜你喜欢(推荐)。
用户在完成注册后,可以浏览网站的各种电影介绍,看电影排行榜,选择自己喜欢的分类,找到自己想看的电影,并设置为“想看”,同时对自己已经看过的电影写下影评,并打分。
需求分析:案例介绍
通过简短的描述,我们可以粗略地看出,这个网站提供个性化推荐电影服务:
核心点:
网站提供所有电影信息,吸引用户浏览
网站收集用户行为,包括浏览行为,评分行为,评论行为,从而推测出用户的爱好。
网站帮助用户找到,用户还没有看过,并满足他兴趣的电影列表。
网站通过海量数据的积累了,预测未来新片的市场影响和票房
电影推荐将成为这个网站的核心功能。
考虑因素:
在真实的环境中设计推荐的时候,要全面考量数据量,算法性能,结果准确度等的指标。
推荐算法选型:基于物品的协同过滤算法ItemCF,并行实现
数据量:是否需要基于大数据架构,支持GB,TB,PB级数据量
算法检验:可以通过准确率,召回率,覆盖率,流行度等指标评判。
结果解读:通过ItemCF的定义,合理给出结果解释
测试数据集:
Mahout In Action书里,第一章第六节基于物品的协同过滤算法迚行实现。
测试数据集:small.csv
每行3个字段,依次是用户ID,电影ID,用户对电影的评分(0-5分,每0.5分为一个评分点!)
步骤:
1. 建立物品的同现矩阵
2. 建立用户对物品的评分矩阵
3. 矩阵计算推荐结果
步骤1:建立物品的同现矩阵
按用户分组,找到每个用户所选的物品,单独出现计数及两两一组计数
步骤2:建立用户对物品的评分矩阵
按用户分组,找到每个用户所选的物品及评分
步骤3:矩阵计算推荐结果
同现矩阵*评分矩阵=推荐结果
算法评估:
算法评估:
被检索到的越多越好,这是追求“查全率”,即A/(A+B),越大越好。被检索到的,越相关的越多越好,不相关的越少越好,这是追求“查准率”,即A/(A+C),越大越好。
在大规模数据集合中,这两个指标是相互制约的。当希望索引出更多的数据的时候,查准率就会下降,当希望索引更准确的时候,会索引更少的数据。