协同过滤——隐式评级及基于物品的过滤

第一篇讲的是显示评级，是用户确实打了的分，是过于理想的情况，现实中有很多不可控因素，有时用户打分口是心非，有时懒得打分，有时初次评价之后即使后来发现当初打分打低了，有时仅仅是与个人联系紧密的独家偏好……
隐式评级，不要求用户打分，而是观察用户的行为，可观察的维度很多：
上述讲的都是基于用户的过滤，也叫基于内存的过滤，意思是要进行大量的计算，尤其当用户很多的时候，对计算机内存要求比较高。现在亚马逊有上百万用户，计算扩展性是一个问题，更重要的是有时找不到最近邻。基于以上原因，最好采用基于物品的过滤。也叫基于模型的过滤。

1. 基于物品的过滤

利用物品之间的相似度进行推荐。从所有商品中找出与用户购买过的商品最相似的商品推荐给用户。

2. 计算物品之间的相似度，使用调整后的余弦相似度

和第一篇的余弦相似度类似，为了消除分数贬值，调整后的余弦相似度与余弦相似度公式有一点不同，用户U给物品i的打分减去用户U对所有物品打分的平均值。因为是基于物品的推荐，所以如果使用之前的余弦相似度，就要用物品的每一列属性中的每一项减去这一列的平均值，显然与实际情况不符。

调整后的余弦相似度计算公式

U 表示所有同时对i和j 进行过评级的用户的集合。
这个公式计算的是** 物品 i 和物品 j 之间的相似度 **。这个公式的直观解释是：

要计算 物品i 和 物品j 之间的相似度
 1. 找出同时对物品i和物品j打分的用户
 2. 计算每个用户对自己购买的书打分的平均值 R
 3. 按照公式计算

利用改进后的余弦相似度计算两个物品之间的相似度

Python 代码：

# -*- coding: utf-8 -*-
from math import sqrt
users3 = {"David": {"Imagine Dragons": 3, "Daft Punk": 5,
"Lorde": 4, "Fall Out Boy": 1},
"Matt": {"Imagine Dragons": 3, "Daft Punk": 4,
"Lorde": 4, "Fall Out Boy": 1},
"Ben": {"Kacey Musgraves": 4, "Imagine Dragons": 3,
"Lorde": 3, "Fall Out Boy": 1},
"Chris": {"Kacey Musgraves": 4, "Imagine Dragons": 4,
"Daft Punk": 4, "Lorde": 3, "Fall Out Boy": 1},
"Tori": {"Kacey Musgraves": 5, "Imagine Dragons": 4,
"Daft Punk": 5, "Fall Out Boy": 3}}

def computeSimilarity(band1, band2, userRatings):
    averages = {}
    for (key, ratings) in userRatings.items():
        averages[key] = (float(sum(ratings.values())) /len(ratings.values()))
    num = 0 # 分子
    dem1 = 0 # 分母的第一部分
    dem2 = 0
    for (user, ratings) in userRatings.items():
        if band1 in ratings and band2 in ratings:
            avg = averages[user]
            num += (ratings[band1] - avg) * (ratings[band2] - avg)
            dem1 += (ratings[band1] - avg) ** 2
            dem2 += (ratings[band2] - avg) ** 2
    return num / (sqrt(dem1) * sqrt(dem2))

print computeSimilarity('Kacey Musgraves', 'Lorde', users3)
print computeSimilarity('Imagine Dragons', 'Lorde', users3)
print computeSimilarity('Daft Punk', 'Lorde', users3)

得到的结果填入表中：

各物品之间的相似度矩阵

3. 利用相似度矩阵进行预测

公式如下图，p(u,i) 指的是用户u将对物品i的评分的预测值（即用户u对物品i的喜欢程度）。
N 是用户u的所有评级物品中每个和物品i得分相似的物品。存在在相似度矩阵中。R(u,N) 是u给N的评分。S(i,N)是i和N的相似度。

书中的图

4. 对用户的打分结果归一化

类似皮尔逊相关系数对结果做处理的原因，让用户对物品的评分结果值位于-1到1之间。
公式如下图所示，NR(u,N) 是归一化的结果，即用户u对物品N打分的结果的处理。MinR表示评级范围（比如1~5）中的最小值，MaxR表示最大值。

对打分结果归一化公式

计算举例，很简单，比如某人的对某本书的打分是2分，归一化后结果如下：

将第3点里面的预测用户打分的公式更新为：

最后用归一化的结果反推真实的分数公式：

就得到了预测的打分。

5. Slope One 算法

据说 Slope One 算法简洁，易实现，来自 Daniel Lemire 和 Anna Machlachlan 的论文 ↓

Slope One Predictors for Online Rating-Based Collaborative
Filtering” by Daniel Lemire and Anna Machlachlan (http://www.daniel-lemire.com/fr/abstracts/SDM2005.html).