以下内容来自《集体编程智慧》一书;仅做学习交流使用。
代码基于Python2.7版本。
0、目的:寻找相似的用户
寻找一种表达不同人及其偏好的方法。
1、示例数据
数据展示数位观众对几部电影的得分评价。
critics={'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5,
'Just My Luck': 3.0, 'Superman Returns': 3.5, 'You, Me and Dupree': 2.5,
'The Night Listener': 3.0},
'Gene Seymour': {'Lady in the Water': 3.0, 'Snakes on a Plane': 3.5,
'Just My Luck': 1.5, 'Superman Returns': 5.0, 'The Night Listener': 3.0,
'You, Me and Dupree': 3.5},
'Michael Phillips': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.0,
'Superman Returns': 3.5, 'The Night Listener': 4.0},
'Claudia Puig': {'Snakes on a Plane': 3.5, 'Just My Luck': 3.0,
'The Night Listener': 4.5, 'Superman Returns': 4.0,
'You, Me and Dupree': 2.5},
'Mick LaSalle': {'Lady in the Water': 3.0, 'Snakes on a Plane': 4.0,
'Just My Luck': 2.0, 'Superman Returns': 3.0, 'The Night Listener': 3.0,
'You, Me and Dupree': 2.0},
'Jack Matthews': {'Lady in the Water': 3.0, 'Snakes on a Plane': 4.0,
'The Night Listener': 3.0, 'Superman Returns': 5.0, 'You, Me and Dupree': 3.5},
'Toby': {'Snakes on a Plane':4.5,'You, Me and Dupree':1.0,'Superman Returns':4.0}}
2、使用欧几里德距离进行计算
欧几里德距离指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。
- n维空间的欧氏距离计算方式:
向量 x = (x[1],x[2],…,x[n]) 的自然长度 |x| 定义为下面的公式:|x| = √( x[1]^2 + x[2]^2 + … + x[n]^2 ) - 闵可夫斯基距离是欧氏空间中的一种测度,被看做是欧氏距离的一种推广,欧氏距离是闵可夫斯基距离的一种特殊情况。
定义式:ρ(A,B) = [ ∑( a[i] - b[i] )^p ]^(1/p) (i = 1,2,…,n)
闵可夫斯基距离公式中,当p=2时,即为欧氏距离;当p=1时,即为曼哈顿距离;当p→∞时,即为切比雪夫距离。
通过计算两个人之间有共同评价的数据,例如两个人之间对A影片的评分分别为4和5分,对B影片的评分分别为3.1和4.2分。两人评价得分的欧几里德距离为:((4-5)2+(3.1-4.2)2)^(1/2)
[公式看起来略复杂,可以用Excel看结果]
定义函数如下:
************计算欧几里德距离(返回两个人之间的喜好相似度,0-1之间,1表示完全相同)************
from math import sqrt
#返回一个有关person1和person2的欧几里德距离
def sim_distance(prefs, person1, person2):
#得到shared_items的列表
si={}
for item in prefs[person1]:
if item in prefs[person2]:
si[item]=1
#如果两者没有共同之处,则返回0
if len(si)==0: return 0
#计算所有差值的平方和
sum_of_squares=sum([pow(prefs[person1][item]-prefs[person2][item],2)
for item in prefs[person1] if item in prefs[person2]])
return 1/(1+sqrt(sum_of_squares))
sim_distance(critics,'Lisa Rose', 'Gene Seymour')
计算的结果在(0,1]之间,值越大表示两者偏好越一致。
3、使用皮尔逊相关系数进行评价
皮尔逊相关系数可以规避因评价人个人评分爱好而产生的差异,例如A总是习惯将评分区间设定在3-5分,而B总是将评分区间设定在1-3分。
#皮尔逊相关系数评价
#返回p1和p2的皮尔逊相关系数
def sim_pearson(prefs, p1, p2):
#得到双方都曾评价过的物品列表
si={}
for item in prefs[p1]:
if item in prefs[p2]: si[item]=1
#得到列表元素的个数
n=len(si)
#如果两者没有共同之处,则返回1
if n==0: return 1
#对所有偏好求和
sum1=sum([prefs[p1][it] for it in si])
sum2=sum([prefs[p2][it] for it in si])
#求平方和
sum1sq=sum([pow(prefs[p1][it], 2) for it in si])
sum2sq=sum([pow(prefs[p2][it], 2) for it in si])
#求乘积之和
psum=sum([prefs[p1][it]*prefs[p2][it] for it in si])
#计算皮尔逊评价值
num=psum-(sum1*sum2/n)
den=sqrt((sum1sq-pow(sum1,2)/n)*(sum2sq-pow(sum2,2)/n))
if den==0: return 0
r=num/den
return r
print sim_pearson(critics, 'Lisa Rose', 'Gene Seymour')
计算结果是介于-1到1之间的值,值为1表示两者有相同的评价。
3、为评论者打分
#从反映偏好的字典中返回最为匹配者
#返回结果的个数和相似度函数均为可选参数
def topMatches(prefs, person, n=5, similarity=sim_pearson):
scores=[(similarity(prefs, person, other), other)
for other in prefs if other!=person]
#对列表进行排序,评价值最高者排在最前面
scores.sort()
scores.reverse()
return scores[0:n]
topMatches(critics, 'Toby', n=3)