大数据学习笔记(Vol 01)寻找相似的用户

以下内容来自《集体编程智慧》一书;仅做学习交流使用。

代码基于Python2.7版本。

0、目的:寻找相似的用户

寻找一种表达不同人及其偏好的方法。

1、示例数据

数据展示数位观众对几部电影的得分评价。

critics={'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5,
 'Just My Luck': 3.0, 'Superman Returns': 3.5, 'You, Me and Dupree': 2.5, 
 'The Night Listener': 3.0},
'Gene Seymour': {'Lady in the Water': 3.0, 'Snakes on a Plane': 3.5, 
 'Just My Luck': 1.5, 'Superman Returns': 5.0, 'The Night Listener': 3.0, 
 'You, Me and Dupree': 3.5}, 
'Michael Phillips': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.0,
 'Superman Returns': 3.5, 'The Night Listener': 4.0},
'Claudia Puig': {'Snakes on a Plane': 3.5, 'Just My Luck': 3.0,
 'The Night Listener': 4.5, 'Superman Returns': 4.0, 
 'You, Me and Dupree': 2.5},
'Mick LaSalle': {'Lady in the Water': 3.0, 'Snakes on a Plane': 4.0, 
 'Just My Luck': 2.0, 'Superman Returns': 3.0, 'The Night Listener': 3.0,
 'You, Me and Dupree': 2.0}, 
'Jack Matthews': {'Lady in the Water': 3.0, 'Snakes on a Plane': 4.0,
 'The Night Listener': 3.0, 'Superman Returns': 5.0, 'You, Me and Dupree': 3.5},
'Toby': {'Snakes on a Plane':4.5,'You, Me and Dupree':1.0,'Superman Returns':4.0}}

2、使用欧几里德距离进行计算

欧几里德距离指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。

  • n维空间的欧氏距离计算方式:
    向量 x = (x[1],x[2],…,x[n]) 的自然长度 |x| 定义为下面的公式:|x| = √( x[1]^2 + x[2]^2 + … + x[n]^2 )
  • 闵可夫斯基距离是欧氏空间中的一种测度,被看做是欧氏距离的一种推广,欧氏距离是闵可夫斯基距离的一种特殊情况。
    定义式:ρ(AB) = [ ∑( a[i] - b[i] )^p ]^(1/p) (i = 1,2,…,n)
    闵可夫斯基距离公式中,当p=2时,即为欧氏距离;当p=1时,即为曼哈顿距离;当p→∞时,即为切比雪夫距离。

通过计算两个人之间有共同评价的数据,例如两个人之间对A影片的评分分别为4和5分,对B影片的评分分别为3.1和4.2分。两人评价得分的欧几里德距离为:((4-5)2+(3.1-4.2)2)^(1/2)
[公式看起来略复杂,可以用Excel看结果]

定义函数如下:

************计算欧几里德距离(返回两个人之间的喜好相似度,0-1之间,1表示完全相同)************
from math import sqrt

#返回一个有关person1和person2的欧几里德距离
def sim_distance(prefs, person1, person2):
    #得到shared_items的列表
    si={}
    for item in prefs[person1]:
        if item in prefs[person2]:
            si[item]=1
    #如果两者没有共同之处,则返回0
    if len(si)==0: return 0

    #计算所有差值的平方和
    sum_of_squares=sum([pow(prefs[person1][item]-prefs[person2][item],2)
                        for item in prefs[person1] if item in prefs[person2]])
    return 1/(1+sqrt(sum_of_squares))

sim_distance(critics,'Lisa Rose', 'Gene Seymour')

计算的结果在(0,1]之间,值越大表示两者偏好越一致。

3、使用皮尔逊相关系数进行评价

皮尔逊相关系数可以规避因评价人个人评分爱好而产生的差异,例如A总是习惯将评分区间设定在3-5分,而B总是将评分区间设定在1-3分。

#皮尔逊相关系数评价
#返回p1和p2的皮尔逊相关系数
def sim_pearson(prefs, p1, p2):
    #得到双方都曾评价过的物品列表
    si={}
    for item in prefs[p1]:
        if item in prefs[p2]: si[item]=1
    #得到列表元素的个数
    n=len(si)
    #如果两者没有共同之处,则返回1
    if n==0: return 1

    #对所有偏好求和
    sum1=sum([prefs[p1][it] for it in si])
    sum2=sum([prefs[p2][it] for it in si])

    #求平方和
    sum1sq=sum([pow(prefs[p1][it], 2) for it in si])
    sum2sq=sum([pow(prefs[p2][it], 2) for it in si])

    #求乘积之和
    psum=sum([prefs[p1][it]*prefs[p2][it] for it in si])

    #计算皮尔逊评价值
    num=psum-(sum1*sum2/n)
    den=sqrt((sum1sq-pow(sum1,2)/n)*(sum2sq-pow(sum2,2)/n))
    if den==0: return 0
    r=num/den
    return r

print sim_pearson(critics, 'Lisa Rose', 'Gene Seymour')

计算结果是介于-1到1之间的值,值为1表示两者有相同的评价。

3、为评论者打分

#从反映偏好的字典中返回最为匹配者
#返回结果的个数和相似度函数均为可选参数
def topMatches(prefs, person, n=5, similarity=sim_pearson):
    scores=[(similarity(prefs, person, other), other)
                for other in prefs if other!=person]
    #对列表进行排序,评价值最高者排在最前面
    scores.sort()
    scores.reverse()
    return scores[0:n]

topMatches(critics, 'Toby', n=3)

4、来看结果吧:

大数据学习笔记(Vol 01)寻找相似的用户_第1张图片
最终的显示结果,和Toby嗜好最相近的是Lisa Rose

你可能感兴趣的:(大数据学习笔记(Vol 01)寻找相似的用户)