基于neighborhood models(item-based) 的个性化推荐系统

相关文章:

基于baseline和stochastic gradient descent的个性化推荐系统

基于baseline、svd和stochastic gradient descent的个性化推荐系统


转载请注明:转自 zh's note    http://blog.csdn.net/wuzh670/


文章主要介绍的是koren 08年发的论文[1],  2.2neighborhood models部分内容(其余部分会陆续补充上来)。

koren论文中用到netflix 数据集, 过于大, 在普通的pc机上运行时间很长很长。考虑到写文章目地主要是已介绍总结方法为主,所以采用Movielens 数据集。

变量介绍(涉及到的其他变量可以参看上面提到的相关文章):

基于neighborhood models(item-based) 的个性化推荐系统_第1张图片

利用pearson相关系数,求i,j之间的相关性。

基于neighborhood models(item-based) 的个性化推荐系统_第2张图片

文章中提到shrunk correlation coefficient(收缩的相关系数),收缩后pearson相关系数作为i,j相似性,后面会通过实践证明收缩的效果会更好。


预测值:


系统评判标准:RMSE, MAE

基于neighborhood models(item-based) 的个性化推荐系统_第3张图片

基于neighborhood models(item-based) 的个性化推荐系统_第4张图片

系统采用5-fold cross-validation(movielens数据集中已经默认划分好了)


注: 用SGD来训练出最优的用户和项的偏置值,后续会补充完整。


详细代码实现:


[python]  view plain copy print ?
  1. ''''' 
  2. Created on Dec 16, 2012 
  3.  
  4. @Author: Dennis Wu 
  5. @E-mail: [email protected] 
  6. @Homepage: http://blog.csdn.net/wuzh670 
  7. @Weibo: http://weibo.com/hansel 
  8.  
  9. Data set download from : http://www.grouplens.org/system/files/ml-100k.zip 
  10. '''  
  11. from operator import itemgetter, attrgetter  
  12. from math import sqrt,fabs,log  
  13. import random  
  14.   
  15. def load_data(filename_train, filename_test):  
  16.   
  17.     train = {}  
  18.     test = {}  
  19.       
  20.     for line in open(filename_train):  
  21.         (userId, itemId, rating, timestamp) = line.strip().split('\t')  
  22.         train.setdefault(userId,{})  
  23.         train[userId][itemId] = float(rating)  
  24.   
  25.     for line in open(filename_test):  
  26.         (userId, itemId, rating, timestamp) = line.strip().split('\t')  
  27.         test.setdefault(userId,{})  
  28.         test[userId][itemId] = float(rating)  
  29.   
  30.     return train, test  
  31.   
  32. def initialBias(train, userNum, movieNum, mean):  
  33.   
  34.     bu = {}  
  35.     bi = {}  
  36.     biNum = {}  
  37.     buNum = {}  
  38.       
  39.     u = 1  
  40.     while u < (userNum+1):  
  41.         su = str(u)  
  42.         for i in train[su].keys():  
  43.             bi.setdefault(i,0)  
  44.             biNum.setdefault(i,0)  
  45.             bi[i] += (train[su][i] - mean)  
  46.             biNum[i] += 1  
  47.         u += 1  
  48.           
  49.     i = 1  
  50.     while i < (movieNum+1):  
  51.         si = str(i)  
  52.         biNum.setdefault(si,0)  
  53.         if biNum[si] >= 1:  
  54.             bi[si] = bi[si]*1.0/(biNum[si]+25)  
  55.         else:  
  56.             bi[si] = 0.0  
  57.         i += 1  
  58.   
  59.     u = 1  
  60.     while u < (userNum+1):  
  61.         su = str(u)  
  62.         for i in train[su].keys():  
  63.             bu.setdefault(su,0)  
  64.             buNum.setdefault(su,0)  
  65.             bu[su] += (train[su][i] - mean - bi[i])  
  66.             buNum[su] += 1  
  67.         u += 1  
  68.           
  69.     u = 1  
  70.     while u < (userNum+1):  
  71.         su = str(u)  
  72.         buNum.setdefault(su,0)  
  73.         if buNum[su] >= 1:  
  74.             bu[su] = bu[su]*1.0/(buNum[su]+10)  
  75.         else:  
  76.             bu[su] = 0.0  
  77.         u += 1  
  78.     return bu, bi  
  79.   
  80. def initial(train, userNum, movieNum):  
  81.   
  82.     average = {}  
  83.     Sij = {}  
  84.     mean = 0  
  85.     num = 0  
  86.     N = {}  
  87.     for u in train.keys():  
  88.         for i in train[u].keys():  
  89.             mean += train[u][i]  
  90.             num += 1  
  91.             average.setdefault(i,0)  
  92.             average[i] += train[u][i]  
  93.             N.setdefault(i,0)  
  94.             N[i] += 1  
  95.             Sij.setdefault(i,{})  
  96.             for j in train[u].keys():  
  97.                 if i == j:  
  98.                     continue  
  99.                 Sij[i].setdefault(j,[])  
  100.                 Sij[i][j].append(u)  
  101.   
  102.     mean = mean / num  
  103.     for i in average.keys():  
  104.         average[i] = average[i] / N[i]  
  105.           
  106.     pearson = {}  
  107.     itemSim = {}  
  108.     for i in Sij.keys():  
  109.         pearson.setdefault(i,{})  
  110.         itemSim.setdefault(i,{})  
  111.         for j in Sij[i].keys():  
  112.             pearson[i][j] = 1  
  113.             part1 = 0  
  114.             part2 = 0  
  115.             part3 = 0  
  116.             for u in Sij[i][j]:  
  117.                 part1 += (train[u][i] - average[i]) * (train[u][j] - average[j])  
  118.                 part2 += pow(train[u][i] - average[i], 2)  
  119.                 part3 += pow(train[u][j] - average[j], 2)  
  120.             if part1 != 0:  
  121.                 pearson[i][j] = part1 / sqrt(part2 * part3)  
  122.             itemSim[i][j] = fabs(pearson[i][j] * len(Sij[i][j]) / (len(Sij[i][j]) + 100))  
  123.   
  124.     # initial user and item Bias, respectly  
  125.     bu, bi = initialBias(train, userNum, movieNum, mean)  
  126.   
  127.     return itemSim, mean, average, bu, bi      
  128.     
  129. def neighborhoodModels(train, test, itemSim, mean, average, bu, bi):  
  130.       
  131.     pui = {}  
  132.     rmse = 0.0  
  133.     mae = 0.0  
  134.     num = 0  
  135.     for u in test.keys():  
  136.         pui.setdefault(u,{})  
  137.         for i in test[u].keys():  
  138.             pui[u][i] = mean + bu[u] + bi[i]  
  139.             stat = 0  
  140.             stat2 = 0  
  141.             for j in train[u].keys():  
  142.                 if itemSim.has_key(i) and itemSim[i].has_key(j):  
  143.                     stat += (train[u][j] - mean - bu[u] - bi[j]) * itemSim[i][j]  
  144.                     stat2 += itemSim[i][j]  
  145.             if stat > 0:  
  146.                 pui[u][i] += stat * 1.0 / stat2  
  147.             rmse += pow((pui[u][i] - test[u][i]), 2)  
  148.             mae += fabs(pui[u][i] - test[u][i])  
  149.             num += 1  
  150.     rmse = sqrt(rmse*1.0 / num)  
  151.     mae = mae * 1.0 / num  
  152.       
  153.     return rmse, mae  
  154.   
  155. if __name__ == "__main__":  
  156.   
  157.     i = 1  
  158.     sumRmse = 0.0  
  159.     sumMae = 0.0  
  160.     while i <= 5:  
  161.   
  162.         # load data  
  163.         filename_train = 'data/u' + str(i) + '.base'  
  164.         filename_test = 'data/u' + str(i) + '.test'  
  165.         train, test = load_data(filename_train, filename_test)  
  166.   
  167.         # initial variables  
  168.         itemSim, mean, average, bu, bi = initial(train, 9431682)  
  169.   
  170.         # neighborhoodModels  
  171.         rmse, mae = neighborhoodModels(train, test, itemSim, mean, average, bu, bi)  
  172.         print 'cross-validation %d:  rmse: %s     mae: %s' % (i, rmse, mae)  
  173.           
  174.         sumRmse += rmse  
  175.         sumMae += mae  
  176.         i += 1  
  177.           
  178.     print 'neighborhood models final results:  Rmse: %s      Mae: %s' % (sumRmse/5, sumMae/5)  

实验结果: 

注:第一个结果是没有使用收缩的pearson相关系数跑出的结果;第二个结果则是使用收缩的相关系数跑出的结果。

基于neighborhood models(item-based) 的个性化推荐系统_第5张图片

从图中容易得出使用收缩的相关系数的必要性和有效性。




REFERENCES

1.Y. Koren. Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model. Proc. 14th ACM SIGKDD Int. Conf. On Knowledge Discovery and Data Mining  (KDD08), pp. 426434, 2008.

2. Y.Koren.  The BellKor Solution to the Netflix Grand Prize  2009

你可能感兴趣的:(机器学习,推荐系统)