基于baseline和stochastic gradient descent的个性化推荐系统

文章主要介绍的是koren 08年发的论文[1],  2.1 部分内容(其余部分会陆续补充上来)。

 koren论文中用到netflix 数据集, 过于大, 在普通的pc机上运行时间很长很长。考虑到写文章目地主要是已介绍总结方法为主,所以采用Movielens 数据集。

要用到的变量介绍:

基于baseline和stochastic gradient descent的个性化推荐系统_第1张图片

Baseline estimates

     

object function:

梯度变化(利用stochastic gradient descent算法使上述的目标函数值,在设定的迭代次数内,降到最小)

系统评判标准:

基于baseline和stochastic gradient descent的个性化推荐系统_第2张图片

参数设置:


迭代次数maxStep = 100, 学习速率(梯度变化速率)取0.99  还有的其他参数设置参考引用论文[2]




具体的代码实现

[python]  view plain copy print ?
  1. ''''' 
  2. Created on Dec 11, 2012 
  3.  
  4. @Author: Dennis Wu 
  5. @E-mail: [email protected] 
  6. @Homepage: http://blog.csdn.net/wuzh670 
  7.  
  8. Data set download from : http://www.grouplens.org/system/files/ml-100k.zip 
  9.  
  10. '''  
  11. from operator import itemgetter, attrgetter  
  12. from math import sqrt  
  13. import random  
  14.   
  15. def load_data():  
  16.       
  17.     train = {}  
  18.     test = {}  
  19.       
  20.     filename_train = 'data/ua.base'  
  21.     filename_test = 'data/ua.test'  
  22.       
  23.     for line in open(filename_train):  
  24.         (userId, itemId, rating, timestamp) = line.strip().split('\t')  
  25.         train.setdefault(userId,{})  
  26.         train[userId][itemId] = float(rating)  
  27.     
  28.     for line in open(filename_test):  
  29.         (userId, itemId, rating, timestamp) = line.strip().split('\t')  
  30.         test.setdefault(userId,{})  
  31.         test[userId][itemId] = float(rating)  
  32.       
  33.     return train, test  
  34.   
  35. def calMean(train):  
  36.     sta = 0  
  37.     num = 0  
  38.     for u in train.keys():  
  39.         for i in train[u].keys():  
  40.             sta += train[u][i]  
  41.             num += 1  
  42.     mean = sta*1.0/num  
  43.     return mean  
  44.   
  45. def initialBias(train, userNum, movieNum):  
  46.   
  47.     mean = calMean(train)  
  48.     bu = {}  
  49.     bi = {}  
  50.     biNum = {}  
  51.     buNum = {}  
  52.       
  53.     u = 1  
  54.     while u < (userNum+1):  
  55.         su = str(u)  
  56.         for i in train[su].keys():  
  57.             bi.setdefault(i,0)  
  58.             biNum.setdefault(i,0)  
  59.             bi[i] += (train[su][i] - mean)  
  60.             biNum[i] += 1  
  61.         u += 1  
  62.           
  63.     i = 1  
  64.     while i < (movieNum+1):  
  65.         si = str(i)  
  66.         biNum.setdefault(si,0)  
  67.         if biNum[si] >= 1:  
  68.             bi[si] = bi[si]*1.0/(biNum[si]+25)  
  69.         else:  
  70.             bi[si] = 0.0  
  71.         i += 1  
  72.   
  73.     u = 1  
  74.     while u < (userNum+1):  
  75.         su = str(u)  
  76.         for i in train[su].keys():  
  77.             bu.setdefault(su,0)  
  78.             buNum.setdefault(su,0)  
  79.             bu[su] += (train[su][i] - mean - bi[i])  
  80.             buNum[su] += 1  
  81.         u += 1  
  82.           
  83.     u = 1  
  84.     while u < (userNum+1):  
  85.         su = str(u)  
  86.         buNum.setdefault(su,0)  
  87.         if buNum[su] >= 1:  
  88.             bu[su] = bu[su]*1.0/(buNum[su]+10)  
  89.         else:  
  90.             bu[su] = 0.0  
  91.         u += 1  
  92.   
  93.     return bu,bi,mean  
  94.   
  95. def sgd(train, test, userNum, movieNum):  
  96.   
  97.     bu, bi, mean = initialBias(train, userNum, movieNum)  
  98.   
  99.     alpha1 = 0.002  
  100.     beta1 = 0.1  
  101.     slowRate = 0.99  
  102.     step = 0  
  103.     preRmse = 1000000000.0  
  104.     nowRmse = 0.0  
  105.     while step < 100:  
  106.         rmse = 0.0  
  107.         n = 0  
  108.         for u in train.keys():  
  109.             for i in train[u].keys():  
  110.                 pui = 1.0 * (mean + bu[u] + bi[i])  
  111.                 eui = train[u][i] - pui  
  112.                 rmse += pow(eui,2)  
  113.                 n += 1  
  114.                 bu[u] += alpha1 * (eui - beta1 * bu[u])  
  115.                 bi[i] += alpha1 * (eui - beta1 * bi[i])  
  116.   
  117.         nowRmse = sqrt(rmse*1.0/n)  
  118.         print 'step: %d      Rmse: %s' % ((step+1), nowRmse)  
  119.         if (nowRmse < preRmse):  
  120.             preRmse = nowRmse  
  121.         alpha1 *= slowRate  
  122.         step += 1  
  123.     return bu, bi, mean  
  124.   
  125. def calRmse(test, bu, bi, mean):  
  126.       
  127.     rmse = 0.0  
  128.     n = 0  
  129.     for u in test.keys():  
  130.         for i in test[u].keys():  
  131.             pui = 1.0 * (mean + bu[u] + bi[i])  
  132.             eui = pui - test[u][i]  
  133.             rmse += pow(eui,2)  
  134.             n += 1  
  135.     rmse = sqrt(rmse*1.0 / n)  
  136.     return rmse;  
  137.      
  138. if __name__ == "__main__":  
  139.   
  140.   
  141.     # load data  
  142.     train, test = load_data()  
  143.       
  144.     # baseline + stochastic gradient descent  
  145.     bu, bi, mean = sgd(train, test, 9431682)  
  146.       
  147.     # compute the rmse of test set  
  148.     print 'the Rmse of test test is: %s' % calRmse(test, bu, bi, mean)  
  149.       
  150.       


实验结果


REFERENCES

1.Y. Koren. Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model. Proc. 14th ACM SIGKDD Int. Conf. On Knowledge Discovery and Data Mining  (KDD08), pp. 426434, 2008.

2. Y.Koren.  The BellKor Solution to the Netflix Grand Prize  2009


转载请注明:转自 zh's note    http://blog.csdn.net/wuzh670/

你可能感兴趣的:(推荐系统,SVD,SGD)