作者:Badrul Sarwar, George Karypi, Joseph Konstan, John Riedl
内容概要
1. 协同过滤:
目标:推荐TOP N item
类别:memory-based, model-based。
2. user-based的协同过滤的问题: a. 数据稀疏性 b.可扩展性(因为它在推荐时需要用到邻居信息,并且邻居更新更频繁)
3. item-based协同过滤
3.1 item相似度
a. cosine相似度:只考虑item向量的点积
b. correlation-based相似度(Pearson相似度):考虑了item的平均评分
c. adjusted cosine相似度:考虑了用户对item的平均评分
3.2 预测计算:
a. 使用相似度加权平均
b. 使用回归模型。使用加权平均时,采用的与预测item i相似的item j的相似度Sim j* j的评分Rj。而使用回归模型时,它会计算出一个线性回归 f(j) =α*avg(Rj) + β + ξ,从而计算出一个不同于Rj的分值,然后再使用加权平均。
3.3 计算性能
item相似度离线计算。
推荐的时候,有两种策略,相对于最精确的取所有的n个相似商品,一种更为有效的策略是只取k(model size)个相似商品,其中k<<n。
4. 实验评估
4.1 数据源:采用了MovieLens的数据,包含了943个用户和1682部电影。其中评分数量为10W,即数据稀疏度为 1 - 100000/(943*1682) = 0.9369。
4.2 评价指标:
a. statistical accuracy metrics:MAE(mean absolute error), RMSE等
b. decision support accuracy metrics:reversal rate, weighted errors, ROC等
本论文使用MAE来评价推荐质量。
4.3 结果
a. 相似度评价:adjusted cosine相似度效果最好。
b. 训练/测试集拆分比例: 80%的训练集效果最好
c. model size(相似item数量):基本的item-item算法,model size越大,推荐质量越好。然而基于回归的item-item算法,先是随着model size的增大有改善,再大之后就出现了过度拟合(论文观点),导致质量下降。权衡两者之后,取的model size=30。