KDD Cup2011 : 雅虎音乐提供的测试数据概况 by 陈运文
Yahoo! Music - Dataset
• 262,810,175 Ratings:
<user id> <item id> <score> <date> <time>
(Training: 252,800,275 Validation: 4,003,960 Test: 6,005,940)
• Users: 1,000,990 Items: 624,961
Time period: 11 years
数据全部是真实的yahoo数据。
音乐样本提供了分类信息,包括以下4种:
• Taxonomy:
– Tracks: 507,172
– Albums: 88,909
– Artists: 27,888
– Genres: 992
但是具体的音乐profile,例如长度、流派、风格等特征没有提供。因此content based推荐方法很难找到突破,这次的比赛应该是以协同过滤(collaborative filtering)、矩阵分解等方法为主,最终多个predictor组合的方式。traxonomy作为补充的特征,可以在blend的时候起一些辅助的作用。
Two tracks:
– Track 1: minimize squared error on given ratings
– Track 2: separate highly rated items from never rated items
Generalize models to items never rated by the users
• Very large number of items (over 600K)
• Employ hierarchical relations (taxonomy) between
items
• Accurate timestamps of ratings; facilitates session analysis
个人认为,KDD Cup 2011这次的比赛中,时间因素要特别关注,用户对music的评分,随时间的变化应该是能找到规律的,这些规律对最终的评分预测会有不小的影响。是否能把握准time bias,会成为最终的胜负手。
协同过滤在这次比赛中应该占有非常重要的作用。从数据特征来看,item-based collaborative filtering会比user-based CF更适合。item之间的nearest neighbor计算,可以找出很多不同的思路。
另外,从Netflix比赛胜者的经验来看,当时矩阵分解的方法有相当明显的优势,因此SVD和对应的众多改进方案是必不可少的。SVD通常用在显式的用户评分matrix上,对这次比赛来说,如何建立一个更合理的score matrix,应该也会显著的影响最终的评分
另外,RMSE这种评价方案,估计更倾向于多个推荐系统combine的算法,这个需要套用很多现有的组合框架了