推荐算法-协同过滤1 概述

协同过滤

用户一起和网站互动,使得自己的推荐列表不断过滤掉不感兴趣的物品,从而越来越满足自己的要求。

用户行为

用户行为举例

当当网浏览“”数据挖掘导论“, 推荐 “还买过” web数据挖掘

用户行为的提取

从日志中挖掘会话日志-> 记录查询+返回结果+点击。
评分系统:视频的喜欢/不喜欢和豆瓣评论的5级

用户行为的存储

     hadoop Hive  , Google dremel , hadoop drill 

用户行为的特点

    用户越活跃,越倾向于冷门物品

协同过滤方法

1- 基于邻域 = 基于用户 基于物品
2- 隐语义模型 latent factor model
3- 基于图的随机游走算法

实验设计: 生成测试集

    splitData(data,M,k,seed) :
               random.seed(seed)
                if random.randint(0,M) == k : 
                        test.append([user,item])

评测方法

准确率 召回率 覆盖率

你可能感兴趣的:(推荐算法-协同过滤1 概述)