风暴项目个性化推荐系统浅析

风暴项目的主要任务是搭建自媒体平台,作为主开发人员的我希望把工作重心放在个性化推荐系统上。

目前风暴项目的个性化推荐是基于用户行为信息记录实现的,也就是说对于每条资讯,数据库中有字段标明其类型。建立一张用户浏览表,对用户的浏览行为进行记录,从中可以获取当前用户对哪类资讯感兴趣。

若用户第一次登陆,则按默认规则选取热点资讯做推荐,及所有资讯按浏览量降序排序,取前4个。另外,我考虑到后期可能有商业合作,需要人为的推荐上榜(参考新浪微博的上热点)。所以对于每条资讯,再增加is_hot字段,扫描所有资讯,把人为推荐的热点加入推荐列表。

若用户不是第一次登录,则查找该用户的浏览记录,取其浏览量最多的资讯类型,对该类型下资讯降序排列,取前4个。然后考虑人为推荐,操作同上。

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

(分割线)

曾经看过一段时间机器学习,颇感兴趣。所以,我考虑后期采用基于用户的协同过滤算法对个性化推荐系统进行改进。

首先,我们的推荐是基于用户的,也就是说对于当前用户,我们找到跟他兴趣喜好相近的K个用户,依据这K个用户对当前用户进行资讯推荐。这里需要对资讯的喜好标识做下规定,每条资讯1~5分,由用户进行评判,据此得出用户的喜好。

然后,如何找到跟他喜好相近的用户。遍历整张表去查找跟当前用户有相同喜好的其他用户固然可行,一旦这张表过大,遍历必然耗时。所以建立一张资讯用户反查表,记录该条资讯有哪些用户喜欢,这样可以快速的找到和当前用户有相近喜好的所有用户。

接下来就是相似度计算,这里我采用余弦相似性计算,cos(a,b) = / (|a|*|b|),a、b均为向量。分别计算出的每个用户和当前用户的相似度,据此找出与当前用户喜好相近的前K个用户。

最后,我们根据之前计算出的相似度作为权值,每条资讯作权值和对应用户喜欢的乘积累加和,结果降序排列取前4即可。


总结:

1.计算其他用户和你的相似度,利用反查表排除与你无关的用户。

2.根据相似度降序取前K个与你喜好相近的用户。

3.在K个用户喜欢的资讯里,根据相似度计算每条资讯的推荐度

4.根据推荐度降序推荐资讯。

你可能感兴趣的:(机器学习)