文献阅读 — Personalized News Recommendation Based on Click Behavior


文献:Personalized News Recommendation Based on Click Behavior
作者:{Jiahui Liu, Peter Dolan, Elin Rønby Pedersen} @ GOOGLE
地址:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.308.3087&rep=rep1&type=pdf


1、简介


做新闻推荐,现实中存在两个约束:
1) 用户的兴趣可能会随着时间发生改变;
2) 不同用户之间的点击记录数量存在很大的差别。

推荐系统主要有两种不同的技术:信息过滤(Information Filtering)和协同过滤(Collaborative Filtering)。信息过滤技术基于档案(profiles)来推荐内容,档案的构建可以通过分析用户历史数据来完成。协同过滤技术则基于同类用户的数据来推荐内容。

在2009年之前,Google News的新闻推荐系统是基于协同过滤(Collaborative Filtering)方法开发的。这种方法主要存在两个问题:
1) 系统不会推荐没有被其他用户读过的新闻;
2) 忽略了用户之间的差异性。


2、paper主要内容


在这篇paper中,作者提出了一种针对大规模新闻推荐的信息过滤(Information Filtering)机制。作者提出的新方法可以捕捉用户兴趣在大环境中的动态变化,即预测用户兴趣随时间的变化结果。
研究路线见下图:

文献阅读 — Personalized News Recommendation Based on Click Behavior_第1张图片
paper研究路线

3、贝叶斯框架 - 用户兴趣预测


注: 详细推导过程请查看paper原文,以下对整个框架建立过程的主线进行简单描述

对于过去的一个特定时间段 t,用户的新闻点击分布为D(u,t), 用户所在区域的所有用户点击分布为D(t)。

用户在过去的一个特定时间段 t 对于某一类新闻的真实兴趣定义为用户点击这一类新闻的概率,使用贝叶斯规则(Bayesian rule)计算这个概率的公式如下:

文献阅读 — Personalized News Recommendation Based on Click Behavior_第2张图片
用户点击某一类新闻的概率计算公式

基于用户过去某一个特定时间段的点击分布 D(u,t), 使用以上公式,可以计算得到用户在该特定时间段 t 的真实兴趣。

为了更准确的预测用户的真实兴趣,作者使用以下公式将过去多个时间段的预测结果进行组合。

文献阅读 — Personalized News Recommendation Based on Click Behavior_第3张图片
多个时间段的用户真实兴趣计算结果组合公式

从大量用户点击行为日志的分析结果,可知,用户的新闻阅读兴趣分为两个部分:
1)真实的新闻阅读兴趣;
2)受地区新闻趋势影响的新闻阅读兴趣。

因此,为了预测用户最近的点击分布(新闻阅读兴趣),还需要知道用户所在地区的新闻趋势。

在这篇paper中,作者将用户所在地区的所有用户最近一段时间(如:最近一小时)的新闻点击分布作为该地区的新闻趋势。

结合以上分析,再次使用贝叶斯公式,用户最近的点击分布计算公式如下:


文献阅读 — Personalized News Recommendation Based on Click Behavior_第4张图片
用户最近的点击分布计算公式

用户最近的点击分布计算结果就可以认为是用户最近的新闻阅读兴趣。

你可能感兴趣的:(文献阅读 — Personalized News Recommendation Based on Click Behavior)