《推荐系统实践》阅读笔记一 评价标准和冷启动问题

推荐系统分类:

推荐系统按照数据分类可以分为:系统过滤、内容过滤、社会化过滤;按照算法分成基于临域的算法、基于图的算法、基于矩阵分解或者概率模型的算法。

推荐系统评价标准:

好的推荐系统不仅仅能够准确预测用户的行为,而且能够扩展用户的视野,帮助用户发现那些他们可能会感兴趣,但却不那么容易发现的东西。同时,推荐系统还要能够帮助商家将那些被埋没在长尾中的好商品介绍给可能会对它们感兴趣的用户。这也正是《长尾理论》的作者在书中不遗余力介绍推荐系统的原因。

推荐系统的评价指标包括准确度、覆盖度、新颖度、惊喜度、信任度、透明度等。

评价推荐系统的标准:NDCG,RMSE, MAP

NDCG: Normalized discounted cumulated gain

RMSE: 均方根误差 root-mean-square error

RMS:方均根值

MAP: 平均准确率

MAE:平均绝对误差

《推荐系统实践》阅读笔记一 评价标准和冷启动问题_第1张图片

冷启动的分类:

1 用户冷启动 用户冷启动主要解决如何给新用户做个性化推荐的问题。当新用户到来时,我们没有他的行为数据,所以也无法根据他的历史行为预测其兴趣,从而无法借此给他做个性化推荐。

2 物品冷启动 物品冷启动主要解决如何将新的物品推荐给可能对它感兴趣的用户这一问题。

3 系统冷启动 系统冷启动主要解决如何在一个新开发的网站上(还没有用户,也没有用户行为,只有一些物品的信息)设计个性化推荐系统,从而在网站刚发布时就让


解决冷驱动的方法:

1  提供非个性化的推荐 非个性化推荐的最简单例子就是热门排行榜,我们可以给用户推荐热门排行榜,然后等到用户数据收集到一定的时候,再切换为个性化推荐。
2  利用用户注册时提供的年龄、性别等数据做粗粒度的个性化。
3  利用用户的社交网络账号登录(需要用户授权),导入用户在社交网站上的好友信息,然后给用户推荐其好友喜欢的物品。
4  要求用户在登录时对一些物品进行反馈,收集用户对这些物品的兴趣信息,然后给用户推荐那些和这些物品相似的物品。
5  对于新加入的物品,可以利用内容信息,将它们推荐给喜欢过和它们相似的物品的用户。
6  在系统冷启动时,可以引入专家的知识,通过一定的高效方式迅速建立起物品的相关度表。

7  利用注册信息,选择合适物品,利用物品内容信息,发挥专家作用。(如果用户的行为清冽的受到某一种内容属性的影响,那么内容过滤的算法效果会很好)


如何识别区分度高的物品:

一般来说能够用来启动用户兴趣的物品主要具有以下特点:比较热门、具有代表性和区分性(区分度Di,N(i)+为喜欢物品i的用户集合、N(i)-表示为没有物品评分的用户集合。sigmaN(i)+表示为喜欢物品i的用户对其他物品评分的方差,)、sigmaN(i)-表示为不喜欢物品i的用户对其他的物品的评分的方差,还有不喜欢物品i的用户对其他的物品评分的方差。启动物品集合需要有多样性。使用这些来选取具有区分度的物品,来进行启动。


代表性话题模型LDA:LDA有3种元素,即文档、话题和词语。每一篇文档都会表现为词的集合,这称为词袋模型。每个词在一篇文章之中属于一个话题。令D为文档的集合,D[i]是第i个文档。w[i][j]是第i篇文档中的第j个词语。z[i][j]是第i篇文档中第j个词属于的话题。


LDA初始化:需要对z进行初始化。假设一共具有K个话题,那么就对i篇文章中的第j个词语,随机的赋予一个话题。同时使用NWZ(w,z)记录w被赋予的话题z的次数。NZD(z,d)记录文档d中被赋予话题z的词语的个数。初始化之后通过迭代使话题的分布收敛到一个合理的分布上去。LDA可以很好的将词组合成为不同的话题。LDA通过计算物品的话题分布的相似度来计算两个物品的相似度。计算分布的相似度利用KL散度:

                DKL(p||q) = 求和p(i)ln(p(i)/q(i))

     其中p和q是两个分部,KL的散度越大就表明分布相似性越低。




推荐系统评价标准:http://www.docin.com/p-391265791.html

推荐系统简介:http://wenku.baidu.com/view/b2afa20e581b6bd97f19ea48.html?pn=1

推荐系统作者谈推荐系统:http://www.ituring.com.cn/article/51718

推荐系统需要注意的问题:http://www.itongji.cn/article/0410192H013.html

你可能感兴趣的:(数据挖掘)