推荐系统_经典推荐方法

文章目录

    • 1、物品特征
      • 1.1分类
      • 1.2词袋模型
      • 1.3主题建模
      • 1.4其他物品特征
    • 2.用户特征
      • 2.1声明的个人信息
      • 2.2基于内容的画像

1、物品特征

1.1分类

物品分类的最初目的是帮助用户更有效的在网站上查找感兴趣的物品,但其实这种做法还提供了有价值的物品语义信息。在物品与类别的关系中构造特征向量的常用方法是定义一个向量空间,使每个维度都对应于一个类别。如果物品j属于第l类,那么物品j的特征向量xj的第l维为1,反之为0。

1.2词袋模型

对于有关联文本的物品,常用词袋向量空间模型构造物品特征。在某些应用中,即使物品的主要内容不是文本,也会有一些与物品相关联的文本,比如商品的文字描述,多媒体物品的标题,有时还有文本描述和标签。在词袋向量空间模型中,将出现在参考物品语料库中的每个单词都视为一个维度,这样就构造出一个高维向量空间。
稀疏格式 短语和实体 降维
短语和实体: 虽然我们将捕捉文本信息的特征称为“词袋”,但是再用关联文本描述物品时,没必要局限于单个单词。我们可以引入两个连续单词(二元词组)甚至三个连续单词(三元词组)构成的短语作为附加维度来扩展向量空间。另外,关注那些与命名实体相关的特征也有利于构造特征向量。
降维 即使不考虑短语,物品语料库中的单词总数也很大,并且有些单词只在一小部分物品中出现。大多数物品只包含语料库中的极少数单词。因为最终目的是用物品特征向量评估评分,维度的增加以及数据的稀疏性产生的噪声可能比利用信息预测评分产生的更多。为了丰富物品相关信息,同时降低噪声,我们可以对特征向量进行降维。
同义词扩展: 一种简单有效的扩展物品单词的方法是增加同义词。例如,如果一个物品包含单词“努力”,那么我们可以向该物品的词袋中增加“专心”和“勤奋”等同义词。这样一来,物品特征向量中与“专心”和“勤奋”对应的两个维度的值就不为零。同义词可以在主题词或词汇数据库中搜索。
特征选择: 不是所有的单词都是有用的。特征选择方法可以挑选出前k个信息量最大的单词。最简单的选择方法是剔除频繁出现或出现次数太少的单词,例如,只考虑至少在n件物品中出现了单词。这些简单的方法一般都可以降维、降噪。
奇异值分解: 奇异值分解也是一种降低稀疏度和维度的方法。

1.3主题建模

人工标签、分类以及物品的低级词袋表征,最近,对文本类物品的无监督聚类的研究取得了很大进展。我们可以把属于同一主题的物品看成簇。将每个主题表示成关于语料库中所有单词的多项式概率质量函数。

1.4其他物品特征

以下列表并非详尽无遗,每个应用可能都有其独特的特征:
• 来源: 如果用户偏爱某一种来源,那么物品的来源(比如说作者和出版商)就是一个重要的特征。
• 位置: 在一些应用中,物品可能会被打上地理位置的标签。比如说用手机拍摄的照片很容易用位置标记,商品也可能被标记上售货店的位置。这类位置信息对地理兴趣类应用很重要。位置可以表示成两个数——精度和纬度,也可以是位置目录下的一个节点(如国家、州/省、县)。
• 图像特征: 当物品包含图像或视频片段时,图像特征便可以为推荐提供有用信息。
• 音频特征: 类似地,对于包含音频片段的物品,音频特征也有其潜在的作用。

2.用户特征

通常来说,用户特征可以从声明的个人信息,用户与内容的历史交互以及推荐系统中与用户相关的其它信息中推导出来。

2.1声明的个人信息

在很多应用中,用户会提供基本的个人信息,甚至有时候在注册服务时就声明了他们对不同的主题的兴趣。以下用户声明的特征在推荐系统中很常见:
• 人口统计信息: 在注册服务时,用户通常需要提供年龄,性别,职业,教育水平,住址以及其他人口统计信息。部分用户不愿意提供完整的人口统计信息,但大部分用户会按要求做。依据这些信息,我们可能会发现,性别,年龄或住址不同的用户,对物品的偏好可能也不同。因此,在推荐系统中考虑人口统计特征是很有必要的
• 声明的兴趣: 有些推荐系统会让用户从预设的类别或主题集合中选择他们的兴趣,或者让用户主动提供一些自定义关键词。虽然很多用户不介意公开他们的兴趣,但也有不愿意公开兴趣的用户,对于这部分用户,我们只能利用那些已经公开的不可多得的兴趣来构建特征,以便提供更好的物品推荐。所以,对于那些允许用户说明兴趣的推荐系统,如何让这种兴趣诱出过程变得自然、轻松甚至有趣,便成了一个重要的设计问题。

2.2基于内容的画像

你可能感兴趣的:(统计推荐,自然语言处理,大数据,算法,分类,人工智能)