推荐系统那些事儿之初相见 - Vlog1

今天也要加油鸭~

  • 这是一份总结的学习笔记
  • 路漫漫其修远兮,吾将上下而求索
  • 可阅读可评论可分享可转载,希望向优秀的人学习

推荐系统

无明确的索引词,根据用户画像、内容画像等各种信息为用户推荐他可能感兴趣的内容,达到延长用户停留时间的作用。

推荐系统那些事儿之初相见 - Vlog1_第1张图片

1、画像

1.1 获取数据

数据是推荐系统的重要基石。主要包括用户数据、内容数据、环境数据。

  • 用户数据(用户画像的来源)
    基础数据:如性别、年龄、地区、爱好
    行为数据:如点赞、评论、分享等正向反馈,不感兴趣等负向反馈,阅读时长等隐形行为
  • 内容数据(内容画像的来源)
    基础数据:如垂直领域、内容质量
    相关数据:如发布者权重、内容热度等
  • 环境数据:包括用户所处场景,如工作场合、通勤、旅游

1.2 用户画像

作用

  • 精准营销:使用短信、广告等渠道对用户感兴趣的事件推荐。
  • 用户统计:筛选用户画像进行统计Top10热点视频。
  • 优化产品:增加用户留存时间。
  • 构建推荐系统:得到不同物品的关联性,对用户同时推荐耳机和裙子。
  • 效果评估:产品上线后对不同层级用户做运营推广。
  • 个性化定制
  • 业务分析

构建流程

(1)原始数据:用户信息、行为数据、消费明细
(2)事实标签:阅读内容类型、活跃度、用户价值、退换次数
(3)模型标签:性别预测、工作预测、兴趣偏好、流失预测
(4)策略标签:潜在用户(拉新)、待维护用户(激活、留存)、待发展用户(消费)、待挽回用户(流失预警)

1.3 内容画像

来源

内容画像主要来源于内容本身

  • 内容标签漏斗:垂直领域-细分领域-关键词
  • 时效性:如新闻、股票
  • 地区信息:如本地新闻
  • 内容风格:聚类算法
  • 内容发布者:如活跃度、原创度、垂直度、健康度等
  • 用户行为:转化、举报、基于用户的协同推荐

构建流程推荐系统那些事儿之初相见 - Vlog1_第2张图片

  • 数据抓取
    生产的内容放进内容池,经过筛选、过滤(机器+人工),生成固定的格式和唯一的文本id。
  • 文本挖掘
    主要是实现文本的分类(有监督)、聚类(无监督)、自动摘要。
    分类:基于已有分类体系,减少搜索成本,如采用贝叶斯、K近邻来分类。
    聚类:提供大规模文档集内容总结,减轻浏览相关内容,如贝叶斯、K近邻。
    自动摘要:一种是完全使用原文中的句子来生成文摘,另一种是可以自动生成句子来表达文档的内容。

2、冷启动

冷启动问题:如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统。

  • 用户冷启动:如何给新用户个性化推荐。
  • 物品冷启动:如何将新物品推荐给可能感兴趣的用户。
  • 系统冷启动:如何在新开发网站(无用户,用户行为,只有一些物品信息)刚发布就让用户体验到个性化推荐。

解决方法:

  • 提供非个性化的推荐 非个性化推荐的最简单例子就是热门排行榜,可以给用户推荐热门排行榜,然后等到用户数据收集到移动的时候,再切换为个性化推荐。
  • 利用用户注册时提供的年龄、性别等数据做粗粒度的个性化。
  • 利用用户的社交网络账号登录(需要用户授权),导入用户在社交网站上的好友信息,然后给用户推荐其好友喜欢的物品。
  • 需要用户在登录时对一些物品进行反馈,收集用户对这些物品的兴趣信息,然后给用户推荐那些和这些物品相似的物品。
  • 对于新加入的物品,可以利用内容信息,将它们推荐给喜欢过和它们相似的物品的用户。
  • 在系统冷启动时,可以引入专家的知识,通过一定的高效方式迅速建立起物品的相关度表。

3、召回

召回(Match)指从全量信息集合中触发尽可能多正确的结果(也就是从内容库中选出多种偏好内容),并将结果返回“排序”;

以搜索场景为例:
搜索“清华大学”,系统一共检索出10条,有5条相关内容,有3条是我想要看的文章。

	召回率=系统检索到的相关内容条目/系统数据库中相关的条目=3/5
	准确率=系统检索到的相关内容条目/系统所有检索到的总条目=3/10

召回渠道:协同过滤、主题模型、内容召回、热点召回。

  • 召回策略
    召回主要有四种方法:基于内容、协同过滤、时间排序、基于规则、tag倒排。

    基于内容:根据用户画像和内容画像的匹配来召回,假设某网易云用户的画像为 韩风|0.2 欧美|0.7 大陆|0.5,系统就会推送有欧美,大陆,韩语标签的内容给该用户。

    协同过滤:基于用户、基于内容、基于模型。

    基于用户是计算用户之间的相似度,将用户A喜欢的推荐给用户B;基于内容是计算内容的相似度,内容a和内容b相似,那么用户A喜欢a,也将b推荐给他;基于模型是根据用户喜好建立推荐模型,实时预测用户喜欢的内容,并推荐给用户。

    时间排序:在新用户的冷启动中,按照时间和热度做内容召回;从内容角度考虑,根据新闻的时效性,对热点新闻加大权重。

    人工规则:在一些强关联的推荐业务中,比如OTA行业,如果用户定了机票,那么机场附近的酒店就有比较大的推荐权重。

    tag倒排:今日头条用的召回策略主要是倒排,离线维护一个倒排,key可以是分类、主题、来源等,按照热度排序。线上召回可以快速根据用户兴趣做内容截断,筛选出较少一部分的高质量内容,进入storm在线模型进行排序。

4、排序

召回的目的是全,排序的内容是准。

排序(Rank)指对多个召回渠道的内容进行统一打分排序,选出最优的少量结果

推荐系统那些事儿之初相见 - Vlog1_第3张图片

4.1 排序过程:

(1)离线计算:数据整合、特征提取、模型训练、线下评估
(2)近线实时数据流:在线和离线之间的步骤,清洗原始数据,供下游模型使用
(3)在线打分:对召回内容进行整合和打分重排序

4.2 重排序

(1)基于内容

  • 加大权重:今日头条的内容置顶
    隔离:相似内容隔开,始终吸引用户
    噪声过滤:考虑文章阅读时长,打击标题党

(2)基于用户
惩罚热点:对热点内容的用户操作如评论、转发等,进行降权处理
时效性:用户不断有新的动作产生,老特征下降权重,新特征加强权重
惩罚特征:如果一篇或一类文章没有被点击,其相关特征(关键词、来源)会被降权

参考文献: 《推荐系统实践》(项亮,人民邮电出版社)

你可能感兴趣的:(推荐系统,推荐系统,机器学习,人工智能,大数据)