推荐系统(3)—基于标签的推荐系统(Python)

1介绍

基于推荐系统(3)-基于标签的推荐系统的学习。
推荐系统(3)—基于标签的推荐系统(Python)_第1张图片

2基于标签的推荐系统意义

可解决冷启动问题:新用户APP下载后,选取感兴趣的关注标签,系统可自动推送筛选。
例如:
豆瓣的电影标签、书籍标签;
网易云音乐的音乐标签;
bilibili视频标签;
抖音等短视频APP;

3数据标注与关键词提取

关键词是指能够反映文本语料主题的词语或短语。在不同的业务场景中,词语和短语具有不同的意义。例如:
从电商网站商品标题中提取标签时,词语所传达的意义就比较突出。
从新闻类网站中生成新闻摘要时,短语所传达的意义就比较突出。

3.1数据标注

数据标注即利用人工或AI(人工智能)技术对数据(文本、图像、用户或物品)进行标注。
标注有许多类型,如:
分类标注:即打标签,常用在图像、文本中。一般是指,从既定的标签中选择数据对应的标签,得到的结果是一个封闭的集合。
框框标注:常用在图像识别中,如有一张环路上的行车照片,从中框出所有的车辆。
区域标注:常见于自动驾驶中。例如从一张图片中标出公路对应的区域。
其他标注:除了上述常见的标注类型外,还有许多个性化需求。例如,自动摘要、用户或商品的标签(因为其中总有一些未知标签,当然也可以看成是多分类)。

3.2标签的分类

在推荐系统中,不管是数据标注还是关键词提取,其目的都是得到用户或物品的标签。但是在不同场景下,标签的具体内容是不定的。例如,同样是分类标注,新闻的类别里可以有军事、科技等,但音乐的类别里就很少会涉及军事或科技了。

3.3基于TF-IDF提取标题中的关键词

TF-IDF(Term Frequency–Inverse Document Frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF算法的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或短语具有很好的类别区分能力,适合用来分类。TF-IDF实际是TF*IDF。

4基于标签的推荐系统原理

4.1标签评分算法

用户对标签的认同度可以使用二元关系表示,如“喜欢”或“不喜欢”;也可以使用“连续数值”表示喜好程度。
二元表示方法简单明了,但精确度不够,在对标签喜好程度进行排序时,也无法进行区分。所以,这里选用“连续数值”来表达用户对标签的喜好程度。
为了计算用户对标签的喜好程度,需要将用户对物品的评分传递给这个物品所拥有的标签,传递的分值为物品与标签的相关度。

4.2用户对标签的依赖程度

4.3优化用户对标签的喜好程度

4.4优化用户对标签的依赖程度

4.5标签基因

4.6用户兴趣建模

4.7补充:基于图的推荐算法(知识图谱)

5代码实例:基于标签推荐算法实现艺术家推荐

基于标签推荐算法实现艺术家推荐
利用标签推荐算法实现一个艺术家推荐系统,即,根据用户已经标记过的标签进行标签兴趣建模,进而为用户推荐喜好标签下最相关的艺术家。
这里使用Last.fm数据集中的数据作为基础数据,该数据集在3.3节有相关的介绍。该实例的具体实现思路如下:
(1)加载并准备数据;
(2)计算每个用户对应的标签基因;
(3)计算用户最终对每个标签的兴趣度;
(4)进行艺术家推荐和效果评估。

数据集

可以参考推荐系统常用数据集

参考

推荐系统(3)-基于标签的推荐系统:https://zhuanlan.zhihu.com/p/97127913

你可能感兴趣的:(机器学习,sklearn,机器学习,python)