推荐系统lambda架构学习笔记之推荐系统(一)

推荐系统

个性化推荐(推荐系统)经历了多年的发展,已经成为互联网产品的标配,也是AI成功落地的分支之一,在电商(淘宝/京东)、资讯(今日头条/微博)、音乐(网易云音乐/QQ音乐)、短视频(抖音/快手)等热门应用中,推荐系统都是核心组件之一。

  • 推荐系统
    没有明确需求的用户访问了我们的服务, 且服务的物品对用户构成了信息过载(单纯靠人脑索引不过来的数据量), 系统通过一定的规则对物品进行排序,并将排在前面的物品展示给用户,这样的系统就是推荐系统
  • 信息过载 & 用户需求不明确
    分类⽬录(1990s):覆盖少量热门⽹站。典型应用:Hao123 Yahoo
    搜索引擎(2000s):通过搜索词明确需求。典型应用:Google Baidu
    推荐系统(2010s):不需要⽤户提供明确的需求,通过分析⽤ 户的历史⾏为给⽤户的兴趣进⾏建模,从⽽主动给⽤户推荐能 够满⾜他们兴趣和需求的信息。
  • 推荐系统 V.S. 搜索引擎
搜索 推荐
行为方式 主动 被动
意图 明确 模糊
个性化
流量分布 马太效应 长尾效应
目标 快速满足 持续服务
评估指标 简明 复杂

推荐系统的工作原理及作用

  • 推荐系统的工作原理
    • 社会化推荐 向朋友咨询, 社会化推荐, 让好友给自己推荐物品
    • 基于内容的推荐 打开搜索引擎, 输入自己喜欢的演员的名字, 然后看看返回结果中还有什么电影是自己没看过的
    • 基于流行度的推荐 查看票房排行榜,
    • 基于协同过滤的推荐 找到和自己历史兴趣相似的用户, 看看他们最近在看什么电影
  • 推荐系统的作用
    • 高效连接用户和物品
    • 提高用户停留时间和用户活跃程度
    • 有效的帮助产品实现其商业价值
    • 推荐系统的应用场景

推荐系统lambda架构学习笔记之推荐系统(一)_第1张图片

推荐系统和web 项目区别

  • 通过信息过滤实现目标提升 V.S. 稳定的信息流通系统
    • web项目: 处理复杂业务逻辑,处理高并发,为用户构建一个稳定的信息流通服务
    • 推荐系统: 追求指标增长, 留存率/阅读时间/GMV (Gross Merchandise Volume电商网站成交金额)/视 频网站VV (Video View)
  • 确定 V.S. 不确定思维
    • web项目: 对结果有确定预期
    • 推荐系统: 结果是概率问题

推荐系统架构

  • 推荐系统整体架构
    推荐系统lambda架构学习笔记之推荐系统(一)_第2张图片
  • 大数据Lambda架构
    • Lambda架构是由实时大数据处理框架Storm的作者Nathan Marz提出的一个实时大数据处理框架。
    • Lambda架构的将离线计算和实时计算整合,设计出一个能满足实时大数据系统关键特性的架构,包括有:高容错、低延时和可扩展等。
  • 分层架构
    • 批处理层(原始数据处理的位置)
      • 数据不可变, 可进行任何计算, 可水平扩展
      • 高延迟 几分钟~几小时(计算量和数据量不同)
      • 日志收集: Flume(收集数据)
      • 分布式存储: Hadoop(HDFS存储数据)
      • 分布式计算: Hadoop、Spark
      • 视图存储数据库
        • nosql(HBase/Cassandra)
        • Redis/memcache
        • MySQL
    • 实时处理层(实时获取原始数据)
      • 流式处理, 持续计算
      • 存储和分析某个窗口期内的数据(一段时间的热销排行,实时热搜等)
      • 实时数据收集 flume(收集数据) & kafka(数据缓存)
      • 实时数据分析 spark streaming(实时分析数据)/storm/flink
    • 服务层(对数据做精细处理和分析,得出最终结果并服务于web)
      • 支持随机读
      • 需要在非常短的时间内返回结果
      • 读取批处理层和实时处理层结果并对其归并
  • Lambda架构图
    推荐系统lambda架构学习笔记之推荐系统(一)_第3张图片
  • 推荐算法架构
    • 召回阶段 (海选)
      • 召回决定了最终推荐结果的天花板
      • 常用算法:
        • 协同过滤
        • 基于内容
    • 排序阶段 (精选)
      • 召回决定了最终推荐结果的天花板, 排序逼近这个极限, 决定了最终的推荐效果
      • CTR预估 (点击率预估 使用LR算法) 估计用户是否会点击某个商品 需要用户的点击数据
    • 策略调整
      推荐系统lambda架构学习笔记之推荐系统(一)_第4张图片
  • 推荐系统的整体架构
    推荐系统lambda架构学习笔记之推荐系统(一)_第5张图片

推荐算法

推荐模型构建流程

Data(获取数据,显性/隐性)->Features(特征特征)->ML Algorithm(选择算法训练模型,协同过滤/基于内容)->Prediction Output(预测输出)

  • 数据清洗/数据处理
    • 数据来源
      • 显性数据(用户主观行为,获取较难)
        • Rating 打分
        • Comments 评论/评价
      • 隐形数据(通过埋点方式获取,但数据不够准确,需要一定处理)
        • Order history 历史订单
        • Cart events 加购物车
        • Page views 页面浏览
        • Click-thru 点击
        • Search log 搜索记录
    • 数据量/数据能否满足要求(T级别以上)
  • 特征工程
    • 从数据中筛选特征
      • 一个给定的商品,可能被拥有类似品味或需求的用户购买
      • 使用用户行为数据描述商品
        推荐系统lambda架构学习笔记之推荐系统(一)_第6张图片
  • 用数据表示特征
    • 将所有用户行为合并在一起 ,形成一个user-item 矩阵(一般为稀疏矩阵-存在较多残缺值、空值)
      推荐系统lambda架构学习笔记之推荐系统(一)_第7张图片
  • 选择合适的算法
    • 协同过滤
    • 基于内容
  • 产生推荐结果
    • 对推荐结果进行评估(评估方法后面章节介绍),评估通过后上线

最经典的推荐算法:协同过滤推荐算法(Collaborative Filtering)

  • “跟你喜好相似的人喜欢的东西你也很有可能喜欢” :基于用户的协同过滤推荐(User-based CF)
  • “跟你喜欢的东西相似的东西你也很有可能喜欢 ”:基于物品的协同过滤推荐(Item-based CF)

实现协同过滤推荐有以下几个步骤:

  1. 找出最相似的人或物品:TOP-N相似的人或物品
    通过计算两两的相似度来进行排序,即可找出TOP-N相似的人或物品
  2. 根据相似的人或物品产生推荐结果
    利用TOP-N结果生成初始推荐结果,然后过滤掉用户已经有过记录的物品或明确表示不感兴趣的物品

User-Based CF
推荐系统lambda架构学习笔记之推荐系统(一)_第8张图片
Item-Based CF
推荐系统lambda架构学习笔记之推荐系统(一)_第9张图片

相似度计算(Similarity Calculation)

相似度的计算方法

  • 欧氏距离, 是一个欧式空间下度量距离的方法. 两个物体, 都在同一个空间下表示为两个点, 假如叫做p,q, 分别都是n个坐标, 那么欧式距离就是衡量这两个点之间的距离. 欧氏距离不适用于布尔向量之间
    推荐系统lambda架构学习笔记之推荐系统(一)_第10张图片
    ​ 欧氏距离的值是一个非负数, 最大值正无穷, 通常计算相似度的结果希望是[-1,1]或[0,1]之间,一般可以使用
    推荐系统lambda架构学习笔记之推荐系统(一)_第11张图片
    如下转化公式:
余弦相似度
  • 度量的是两个向量之间的夹角, 用夹角的余弦值来度量相似的情况
  • 两个向量的夹角为0是,余弦值为1, 当夹角为90度是余弦值为0,为180度是余弦值为-1
  • 余弦相似度在度量文本相似度, 用户相似度 物品相似度的时候较为常用
  • 余弦相似度的特点, 与向量长度无关,余弦相似度计算要对向量长度归一化, 两个向量只要方向一致,无论程度强弱, 都可以视为’相似’

在这里插入图片描述
推荐系统lambda架构学习笔记之推荐系统(一)_第12张图片

皮尔逊相关系数Pearson
  • 实际上也是余弦相似度, 不过先对向量做了中心化, 向量a b各自减去向量的均值后, 再计算余弦相似度
  • 皮尔逊相似度计算结果在-1,1之间 -1表示负相关, 1表示正相关
  • 度量两个变量是不是同增同减
  • 皮尔逊相关系数度量的是两个变量的变化趋势是否一致, 不适合计算布尔值向量之间的相关度
    推荐系统lambda架构学习笔记之推荐系统(一)_第13张图片
杰卡德相似度 Jaccard
  • 两个集合的交集元素个数在并集中所占的比例, 非常适用于布尔向量表示
  • 分子是两个布尔向量做点积计算, 得到的就是交集元素的个数
  • 分母是两个布尔向量做或运算, 再求元素和
    推荐系统lambda架构学习笔记之推荐系统(一)_第14张图片
如何选择余弦相似度
  • 余弦相似度(工程中余弦与pearson都使用,但数据量大,算力小时候 采用余弦相似度)/皮尔逊相关系数适合用户评分数据(实数值),以上两个相似度适用于连续型数据
  • 杰卡德相似度适用于隐式反馈数据(0,1布尔值 是否收藏,是否点击,是否加购物车)

协同过滤推荐算法代码实现:

  • 构建数据集:
users = ["User1", "User2", "User3", "User4", "User5"]
items = ["Item A", "Item B", "Item C", "Item D", "Item E"]
# 构建数据集
datasets = [
    ["buy",None,"buy","buy",None],
    ["buy",None,None,"buy","buy"],
    ["buy",None,"buy",None,None],
    [None,"buy",None,"buy","buy"],
    ["buy","buy","buy",None,"buy"],
]
  • 计算时我们数据通常都需要对数据进行处理,或者编码,目的是为了便于我们对数据进行运算处理,比如这里是比较简单的情形,我们用1、0分别来表示用户的是否购买过该物品,则我们的数据集其实应该是这样的:
users = ["User1", "User2", "User3", "User4", "User5"]
items = ["Item A", "Item B", "Item C", "Item D", "Item E"]
# 用户购买记录数据集
datasets = [
    [1,0,1,1,0],
    [1,0,0,1,1],
    [1,0,1,0,0],
    [0,1,0,1,1],
    [1,1,1,0,1],
]
import pandas as pd

df = pd.DataFrame(datasets,
                  columns=items,
                  index=users)
print(df)
  • 有了数据集,接下来我们就可以进行相似度的计算,不过对于相似度的计算其实是有很多专门的相似度计算方法的,比如余弦相似度、皮尔逊相关系数、杰卡德相似度等等。这里我们选择使用杰卡德相似系数[0,1]
from sklearn.metrics import jaccard_similarity_score
# 直接计算某两项的杰卡德相似系数
# 计算Item A 和Item B的相似度
print(jaccard_similarity_score(df["Item A"], df["Item B"]))

# 计算所有的数据两两的杰卡德相似系数
from sklearn.metrics.pairwise import pairwise_distances
# 计算用户间相似度
user_similar = 1 - pairwise_distances(df, metric="jaccard")
user_similar = pd.DataFrame(user_similar, columns=users, index=users)
print("用户之间的两两相似度:")
print(user_similar)

# 计算物品间相似度
item_similar = 1 - pairwise_distances(df.T, metric="jaccard")
item_similar = pd.DataFrame(item_similar, columns=items, index=items)
print("物品之间的两两相似度:")
print(item_similar)

有了两两的相似度,接下来就可以筛选TOP-N相似结果,并进行推荐了

  • User-Based CF
import pandas as pd
import numpy as np
from pprint import pprint

users = ["User1", "User2", "User3", "User4", "User5"]
items = ["Item A", "Item B", "Item C", "Item D", "Item E"]
# 用户购买记录数据集
datasets = [
    [1,0,1,1,0],
    [1,0,0,1,1],
    [1,0,1,0,0],
    [0,1,0,1,1],
    [1,1,1,0,1],
]

df = pd.DataFrame(datasets,
                  columns=items,
                  index=users)

# 计算所有的数据两两的杰卡德相似系数
from sklearn.metrics.pairwise import pairwise_distances
# 计算用户间相似度  1-杰卡德距离=杰卡德相似度
user_similar = 1 - pairwise_distances(df, metric="jaccard")
user_similar = pd.DataFrame(user_similar, columns=users, index=users)
print("用户之间的两两相似度:")
print(user_similar)

topN_users = {}
# 遍历每一行数据
for i in user_similar.index:
    # 取出每一列数据,并删除自身,然后排序数据
    _df = user_similar.loc[i].drop([i])
    #sort_values 排序 按照相似度降序排列
    _df_sorted = _df.sort_values(ascending=False)
    # 从排序之后的结果中切片 取出前两条(相似度最高的两个)
    top2 = list(_df_sorted.index[:2])
    topN_users[i] = top2

print("Top2相似用户:")
pprint(topN_users)

# 准备空白dict用来保存推荐结果
rs_results = {}
#遍历所有的最相似用户
for user, sim_users in topN_users.items():
    rs_result = set()    # 存储推荐结果
    for sim_user in sim_users:
        # 构建初始的推荐结果
        rs_result = rs_result.union(set(df.ix[sim_user].replace(0,np.nan).dropna().index))
    # 过滤掉已经购买过的物品
    rs_result -= set(df.ix[user].replace(0,np.nan).dropna().index)
    rs_results[user] = rs_result
print("最终推荐结果:")
pprint(rs_results)
  • Item-Based CF
import pandas as pd
import numpy as np
from pprint import pprint

users = ["User1", "User2", "User3", "User4", "User5"]
items = ["Item A", "Item B", "Item C", "Item D", "Item E"]
# 用户购买记录数据集
datasets = [
    [1,0,1,1,0],
    [1,0,0,1,1],
    [1,0,1,0,0],
    [0,1,0,1,1],
    [1,1,1,0,1],
]

df = pd.DataFrame(datasets,
                  columns=items,
                  index=users)

# 计算所有的数据两两的杰卡德相似系数
from sklearn.metrics.pairwise import pairwise_distances
# 计算物品间相似度
item_similar = 1 - pairwise_distances(df.T, metric="jaccard")
item_similar = pd.DataFrame(item_similar, columns=items, index=items)
print("物品之间的两两相似度:")
print(item_similar)

topN_items = {}
# 遍历每一行数据
for i in item_similar.index:
    # 取出每一列数据,并删除自身,然后排序数据
    _df = item_similar.loc[i].drop([i])
    _df_sorted = _df.sort_values(ascending=False)

    top2 = list(_df_sorted.index[:2])
    topN_items[i] = top2

print("Top2相似物品:")
pprint(topN_items)

rs_results = {}
# 构建推荐结果
for user in df.index:    # 遍历所有用户
    rs_result = set()
    for item in df.ix[user].replace(0,np.nan).dropna().index:   # 取出每个用户当前已购物品列表
        # 根据每个物品找出最相似的TOP-N物品,构建初始推荐结果
        rs_result = rs_result.union(topN_items[item])
    # 过滤掉用户已购的物品
    rs_result -= set(df.ix[user].replace(0,np.nan).dropna().index)
    # 添加到结果中
    rs_results[user] = rs_result

print("最终推荐结果:")
pprint(rs_results)
关于协同过滤推荐算法使用的数据集

在前面的demo中,我们只是使用用户对物品的一个购买记录,类似也可以是比如浏览点击记录、收听记录等等。这样数据我们预测的结果其实相当于是在预测用户是否对某物品感兴趣,对于喜好程度不能很好的预测。
因此在协同过滤推荐算法中其实会更多的利用用户对物品的“评分”数据来进行预测,通过评分数据集,我们可以预测用户对于他没有评分过的物品的评分。其实现原理和思想和都是一样的,只是使用的数据集是用户-物品的评分数据。

关于用户-物品评分矩阵

用户-物品的评分矩阵,根据评分矩阵的稀疏程度会有不同的解决方案

  • 稠密评分矩阵
    在这里插入图片描述
  • 稀疏评分矩阵
    在这里插入图片描述
    这里先介绍稠密评分矩阵的处理,稀疏矩阵的处理相对会复杂一些,到后面再来介绍。

使用协同过滤推荐算法对用户进行评分预测

  • 数据集:
    在这里插入图片描述
    目的:预测用户1对物品E的评分
  • 构建数据集:注意这里构建评分数据时,对于缺失的部分我们需要保留为None,如果设置为0那么会被当作评分值为0去对待
users = ["User1", "User2", "User3", "User4", "User5"]
items = ["Item A", "Item B", "Item C", "Item D", "Item E"]
# 用户购买记录数据集
datasets = [
    [5,3,4,4,None],
    [3,1,2,3,3],
    [4,3,4,3,5],
    [3,3,1,5,4],
    [1,5,5,2,1],
]
  • 计算相似度:对于评分数据这里我们采用皮尔逊相关系数[-1,1]来计算,-1表示强负相关,+1表示强正相关
    pandas中corr方法可直接用于计算皮尔逊相关系数
    jaccard相似度默认以行进行计算,而corr默认以列进行计算
df = pd.DataFrame(datasets,
                  columns=items,
                  index=users)

print("用户之间的两两相似度:")
# 直接计算皮尔逊相关系数
# 默认是按列进行计算,因此如果计算用户间的相似度,当前需要进行转置
user_similar = df.T.corr()
print(user_similar.round(4))

print("物品之间的两两相似度:")
item_similar = df.corr()
print(item_similar.round(4))
# 运行结果:
用户之间的两两相似度:
        User1   User2   User3   User4   User5
User1  1.0000  0.8528  0.7071  0.0000 -0.7921
User2  0.8528  1.0000  0.4677  0.4900 -0.9001
User3  0.7071  0.4677  1.0000 -0.1612 -0.4666
User4  0.0000  0.4900 -0.1612  1.0000 -0.6415
User5 -0.7921 -0.9001 -0.4666 -0.6415  1.0000
物品之间的两两相似度:
        Item A  Item B  Item C  Item D  Item E
Item A  1.0000 -0.4767 -0.1231  0.5322  0.9695
Item B -0.4767  1.0000  0.6455 -0.3101 -0.4781
Item C -0.1231  0.6455  1.0000 -0.7206 -0.4276
Item D  0.5322 -0.3101 -0.7206  1.0000  0.5817
Item E  0.9695 -0.4781 -0.4276  0.5817  1.0000

可以看到与用户1最相似的是用户2和用户3;与物品A最相似的物品分别是物品E和物品D。
注意:我们在预测评分时,往往是通过与其有正相关的用户或物品进行预测,如果不存在正相关的情况,那么将无法做出预测。这一点尤其是在稀疏评分矩阵中尤为常见,因为稀疏评分矩阵中很难得出正相关系数。

  • 评分预测:
    User-Based CF 评分预测:使用用户间的相似度进行预测
    关于评分预测的方法也有比较多的方案,下面介绍一种效果比较好的方案,该方案考虑了用户本身的评分评分以及近邻用户的加权平均相似度打分来进行预测
    在这里插入图片描述
    我们要预测用户1对物品E的评分,那么可以根据与用户1最近邻的用户2和用户3进行预测(解释:由于用户1对物品E评分为None,根据用户间相似度,可以看出用户2与3是与用户1高度相关的两个用户,而其与用户1的相似度分别为0.85和0.71,而用户2对物品E的评分为3,用户3对物品E的评分为5分,计算知用户1对物品E的评分预测为3.91),计算如下:
    在这里插入图片描述
    最终预测出用户1对物品5的评分为3.91
    Item-Based CF 评分预测:使用物品间的相似度进行预测
    这里利用物品相似度预测的计算同上,同样考虑了用户自身的平均打分因素,结合预测物品与相似物品的加权平均相似度打分进行来进行预测
    ![在这里插入图片描述](https://img-blog.csdnimg.cn/20200817200916935.png#pic_center
    我们要预测用户1对物品E的评分,那么可以根据与物品E最近邻的物品A和物品D进行预测(解释:用户1对物品E的评分,由物品间相似度可知,与E最相似的物品为A和D,相似度为0.97和0.58,用户1对物品A和D的打分分别为5和4,由此预测用户1对物品E的评分为4.63),计算如下:
    在这里插入图片描述
    对比可见,User-Based CF预测评分和Item-Based CF的评分结果也是存在差异的,因为严格意义上他们其实应当属于两种不同的推荐算法,各自在不同的领域不同场景下,都会比另一种的效果更佳,但具体哪一种更佳,必须经过合理的效果评估,因此在实现推荐系统时这两种算法往往都是需要去实现的,然后对产生的推荐效果进行评估分析选出更优方案。

案例–基于协同过滤的电影推荐

User-Based CF 预测电影评分

  • 数据集下载

    • 下载地址:MovieLens Latest Datasets Small
    • 建议下载ml-latest-small.zip,数据量小,便于我们单机使用和运行
  • 加载ratings.csv,转换为用户-电影评分矩阵并计算用户之间相似度

    import os
    
    import pandas as pd
    import numpy as np
    
    DATA_PATH = "./datasets/ml-latest-small/ratings.csv"
    
    dtype = {"userId": np.int32, "movieId": np.int32, "rating": np.float32}
    # 加载数据,我们只用前三列数据,分别是用户ID,电影ID,已经用户对电影的对应评分
    ratings = pd.read_csv(DATA_PATH, dtype=dtype, usecols=range(3))
    # 透视表,将电影ID转换为列名称,转换成为一个User-Movie的评分矩阵
    ratings_matrix = ratings.pivot_table(index=["userId"], columns=["movieId"],values="rating")
    #计算用户之间相似度
    user_similar = ratings_matrix.T.corr()
    
  • 预测用户对物品的评分 (以用户1对电影1评分为例)

    评分公式
    p r e d ( u , i ) = r ^ u i = ∑ v ∈ U s i m ( u , v ) ∗ r v i ∑ v ∈ U ∣ s i m ( u , v ) ∣ pred(u,i)=\hat{r}_{ui}=\cfrac{\sum_{v\in U}sim(u,v)*r_{vi}}{\sum_{v\in U}|sim(u,v)|} pred(u,i)=r^ui=vUsim(u,v)vUsim(u,v)rvi

    # 1. 找出uid用户的相似用户
    similar_users = user_similar[1].drop([1]).dropna()
    # 相似用户筛选规则:正相关的用户
    similar_users = similar_users.where(similar_users>0).dropna()
    # 2. 从用户1的近邻相似用户中筛选出对物品1有评分记录的近邻用户
    ids = set(ratings_matrix[1].dropna().index)&set(similar_users.index)
    finally_similar_users = similar_users.ix[list(ids)]
    # 3. 结合uid用户与其近邻用户的相似度预测uid用户对iid物品的评分
    numerator = 0    # 评分预测公式的分子部分的值
    denominator = 0    # 评分预测公式的分母部分的值
    for sim_uid, similarity in finally_similar_users.iteritems():
        # 近邻用户的评分数据
        sim_user_rated_movies = ratings_matrix.ix[sim_uid].dropna()
        # 近邻用户对iid物品的评分
        sim_user_rating_for_item = sim_user_rated_movies[1]
        # 计算分子的值
        numerator += similarity * sim_user_rating_for_item
        # 计算分母的值
        denominator += similarity
    # 4 计算预测的评分值
    predict_rating = numerator/denominator
    print("预测出用户<%d>对电影<%d>的评分:%0.2f" % (1, 1, predict_rating))
    
  • 封装成方法 预测任意用户对任意电影的评分

    def predict(uid, iid, ratings_matrix, user_similar):
        '''
        预测给定用户对给定物品的评分值
        :param uid: 用户ID
        :param iid: 物品ID
        :param ratings_matrix: 用户-物品评分矩阵
        :param user_similar: 用户两两相似度矩阵
        :return: 预测的评分值
        '''
        print("开始预测用户<%d>对电影<%d>的评分..."%(uid, iid))
        # 1. 找出uid用户的相似用户
        similar_users = user_similar[uid].drop([uid]).dropna()
        # 相似用户筛选规则:正相关的用户
        similar_users = similar_users.where(similar_users>0).dropna()
        if similar_users.empty is True:
            raise Exception("用户<%d>没有相似的用户" % uid)
    
        # 2. 从uid用户的近邻相似用户中筛选出对iid物品有评分记录的近邻用户
        ids = set(ratings_matrix[iid].dropna().index)&set(similar_users.index)
        finally_similar_users = similar_users.ix[list(ids)]
    
        # 3. 结合uid用户与其近邻用户的相似度预测uid用户对iid物品的评分
        numerator = 0    # 评分预测公式的分子部分的值
        denominator = 0    # 评分预测公式的分母部分的值
        for sim_uid, similarity in finally_similar_users.iteritems():
            # 近邻用户的评分数据
            sim_user_rated_movies = ratings_matrix.ix[sim_uid].dropna()
            # 近邻用户对iid物品的评分
            sim_user_rating_for_item = sim_user_rated_movies[iid]
            # 计算分子的值
            numerator += similarity * sim_user_rating_for_item
            # 计算分母的值
            denominator += similarity
    
        # 计算预测的评分值并返回
        predict_rating = numerator/denominator
        print("预测出用户<%d>对电影<%d>的评分:%0.2f" % (uid, iid, predict_rating))
        return round(predict_rating, 2)
    
  • 为某一用户预测所有电影评分

    def predict_all(uid, ratings_matrix, user_similar):
        '''
        预测全部评分
        :param uid: 用户id
        :param ratings_matrix: 用户-物品打分矩阵
        :param user_similar: 用户两两间的相似度
        :return: 生成器,逐个返回预测评分
        '''
        # 准备要预测的物品的id列表
        item_ids = ratings_matrix.columns
        # 逐个预测
        for iid in item_ids:
            try:
                rating = predict(uid, iid, ratings_matrix, user_similar)
            except Exception as e:
                print(e)
            else:
                yield uid, iid, rating
    if __name__ == '__main__':
        for i in predict_all(1, ratings_matrix, user_similar):
            pass
    
  • 根据评分为指定用户推荐topN个电影

    def top_k_rs_result(k):
        results = predict_all(1, ratings_matrix, user_similar)
        return sorted(results, key=lambda x: x[2], reverse=True)[:k]
    if __name__ == '__main__':
        from pprint import pprint
        result = top_k_rs_result(20)
        pprint(result)
    

Item-Based CF 预测电影评分

  • 加载ratings.csv,转换为用户-电影评分矩阵并计算用户之间相似度

    import os
    
    import pandas as pd
    import numpy as np
    
    DATA_PATH = "./datasets/ml-latest-small/ratings.csv"
    
    dtype = {"userId": np.int32, "movieId": np.int32, "rating": np.float32}
    # 加载数据,我们只用前三列数据,分别是用户ID,电影ID,已经用户对电影的对应评分
    ratings = pd.read_csv(data_path, dtype=dtype, usecols=range(3))
    # 透视表,将电影ID转换为列名称,转换成为一个User-Movie的评分矩阵
    ratings_matrix = ratings.pivot_table(index=["userId"], columns=["movieId"],values="rating")
    #计算用户之间相似度
    item_similar = ratings_matrix.corr()
    
  • 预测用户对物品的评分 (以用户1对电影1评分为例)

    评分公式
    p r e d ( u , i ) = r ^ u i = ∑ v ∈ U s i m ( u , v ) ∗ r v i ∑ v ∈ U ∣ s i m ( u , v ) ∣ pred(u,i)=\hat{r}_{ui}=\cfrac{\sum_{v\in U}sim(u,v)*r_{vi}}{\sum_{v\in U}|sim(u,v)|} pred(u,i)=r^ui=vUsim(u,v)vUsim(u,v)rvi

    # 1. 找出iid物品的相似物品
    similar_items = item_similar[1].drop([1]).dropna()
    # 相似物品筛选规则:正相关的物品
    similar_items = similar_items.where(similar_items>0).dropna()
    # 2. 从iid物品的近邻相似物品中筛选出uid用户评分过的物品
    ids = set(ratings_matrix.ix[1].dropna().index)&set(similar_items.index)
    finally_similar_items = similar_items.ix[list(ids)]
    
    # 3. 结合iid物品与其相似物品的相似度和uid用户对其相似物品的评分,预测uid对iid的评分
    numerator = 0    # 评分预测公式的分子部分的值
    denominator = 0    # 评分预测公式的分母部分的值
    for sim_iid, similarity in finally_similar_items.iteritems():
        # 近邻物品的评分数据
        sim_item_rated_movies = ratings_matrix[sim_iid].dropna()
        # 1用户对相似物品物品的评分
        sim_item_rating_from_user = sim_item_rated_movies[1]
        # 计算分子的值
        numerator += similarity * sim_item_rating_from_user
        # 计算分母的值
        denominator += similarity
    
    # 计算预测的评分值并返回
    predict_rating = sum_up/sum_down
    print("预测出用户<%d>对电影<%d>的评分:%0.2f" % (uid, iid, predict_rating))
    
  • 封装成方法 预测任意用户对任意电影的评分

    def predict(uid, iid, ratings_matrix, user_similar):
        '''
        预测给定用户对给定物品的评分值
        :param uid: 用户ID
        :param iid: 物品ID
        :param ratings_matrix: 用户-物品评分矩阵
        :param user_similar: 用户两两相似度矩阵
        :return: 预测的评分值
        '''
        print("开始预测用户<%d>对电影<%d>的评分..."%(uid, iid))
        # 1. 找出uid用户的相似用户
        similar_users = user_similar[uid].drop([uid]).dropna()
        # 相似用户筛选规则:正相关的用户
        similar_users = similar_users.where(similar_users>0).dropna()
        if similar_users.empty is True:
            raise Exception("用户<%d>没有相似的用户" % uid)
    
        # 2. 从uid用户的近邻相似用户中筛选出对iid物品有评分记录的近邻用户
        ids = set(ratings_matrix[iid].dropna().index)&set(similar_users.index)
        finally_similar_users = similar_users.ix[list(ids)]
    
        # 3. 结合uid用户与其近邻用户的相似度预测uid用户对iid物品的评分
        numerator = 0    # 评分预测公式的分子部分的值
        denominator = 0    # 评分预测公式的分母部分的值
        for sim_uid, similarity in finally_similar_users.iteritems():
            # 近邻用户的评分数据
            sim_user_rated_movies = ratings_matrix.ix[sim_uid].dropna()
            # 近邻用户对iid物品的评分
            sim_user_rating_for_item = sim_user_rated_movies[iid]
            # 计算分子的值
            numerator += similarity * sim_user_rating_for_item
            # 计算分母的值
            denominator += similarity
    
        # 计算预测的评分值并返回
        predict_rating = numerator/denominator
        print("预测出用户<%d>对电影<%d>的评分:%0.2f" % (uid, iid, predict_rating))
        return round(predict_rating, 2)
    
  • 为某一用户预测所有电影评分

    def predict_all(uid, ratings_matrix, item_similar):
        '''
        预测全部评分
        :param uid: 用户id
        :param ratings_matrix: 用户-物品打分矩阵
        :param item_similar: 物品两两间的相似度
        :return: 生成器,逐个返回预测评分
        '''
        # 准备要预测的物品的id列表
        item_ids = ratings_matrix.columns
        # 逐个预测
        for iid in item_ids:
            try:
                rating = predict(uid, iid, ratings_matrix, item_similar)
            except Exception as e:
                print(e)
            else:
                yield uid, iid, rating
    
    if __name__ == '__main__':
        for i in predict_all(1, ratings_matrix, item_similar):
            pass
    
  • 根据评分为指定用户推荐topN个电影

    def top_k_rs_result(k):
        results = predict_all(1, ratings_matrix, item_similar)
        return sorted(results, key=lambda x: x[2], reverse=True)[:k]
    if __name__ == '__main__':
        from pprint import pprint
        result = top_k_rs_result(20)
        pprint(result)
    

推荐系统评估

推荐系统的评估指标

  • 好的推荐系统可以实现用户, 服务提供方, 内容提供方的共赢
    推荐系统lambda架构学习笔记之推荐系统(一)_第15张图片

  • 评估数据来源显示反馈和隐式反馈

    显式反馈 隐式反馈
    例子 电影/书籍评分 是否喜欢这个推荐 播放/点击 评论 下载 购买
    准确性
    数量
    获取成本
  • 常用评估指标

    • 准确性 • 信任度
    • 满意度 • 实时性
    • 覆盖率 • 鲁棒性
    • 多样性 • 可扩展性
    • 新颖性 • 商业⽬标
    • 惊喜度 • ⽤户留存

    • 准确性 (理论角度) Netflix 美国录像带租赁
      • 评分预测
        • RMSE(均方根误差)
          推荐系统lambda架构学习笔记之推荐系统(一)_第16张图片
        • MAE(平均绝对误差)
          推荐系统lambda架构学习笔记之推荐系统(一)_第17张图片
      • topN推荐
        • 召回率 精准率
    • 准确性 (业务角度)

    推荐系统lambda架构学习笔记之推荐系统(一)_第18张图片

    • 覆盖度
      • 信息熵 对于推荐越大越好
      • 覆盖率
    • 多样性&新颖性&惊喜性
      • 多样性:推荐列表中两两物品的不相似性。(相似性如何度量?
      • 新颖性:未曾关注的类别、作者;推荐结果的平均流⾏度
      • 惊喜性:历史不相似(惊)但很满意(喜)
      • 往往需要牺牲准确性
      • 使⽤历史⾏为预测⽤户对某个物品的喜爱程度
      • 系统过度强调实时性
    • Exploitation & Exploration 探索与利用问题
      • Exploitation(开发 利用):选择现在可能最佳的⽅案
      • Exploration(探测 搜索):选择现在不确定的⼀些⽅案,但未来可能会有⾼收益的⽅案
      • 在做两类决策的过程中,不断更新对所有决策的不确定性的认知,优化
        长期的⽬标
    • EE问题实践
      • 兴趣扩展: 相似话题, 搭配推荐
      • 人群算法: userCF 用户聚类
      • 平衡个性化推荐和热门推荐比例
      • 随机丢弃用户行为历史
      • 随机扰动模型参数
    • EE可能带来的问题
      • 探索伤害用户体验, 可能导致用户流失
      • 探索带来的长期收益(留存率)评估周期长, KPI压力大
      • 如何平衡实时兴趣和长期兴趣
      • 如何平衡短期产品体验和长期系统生态
      • 如何平衡大众口味和小众需求

推荐系统评估方法

  • 评估方法
    • 问卷调查: 成本高
    • 离线评估:
      • 只能在用户看到过的候选集上做评估, 且跟线上真实效果存在偏差
      • 只能评估少数指标
      • 速度快, 不损害用户体验
    • 在线评估: 灰度发布 & A/B测试 50% 全量上线
    • 实践: 离线评估和在线评估结合, 定期做问卷调查

推荐系统的冷启动问题

推荐系统冷启动概念

  • ⽤户冷启动:如何为新⽤户做个性化推荐
  • 物品冷启动:如何将新物品推荐给⽤户(协同过滤)
  • 系统冷启动:⽤户冷启动+物品冷启动
  • 本质是推荐系统依赖历史数据,没有历史数据⽆法预测⽤户偏好

处理推荐系统冷启动问题的常用方法

  • 用户冷启动

    • 1.收集⽤户特征

      • ⽤户注册信息:性别、年龄、地域

      • 设备信息:定位、⼿机型号、app列表

      • 社交信息、推⼴素材、安装来源
        推荐系统lambda架构学习笔记之推荐系统(一)_第19张图片

    • 2 引导用户填写兴趣
      推荐系统lambda架构学习笔记之推荐系统(一)_第20张图片

    • 3 使用其它站点的行为数据, 例如腾讯视频&QQ音乐 今日头条&抖音

    • 4 新老用户推荐策略的差异

      • 新⽤户在冷启动阶段更倾向于热门排⾏榜,⽼⽤户会更加需要长尾推荐
      • Explore Exploit⼒度
      • 使⽤单独的特征和模型预估
    • 举例 性别与电视剧的关系
      推荐系统lambda架构学习笔记之推荐系统(一)_第21张图片
      推荐系统lambda架构学习笔记之推荐系统(一)_第22张图片

  • 物品冷启动

    • 给物品打标签
    • 利用物品的内容信息,将新物品先投放给曾经喜欢过和它内容相似的其他物品的用户。
      推荐系统lambda架构学习笔记之推荐系统(一)_第23张图片
  • 系统冷启动

    • 基于内容的推荐 系统早期
    • 基于内容的推荐逐渐过渡到协同过滤
    • 基于内容的推荐和协同过滤的推荐结果都计算出来 加权求和得到最终推荐结果

你可能感兴趣的:(笔记,大数据,算法,推荐系统,协同过滤)