推荐算法——Surprise

Surprise入门使用

官网:https://yiyibooks.cn/sorakunnn/surprisesurprise-v1.0.5/surprise-v1.0.5/index.html

1. 使用movielens数据集

from surprise import SVD, KNNWithMeans, Reader
import os
from surprise import Dataset
from surprise.model_selection import cross_validate
# 默认载入movielens数据集
# data = Dataset.load_builtin('ml-100k')

# 载入自己数据集的方法
# 把path中包含的"~"和"~user"转换成用户目录
filepah = os.path.expanduser('~/.surprise_data/ml-100k/ml-100k/u.data')
reader = Reader(line_format='user item rating timestamp', sep='\t')
data = Dataset.load_from_file(file_path=filepah, reader=reader)

# 试一把SVD矩阵分解
algo = SVD()
# 也可以试试别的算法
# algo = KNNWithMeans()
# 在数据集上测试一下效果并打印, 3折交叉验证
cross_validate(algo, data, measures=['RMSE', 'MAE'], cv=3, verbose=True)


推荐算法——Surprise_第1张图片

2. 算法调参(让推荐系统有更好的效果)

这里实现的算法用到的算法无外乎也是SGD等,因此也有一些超参数会影响最后的结果,我们同样可以用sklearn中常用到的网格搜索交叉验证(GridSearchCV)来选择最优的参数。简单的例子如下所示:

from surprise import Dataset, SVD
from surprise.model_selection import GridSearchCV

# 定义好需要优选的参数网格:轮次,学习率,正则化程度
param_grid = {'n_epochs': [5, 10], 'lr_all': [0.002, 0.005],
              'reg_all': [0.4, 0.6]}
# 使用网格搜索交叉验证
grid_search = GridSearchCV(SVD, param_grid, measures=['rmse', 'mae', 'fcp'], cv=3)
data = Dataset.load_builtin('ml-100k')
# 在数据集上找到最好的参数
grid_search.fit(data)
# 输出调优的参数组

# 输出最好的RMSE结果
print(grid_search.best_score['rmse'])
# 输出对应最好的RMSE结果的参数
print(grid_search.best_params['rmse'])

# 输出最好的MAE结果
print(grid_search.best_score['mae'])
# 输出对应最好的MAE结果的参数
print(grid_search.best_params['mae'])

print(grid_search.best_score['fcp'])
print(grid_search.best_params['fcp'])

推荐算法——Surprise_第2张图片

2. 在数据集上训练模型

1.用协同过滤构建模型并进行预测

movielens的例子,以下的程序段告诉大家如何在协同过滤算法建模以后,根据一个item取回相似度最高的item,主要是用到algo.get_neighbors()这个函数

import io
import os

from surprise import Dataset
from surprise import KNNBaseline

def read_item_names():
    """
    获取电影名到电影id 和 电影id到电影名的映射
    构建映射字典
    :return:
    """
    filename = (os.path.expanduser('~/.surprise_data/ml-100k/ml-100k/u.item'))
    rid_to_name = {}
    name_to_rid = {}
    with io.open(filename, 'r', encoding='ISO-8859-1') as f:
        for line in f:
            line = line.split('|')
            rid_to_name[line[0]] = line[1]
            name_to_rid[line[1]] = line[0]
    return rid_to_name, name_to_rid

# 首先,用算法计算相互间的相似度
data = Dataset.load_builtin('ml-100k')
# 使用协同过滤必须有这行,将我们的算法运用于整个数据集,而不进行交叉验证,构建了新的矩阵
trainset = data.build_full_trainset()
# 度量准则:pearson距离,协同过滤:基于item
sim_options = {'name': 'pearson_baseline', 'user_based': False}

algo = KNNBaseline(sim_options=sim_options)
algo.fit(trainset=trainset)

rid_to_name, name_to_rid = read_item_names()

# 拿出来Toy Story这部电影对应的item id
toy_story_raw_id = name_to_rid['Toy Story (1995)']
# 转换为内部id
toy_story_inner_id = algo.trainset.to_inner_iid(toy_story_raw_id)

# 根据内部id找到最近的10个邻居
toy_story_neighbors = algo.get_neighbors(toy_story_inner_id, k=10)

# 将10个邻居的内部id转换为item id也就是raw
toy_story_neighbors_rids = (algo.trainset.to_raw_iid(inner_id) for inner_id in toy_story_neighbors)
# 将10个邻居的item id 转为name
toy_story_neighbors_names = (rid_to_name[raw_id] for raw_id in toy_story_neighbors_rids)
# 打印结果
print('----------The 10 nearest neighbors of Toy Story---------------')
for movie in toy_story_neighbors_names:
    print(movie)

推荐算法——Surprise_第3张图片

你可能感兴趣的:(推荐算法)