KuaiRec
是中科大与快手团队合作产出的一个稠密度高达99.6%(一般推荐系统公开数据集的稠密度在1%以下)的数据集。
本文将对KuaiRec
的构建过程、相关实验、数据信息及处理使用方法等内容进行说明。
上图(b)
为KuaiRec数据集,右下角的小矩阵是收集到的全曝光数据集;
通常来说,我们使用大矩阵训练,用小矩阵测试。
上图为属性信息,主要包含item feature
和社交网络两部分。
论文:https://arxiv.org/abs/2202.10842
数据:https://rec.ustc.edu.cn/share/598635c0-9585-11ec-8259-414ede1f8d4f
代码:https://chongminggao.github.io/KuaiRec/
Example:http://m6z.cn/5U6xyQ
作者主页:https://chongminggao.me/
Kolmogorov–Smirnov
假设检验来验证了收集到的小矩阵中的用户与视频与快手数据中的用户与视频有着同样的分布。即验证了小矩阵中的用户和视频具有代表性。作者选择用这个数据集来探究对话推荐系统中的一些关键问题,包括两方面:
除此之外,作者还探究了两个因素在评估中的影响:
数据下载链接:https://rec.ustc.edu.cn/share/598635c0-9585-11ec-8259-414ede1f8d4f
下载并解压数据集后,data
文件夹中保存的是大矩阵和小矩阵,以及属性信息。
big matrix:即图(b)
中的蓝色部分,包含了7176名用户对10729个视频的12530806条交互记录,density为13.4%
small matrix:即图(b)
中的红色部分,包含了1411名用户对3327个视频的4676570条交互记录,density为99.6%.
item_feat:每个视频最多包含4个tags(如体育、游戏…),共有31种tags。
social_network: 用户社交网络数据;小矩阵中共有146名用户有社交关系,大矩阵中共有472名用户有社交关系。
loaddata.py
和Statistic_KuaiRec.ipynb
都是作者提供的加载数据集的代码
video_id = 1225
是空缺值,这个video不存在任何交互记录~(写代码的时候才发现,所以没有修复了),处理时需要注意一下 neg = item + 1
while neg <= max_item:
if neg == 1225: # 1225 is an absent video_id
neg = 1226
filePath
改成数据集路径filePath= "../environments/KuaishouRec/data/big_matrix.csv" # 写自己的路径
df_big = pd.read_csv(filePath)
注意一下,图中的photo_id
就是csv文件中的video_id
~(我下载的是老版本数据,当时还没有修改列名)
u,i,r
数据:df_big = pd.read_csv(filePath, usecols=['user_id', 'photo_id', 'watch_ratio'])
因为作者给出的是一个大数据集,并没有划分训练集和测试集,需要我们自己划分;调用sklearn.model_selection import train_test_split
库就可以轻松划分了。
from sklearn.model_selection import train_test_split
import os
import pandas as pd
DATAPATH = "../environments/KuaishouRec/data"
filePath = os.path.join(DATAPATH, "big_matrix.csv")
trainpath = os.path.join(DATAPATH, "train_big_matrix.csv")
testpath = os.path.join(DATAPATH, "test_big_matrix.csv")
# 开始读取
df_big = pd.read_csv(filePath, usecols=['user_id', 'video_id', 'watch_ratio'])
# watch_ratio控制范围
df_big.loc[df_big['watch_ratio'] > 5, 'watch_ratio'] = 5
x_train,x_test=train_test_split(df_big,test_size=0.2,random_state=2022)
x_train.sort_values("user_id", inplace=True)
x_test.sort_values("user_id", inplace=True)
# save
x_train.to_csv(trainpath, index=False)
x_test.to_csv(testpath, index=False)
print("split dataset completed")
item_num*2
data_feat = pd.read_csv(os.path.join(DATAPATH, 'item_feat.csv'))
print("number of items:", len(data_feat))
item_num*4
,因为每个物品最多有4个tag;因此建立一个列表list_feat
,再将物品feature读进去;最后将其转换为dataframe结构。 data_feat = pd.read_csv(os.path.join(DATAPATH, 'item_feat.csv'))
print("number of items:", len(data_feat))
list_feat = [0] * len(data_feat)
for i in range(len(data_feat)):
list_feat[i] = data_feat[str(i)]['feature_index']
df_feat = pd.DataFrame(list_feat, columns=['feat0', 'feat1', 'feat2', 'feat3'], dtype=int)
feature0
,因此我们将NAN的feature置为-1,最后再统一加一。 df_feat.index.name = "video_id"
# 本身就有feature=0的值,所以设置为-1,再整体加一
df_feat[df_feat.isna()] = -1
df_feat = df_feat + 1
df_feat = df_feat.astype(int)
# 把大矩阵和item特征组合起来
df_big = df_big.join(df_feat, on=['video_id'], how="left")
df_big.loc[df_big['watch_ratio'] > 5, 'watch_ratio'] = 5
user_features = ["user_id"]
item_features = ["video_id"] + ["feat" + str(i) for i in range(4)] + ["photo_duration"]
reward_features = ["watch_ratio"]
这部分是将大矩阵处理成(u,i,r)
形式。
video_id
user_id
转成离散形式lbe_video = LabelEncoder() # 弄成离散的
lbe_video.fit(df_big['video_id'].unique())
lbe_user = LabelEncoder()
lbe_user.fit(df_big['user_id'].unique())
csr_matrix
进行转化 # 类似(u,i,r)
mat = csr_matrix(
(df_big ['watch_ratio'],
(lbe_user.transform(df_big ['user_id']), lbe_photo.transform(df_big ['video_id']))),
shape=(df_big ['user_id'].nunique(), df_big ['video_id'].nunique())).toarray()