主客观数据集的构建

主客观数据集的构建

问题流程及目的

主要流程

将 SA 算法套入到 NCF 模型当中

  • SA 算法可以得到以下数据,Active user 与 Subjective user 的相似度
  • 取每个 Active user 的相似度接近的 4 个用户,组成一个矩阵,替代 userID
  • 取Active user 与 subjective user 的相似度,替代 movieID
  • 利用 NCF 模型,得出 N 个用户,之后再进行 SA 算法的处理,得出推荐项目

构建数据集的作用

构建数据集,使该数据集能直接跑 NCF 模型

  • 数据集有 3 个,分别为:train (训练集) ,test ( 测试集 ),negative ( 测试集2 )
    • 训练集用来套入模型训练,数据格式为:userID,movieID,score
    • 测试集用来测试训练的模型,数据格式为:userID,movieID,score
    • 测试集 2 用来测试训练模型的指标,数据格式为:(userID,movieID) [ movieID 数组]

疑惑点

  • 我想看一电影,朋友的推荐当成是主观意见分,大学生推荐的当成是客观分
    • 首先 “朋友” 代指与我(Active user)相似度接近的 4 个用户,主观意见分就是这 4 人的 平均分
    • “大学生” 代指 Subjective user,客观分就是 Active user 与 Subjective user 的相似度
  • 目前想的是数据集的格式对应
    • userID 照旧之前的 userID
    • movieID 对照 Subjective user
    • score 对照 相似度
  • 目前问题就是 “大学生” ,即 Subjective user 的数量太少了,只有1个,而 movieID 的数量是很多的,只能构建 1 个 二维的矩阵

解决方法

尚待思考

你可能感兴趣的:(主客观数据集的构建)