本周学习汇报
学习内容:
- 复习研究前几周看的GCN相关论文代码
- 深刻理解学习Light_GCN代码
- 学习多任务在推荐系统发面的应用
一、GCN模型的基本推荐流程:
1)训练时,用户和物品的初始特征向量可以是随机生成的,也可以是预训练的属性特征,通过模型参数进行转换和学习后生成最终的特征表达,通过最终的特征表达的内积来表示用户u对项目i的评分预测。每个epoch里,设置一个batchsize,将训练集分为Iteration(n_batch= 训练集中用户个数除以batch_size)个batch,每个batch更新一次模型参数,每个epoch里计算一次loss函数,训练10个epoch的时候就是更新了10*Iteration次参数。每次Iteration(n_batch)从训练集里面随机取出一个batchsize的用户,对每个用户都从训练集中找一个positive的项目,找一个negtive的项目(就是不在训练集里的),根据取出的用户id、积极的项目id,和消极项目id从之前生成特征表示矩阵里面取出对应的embedding, 然后通过bpr loss函数计算他们内积之差,通过adam函数更新模型参数优化loss函数,
2)测试时,从测试集里取出所有的用户,用户数量太大,也分为若干batch,每个batch中的用户和数据集中所有的项目,他们的矩阵乘积则表示对应的预测评分,对于单个用户和物品的向量来说就是向量的内积。根据测试集所有用户的预测评分矩阵与测试集所有的用户对应的物品计算相应的召回率和准确率:从预测评分矩阵选取每个用户top_k的物品,查看这些物品是否在用户对应的交互物品中,从而计算召回率等指标。如果要看某一个用户的推荐物品,根据学习到的该用户的特征向量与所有物品的特征向量进行矩阵相乘,获得一个一维度的评分向量,对该向量进行排序后取出最优的物品。
二、Lightgcn整体流程:
- 构建dataset类:处理数据集,构建m_item, UserItemNet等统计量
- 实例化LightGCN模型(继承自nn.module):初始化embedding、设置激活函数、调用dataset中的SparseGraph函数(构建邻接矩阵、度矩阵)
- 指定loss,BPRLoss()
调用Procedure.Test & Procedure.BPR_train_original进行测试和训练。① 采样 (u,i,j) ,正负采样都是随机选的。② 根据LightGCN的聚合公式( D − 1 / 2 A D − 1 / 2 ) e i ,得到聚合三次后(u,i,j)的embedding③ 传入embedding,通过bpr_loss()计算loss。LightGCN就是通过信息传播聚合得到embedding,然后采集正负样本,使用bpr_loss训练就好了。
1. import过程
1.1 world
这部分是获取参数、路径:
- 获取路径,记得将ROOT_PATH = "/Users/gus/Desktop/light-gcn"换成当前路径:ROOT_PATH = os.path.dirname(__file__)
- args = parse_args()获取参数,存到config字典中
- 定义了cprint,相当于高光输出。
1.2 utils
这部分指定评价指标
- 检查是否含有cpp文件
- 评价指标都在里面
1.3 register
1. 输出参数
2. 定义MODELS
MODELS = {
'mf': model.PureMF,
'lgn': model.LightGCN
}
2. 指定模型和损失函数
传入初始化参数(config和dataset),进行实例化
Recmodel = register.MODELS[world.model_name](world.config, dataset)
Recmodel = Recmodel.to(world.device)
bpr = utils.BPRLoss(Recmodel, world.config)
- 初始化LightGCN时,就构建好了邻接矩阵什么的
3. 训练过程
3.1 测试
每隔十轮就进行测试 Procedure.Test(dataset, Recmodel, epoch, w, world.config['multicore'])
- 调用rating = Recmodel.getUsersRating(batch_users_gpu)得到用户对所有物品的评分(两个embedding相乘)
- 修改历史交互物品的评分(不会被选入TopN):rating[exclude_index, exclude_items] = -(1<<10)
- 传入真实值和预测值,查看各个指标结果:test_one_batch(x);调用了utils中的函数。
3.2 训练
用Procedure进行训练:output_information = Procedure.BPR_train_original(dataset, Recmodel, bpr, epoch, neg_k=Neg_k,w=w)
- 先进行正负样本采样
- 调用utils.stageOne计算loss和更新
- 调用all_users, all_items = self.computer()获取embedding;初始embedding是随机的,经过三次聚合得到最终的embedding
- 根据bpr loss计算损失
- 使用Adam进行更新
- 涉及函数用法:
- os.path.join()用法: 获取当前目录,并组合成新目录 CODE_PATH = join(ROOT_PATH, 'code')
- argparse 命令行选项、参数和子命令解析器。
① import argparse导包
② parser = argparse.ArgumentParser()创建对象
③parser.add_argument() 添加值
④ args = parse_args()进行解析,之后调用参数直接args.xx就好了
3. simplefilter是一个模块,它提供了构建卷积分类网络所需的工具
4. strip() 删除空格/规定字符,split()拆分
5. @property:是一种装饰器,将方法变成属性调用
- dict.get(key, default=None)返回指定键的值,如果键不在字典中返回默认值 None 或者设置的默认值。
- numpy.random.randint(low, high=None, size=None, dtype='l')指定上下界和size
- np.unique( )的用法 该函数是去除数组中的重复数字,并进行排序之后输出。
- csr_matrix构造稀疏矩阵;indices为[1,4,12,34,1,3,56,12,45,10];indptr是[ 0, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10](非零的位置)
- nonzero函数是numpy中用于得到数组array中非零元素的位置(数组索引)的函数。
- pprint用于打印复杂的数据结构对象,例如多层嵌套的列表、元组和字典等。
- sp.dok_matrix:采用字典来记录矩阵中不为0的元素(有“稀疏字典”那味)这篇文章解释了各种稀疏矩阵的构建方法和区别(coo, csr, dok)
- torch.nn.Embedding(num_embeddings=self.num_users, embedding_dim=self.latent_dim) 构建embedding;这个模块常用来保存词嵌入和用下标检索它们。
- torch.nn.init.normal(tensor, mean=0, std=1)从给定均值和标准差的正态分布N(mean, std)中生成值,填充输入的张量或变量。
- def shuffle(*arrays, **kwargs):表示不确定具体参数个数,前者是tuple类型,后者是dict类型
- 带有 yield 的函数就是一个 generator,它和普通函数不同,生成一个 generator 看起来像函数调用,但不会执行任何函数代码,直到对其调用 next()(在 for 循环中会自动调用 next())才开始执行。虽然执行流程仍按函数的流程执行,但每执行到一个 yield 语句就会中断,并返回一个迭代值,下次执行时从 yield 的下一个语句继续执行。看起来就好像一个函数在正常执行的过程中被 yield 中断了数次,每次中断都会通过 yield 返回当前的迭代值。
- torch.topk(rating, k=max_K)用来求tensor中某个dim的前k大或者前k小的值以及对应的index
- assert expression用于判断一个表达式,在表达式条件为 false 的时候触发异常。
- with结构,基本思想是with所求值的对象必须有一个__enter__()方法,一个__exit__()方法。紧跟with后面的语句被求值后,返回对象的__enter__()方法被调用,这个方法的返回值将被赋值给as后面的变量。当with后面的代码块全部被执行完之后,将调用前面返回对象的__exit__()方法。下面这个例子是计算运行时间的:
三、推荐系统中为什么要用多任务学习?
- 方便。在推荐任务中,往往不仅要预测用户的engagement(例如CTR),还要预测用户satisfaction(例如评分、CVR、观看时长)。如果用多个模型预测多个目标,参数量会很大,而且在线上也不好维护。因此需要使用一个模型来预测多个目标,这点对工业界来说十分友好。
- 多任务学习不仅方便,还可能效果更好。针对很多数据集比较稀疏的任务,比如短视频转发,大部分人看了一个短视频是不会进行转发这个操作的,这么稀疏的行为,模型是很难学好的(过拟合问题严重),那我们把预测用户是否转发这个稀疏的事情和用户是否点击观看这个经常发生事情放在一起学,通过参数共享,一定程度上会缓解模型的过拟合,提高了模型的泛化能力。这其实是regularization和transfer learning。也可以理解为,其他任务的预测loss对于"转发"事件预测来说是辅助loss。从另一个角度来看,对于数据很少的新任务,这样也解决了冷启动问题。
总结与反思:
要学会回头看,不能每周都追求自己这周又学了什么新东西看了那篇新文章,要把基础打扎实。前几周连续看了几篇GCN论文之后这周回头再看,对论文中的某些点理解就变了,甚至发现自己以前的理解是错误的。结合代码去看论文就能知道具体要怎么实现。不能只追求把论文模型跑通,要把思想弄明白,把代码理解,自己动手去实现模型。
下周学习计划:
- 弄懂别人代码后自己去动手写代码实现
2 .继续了解多任务在推荐系统中的应用