1、亚马孙数据格式
reviews_Electronics数据 | |
---|---|
reviewerID | 评论者id,例如[A2SUAM1J3GNN3B] |
asin | 产品的id,例如[0000013714] |
reviewerName | 评论者昵称 |
helpful | 评论的有用性评级,例如2/3 |
reviewText | 评论文本 |
overall | 产品的评级 |
summary | 评论摘要 |
unixReviewTime | 审核时间(unix时间) |
reviewTime | 审核时间(原始) |
meta_Electronics 数据 | |
---|---|
asin | 产品的ID |
title | 产品名称 |
imUrl | 产品图片地址 |
categories | 产品所属的类别列表 |
description | 产品描述 |
亚马逊数据集包含产品评论和产品原始数据,用作基准数据集。 我们对名为Electronics的子集进行实验,其中包含192,403个用户,63,001个商品,801个类别和1,689,188个样本。 此数据集中的用户行为很丰富,每个用户和商品都有超过5条评论。 特征包括goods_id,cate_id,用户评论goods_id_list和cate_id_list。用户的所有行为都是(b1,b2,...,bk,... ,bn),任务是通过利用前k个评论商品来预测第(k + 1)个评论的商品。 训练数据集是用每个用户的k = 1,2,...,n-2生成的。 在测试集中,我们预测最后一个给出第一个n - 1评论商品。
2、代码解读
一、数据格式转换
1_convert_pd.py文件的作用:json格式转化为pandas的dataframe格式,并保存为pickle二进制文件格式。解释一下为什么要保存pickle文件格式,因为pickle文件是二进制形式,读取速度快。
2_remap_id.py文件:讲asin,categories,reviewerID三个字段进行位置编码。位置编码主要通过build_map。
特别解读一下build_map函数的作用,就是讲id排序,并转换成对应的位置索引,举个例子[d,a,c,b] → [4,1,3,2]。
meta_df格式
asin categories
d dd
a aa
c cc
b cc
####################
asin_map, asin_key = build_map(meta_df, 'asin')
cate_map, cate_key = build_map(meta_df, 'categories')
####################
meta_df格式
asin categories
4 3
1 1
3 2
2 2
####################
asin_map = [a, b, c, d]
meta_df = meta_df.sort_values('asin')
meta_df = meta_df.reset_index(drop=True) #meta_df的长度也是63001
cate_list = [meta_df['categories'][i] for i in range(len(asin_map))]
cate_list = np.array(cate_list, dtype=np.int32) #cate_list长度 63001,和item_count一样长
cate_list = [3, 1, 2, 2]
build_dataset.py生成训练集和测试集:
根据用户看过的产品数组生成训练集和测试集
用户id | 用户评论过的产品 | pos_list | neg_list |
---|---|---|---|
3 | [2, 8, 9, 3] | [2, 8, 9, 3] | [5, 7] (随机产生,只要2,8,9,3都不存在即可) |
根据上述的一条记录可以生成2条正样本和2条负样本的训练集,1条测试集
二、model网络搭建
# -- 嵌入层 start ---
ic = tf.gather(cate_list, self.i) # [B]
i_emb = tf.concat(values=[
tf.nn.embedding_lookup(item_emb_w, self.i), # [B ,hidden_units // 2]
tf.nn.embedding_lookup(cate_emb_w, ic), # [B ,hidden_units // 2] = [B, H // 2]
], axis=1) # [B ,H]
i_b = tf.gather(item_b, self.i)
hc = tf.gather(cate_list, self.hist_i) # [B , T]
h_emb = tf.concat([ # 在shape【0,1,2】某一个维度上连接
tf.nn.embedding_lookup(item_emb_w, self.hist_i), # [B, T, hidden_units // 2]
tf.nn.embedding_lookup(cate_emb_w, hc), # [B, T, hidden_units // 2]
], axis=2) # [B, T, H]
# -- 嵌入层 end ---
# -- attention start ---
hist = attention(i_emb, h_emb, self.sl)# [B, 1, H]
# -- attention end ---
hist = tf.layers.batch_normalization(inputs=hist)
hist = tf.reshape(hist, [-1, hidden_units]) # [B, hidden_units]
hist = tf.layers.dense(hist, hidden_units)# [B, hidden_units]
u_emb = hist
# -- fcn begin -------
# -- 训练集全连接层 开始 -------
din_i = tf.concat([u_emb, i_emb], axis=-1)
din_i = tf.layers.batch_normalization(inputs=din_i, name='b1')
d_layer_1_i = tf.layers.dense(din_i, 80, activation=tf.nn.sigmoid, name='f1') # 全连接层 [B, 80]
# if u want try dice change sigmoid to None and add dice layer like following two lines. You can also find model_dice.py in this folder.
# d_layer_1_i = tf.layers.dense(din_i, 80, activation=None, name='f1')
# d_layer_1_i = dice(d_layer_1_i, name='dice_1_i')
d_layer_2_i = tf.layers.dense(d_layer_1_i, 40, activation=tf.nn.sigmoid, name='f2')
# d_layer_2_i = dice(d_layer_2_i, name='dice_2_i')
d_layer_3_i = tf.layers.dense(d_layer_2_i, 1, activation=None, name='f3')
d_layer_3_i = tf.reshape(d_layer_3_i, [-1]) # 展开成行向量
self.logits = i_b + d_layer_3_i
参考文章:
1、Deep Interest Network for Click-Through Rate Prediction
2、一文搞懂阿里Deep Interest Network
3、代码注释