YoutubeNet的数据答疑

实在是太忙了,抽空给大家解析一下之前写的YoutubeNet的数据是怎么构造的,协助大家可以自行构造一下。

这边和大家说一下,我没有上传数据的原因有两个:

  • 涉及公司的数据财产,不方便上传
  • 懒得做脱敏处理
  • 数据一共有1300多万条,传输实在不方便

主要数据处理的部分在map_id_idx.py脚本下,其中包含all_item_20180624.txt和click_thirty_day_data_20180609.txt两个数据集合。

其中,all_item_20180624.txt是当日所有的商品集合:包含'Prd_Id', 'ItemId', 'BrandId', 'MsortId'和‘GenderId'五列,分别代表着商品id,skuid,低级品牌id,中级品牌id,产品性别,最后形如:

5675    50000055    175 1500    3
2577    50000056    187 66  3
2002    50000057    63  11  2
2007    50000058    137 58  3
2075    50000060    80  50  3
2348    50000061    138 16  2
423 50000062    162 237 3
469 50000063    10  1500    3
1102    50000064    176 11  1
1896    50000066    37  27  1
2489    50000067    27  44  1
...

click_thirty_day_data_20180609.txt为近三十天的用户点击流,包含'UId', 'ItemId', 'clickTime'三列,分别代表着uid、点击的skuid,点击时间,最后形如:

34  51668064    1528602406
34  51890512    1528788389
34  51884724    1528788393
34  51884720    1528788399
34  51884718    1528788414
34  51580974    1528788442
34  51854970    1528788487
34  51514910    1528788499
34  51855000    1528788535
34  51854990    1528788569
34  51854998    1528788572
...

通过map_id_idx.py对所有的商品进行标序号,然后带入用户的点击流中,方便后期做embedding操作,就酱。

欢迎大家关注我的个人bolg,知乎,更多代码内容欢迎follow我的个人Github,如果有任何算法、代码、转行疑问都欢迎通过公众号发消息给我。

YoutubeNet的数据答疑_第1张图片

你可能感兴趣的:(YoutubeNet的数据答疑)