企业级机器学习 Pipline - 特征feature处理 - part 1

企业级机器学习 Pipline - 特征feature处理 - part 1


part 0, 往期回顾

log数据处理 : 处理原始hive表或hdfs上log日志数据
sample特征处理 :样本打标签、样本清洗、采样以及CXR校准。

企业级机器学习 Pipline - 特征feature处理 - part 1_第1张图片

在上文 样本sample特征 处理的逻辑中,我们选取了能唯一标识一次流量的若干字段,例如:用户硬件唯一性id是 imei 、当前用户行为触发id是 triggerId 、当前广告位置标记 posid 、当前用户作用的对象id是 adid 、是否有点击标志的 label 字段以及Log行为发生的时间戳字段 timestamp上面这些字段在下游处理特征时都非常重要

以上字段大概就是记录一个用户(imei)在某个时刻(timestamp)在某个广告位置(posid)上触发(triggerid)的某条广告(adid)的某次行为知否发生转化(label)。


part 1, 本期正文

书接上文,我们分别介绍了企业级机器学习 Pipline之 log 数据处理 、 样本sample 处理,按照这里文章组织

你可能感兴趣的:(企业级推荐广告算法指南,算法,深度学习)