Kaggle实战项目学习笔记02:排序与CTR预估问题

案例

online advertising

在线广告业务。

三个收费模式

CTR(click-through rate)
CTR=clicks/Impression * 100%
曝光一千次有100人次点击。 = 0.1
typical click through rate is less than 1%

predict CTR

点击率高的广告主不一定会花很多钱。
例如:大众点评上,必胜客投钱的欲望不高。往往是急切需要用户知道的广告主才会投更多。
希望CTR能预估的最准
预测值-用户点击的概率
click-- 0 or 1
业界使用最多:logist regression
QQ的业务展示 是LR(因为没有什么检索系统,都是在空间或朋友圈里展示)
百度凤巢CTR预估模型为离散值LR
-规模大,刻画细致,-靠特征提升模型, -
现在阿里腾讯也上了DNN模型,但是不意味LR就放弃了。
LR GBDT 可解释性很高, 能查到特征的权重

需要大规模数据做实验的同学,可以在Cretio实验数据下载1TB的CTR预估所需数据

获取数据集: from kaggle
Kaggle实战项目学习笔记02:排序与CTR预估问题_第1张图片
提供了不透明的数据。做过脱敏处理。一类连续型(前),一类离散型(后)
样本量集真的很大(5个G文本文件)

两种处理方式
1;下采样
2;0的数量远大于1(很多倍)
因为展示的广告 不被点击次数多很多–样本不均衡问题
对0的保留率会低一些。

你可能感兴趣的:(学习日记)