tencent_ad_compeition

复赛

与竞争量有关
计算每个旧广告在每天每个广告位的曝光量和竞争量,曝光量除以竞争量=曝光率,得到每天的曝光率。
旧广告规则:100-22号的广告语23号的广告有重叠,24号旧广告的exp=0.75exp23+0.25*exp10-22
旧广告建模:特征:10号到22号的竞争量曝光率,将18号作为validdata,用18号之前的数据对18号曝光量进行预测
再将旧广告的规则与旧广告建模的结果进行融合

新广告建模:新广告的aid和创建时间是无用特征,可以用的是各种type,size,loc

可以对y进行log(1+y)平滑处理之后进行预测

可以通过周一–周五 还是周末来构造特征

广告自身设定特征
广告的静态属性
出价信息特征
时间相关特征:样本日期与广告创建日期的间隔
竞争队列的特征
样本在当天参与竞争的请求数目
广告当天参与竞价的请求数目与某些用户特征的关系

构造其他特征
log(pctr) log(ecpm)
广告当天在竞价队列中的相对排名信息
广告 在当天的ecpm与最大的ecpm比值信息

竞争队列信息:
请求次数,过滤次数,曝光次数,ecpm在竞争队列的rank
针对上述特征,进行当日统计,历史统计,花窗统计

构造验证集时,尽量使验证集的分布与训练集大致相同

规则:历史胜出率*当天请求次数
时间越近的胜出率越可信

基础特征的类别特征的使用:
按照每个类别特征和日期进行组合,对日曝光量进行均值编码
类别特征之间进行两三组合,再与日期进行组合,对日曝光量进行均值编码

滑窗特征:
历史曝光数
历史未曝光数
队列长度
广告主 曝光率
曝光率
当日队列长度
历史曝光率

时序特征:
分别统计当滑窗大小为3,7,14时 广告曝光量的均值 中位数 最大最小值 标准差 日曝光
前k天广告的bid_amx,bid_min,bin_std,
每一天广告队列的长度的均值

每个用户的特征向量的均值作为人群定向

如果要用NN,要把数值特征压缩到【0,1】
删除皮尔逊相关性特别大的特征

对于旧广告:
广告id在日志中每日曝光的中位数,众数,平均数作为特征
广告id在预测日的前一天的统计曝光量作为特征
胜出比例*广告请求次数
对于新广告:
根据特征预测

你可能感兴趣的:(比赛,比赛)