二元逻辑回归(Logistic Regression, LR)模型
几率(odds:
对数形式:
基于LR的点击率预测
Where, x代表一个(query, ad)对应的特征向量, y 属于{1,0}分别代表点击和不点击,p(y=1|x)就代 表给定query下,某ad的点击率
点击率预测特征
广告创意特征:
图片,标题文字,价格,销量
推广商品所属类目,包含属性
创意组,推广计划,广告主
Query信息:包含的Terms-Query分析:类目,属性-Query扩展:同义词,相似query
环境特征: 用户,时间
名义特征: 时间,创意ID等
点击反馈特征 :计算历史上包含该特征的(query, ad)的点击率
ad所属广告计划的历史点击率
组合特征 :query与ad标题匹配的term个数
位置偏差
位置偏差(position bias)
–假设:不同位置上的广告被用户看到的概率不 同,排位靠前的广告被看到的概率更大,导致其点击率“天然”更高一些
解决方案一:
–(Cheng and Cantú-Paz, 2010)
• 计算广告CTR时用不同排位上的平均ctr进行调整
解决方案二:
–Online Learning from Click Data for Sponsored Search. (Ciaramitaet al., 2008)
• 只有当排位低的广告被点击而排位高的广告没有被 点击时,才使用这些广告作为训练数据
个性化
Personalized Click Prediction in Sponsored Search. –HaibinCheng, Erick Cantú-Paz. WSDM. 2010.
• 假设:query相同时,不同user对不同ad的点击率 也相差较大
• 解决方案:加入user特征到LR模型里,预估 p(c|q,a,u)
–Demographic特征
• 如年龄,性别,婚姻状况,职业,兴趣等
–User-specific特征
• 如用户历史CTR,user组合特征(User-Ad, User-Query)
广告间相互影响
Relational Click Prediction for Sponsored Search –ChenyanXiong, TaifengWang, WenkuiDing, YidongShen,
Tie-Yan Liu. WSDM 2012.
• 假设:某条广告的点击率会受到同时展现的其他广 告的影响
• 解决方案:同时预估所有广告的点击率,考虑广告 间的相互影响
–广告间的相似度
–Continuous CRF model with MLE