百度 计算广告学学习记录

2.4 用户特征提取

          历史query特征、用户历史、浏览特征用户分类特征、时效性、用户体验特征。

          历史Query特征提取:拍卖词匹配算法、切词边界、语义相关性、Query分类。

          历史页面特征:网页关键词提取、网页分类特征、网页广告点击、历史浏览页面模版。

          用户分类:Query关键词、Query分类、站点、页面标题、目录、主要区域、页面分类、广告点击&广告分类、频次、组合、时间衰减。

                            特征挖掘、人工评估、决策树。     语料净化、特征选择、模型构建、效果评估。

          用户体验:单调性、醒目度、敏感性。 用户反馈:兴趣、广告。

         Session特征分析:关键词特征提取修正、意图识别、语义拓展。

 

2.5 广告特征提取:

         拍卖词特征、创意特征、到达页特征。

         拍卖词:结构分析、Term赋权。 广告特征提取。

         创意特征:文本创意、多媒体创意。飘红、颜色、形状、语义、大小。

         到达页特征:页面分析、页面标题、转化页/咨询页。

        广告特征分析:广告行业分类、敏感、欺诈。不相关词语挖掘、相关性匹配。

 

3.1 CTR预估背景:

       点击收费:CPC、CPM、CPC\CPM混合计费。

       广告计费机制:b(i)*p(i)最高者为winner。

              计费 b(2)p(2)/p(1) 广告点击率越高单价可以越低、实际计算取排名第二的出价计算。

3.2   CTR预估特点:

             海量数据:训练样本、特征复杂。

            点击率低:数据稀疏。

             噪声数据多:

             数据大、特征多、类别不平衡、噪音多。

      挑战二:时效性。

            CTR随时间变化、季节变化、人兴趣变化。

            Badcase快速下线。新网站、新广告快速迭代---冷启动。

       方法:在线算法、移动时间窗口Batch算法。

       挑战三:Exploration。

             CTR预估决定了未来训练样板中的广告。

             exploration/exploitation trade-off。

              长期收益 vs  短期收益。

3.3 CTR预估模型:

        特征处理:类别特征、连续特征。使用one-hot编码类型特征。使用特征外积表示特征组合。特征维数等于类别和。

        特征选择:

        Filter类:单特征AUC、单特征AUC上界、GINI指数、信息熵、点击直方图

       Wrapper类:AUC、AUC上界、MAE、WMAE、似然LOSS、预估CTR均值、预估CTR方差。

        Embedding类:L1正则化、Grafting分、Foba分。

 

       

 

        

你可能感兴趣的:(数据挖掘)