ctr论文调研

1.互联网广告点击率预估模型中特征提取方法的研究与实现

背景

北京工商大学发表在《计算机与信息工程学院》2017 (针对展示广告)

主要做法

  • 文章主要是在特征工程这块下功夫,提出来基于GBDT模型的多维特征提取方法,该方法利用原始特征数据构建多维特征库,并将特征库中除ID类特征以外的其余特征输入GBDT模型进行特征筛选,得到高层特征。
  • 数据预处理部分: 对数据异常点分析,ctr历史分布,正负样本比例进行探索。
  • 特征库设计: ID类特征, 用户特征, 广告特征, 历史反馈特征
  • GBDT是一种常用的非线性模型。它基于集成学习中的boosting模型,每次迭代都在减小残差的梯度方向新建一颗决策树,迭代多少次就会生成多少棵决策树。
  • 大数据平台搭建,进行系统搭建。

可借鉴的点与启发

  1. 文章主要是基于GBDT进行特征的组建和选择,模型有些单薄。其特征工程部分可以作为论文中特征工程的一个子部分。
  2. 文章的数据预处理部分是可以借鉴的。
  3. 模型部分本篇并没有探索。
  4. 大数据平台搭建部分,在有余力的情况下,也可以做一做。

2. 互联网广告点击率预测模型的研究

背景

郑州大学 2019 毕业论文 (针对搜索广告)

主要做法

  • 对单模型进行分别介绍
  • 然后进行模型融合
  • 所用数据集为kddcup2019

可借鉴的点与启发

  • 这篇文章应该是标准的毕业论文的结构,虽然干货不多,但是行文结构值得借鉴。毕设做这个任务,也只能分为背景介绍,技术介绍,数据处理,单模型测试结果,创新后的结果,我可能会加一个工程上的。
  • 数据集可以像文章一样用论文里的。

3. 基于DeepFM模型的广告推荐系统研究

背景

张凯发表在《山东大学控制科学与工程学院》2017

主要做法与一些基础知识

  • 逻辑回归万物的发生多可以用可能性或者几率来表达,几率表达式如下:
    odds = p/(1-p)
    logit(odds) = log(p/1-p)
    log(P(Y=1 |x) /1 - P(Y = 1|x)) = wx
    求解方法有牛顿法,拟牛顿法,梯度下降法,梯度下降法用一阶导数信息,牛顿法用二阶导数信息。

可借鉴的点与启发

你可能感兴趣的:(毕设相关)