推荐算法: 百度mobius

论文地址:http://research.baidu.com/Public/uploads/5d12eca098d40.pdf

广告不同阶段优化目标不一致

普通用户看到的三个阶段,曝光-点击-转化
背后是一套复杂的召回排序系统

  • 召回阶段:建立query,可以是用户的搜索信息,也可以是广告位的属性或者上下文信息,这个阶段主要考虑相关性
  • 排序:根据召回物料预估CTR,排序,找到TopK物料返回
    从原始物料库到最终呈现给用户的物料,在数量上表现为倒三角的关系
    推荐算法: 百度mobius_第1张图片

下面例子是一个比较成功的呈现
推荐算法: 百度mobius_第2张图片
论文给了一个bad case例子,互联网长尾流量(普通用户比较少关注的物品)中,搜索白玫瑰(white house),由于奔驰与特斯拉是头部流量,那么天然具有很高的出现频率,query或者ad中有一个频率高,那么ctr模型也会认为这个query-ad pair的ctr很高,也就会导致召回质量差的物料,比如搜索白玫瑰,最终呈现奔驰。
推荐算法: 百度mobius_第3张图片
所以存在这样一个情况:低相关性但是预估CTR高的ad投放出去了。
从经验上看,实际的CTR可能因为query-ad 不相关而表现不佳

解决方案

最终返回的高CTR推荐物料
相 关 性 强 + 相 关 性 低 相关性强+相关性低 +
论文主要的思路是把相关性低的物料且高CTR的物料(也就是bad cases)筛选出来。
推荐算法: 百度mobius_第4张图片
推荐算法: 百度mobius_第5张图片
query-ad 的相关性,设置一个阈值,然后标记为**【bad cases】**(低相关性并且高ctr), 需要提前采集的样本或者人工构造
模型最终是三分类模型,与传统二分类CTR模型不一样,可以用bad case先过滤掉一部分高ctr的内容

算法没有本质上实现多目标优化,是通过减少召回层与排序层的不匹配数量达到CTR ROI联合优化

高效检索

ANN和MIPS提高 检索效率是工程技巧,与算法模型关联性不是很大。

你可能感兴趣的:(ML)