高德搜索技术

自己整理关键知识点(还要再看一遍更新):

文章名:机器学习在高德搜索建议中的应用优化实践
原文链接:https://mp.weixin.qq.com/s/D3qxlzZgwnMprzEVuMpmgg

  1. 背景
    通过suggest服务:智能提示,降低用户输入成本。响应快,不承担复杂query的检索。目的是学习query与sugges的相关性。

  2. 模型
    LTR, GBrank

  3. 建模遇到问题
    样本构造&模型调优
    基于用户对poi点击生成样本缺点:
    1)点击过拟合,推荐面窄
    2)点击不一定是用户真实满意度
    3)只展示top10结果,更多结果没有机会展现,因此没有点击。
    4)完整query检索不到,统计不到用户需求。
    问题: 无点击数据处理,特征系数行处理。稀疏特征被忽略,但中长尾case需要依赖这些特征。
    目的:全剧误差最小化

  4. 样本构造
    1)基本原理:用户连续搜做看作一个session。不是统计某个query下的点击,而是把session看作一个整体,用户在session最后点击行为,泛化到session中的所有query。
    2)详细过程:
    a. 数据融合: suggest点击,搜索点击,搜索导航
    b . session切分: 城市,uid,时间戳
    c . session清洗:前缀一致,拼音一直,输入法转换。
    d. 样本统计:用户输入人session中,末尾queryyou点击,则session中所有query都计算为有点击。
    e。抽取线上上百万点击日志随机query,每个query召回前N个,基于上述样本构造方案,生成千万级别的有效样本作为gbrank。
    注意:一个session包含多个query,末尾query对应10个poi, 则session中多个query均有点击, 因此样本百万变为千万。

Gbrank
样本构建: session划分,末尾query点击,则智能整个session点击。
模型调参:loss调整。基于两个样本特征差,修改loss负剃度。差异越大,负剃度越大。
稀疏特征提取,截图

文章名:深度学习在高德POI鲜活度提升中的演进
原文链接: https://mp.weixin.qq.com/s/ypU2_MkC9Ut7k3OYM8GLQg

1. 感悟
课程也会有过期,新技术。
为什么新人课程池和首页营销课程池分开。
最新课程给一定的top曝光量,领取率低,上课率低则降权。

2. poi过期特征挖掘
时间序列向量onehot ,如果最后一次人工核实存在月份标记为1,其他为0。如果人工不核实改动了,说明改课程快要过期了。

3. 过期挖掘模型
Rnn可变长度输入(不同poi创建时间不一样,则时间序列长度不一样。增加" 门", 创建时间之前的是0,之后的是1,增加时间序列的高可用性。)
RNN过期挖掘,LSTM加softmax预测过期概率。
头部过期挖掘。缺失值插补,头部默认为0。尾部采用,对应列值规范化后,加权插补。


4. 模型Wide&deep
Wide部分,属性,状态,类别。
首位标志位为1表示为缺失值,后面是onehot编码.生成高维稀疏向量。通过一层全链接网络降维。
deep部分:rnn变种,lstm, tcn, dual-lstm

DD WDR模型
https://www.kdd.org/kdd2018/accepted-papers/view/learning-to-estimate-the-travel-time

你可能感兴趣的:(搜索)