搜索(2) --丁香园

整理自:https://mp.weixin.qq.com/s/WRVwKaWvY-j-bkjxCprckQ

  1. query理解包含部分:
    1)短文本正确理解: 实体词识别,纠错,意图识别
    2)长文本良好结构化: 关键词抽取,主题词抽取,文本分类
    3)排序模型(召回策略, LTR, 语义匹配)
    注: 召回是搜索的基石。

  2. 召回优化过程
    1)首次,产品分析,用户调研,修改检索字段或公式,生成baseline。
    2)其次,问题分析:无匹配内容, 最匹配内容靠后, 除了字面匹配,其他内容相关性差。
    3)再次,优化: Query词权重分配,动态时效性判定, Query扩展等。

  3. Query扩展必要性

    1. Query普遍较短,无法很好命中需要的内容。
      2)Query中词通常与多个主题关联,搜索引擎词匹配可能不用用户关心的主题。
      3)用户模糊或联想搜索。
      Query扩展理解为联想功能,将罕见搜索词改写成"常见"搜索词。
      搜索(2) --丁香园_第1张图片
      流程:
      1)Query 预处理:纠错,补全
    2. 关键词抽取
      3) 关键词权重排序
      4)关键词选取
      5)关键词扩展
      6)Query 改写。
  4. 扩展词来源
    大体: 用户习惯,行为,描述事物本身语义。
    1)业务场景语境
    优点:用户搜索log中固定搭配。与原始Query较高匹配度。 满足大多数用户关注话题。
    缺点: 基于统计学层面,与语义无关,无法满足语义层面上的相关性。
    2)文档预料
    文档库扩展词重要来源。缺点,与原始Query存在文本上差异较大。增加召回的同时,牺牲一定匹配度。
    3) 构建领域知识库
    特定领域知识库。优点:语义相关度可以做更精准控制。构建成本较高。

  5. 扩展模型思路
    主要处理问题: 原始 Query中term与待扩展term/phase如何产生关联。
    (1) 相关模型
    Query词语扩展词在预料中共现大小。
    《Probabilistic Query Expansion Using Query Logs》
    《Context-Aware Query Suggestion by Mining Click-Through and Session Data》
    (2)翻译模型:
    BM25
    《Towards concept-based translation models using search logs for query expansion》
    《Learning to Rewrite Queries》
    《A User-Centered Concept Mining System for Query and Document Understanding at Tencent》

  6. 建议
    复杂工作向后撤, 踏踏实实做知识图谱投建,知识表示学习,长文本标签化等。

你可能感兴趣的:(搜索)