意图识别_Query特征提取

【1】背景/术语:

  1. Search_Session:用户与搜索引擎的一次完整的过程。信息包括:Query、Title、如果用户在Session期间变换了查询词,后续的搜索和点击均会被记录,直到脱离搜索。理解:一个样本即Query和点击的Title

【2】Query的意图识别和传统的文本分类问题有如下区别:

  1. 类别不完全互斥,即多标签。eg:极品飞车属于游戏、电影类
  2. 样本分布不均衡:一、类别方面不均衡,vidio类占总比例需求很大。二、热门样本query出现频率高
  3. Query通常以短文本为主。Query通常极为精炼,特征比较稀疏。而Query有对应的点击Title,充分挖掘两类文本之间的关系,对效果提升有很大的帮助。
  4. 一些关系网:不同Query点击了相同的Title、相同Query点击了不同title

【3】特征提取:

文本特征提取(预先采用了分词工具分词)

  • 因为分词不一定准确,改进:统计分词后word前后word的分布概率,通过P(pre_word|word)等合并成词概率高的词
  • Ngram特征:
  1. double padding Tri-gram:加入句首和句尾结构信息
  2. 选择只在某一类出现的词(Title/Query:百度经验)
  3. TF-IDF
  4. 强化Query尾部和头部对权重:经验分类中Query:怎么,如何。

统计特征提取:

  • Query长度、Query频次、BM-25:用来评价搜索词和结果之间相关性的算法

关系对利用:

  • Query和Title关系:
  1. 宏观:相同对Query对应Title进行合并,将合并的title作为特征补充/协同过滤推荐类别(基于相似性的方法分类)
  2. 微观:提取Query、Title公共子串
  • Query间的关系:
  1. Session中,Query变换的部分Diff部分强烈表达意图
  2. 相关Query集合共现的部分,将相似Query信息作为该Query特征补充
  3. 生成Query的Family Tree(根据Query的包含关系),Query的亲属作为特征补充
  • title间的关系:
  1. 类似Query间特征的处理

语义特征提取

  • LDA

 

你可能感兴趣的:(机器学习)