Deeper Text Understanding for IR with Contextual Neural Language Modeling
Zhuyun Dai, Jamie Callan
Carnegie Mellon University
https://arxiv.org/pdf/1905.09217.pdf
神经网络能够自动学习复杂语言模式和查询文档的关系。神经信息检索模型在学习查询文档相关的模式中已经取得了不错的效果,但是目前很少研究人员着重在理解查询的文本内容或者理解文档的内容。
这篇文章研究了如何利用最近提出的语境神经语言模型,BERT,进而可以对信息检索中的文本理解更加深透。
实验结果表明,BERT模型所得语境文本表示相对传统词嵌入更加有效。跟词包检索模型相比,语境语言模型可以更好地利用语言结构,在自然语言的查询中带来大幅提升。将文本理解能力和搜索知识结合起来可以得到增强的预训练BERT模型,该模型在训练数据有限的情况下对相关性搜索任务比较有利。
语境语言模型的特点在于
BERT的优势在于
实验结果表明,比较长的query效果优于短关键词query的效果,并且停用词以及标点符号通过定义语法结构和单词之间的依赖,对于理解query可以起到比较关键的作用。
BERT用于句对分类的结构图示如下
整体流程如下
数据集信息及处理方式描述如下
几种参与对比的方法如下
几种方法在两个数据集上的效果对比如下
停用词及高频词的作用不可忽视,比如
BERT可视化图示如下
摘要query相对描述query效果还是有所劣势
针对不同形式的query,几种方法在数据集Robust04的准确率对比如下
部分发现及结论如下
几种方法在数据集ClueWeb09-B的准确率对比如下
代码地址
https://github.com/AdeDZY/SIGIR19-BERT-IR
我是分割线
您可能感兴趣
SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)
SIGIR2019|深度学习如何更好地用于学习排序(LTR)(已开源)
SIGIR2019|利用DeepSHAP来解释神经检索模型(已开源)
SIGIR2019|胶囊网络来解释你喜欢什么不喜欢什么(已开源)
KDD2018|基于GBM的动态定价回归模型
KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)
RecSys2019|优于DeepFM和XDeepFM的CTR模型FiBiNET
SIGIR2018|选择性GBDT(SelGB)用于排序学习(已开源)
AAAI2018|斯坦福大学提出并开源增强生成式模型
ijcai2017|CTR经典模型DeepFM,FNN,PNN,W&D,LR,FM对比(哈工大诺亚方舟提出CTR模型)
ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)
ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)
IJCAI2019|基于对抗变分自编码的协同过滤框架VAEGAN
聊聊CatBoost
聊聊XGBoost CatBoost LightGBM RF GBDT
IJCAI2019|新型特征增广GBDT--AugBoost(已开源)
IJCAI2019|清华大学提出并开源新型梯度提升决策树(梯度提升分段线性回归树)
新型梯度提升决策树GBDT-SPARSE(谷歌微软FaceBook加州大学联合提出)
ICML2019|深度学习鼻祖之一Bengio提出并开源图马尔科夫神经网络
GBDT,LR,深度学习如何联合发力(以推荐系统和游戏为例)
大规模GBDT系统应用场景及效果对比(LightGBM,XgBoost,DimBoost等)
新型在线预测模型DeepGBM(基于GBDT扩展的深度学习框架)
顶会中深度学习用于CTR预估的论文及代码集锦 (3)
NIPS2018深度学习(9)|亮点:多元卷积稀疏编码、循环关系网络
ICML 2018 深度学习论文及代码集锦(5)
深度学习用于文本摘要的论文及代码集锦
深度学习用于机器翻译的论文及代码集锦
深度学习用于序列标注中的论文及代码集锦
深度学习在推荐系统中的应用及代码集锦(4)
深度学习在OCR中的应用论文及代码集锦 (2)