用深度学习解决问答(QA)方法_语义匹配

有两种思路:

采用ad-hoc检索方式

1.首先获取原有的数据集qa-pairs

2.用户提出的问题,进行预处理后,先从数据集中获取,相关的10个预选答案,可以采用Lucene全文检索方法。

3.之后采用深度文本匹配模型(drmm),从10个预选答案中选出分数最高的答案作为最终的答案。

参考:

https://www.chedong.com/tech/lucene.html

A Deep Relevance Matching Model for Ad-hoc Retrieval.pdf

DRMM论文

该论文是针对信息检索领域的关联度匹配模型,不同于一般的文本语义匹配模型。该论文关联度匹配模型是指问题(query)和答案(doc)之间的关联度匹配。而传统的文本匹配是指两个句子之间文本语义匹配度,输入的是两个长度类似的句子(text1 text2)。

文本语义匹配:给定两个文本的语义匹配和推理语义关联度

检索管理度匹配:识别doc和query的关联度


文本匹配任务的通用描述


先将文本T1和T2用Φ 分别映射成表示向量,之后再用打分函数F计算两个向量间的匹配度。

现有的深度匹配文本匹配模型有两种:

representation-focused model (基于语义表示模型)
interaction-focused model (基于交叉注意模型)

基于语义表示模型:

先将连个单独文本采用深度神经网络表示成向量,之后再计算两个文本的匹配度。

Φ 是一个复杂的表示映射函数,而F是一个相对简单的匹配函数。

基于交叉注意模型:

将文本采用简单的表示,之后建立两个文本的局部交叉特征,之后利用深度神经网络来获得层次的交叉模式来匹配。

这种方法,Φ 是一个相对简单的额映射函数,但F是一个复杂的深度模型。

用深度学习解决问答(QA)方法_语义匹配_第1张图片

分析文本语义匹配和关联度匹配的不同:

语义匹配:

1.需要捕获语义的相似度信息,比如两个文本具有相同的语义,但是不同的表达方式。针对对话系统,一个合适的回答表达的语义可能和之前的对话有关,但是该回答的词却没有出现在之前的对话中。

2.需要利用语法的信息,两个文本具有较好的匹配度,一定程度上他们的语法信息也有关联,需要充分利用语法结构而不只是把句子作为单个单词。比如对于问答系统,问句都具有相似的语法结构。

3.全局的匹配要求,语义匹配要求针对两个文本作为一个整体去推测该语义,需要一个全局的一个匹配度。

相关度匹配:

精确的匹配函数:利用不同的语义相似度匹配函数。

问句(query)词的重要性:因为通常query都比较短,而需要关注不同的词的重要性。

不同的匹配要求:针对检索,可能相关的答案(doc)文本很长,并且可能一个长文本和一个短文所含的语义范围相同。相关度匹配可能与答案的任何相关Doc匹配和不要求全局的文档匹配。

用深度学习解决问答(QA)方法_语义匹配_第2张图片用深度学习解决问答(QA)方法_语义匹配_第3张图片

该文提出的DRMM模型如上图。

该模型主要和interaction-focused model类似

主要是三部分的创新:matching histogram mapping, a feed forward matching network, and a term gating network.

1.特征映射

将query的每个词和一个答案(doc)的所有词计算histogram特征。

2.前馈匹配网络

利用前馈匹配网络来学习层次特征。

现有的交叉注意模型都是利用CNN网络,通过匹配矩阵来获得层次的匹配模式,基于位置信息。

该模型是从不同交叉特征中提取相关的匹配模式而不是利用不同的位置提取。

3.term gating network

获得query的每个词的重要性。





采用迁移学习的方式:

第1、2步采用和上面同样的思路。

第3步,采用迁移学习的方法。

用深度学习解决问答(QA)方法_语义匹配_第4张图片

参考:

Modelling Domain Relationships for Transfer Learning on Retrieval-based Question Answering Systems in E-commerce.pdf

https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247486660&idx=1&sn=f680fc421c616d4fd5fe198e8d4a8706&chksm=96e9d344a19e5a52843b5c30987bdc813436234ef231a9ef3f0a98ae619abca49cc0eb552aa3&mpshare=1&scene=1&srcid=12113gJz6osahcySfSGDEkfP&pass_ticket=6stKyTdzDIJl4jOpkAkiT%2Bs0Z1ymT2pbkZiEeUne58pe%2FkddexkH7b6AQ9JFxi7g#rd


你可能感兴趣的:(NLP)