【论文分享】APPLYING DEEP LEARNING TO ANSWER SELECTION: A STUDY AND AN OPEN TASK

当前,QA问答系统、chatbot异常火爆,智能聊天已成为人工智能的一个重要分支,BAT、TMD、华为、京东等国内一线互联网企业都将人工智能作为其未来的战略布局,其中以百度、头条尤为突出。后面会陆续分享几篇文本相似度、FAQ相关的论文。写的太烂,当成记事本吧,一来做一个总结,二是供以后查阅回顾。

【论文概要】

本论文提出了将深度学习(CNN)应用于QA系统的问答匹配。

1、本文提出了多种CNN结构,以此探索不同CNN结构对准确率的影响,CNN结构的不同主要体现在隐含层和卷积层的变换,以及卷积核数量的变换。且文中对每个question都设定了一个answer candidate pool (size = 500),每个问题都是基于answer candidate pool来做匹配,并不是基于整个数据集。

2、相较与传统的相似度计算方法,本文还提出了一种新颖的计算相似度的方法。

3、文中的训练集、测试集都是基于保险行业数据,并且数据已公开。

【Proposed Models】

本文提出了6中CNN结构模型:

Q:question,A:candidate answer,HL:隐含层(Wx + B),CNN:卷积层,P:Pooling,T:tanh,Cosine Similarity:相识度计算

Loss Function:L = max {0,m − cos(VQ, VA+) + cos(VQ, VA−)}

   

通过以上6种结构我们可以看到,不同结构的设计主要是基于以下几点:

1.   是否采用参数共享机制,即share the same HL and CNN weights (Architecture II compared to Architecture I)

2.   CNN操作之后是否还需要HL层 (Architecture III and Architecture IV compared to Architecture II)

3.   多次不连续卷积 (Architecture V compared to Architecture II)

4.   采用layer-wise supervision(Architecture VI compared to Architecture V)

5.   采用不同数量的卷积核个数

6.   相较于cosine similarity,提出了两种更好的匹配度计算方法:GESD and AESD

具体的6种结构的比较可见下表:

【Experiment and Experiment Result】

实验设置:

optimization strategy:Stochastic Gradient Descent

loss function:L = max {0,m − cos(VQ, VA+) + cos(VQ, VA−)} added L2-norm

weight of the L2-norm:0.0001

learning rate:0.01

margin:0.009

实验结果:

1.   参数共享机制会提升准确率

2.   在CNN层之后再加HL层效果较差

3.   增加卷积核的个数会提升准确率

4.   多次不连续卷积效果更好

5.   不同的匹配度计算方法会对实验产生重要影响,GESD and AESD is better than cosine similarity

【论文贡献】

1.   创建了基于保险行业的QA task,并公开了数据集

2.   提出了多种CNN的变形,并基于实验做了比较

3.   提出了3个创新点:基于layer-wise supervision的多核卷积、多次不连续的CNN卷积操作、新的相似度匹配方法:GESD and AESD

4.   最优准确率达到了65.3%

5.   为该方向的研究提供了一些向导和结论:采用参数共享、在CNN操作之后不必再添加HL层、CNN with layer-wise会提升准确率、不连续卷积效果更好、适当增加卷积核个数、相似度计算方法会对实验结果产生重要影响,并且cosine similarity不一定是最好的。

 

 

你可能感兴趣的:(论文分享)