当前,QA问答系统、chatbot异常火爆,智能聊天已成为人工智能的一个重要分支,BAT、TMD、华为、京东等国内一线互联网企业都将人工智能作为其未来的战略布局,其中以百度、头条尤为突出。后面会陆续分享几篇文本相似度、FAQ相关的论文。写的太烂,当成记事本吧,一来做一个总结,二是供以后查阅回顾。
【论文概要】
本论文提出了将深度学习(CNN)应用于QA系统的问答匹配。
1、本文提出了多种CNN结构,以此探索不同CNN结构对准确率的影响,CNN结构的不同主要体现在隐含层和卷积层的变换,以及卷积核数量的变换。且文中对每个question都设定了一个answer candidate pool (size = 500),每个问题都是基于answer candidate pool来做匹配,并不是基于整个数据集。
2、相较与传统的相似度计算方法,本文还提出了一种新颖的计算相似度的方法。
3、文中的训练集、测试集都是基于保险行业数据,并且数据已公开。
【Proposed Models】
本文提出了6中CNN结构模型:
Q:question,A:candidate answer,HL:隐含层(Wx + B),CNN:卷积层,P:Pooling,T:tanh,Cosine Similarity:相识度计算
Loss Function:L = max {0,m − cos(VQ, VA+) + cos(VQ, VA−)}
通过以上6种结构我们可以看到,不同结构的设计主要是基于以下几点:
1. 是否采用参数共享机制,即share the same HL and CNN weights (Architecture II compared to Architecture I)
2. CNN操作之后是否还需要HL层 (Architecture III and Architecture IV compared to Architecture II)
3. 多次不连续卷积 (Architecture V compared to Architecture II)
4. 采用layer-wise supervision(Architecture VI compared to Architecture V)
5. 采用不同数量的卷积核个数
6. 相较于cosine similarity,提出了两种更好的匹配度计算方法:GESD and AESD
具体的6种结构的比较可见下表:
【Experiment and Experiment Result】
实验设置:
optimization strategy:Stochastic Gradient Descent
loss function:L = max {0,m − cos(VQ, VA+) + cos(VQ, VA−)} added L2-norm
weight of the L2-norm:0.0001
learning rate:0.01
margin:0.009
实验结果:
1. 参数共享机制会提升准确率
2. 在CNN层之后再加HL层效果较差
3. 增加卷积核的个数会提升准确率
4. 多次不连续卷积效果更好
5. 不同的匹配度计算方法会对实验产生重要影响,GESD and AESD is better than cosine similarity
【论文贡献】
1. 创建了基于保险行业的QA task,并公开了数据集
2. 提出了多种CNN的变形,并基于实验做了比较
3. 提出了3个创新点:基于layer-wise supervision的多核卷积、多次不连续的CNN卷积操作、新的相似度匹配方法:GESD and AESD
4. 最优准确率达到了65.3%
5. 为该方向的研究提供了一些向导和结论:采用参数共享、在CNN操作之后不必再添加HL层、CNN with layer-wise会提升准确率、不连续卷积效果更好、适当增加卷积核个数、相似度计算方法会对实验结果产生重要影响,并且cosine similarity不一定是最好的。