论文阅读-文本匹配(二) 孪生char-BLSTM

版权声明:本文为博主原创文章,未经博主允许不得转载。禁止抄袭。

由于作者资历尚浅,有理解错误的地方欢迎大家指正和交流。


论文简介

论文题目: Learning Text Similarity with Siamese Recurrent Networks

论文地址:http://www.aclweb.org/anthology/W16-16#page=162

作者:Paul Neculoiu, Maarten Versteegh and Mihai Rotaru

作者单位:Textkernel B.V. Amsterdam(Textkernel 是 LinkedIn 的AI版本?

出版单位:Annual Meeting of the Association for Computational Linguistics(ACL)

发表时间:2016.9


模型图

论文阅读-文本匹配(二) 孪生char-BLSTM_第1张图片


贡献点:

1.语言规范化(Normalization)很重要,而规范化严重依赖于语义相似度。如(12pm,noon,12.00h)(李小龙,Bruce Lee,Lee Jun-fan)应当被归于相同的表示。present a system for job title normalization(论文阅读-文本匹配(一) 孪生LSTM是学术界研究,而这篇论文是工业界实用)

2.w2v词嵌入取得不错的效果,但是使用字符级的可以更好地处理OOV问题

3.比较孪生结构(通过明确的相似性信息来学习不变性和选择性的表征)和自编码结构(增加噪声和降维来学习不变性)。

4.传统job title normalization分类模型的缺点

4.1 数据标注昂贵

4.2 缺乏可控性(分类错误或新添加一条数据,模型需要重新训练)

4.3 不能够迁移学习(模型表示重用于不同的任务)

5. LOSS函数的创新。

论文阅读-文本匹配(二) 孪生char-BLSTM_第2张图片

6.数据增强(Data Augmentation)【分为四种数据上看效果,详见实验数据第2点】


实验数据:

1.19,927 job titles into 4,431 groups.

2.对数据的处理(Data Augmentation)

2.1 拼写错误【10%的数据,随机取代20%字符,删除5%字符】

2.2 同义词替换

2.3 多余的单词

2.4 随着知识增加,模型可修改

3. 长尾分布

论文阅读-文本匹配(二) 孪生char-BLSTM_第3张图片


细节:

1.权重共享,度量方式使用余弦相似度。

2.字符个数padding到100,Adam优化,drop_out(recurrent: 0.2,between: 0.4)

3.正负比例1:4




你可能感兴趣的:(NLP(自然语言处理))