专栏介绍:本栏目为 “2021秋季中国科学院大学胡玥老师的自然语言处理” 课程记录,不仅仅是课程笔记噢~ 如果感兴趣的话,就和我一起入门NLP吧
目录
- 文本匹配概述
- 文本匹配方法
文本匹配是一个很宽泛的概念,很多自然语言处理的任务都会涉及文本匹配问题,根据自然语言处理任务的不同,“匹配”的定义可能非常不同。
这些任务的共性问题是研究两段文本之间关系的问题,因此我们广义的将研究两段文本间关系的问题定义为“文本匹配”问题,匹配的具体含义根据任务的不同有不同的定义。一般可建模为 “分类”和“排位”二类问题。
与文本匹配相关的NLP任务:
复述识别(paraphrase identification)
又称释义识别,是判断两段文本是不是表达了同样的语义,这一类场景一般建模成分类问题。
文本蕴含识别(Textual Entailment)
给定一个前提文本(text),根据这个前提去推断假说文本(hypothesis)与文本的关系,关系有:蕴含关系(entailment),矛盾关系(contradiction),蕴含关系(entailment)。这一类场景一般建模成多分类问题。
问答(QA)
根据Question在段落或文档中查找Answer,这类场景常常会被建模成分类问题;还有一类是根据Question从若干候选中找出正确答案,这类场景常常会被建模成排位( ranking )问题。
对话(Conversation)
与QA 类似,但是比QA更复杂,由于引入了历史轮对话,需要考虑在历史轮的限制下回复是否合理。一般建模为分类或排位问题。
信息检索(IR)
信息检索是一个更为复杂的任务,往往会有Query—Tittle,Query—Document的形式(Query可能是一个Document)检索需要计算相似度和排序一般建模为排位问题。
文本匹配方法有规则方法,统计方法,以及深度学习方法:自动提取出词语之间的关系特征并结合短语匹配中的结构信息和文本匹配的层次化特性,更精细地描述文本匹配问题。
深度学习的匹配方法有三种: