【一起入门NLP】中科院自然语言处理第11课-NLP基础任务②:文本匹配问题

专栏介绍:本栏目为 “2021秋季中国科学院大学胡玥老师的自然语言处理” 课程记录,不仅仅是课程笔记噢~ 如果感兴趣的话,就和我一起入门NLP吧

目录

  • 文本匹配概述
  • 文本匹配方法

文本匹配概述

文本匹配是一个很宽泛的概念,很多自然语言处理的任务都会涉及文本匹配问题,根据自然语言处理任务的不同,“匹配”的定义可能非常不同。

  • 例1:
    • 两个句子“感冒了是否要吃药”和“感冒了要吃什么药” 问:两个句子是否表达同样的意思 ?该问题的句子匹配是计算二个句子相似度,可建模为二分类问题
  • 例2:
    • 两个句子“我正在上海旅游”和“我正在八达岭长城” 问:这两句话是什么关系?该问题属于“文本蕴含识别” 问题,关系有三种(蕴含/矛盾/中立)。该匹配是判别二个句子之间的关系 是多分类问题

这些任务的共性问题是研究两段文本之间关系的问题,因此我们广义的将研究两段文本间关系的问题定义为“文本匹配”问题,匹配的具体含义根据任务的不同有不同的定义。一般可建模为 “分类”和“排位”二类问题。

与文本匹配相关的NLP任务:

  1. 复述识别(paraphrase identification)
    又称释义识别,是判断两段文本是不是表达了同样的语义,这一类场景一般建模成分类问题。

  2. 文本蕴含识别(Textual Entailment)
    给定一个前提文本(text),根据这个前提去推断假说文本(hypothesis)与文本的关系,关系有:蕴含关系(entailment),矛盾关系(contradiction),蕴含关系(entailment)。这一类场景一般建模成多分类问题。

  3. 问答(QA)
    根据Question在段落或文档中查找Answer,这类场景常常会被建模成分类问题;还有一类是根据Question从若干候选中找出正确答案,这类场景常常会被建模成排位( ranking )问题。

  4. 对话(Conversation)
    与QA 类似,但是比QA更复杂,由于引入了历史轮对话,需要考虑在历史轮的限制下回复是否合理。一般建模为分类或排位问题。

  5. 信息检索(IR)
    信息检索是一个更为复杂的任务,往往会有Query—Tittle,Query—Document的形式(Query可能是一个Document)检索需要计算相似度和排序一般建模为排位问题。

文本匹配方法

文本匹配方法有规则方法,统计方法,以及深度学习方法:自动提取出词语之间的关系特征并结合短语匹配中的结构信息和文本匹配的层次化特性,更精细地描述文本匹配问题。

深度学习的匹配方法有三种:

  1. 基于单语义文档表达的深度学习模型(基于表示-孪生网络)
    主要思路:首先将单个文本先表达成一个稠密向量(分布式表达)然后直接计算两个向量间的相似度作为文本间的匹配度。
  2. 基于多语义文档表达的深度学习模型(基于交互-交互聚合)
    主要思路:需要建立多语义表达,更早地让两段文本进行交互, 然后挖掘文本交互后的模式特征,综合得到文本间的匹配度。
  3. 基于预训练语言模型BERT的模型

你可能感兴趣的:(#,自然语言处理,自然语言处理,文本匹配)