自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法

自然语言处理-刘洋-国科大2021-2022秋季学期课程

  • 数学基础
    • 拉格朗日乘子法
    • 熵、相对熵、交叉熵
  • 隐马尔科夫模型
    • 马尔科夫模型
    • 前向、后向算法:观测状态序列概率计算
      • 前向概率
      • 后向概率
    • Viterbi算法:最优隐状态序列计算
  • 支持向量机
    • KKT条件
    • 松弛变量
  • 神经网络
    • 递归神经网络
    • 卷积神经网络
      • 多通道卷积
    • 注意力神经网络
  • 语言模型
    • n-gram
    • 数据平滑
  • 词法分析
    • 基本概念
      • 组合型歧义与交集型歧义
    • 分词与词性标注结果评价方法
    • 汉语自动分词基本算法
  • 句法分析
    • 短语结构分析
      • 线图分析法(Chart Parsing)
      • CYK分析算法
      • 概率上下文无关文法-PCFG规则
      • 短语结构分析方法评估
    • 依存句法分析
      • 决策式的(确定性的)分析方法-移进归约算法
      • 依存句法分析器性能评价
      • 短语结构与依存结构的关系
  • 语义分析
    • 语义网络
      • 知识图谱
    • 词义消歧
      • 有监督的词义消歧方法
      • 基于词典的词义消歧方法
  • 篇章分析
    • 话题链与回指
  • 机器翻译
    • 统计机器翻译
      • 统计翻译基本原理
      • IBM翻译模型
      • 基于短语的翻译模型
        • 短语划分模型
        • 短语翻译模型
          • 学习短语翻译规则
          • 估计短语翻译概率
        • 短语调序模型
          • 距离跳转模型
          • 分类模型
        • 目标语言模型
    • 译文评估方法
  • 文本分类、聚类和情感分析
    • 互信息与信息增益
    • 文本分类
      • 朴素贝叶斯分类方法
  • 文本摘要、信息抽取、问答系统
    • 文本摘要
      • 文本摘要分类
      • 冗余句子消除
      • 文本摘要评价
    • 信息抽取
      • 命名实体识别
    • 问答系统

声明: 部分图片来自于课程讲义,(刘洋,宗成庆)

数学基础

拉格朗日乘子法

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第1张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第2张图片

熵、相对熵、交叉熵

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第3张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第4张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第5张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第6张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第7张图片

隐马尔科夫模型

马尔科夫模型

前向、后向算法:观测状态序列概率计算

前向概率

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第8张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第9张图片

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第10张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第11张图片

后向概率

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第12张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第13张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第14张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第15张图片

Viterbi算法:最优隐状态序列计算

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第16张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第17张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第18张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第19张图片

支持向量机

KKT条件

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第20张图片
⽀持向量机中的KKT条件:
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第21张图片

松弛变量

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第22张图片

神经网络

递归神经网络

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第23张图片
循环神经⽹络的⼀⼤特点是通过参数共享实现参数规模与序列长度的⽆关性,从⽽显著降低了存储要求。

循环神经⽹络的另⼀个特点是串⾏计算。由于输⼊向量、隐藏向量和输出向量在不同位置上存在着严格的依赖关系,必须等待前继向量计算完成,才能够计算后继向量。

卷积神经网络

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第24张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第25张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第26张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第27张图片

多通道卷积

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第28张图片

注意力神经网络

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第29张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第30张图片

语言模型

n-gram

在这里插入图片描述
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第31张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第32张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第33张图片

数据平滑

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第34张图片
在这里插入图片描述
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第35张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第36张图片

词法分析

基本概念

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第37张图片

组合型歧义与交集型歧义

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第38张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第39张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第40张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第41张图片

分词与词性标注结果评价方法

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第42张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第43张图片
在这里插入图片描述
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第44张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第45张图片

汉语自动分词基本算法

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第46张图片
在这里插入图片描述
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第47张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第48张图片

句法分析

[考试要求] 句法分析这一部分的重点是CFG分析算法、PCFG算法、决策式的(确定性的)依存句法分析方法、依存句法分析器性能评价
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第49张图片

短语结构分析

短语结构分析的基本方法可以分为以下两类:
在这里插入图片描述
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第50张图片

线图分析法(Chart Parsing)

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第51张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第52张图片

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第53张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第54张图片

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第55张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第56张图片

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第57张图片


自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第58张图片

CYK分析算法

[考试要求] 不需要掌握乔姆斯基文法范式化的过程,重点掌握识别矩阵的构造方法
完整的CYK分析算法流程描述如下:1. 首先需要完成对句子的分词以及词性标注;2. 构造识别矩阵;3. 对识别矩阵完成分析过程。

结合例子说明CYK分析算法,给定一个文法G(S),以及一个待分析的句子The boy hit the dog with a rool
G(S): S → \rightarrow NP VP, NP → \rightarrow Det N, NP → \rightarrow V NP, VP → \rightarrow VP PP, PP → \rightarrow Prep NP.

对识别矩阵的分析过程即按照从下至上,从左至右的顺序填充识别矩阵,识别矩阵的形状为 N × N N \times N N×N的下三角矩阵,其中 N N N为分词后得到的词语的数量,具体过程描述如下:
Step1:将第1层(底层)从左至右填充 N N N个词语的词性。
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第59张图片
Step2:填充第2层至第N层,注意记录过程。
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第60张图片
需要注意[i,j]表示当前扫描的范围span,并非是矩阵[i,j]位置的元素,其对应关系总结为:j-i+1的值代表了其位于的level,即层数,i表示了其位于当前行的第几个格子。

以X[1,2]为例分析匹配的过程:其只有一种分割方法,X[1,2] → \rightarrow Y[1,1] Z[2,2],根据上述总结的对应关系应该检查图示中的两个位置,符合NP → \rightarrow Det N的规则,所以X[1,2]对应的位置应填充NP,如果匹配失败则不填充。
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第61张图片
第2层填充如下:
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第62张图片
以X[3,5]为例分析匹配的过程:其有两种分割方法,分别是X[3,5] → \rightarrow Y[3,3] Z[4,5],以及X[3,5] → \rightarrow Y[3,4] Z[5,5],首先检查X[3,5] → \rightarrow Y[3,3] Z[4,5],根据上述总结的对应关系应该检查图示中的两个位置,符合NP → \rightarrow Det N的规则,所以X[3,5]对应的位置应填充VP,
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第63张图片
检查X[3,5] → \rightarrow Y[3,4] Z[5,5],根据上述总结的对应关系应该检查图示中的两个位置,匹配失败则不填充。
在这里插入图片描述

按照上述过程完成整个识别矩阵的填充
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第64张图片
Step3:最终得到S,则分析成功,否则分析失败。
CYK算法的优点是简单易行,执行效率高;缺点是必须对文法进行范式化处理,并且无法区分歧义。

概率上下文无关文法-PCFG规则

[考试要求] 重点是如何利用滨州树库的语法树,得到PCFG,即参数估计的第一种方法。

CYK规则无法处理歧义,因此引入概率,介绍概率上下文无关文法,PCFG规则。
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第65张图片
PCFG 规则满足上乔姆斯基范式的文法形式,约束规定了从某个左部出发的文法规则的概率要归一。

得到一棵句法分析树后,其概率计算过程如下:
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第66张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第67张图片
[考试要求] 重点是第三个问题-参数估计,根据宾州树库语料库估计参数
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第68张图片
如果有大量已标注语法结构的训练语料,则可直接通过计算每个语法规则的使用次数,用最大似然估计方法计算 PCFG 规则的概率参数,举例如下:

训练语料为以下两棵标注好的句法树:
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第69张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第70张图片

短语结构分析方法评估

在这里插入图片描述
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第71张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第72张图片
下面的图(a)为句子 “Sales executives were examining the figures with great care yesterday.”的正确分析树(答案标准),图(b)为系统分析结果。
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第73张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第74张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第75张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第76张图片

依存句法分析

在依存语法理论中,“依存”就是指词与词之间支配与被支配的关系,这种关系不是对等的,而是有方向的。处于支配地位的成分称为支配者 (governor, regent, head),而处于被支配地位的成分称为从属者(modifier, subordinate, dependency)。一个动词所能支配的行动元(名词词组)的个数即为该动词的价数(valence)。也就是说,它能支配几个行动元,它就是几价动词。

依存句法分析(dependency parsing)的任务就是分析出句子中所有词汇之间的依存关系。
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第77张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第78张图片
依存语法的4条公理(以及其对应的对依存图和依存树的形式约束):

  1. 一个句子只有一个独立的成分(单一父结点);
  2. 句子的其他成分都从属于某一成分(连通);
  3. 任何一成分都不能依存于两个或多个成分(无环);
  4. 如果成分A直接从属于成分B,而成分C在句子中位于A和B之间,那么,成分C或者从属于A,或者从属于B,或者从属于A和B之间的某一成分(可投射)。

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第79张图片

决策式的(确定性的)分析方法-移进归约算法

[考试要求] 移进归约算法、有可能定义一套新的动作体系,需要掌握:给定分析树以及相应的动作体系,能够恢复其对应的动作序列
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第80张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第81张图片
在这里插入图片描述

依存句法分析器性能评价

[考试要求] 无标记依存正确率UA、带标记依存正确率LA、依存正确率DA
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第82张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第83张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第84张图片

短语结构与依存结构的关系

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第85张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第86张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第87张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第88张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第89张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第90张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第91张图片

语义分析

语义网络

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第92张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第93张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第94张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第95张图片
如何在语义网络中表示和区分词的内涵和外延?
可以通过词义消歧区分。

知识图谱

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第96张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第97张图片

词义消歧

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第98张图片

有监督的词义消歧方法

基于互信息的消歧方法 (Brown et al., 1991)
基本思想:假设我们有一个双语对齐的平行语料库,以法语和英语为例,通过词语对齐模型每个法语单词可以找到对应的英语单词,一个多义的法语单词在不同的上下文中对应多种不同的英语翻译。

基于贝叶斯分类器的词义消歧方法
基于最大熵的词义消歧方法

基于词典的词义消歧方法

基于语义定义的消歧
基本思想:词典中词条本身的定义作为判断其语义的条件。

基于义类辞典(thesaurus)的消歧
基本思想:多义词的不同义项在使用时往往具有不同的上下文语义类,即通过上下文的语义范畴可以判断多义词的使用义项。

基于双语词典的消歧
基本思想:需要消歧的语言称为第一语言,把需要借助的另一种语言称为第二语言。建立多义词 x 与相关词 y 之间的搭配关系,然后,在第二种语言的语料库中统计对应 x 不同词义的翻译与相关词 y 的翻译同现的次数,同现次数高的搭配对应的义项即为消歧后的词义。

Yarowsky 消歧算法
基本思想:基于词典的词义消歧算法都是分别处理每个出现的歧义词,且对歧义词有两个限制:
1.每篇文本只有一个意义:在任意给定的文本中,目标词的词义具有高度的一致性;
2.每个搭配只有一个意义:目标词和周围词之间的相对距离、词序和句法关系,为目标词的意义提供了很强的一致性的词义消歧线索。

篇章分析

话题链与回指

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第99张图片

机器翻译

统计机器翻译

统计翻译基本原理

噪声信道模型:一种语言T由于经过一个噪声信道而发生变形,从而在信道的另一端呈现为另一种语言S (信道意义上的输出,翻译意义上的源语言)。翻译问题实际上就是如何根据观察到的 S,恢复最为可能的T 问题。这种观点认为,任何一种语言的任何一个句子都有可能是另外一种语言中的某个句子的译文,只是可能有大有小[Brown et. al, 1990]。
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第100张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第101张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第102张图片
对位模型
在这里插入图片描述
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第103张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第104张图片

IBM翻译模型

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第105张图片

基于短语的翻译模型

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第106张图片

短语划分模型

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第107张图片

短语翻译模型

使用以下例子说明短语翻译模型:源语言为汉语,目标语言为英语,
源语言:澳洲是与北韩有邦交的少数国家之一。
目标语言:Australia is one of the few countries that have the diplomatic relations with North Korea.
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第108张图片

学习短语翻译规则

双语句对词语对齐:
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第109张图片
使用表格的方式表示上述对齐关系,其中黑色填充的位置表示词语对齐,这样表示的目的是为了方便找到满足对齐一致性的短语对,进而抽取短语翻译规则。
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第110张图片
短语翻译规则抽取:
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第111张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第112张图片
红色方框:“是与北韩” “is - with North Korea”不满足对齐一致性,因此不是一条短语翻译规则;
黄色方框:“的少数国家” “few countries that”满足对齐一致性,因此不是一条短语翻译规则。

视觉效果很难用语言描述,只要搞清楚对齐一致性的定义,这部分不难确定。

估计短语翻译概率

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第113张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第114张图片

短语调序模型

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第115张图片

距离跳转模型

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第116张图片
其中距离公式 d = n e x t b e g i n − l a s t e n d d=next_{begin}-last_{end} d=nextbeginlastend较难理解,改为 d = c u r r e n t b e g i n − l a s t e n d d=current_{begin}-last_{end} d=currentbeginlastend似乎更加准确,也方便理解。源短语的顺序 i i i由对应的目标短语的位置决定。

以第2个源短语为例,第2个源短语(由目标短语的顺序决定)为“的少数国家之一”,短语跨度为7-10, c u r r e n t b e g i n = 7 current_{begin}=7 currentbegin=7,上一个短语为“澳洲是”,短语跨度为1-2, l a s t e n d = 2 last_{end}=2 lastend=2,因此距离 d = 7 − 2 − 1 = 4 d=7-2-1=4 d=721=4.

分类模型

在这里插入图片描述
同样,其中公式中 n e x t next next改为 c u r r e n t current current似乎更加准确,也方便理解。

目标语言模型

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第117张图片

译文评估方法

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第118张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第119张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第120张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第121张图片

文本分类、聚类和情感分析

互信息与信息增益

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第122张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第123张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第124张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第125张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第126张图片

文本分类

朴素贝叶斯分类方法

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第127张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第128张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第129张图片
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第130张图片
朴素贝叶斯(NB)决策的例子:
在这里插入图片描述
文本1:北京 理工 大学 是 理工 为主 工理文 协调 发展 的 全国 重点 高校
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第131张图片
其中Feature Set为特征集合,因为 P ( 教 育 ∣ x ) > P ( 体 育 ∣ x ) P(教育|\textbf{x}) > P(体育|\textbf{x}) P(x)>P(x),所以文本分类为“教育”。

文本2:复旦 大学 排球 队 获得 本届 大学生 运动会 排球 比赛 冠军
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第132张图片
因为 P ( 体 育 ∣ x ) > P ( 教 育 ∣ x ) P(体育|\textbf{x}) > P(教育|\textbf{x}) P(x)>P(x),所以文本分类为“体育”。

文本摘要、信息抽取、问答系统

文本摘要

文本摘要分类

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第133张图片

冗余句子消除

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第134张图片

文本摘要评价

ROUGE:基于N-元组计算自动摘要与人工摘要的匹配率
自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第135张图片

信息抽取

命名实体识别

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第136张图片

问答系统

自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法_第137张图片

你可能感兴趣的:(机器学习基础知识,自然语言处理,算法,人工智能)