nlp知识点总结

目录

拾壹:文档表示与相似度计算

一、词的表示

1. 独热表示

2. 词频-逆文档频率(TF-IDF)

3. 分布式表示与潜在语义索引LSI

4. 词嵌入表示

二、文档表示 

1. 词袋表示

2. 主题模型

三、文本相似度计算

拾贰、信息抽取(IE)——命名实体识别(NER)

一、基于规则的方法

二、基于词典的方法

三、机器学习方法

1. 最大熵

 2. 条件随机场CRFs

拾叁、信息抽取(IE)——其他

一、实体链接

二、关系抽取 

 1. 预定义关系抽取

2. 开放域关系抽取

3. 总结

 三、事件抽取


拾壹:文档表示与相似度计算

一、词的表示

1. 独热表示

        稀疏、维度大、无法表示语义关系。

2. 词频-逆文档频率(TF-IDF)

3. 分布式表示与潜在语义索引LSI

        共现矩阵。慢,引入新词代价大。

4. 词嵌入表示

  • Word2vec:两类方法——CBOW(预测当前词)和Skip-gram(预测上下文)。
  • SGNS:skip-gram + 负采样(每个正样本构造k个负样本,多分类变二分类,逻辑斯蒂,权重作为词向量)。 给定目标词与待预测的上下文词,返回其确实是上下文的概率。
  • SGNS中如何计算概率?:词向量的内积,再用sigmoid函数调整到0~1.使用梯度下降进行训练,参数包括目标词向量矩阵W与上下文词向量矩阵C。

nlp知识点总结_第1张图片

  • Glove:Word2vec只考虑了局部信息,而Glove加入了共现概率,增加了全局信息。
  • Fasttext:n-gram,可以解决未登录词。
  • 词向量表示不能解决一词多义和动态语义,也不能区分反义词(因为上下文很相似)。

二、文档表示 

1. 词袋表示

  • 用文档中每个词的独热表示的和表示文档

2. 主题模型

  • 文档有多个主题,每个主题中词的概率不同
  • 潜在狄利克雷分布(LDA)

nlp知识点总结_第2张图片

三、文本相似度计算

  • 欧式距离基于点的位置,非欧距离基于点的性质。
  • 常用欧氏距离:L1范式(曼哈顿距离),L2范式。
  • 杰卡德距离(集合相似度):集合之交的元素数除以集合之并的元素数。
  • 余弦距离:结果是角度
  • 编辑距离:字符串变化的最少操作数(插入和删除),等于x + y - 2LCS。LCS为最长公共子序列。
  • 汉明距离

拾贰、信息抽取(IE)——命名实体识别(NER)

        为实体词指定一个标记,如Name,Organization等。

一、基于规则的方法

  • 规则需要利用词性和词典;彼此可能冲突,对优先度有要求,且难以移植。

二、基于词典的方法

  • 受限于词典的完备性、构建与更新、查找效率等,常与其他NER方法结合。

三、机器学习方法

1. 最大熵

  • 分类模型,参数为每个特征的权重 λ 。

nlp知识点总结_第3张图片

  • 用MCLE可以推导出 λ 满足经验期望与模型期望相等。

nlp知识点总结_第4张图片

  •  逻辑回归在数学上等价于最大熵,但nlp中涉及的维数通常很大,故这里可能会做一个区分。
  • 特征通常是0-1函数,自行定义,包括上下文本身和标记两部分。需掌握计算

nlp知识点总结_第5张图片

 2. 条件随机场CRFs

  • 最大熵模型难以考虑标机之间的联系。
  • CRFs公式与最大熵一致,但 c 的含义不同,这里的 c 是一条标记路径,最大熵中是标记。
  • 梯度上升更新参数 w,求概率最大。

nlp知识点总结_第6张图片

nlp知识点总结_第7张图片

  • 要求掌握计算。

nlp知识点总结_第8张图片

拾叁、信息抽取(IE)——其他

一、实体链接

将“实体提及”链接到知识库中对应的实体。

nlp知识点总结_第9张图片

二、关系抽取 

 自动识别由一对实体和联系这对实体的关系构成的相关三元组。

nlp知识点总结_第10张图片

 1. 预定义关系抽取

  • 任务:给定实体关系类别,给定语料,抽取目标关系对。
  • 评测语料:专家标注语料,语料质量高,抽取的目标类别已经定义好。
  • 采用机器学习的方法,将关系实例转换成特征表示,在标注语料库上训练关系分类模型。

2. 开放域关系抽取

  • 区别:实体类别和关系类别不固定、数量大。

  • 基于句法:识别表达语义的短语进行关系抽取,同时使用句法和统计数据进行过滤。优点是无需预先定义关系类别,但语义没有归一化,同一关系有不同表示。

  • 基于知识监督:在Wikipedia文本中抽取关系(属性)信息,但无法获取关系类别,也无法获取训练语料。解决方案——在Infobox抽取关系信息,并在Wikipedia条目文本中进行回标,产生训练语料。

  • 远距离监督:开放域信息抽取的一个主要问题是缺乏标注语料,远距离监督可使用知识库中的关系启发式的标注训练语料。但存在噪音。

nlp知识点总结_第11张图片

  •  关系推理:

3. 总结

nlp知识点总结_第12张图片

 三、事件抽取

事件抽取具体可分为四个子任务:触发词识别、事件类型分类、论元识别、论元角色分类。

  • 通常将前两个子任务合并为事件检测任务,后两个子任务合并为论元抽取任务。
  • 事件检测:确认事件的触发词和及其对应的事件类型
  • 论元抽取:确认事件中存在的论元及其扮演的角色 。

拾肆、深度学习简介

一、深度学习的兴起

  • 通过RBM来进行逐层训练,达到无监督特征提取的目的,同时大大提升训练速度,从而达到构建更深层神经网络的目的。
  • RBM——受限玻尔兹曼机,其中“受限”指同一层节点间不相连。

nlp知识点总结_第13张图片

二、常用的深度学习模型

1. 激活函数

  • 激活函数满足非线性、可导性与单调性。

nlp知识点总结_第14张图片

  • 挤压型激活函数:S型,如Sigmoid函数与Tanh函数,导数简单,对中央区增益较大。但指数计算代价大,反向传播时梯度消失 。Tanh是零均值的。
  • 半线性激活函数:如ReLU函数、Leaky ReLU函数, 收敛速度快,能够避免梯度消失,但无界,且可能导致神经元死亡。

nlp知识点总结_第15张图片

2. 深度神经网络DNN

  • 通常层数>=3.
  • 矩阵表示。上一层的输出作为下一层输入。 

nlp知识点总结_第16张图片

  • 可以解决线性不可分问题(如异或问题)。

3. 卷积神经网络CNN

  • 典型结构卷积层【从不同视角看待原始输入,得到不同表示】,激活函数层【对每个卷积的结果作非线性变换】,池化层【把图像中一个区域用一个点表示】,全连接分类层
  • 卷积核:卷积网络之所以能工作,完全是卷积核的功劳,卷积核也是CNN中的主要参数。不同的卷积核能实现不同的功能,如“浮雕”“锐化”等等。
  • 卷积运算:注意不是矩阵乘法!!!而是对应位置相乘,再求和。步长stride代表每次移动的格数。

nlp知识点总结_第17张图片

  • 填充:在原始矩阵外围加一圈0.

nlp知识点总结_第18张图片

 nlp知识点总结_第19张图片

  • 池化:又称下采样,分为最大值池化和平均值池化。主要作用是降维和扩大视野(忽略细节)。

nlp知识点总结_第20张图片

  •  优点:参数没那么多——因为卷积核可以共享;可以对局部特征进行抽取。
  •  缺点:视野比较窄解决办法——多层神经网络,或卷积时跳着看。

4. 循环神经网络RNN

  • DNN没有利用输入之间的联系(同一层没有边),而RNN中参数来自输入和前一个隐状态,且隐状态之间的参数W是一样的(共享)。

nlp知识点总结_第21张图片

  • 长短时记忆循环神经网络LSTM:设置记忆单元和遗忘门,控制哪些信息可以进入下一状态。用更复杂的结构代替了隐藏单元,可避免梯度消失,更好解决长距离记忆。

nlp知识点总结_第22张图片

  • 门限循环单元GRU:去掉了显式的记忆单元,设计了重置门(控制之前状态对当前输入的贡献)和更新门(相当于记忆单元)。其实际上是LSTM的一种简化版本或者特殊形式。 

5. 注意力机制

  • 动物或者人对所看到的场景做出反应时,都会集中于所看到场景的局部区域。这种对所摄入的场景的局部具有强烈的注意,而对其周围的场景弱化的机制,就称之为注意力机制。

nlp知识点总结_第23张图片

 nlp知识点总结_第24张图片

拾伍、对话系统

一、聊天型对话系统

        目前聊天型对话系统的主要作用还是娱乐,也有用于医疗的(如心理治疗)。

1. 基于规则的方法——Eliza

  • 基本思想如下:根据用户输入中的关键词,触发合适的规则进行转换,得到回复句子。

nlp知识点总结_第25张图片

  • 具体的回复生成算法如下。
  • 缺省回复是为了避免冷场,当未检测到触发词时,就随机选择缺省回复中的一条,如Please go on.
  • 另一种处理方法是从记忆栈中调取,检测到特定词时触发规则并存入记忆栈,在冷场时调取。
  • 为了使回复更加流畅,通常还会做一些细微的调整,如人称上的转变(I变you),一次对话中尽量不使用同样的规则(避免重复对话)等。 

 nlp知识点总结_第26张图片

  •  在下面的测试中,绿色为Eliza的提问,黑色为测试人员的回复。

nlp知识点总结_第27张图片

nlp知识点总结_第28张图片 

 

2. 基于规则的方法——Parry

  • Parry是第一个通过了图灵测试的系统,但这并不意味着其达到了人类智能水平,只能说在特定领域能够达到人类水平。 事实上,心理学家无法区分Parry与一个偏执型精神分裂症患者。
  • 相比于Eliza,Parry最大的特点在于加入了情感变量(恐惧、愤怒和不信任)与人设,使得Parry的回复会随着对话的进行发生情感上的明显变化。
  • Parry的表现如下。

nlp知识点总结_第29张图片

  •  这是Eliza与Parry的对话情况。黑色的是Eliza,绿色的是Parry。

nlp知识点总结_第30张图片

 

 

你可能感兴趣的:(课程复习,自然语言处理,人工智能)