知识图谱、命名实体识别、问答

知识图谱

引----语义网(Semantic Network)

1950年代末、1960年代初,语义网的概念提出,他是基于图(有向或无向)的数据结构,用于存储知识。将自然语句利用语义网络来表示和存储就变得非常方便。
本质:以Web数据的内容为核心,用机器能够理解和处理的方式链接起来的海量分布式数据库。

分类

通用领域知识图谱

CN-DBpedia、zhishi.me、Ownthink、XLor等

垂直领域知识图谱

中医药知识图谱、海洋知识图谱、企业知识图谱等

知识抽取

知识抽取是知识图谱的关键步骤,要目的在于识别出数据中的相关信息要素,以便实现快速构建大规模的知识图谱。

实体抽取(命名实体识别)

主要目的在于从文本中识别出有意义的实体,这是知识抽取中最关键部分。

关系抽取

抽取实体之间的关系,将最初连接的不相关的实体连接起来,以形成结构化知识的网络构。

属性抽取

聚合同一实体的信息,实现实体属性的完整轮廓。

命名实体识别

技术分类

基于规则的实体识别

人工制定大量规则模板,将输入文本与模板进行字符串匹配从而获取实体。

基于机器学习的实体识别

主要应用隐马尔可夫模型(HMM)和条件随机场(CRF)。
HMM模型将输入的观察序列通过从训练集中学习到的三个概率矩阵来预测隐藏序列(即数据的预测标签);CRF 模型则是通过给定输入序列预测对应的输出序列的条件概率分布,与 HMM 相比,CRF 能够更好的控制标签的预测顺序。

基于神经网络的实体识别

循环神经网络(RNN)与长短期记忆网络(LSTM)是较为优秀的神经网络。

基于深度学习的中文命名实体识别算法

基于对抗迁移训练和卷积网络中的中文命名实体识别

将中文分词任务(CWS)和中文命名实体识别(NER)任务训练所得得任务共享信息整合到中文命名实体识别中,并引入对抗训练过滤掉分词任务特有的特征。
过程:输入字序列中每一个字对应的字向量输送到NER私有BiLSTM层和对抗部分的共享BiLSTM,得到私有隐藏特征和共享隐藏特征,将隐藏输出合并送入NER的CRF层,计算损失函数;同样步骤对CWS进行操作并迭代。
基于字级的BiLSTM 模型学习到的是长距离上下文信息,没有考虑到局部的短距离上下文信息,引入卷积神经网络 CNN 从局部的上下文中提取局部字特征信息。
过程:输入字序列中每一个字对应的字向量经过CNN卷积神经网络计算上下文字对当前字的影响,产生当前字的局部上下文字特征表示输送到NER私有BiLSTM层和对抗部分的共享BiLSTM,得到私有隐藏特征和共享隐藏特征合并送入NER的CRF层,计算损失函数;同样步骤对CWS进行操作并迭代。

基于自注意力字词联合模型的中文命名实体识别

解决不正确的边界分割。
将自注意力机制对匹配词信息赋予不同的权重,加权求和得到固定大小的有用词向量,融入基于字的模型中进行批量计算。
过程:将原始字序列和排序后的匹配词序列作为输入,经过嵌入层分别映射为相应的字向量和词向量(Padding 填充向量),之后将词向量经过一个自注意力层,在这一过程中,先将每个字匹配的所有词向量进行拼接,并使用 Padding 填充使得拼接后的矩阵维度大小相同,通过引入权重向量 ,让神经网络调整词向量组合的重要程度,最终得到对目标任务贡献最大的词特征表示。然后将原始字向量与自注意力层输出的特征一同送入字词联合的BiLSTM 神经网络中,得到前后两个方向上的隐藏状态。最后,再使用 CRF 模型进行序列合理化标注,通过将 BiLSTM 层输出的隐藏状态作为 CRF 层的输入,获得最终的全局最优标签序列。

基于去噪字词联合模型的中文命名实体识别

引入 Gated 去噪机制,对输入字向量进行微调,自动学习过滤或者减少文本中不重要的字信息,保留对命名实体识别任务更有用的信息。
过程:首先将字序列中的每个字通过字典初步映射为一个原始字向量,并作为Gated神经网络层的输入,并采用 Gated 去噪机(0~1 之间的值)直接作用到对应的原始字向量 上,得到微调后的字向量,和词向量一同送入字词联合的 BiLSTM 神经网络中,得到前后两个方向上的隐藏状态并合并送到CRF 层中训练,获得最终的全局最优标签序列。

基于注意力机制的迭代空洞卷积网络

空洞卷积(Dilated Convolutional neural network, Dilated CNN):也叫扩张卷积,执行相同的操作,除了对相邻输入进行变换之外,通过一次跳过n个输入,卷积被定义在一个更宽的有效输入宽度上。
过程:输入为文本句子的矢量表示的方式,然后通过使用空洞卷积获得了每个位置的输出。其次,采用了注意力机制来关注本地上下文。最后使用 CRF 条件随机场来学习标签之间的转移规则。

基于ALBert+BiLSTM+CRF的命名实体识别模型

问答

字典匹配

文本分类问题

基于机器学习的文本分类问题

逻辑回归方法、朴素贝叶斯方法、随机森林方法、支持向量机方法。

基于深度学习的文本分类问题

CNN、注意力机制。

基于ALBert+TextCNN的意图分析模型

结合 ALBert 的 TextCNN 模型会将输入文本中的每个单词转换为对应的词向量,再将所有的词向量拼接在一起作为 TextCNN 模型的输入。

参考文献:
杨倩. 基于深度学习的中文命名实体识别算法研究.南京邮电大学
李奇. 基于轻量级Bert的医疗领域实体识别和意图分析方法研究.吉林大学
杨泽. 中国古典文学文本的命名实体识别及知识图谱构建研究.南京邮电大学

你可能感兴趣的:(知识图谱,cnn,深度学习,算法)