深度学习——day26 NRP学习:基于自然语言处理的产业链知识图谱构建_毛瑞彬(2022 情报学报)

这里写目录标题

  • 论文资源在这里
  • 基于自然语言处理的产业链知识图谱构建_毛瑞彬(2022 情报学报)
    • chap1 面向产业链知识图谱构建的自然语言处理
      • BERT模型
        • BERT采用Transformer编码器作为模型主体结构,完全基于多头注意力机制实现语言建模:
        • Self-Atten‐tion 的
          • Multi-Head 将一个词的向量切分成 h 个维度分别计算自注意力 (Self-Attention) 进行拼接,各维度的注意力计算参数并不共享
    • chap2 在中文维基百科语料( BERT Base 语言模型)的基础上增加了金融领域语料,本文提出了预训练领域语言模型
      • 基于 BERT 和领域知识的多头选择算法
        • 1)Pre-training 层和 Fine-tuning(微调) 层:
        • 2)NER(Named Entity Recognition ) 层:
        • 3)Relation 层:初始化实体标签向量矩阵,获取每个 token 预测标签所对应的向量,把输入 的上下文表示以及实体标签向量拼接后组成的 ,与其他词 的 单独计算所有关系类别 k 的得分,确定它的最可能的头实体以及关系。
        • 4)
    • chap3 实验
      • 1)在证券领域文本上
      • 2)本文选择7个产业链要素,每一种人工进行分类语料标注,每个类别 10000 条,同时新增不属于这7类的10000个负样本。按照 8∶1∶1 将这份数据划分为训练集、开发集和测试集,在验证集上的评估结果如表2所示
      • 3)行业上下游识别
        • 制定规则和人工校正,总共积累了近 2 万条语料,对语料进行均衡

论文资源在这里

点击跳转下载

基于自然语言处理的产业链知识图谱构建_毛瑞彬(2022 情报学报)

chap1 面向产业链知识图谱构建的自然语言处理

BERT模型

BERT采用Transformer编码器作为模型主体结构,完全基于多头注意力机制实现语言建模:

Self-Atten‐tion 的

Q (query)、K (key) 和 V (value) 三个矩阵
均来自同一输入,先计算 Q 与 K 之间的乘积,再除
以尺度标度 dk;其中 dk 为一个 query 和 key 向量的
维度,利用 Softmax 操作将其结果归一化为概率分
布,再乘以矩阵 V 就得到权重求和的表示。

Multi-Head 将一个词的向量切分成 h 个维度分别计算自注意力 (Self-Attention) 进行拼接,各维度的注意力计算参数并不共享

chap2 在中文维基百科语料( BERT Base 语言模型)的基础上增加了金融领域语料,本文提出了预训练领域语言模型

基于 BERT 和领域知识的多头选择算法

1)Pre-training 层和 Fine-tuning(微调) 层:

获取输入文本的 token 向量表示,把 token 的向量表示输入 BERT 模型进行调优

2)NER(Named Entity Recognition ) 层:

对微调层 token 输出计算 NER 每个标签的得分,对预测标签序列线性链 CRF 得分进行优化,使得预测的标签序列正确概率最大

3)Relation 层:初始化实体标签向量矩阵,获取每个 token 预测标签所对应的向量,把输入 的上下文表示以及实体标签向量拼接后组成的 ,与其他词 的 单独计算所有关系类别 k 的得分,确定它的最可能的头实体以及关系。

4)

chap3 实验

1)在证券领域文本上

2)本文选择7个产业链要素,每一种人工进行分类语料标注,每个类别 10000 条,同时新增不属于这7类的10000个负样本。按照 8∶1∶1 将这份数据划分为训练集、开发集和测试集,在验证集上的评估结果如表2所示

3)行业上下游识别

制定规则和人工校正,总共积累了近 2 万条语料,对语料进行均衡

你可能感兴趣的:(深度学习,知识图谱,自然语言处理)