07【基础课一人工智能辅助信息抽取】第三周part II:基于机器学习的信息抽取系统

文章目录

  • 项目简介
  • 任务简介
  • 中文自然语言处理简介
    • 中文分词
    • 词性标注 Part-of-speech Tagging,POS
    • 去停用词
  • 命名实体识别详解
    • 中文命名实体识别特点
    • 实体标注体系
    • 序列标注
    • 分类的评价标准
    • NER的评价标准
    • 小结
  • HMM与维特比解码
  • CRF算法

项目简介

知识图谱、信息抽取以及规则系统
基于机器学习的信息抽取系统(本节内容)
基于深度学习的信息抽取系统
信息抽取最新研究与展望
信息抽取实战经验与面试准备

任务简介

讲解信息抽取中涉及到的机器学习算法
详细说明:
本节首先介绍中文NLP的一般流程、命名实体识别问题的详细定义,引入信息抽取中的机器学习算法,包括隐马尔可夫模型、维特比算法等。

中文自然语言处理简介

机器学习的基本流程
07【基础课一人工智能辅助信息抽取】第三周part II:基于机器学习的信息抽取系统_第1张图片
07【基础课一人工智能辅助信息抽取】第三周part II:基于机器学习的信息抽取系统_第2张图片
链接:中文NLP流程

中文分词

中文切词常见方法里既有经典的机械切分法(如正向/逆向最大匹配,双向最大匹配等),也有效果更好一些的统计切分方法(如隐马尔可夫HMM,条件随机场CRF),以及近年来兴起的采用深度神经网络的RNN,LSTM等方法。

词性标注 Part-of-speech Tagging,POS

常见的词性标注方法可以分为基于规则和基于统计的方法。其中基于统计的方法,如基于最大熵的词性标注、基于统计最大概率输出词性和基于HMM的词性标注。以及近年来兴起的采用深度神经网络的RNN,LSTM等方法。
07【基础课一人工智能辅助信息抽取】第三周part II:基于机器学习的信息抽取系统_第3张图片

去停用词

停用词词典是根据具体场景来决定的,比如在情感分析中,语气词.感叹号是应该保留的,因为他们对表示语气程度、感情色彩有一定的贡献和意义。
07【基础课一人工智能辅助信息抽取】第三周part II:基于机器学习的信息抽取系统_第4张图片

命名实体识别详解

中文命名实体识别特点

NER通常包括两部分:
(1)实体边界识别;
(2)确定实体类别(人名、地名、机构名或其他)。
英文中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英文相比,中文命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。

实体标注体系

大部分情况下,标签体系越复杂准确度也越高,但相应的训练时间也会增加。因此需要根据实际情况选择合适的标签体系。
07【基础课一人工智能辅助信息抽取】第三周part II:基于机器学习的信息抽取系统_第5张图片
上面的例子中,O代表其他,不关注的信息。SYM代表病症,NEG代表否定,DEV代表趋势。
bio模型多了一个B,代表某个状态的开始。
bios多了一个结束E,代表某个状态的结束。

序列标注

分类:
07【基础课一人工智能辅助信息抽取】第三周part II:基于机器学习的信息抽取系统_第6张图片
序列标注
07【基础课一人工智能辅助信息抽取】第三周part II:基于机器学习的信息抽取系统_第7张图片
序列标注输入为特征序列,输出为类别序列。

分类的评价标准

Accuracy:准确率(分类中不用这个指标,因为样本中分布不均匀这个指标就不准确)
预测正确/总样本
Precision:精确率(关注预测的有多少是正确的)
正确预测为正/预测为正
Recall:召回率(关注正确的样本中有多少被正确的预测出来)
正确预测为正/真实为正
F1 score:
1:1调和准确和召回
混淆矩阵:Confusion Matrix
07【基础课一人工智能辅助信息抽取】第三周part II:基于机器学习的信息抽取系统_第8张图片

NER的评价标准

NER本质上是一个多分类问题,所以按照分类的标准来进行评价。
1.基于token标签进行直接评测
2.考虑实体边界+实体类型的评测
2.1完全匹配
2.2部分匹配(重叠)
Message Understanding Conference(MUC)
Correct(COR):匹配成功;
-Incorrect(INC):匹配失败;
-Partial(PAR):预测的实体边界与测试集重叠,但不完全相同;
-Missing(MIS):测试集实体边界没有被预测识别出来;
-Spurius(SPU):预测出的实体边界在测试集中不存在。
相关公式:
07【基础课一人工智能辅助信息抽取】第三周part II:基于机器学习的信息抽取系统_第9张图片
针对多分类又分出两种F1评价指标:
1、将n分类的评价拆成n个二分类的评价,计算每个二分类的F1 score,n个F1 score的平均值即为Macro F1。(就是把每个分类单独来看)
2、将n分类的评价拆成n个二分类的评价,将n个二分类评价的TP、FP、RN对应相加,计算评价准确率和召回率,由这2个准确率和召回率计算的F1 score即为Micro F1。(常用)
注意:MacroF1受样本数量少的类别影响大

小结

基于规则的信息抽取:精确率高,但召回率比较低。
基于规则的方式比较适合半结构化或比较规范的文本中的进行抽取任务,结合业务需求能够达到一定的效果。
优点:简单,快速:缺点:召回低,泛化能力差

HMM与维特比解码

这个省略。。。
https://blog.csdn.net/oldmao_2001/article/details/104838092

CRF算法

这个也省略。。。
https://blog.csdn.net/oldmao_2001/article/details/104906365

你可能感兴趣的:(人工智能项目实战笔记)