知识图谱赵军学习笔记(四)--实体识别和扩展

实体识别和扩展

在文本中对实体的引用可以有三种形式:

  • 命名性指称
  • 名词性指称
  • 名词性指称
    例如:中国乒乓球男队主教练刘国梁出席了会议,他布置了备战世乒赛的具体安排。
    中国乒乓球男队主教练是名词性指称
    刘国梁是命名性指称
    他是代词性指称
    这里主要研究命名性实体

实体识别

任务概述

识别出文本中实体的命名性指称项,标注其类别。
三大类:实体类,时间类,数字类
七小类:人名,地名,组织名,时间,日期,货币和百分比
1.实体识别的难点
时间,日期,货币和百分比的构成有比较明显的规律,识别起来相对容易
人名、地名和组织名用字灵活,识别的难度也大。这里指的是这三类的识别
包括两部分:

  • 识别实体边界
  • 确定实体类别
    难点在于:
  • 命名实体形式多变
    内部结构复杂,对中文来说尤其如此
    • 人名
      包含姓氏和名,姓的用字是有限制的,但是名的用法灵活。还有很大其他的形式,使用字号代替人,姓+前缀/后缀以及职务名代替人。如杜甫,杜子美,子美是同一个人,李杜则是一个简称。
    • 地名
      若干个字组成,可能包括作为后缀的关键字。也有一些简称。如:湖北,湖北省,鄂
    • 机构名
      可以包含命名性成分,修饰性成分,表示地名的成分以及关键词成分。如北京百得投资咨询公司
      机构名嵌套子机构名,北京大学附属小学
      简称形式,中国奥委会
  • 命名实体的语言环境复杂
    在不同语境下可能就不是实体
    人名:彩霞,有时是人名,有时是自然现象
    地名:河南,有的是省名,有的是泛指
    机构名:新世界,有时是机构名,有时是短语
    英语有明显的标志,如首字母大写,识别边界容易,但是中文没有,相比
  • 英文有明显的词边界标志符
  • 首字母大写

基于规则的实体识别方法

  • 基于命名实体词典的方法
    采用字符串完全匹配或部分匹配的方式
    基于正向最大匹配的方法
    基于逆向最大匹配的方法
    基于最短路径的方法
  • 缺点
    专家
    规则冲突
    根据优先级排序
    通用性不强

基于机器学习的实体识别–基于特征的方法

计算概率值,鲁棒性好,构建代价小
主要是应用传统的人工设计的大量特征进行实体识别
而基于神经网络是自动捕获特征
无论何种模型,都在试图充分发现和利用实体所在的上下文特征和实体的内部特征,包括词形,词性和角色级特征
基本步骤:

  • 特征选取
    词性,大小写,词缀信息
  • 模型学习
    根据具体的任务和需求选择
    比如:支持向量机、最大熵模型,隐马尔科夫模型以及条件随机场等,多模型也可以联合使用。
  • 样本预测
    利用训练好的模型,对输入样本进行标注预测
  • 后处理
    最广泛的是基于字的模型,代表性的方法有CRF。

crf

crf计算联合概率分布的概率图模型。输入的预测值标记为BIO
如果是人名,地名,组织名加上标签。
无向图G(V,E)
V是顶点,E是边,X是输入序列,Y是输出序列。
式1

数学表达式为:
式2
t,s为特征函数,t表示观察序列的标记序列位置i-1和i之间的转移特征函数。p是i位置状态特征函数。

  • 特征函数集
    特征函数,状态特征函数和转移特征函数,都是二值函数,0或1 上下文和词性特征
  • 模型参数估计
    估计模型参数,估计权重
  • 命名实体标注
    每个节点是每个预测值的不同取值。通过寻找网络中的最大概率的路径来确定输出的命名实体标记。动态规划方法,维特比方法。

基于机器学习的实体识别–基于神经网络的方法

  • 特征表示
    lstm
  • 模型训练
    softmax分类,但是忽略了约束,如O之后不能接I,接入CRF
  • 模型分类

细粒度实体识别

  • 细粒度特点
    • 类型更多
    • 类别具有层次结构
  • 难点
    • 类别制定
    • 语料的标注
    • 实体识别的方法

实体扩展

种子实体,获取同类实体的方法
Google 后台维护大量的开发类别命名实体列表来提高用户体验。典型应用包括:

  • 知识图谱中同类实体的检索和推荐
  • 提高查询分析的准确率
  • 辅助文档分类
  • 辅助用户行为分析与广告精准投放

实体扩展方法

  • 种子处理模块
    输入若干种子组成的初始种子集合,输出高质量种子组成的集合
  • 实体抽取模块
    抽取目标实体,打分排序,输入种子,输出排序后的实体列表
  • 结果过滤模块
    实体抽取的方法有:
  • 基于模块的实体抽取
    好的模板出现次数频繁,总是指示目标类别的实体,可以在不需要其他知识前提下在文本中被识别出来
  • 基于统计学习的实体抽取
    • 基于上下文相似的方法
    • 融合模板和上下文相似的方法
  • 种子处理与结果过滤
    bootstapping
    错误放大

引用

  • 如何用简单易懂的例子解释条件随机场(CRF)模型?它和HMM有什么区别?
  • 条件随机场CRF

你可能感兴趣的:(NLP)