知识图谱-知识抽取-实体抽取(命名实体)

文章目录

    • 知识图谱
    • 知识抽取
    • 实体抽取(NER)
      • 基于规则与词典的方法
      • 基于统计机器学习的方法
      • 面向开放域的抽取方法

知识图谱

知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库。

三元组是知识图谱的一种通用表示方式,即G(E,R,S)。三元组的基本形式主要包括实体1、关系、实体2和概念、属性、属性值等,实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。

知识抽取

知识抽取主要是面向开放的链接数据,通过自动化的技术抽取出可用的知识单元,知识单元主要包括实体(概念的外延)、关系以及属性3个知识要素,并以此为基础,形成一系列高质量的事实表达,为上层模式层的构建奠定基础。

实体抽取(NER)

早期的实体抽取也称为命名实体学习(named entity learning) 或 命 名 实 体 识 别 (named entity recognition),指的是从原始语料中自动识别出命名实体。由于实体是知识图谱中的最基本元素,其抽取的完整性、准确率、召回率等将直接影响到知识库的质量。因此,实体抽取是知识抽取中最为基础与关键的一步。

实体抽取的方法分为3种:基于规则的方法通常需要为目标实体编写模板,然后在原始语料中进行匹配;基于统计机器学习的方法主要是通过机器学习的方法对原始语料进行训练,然后再利用训练好的模型去识别实体;面向开放域的抽取将是面向海量的Web语料。

基于规则与词典的方法

早期的实体抽取是在限定文本领域、限定语义单元类型的条件下进行的,主要采用的是基于规则与词典的方法,例如使用已定义的规则,抽取出文本中的人名、地名、组织机构名、特定时间等实体 。然而,基于规则模板的方法不仅需要依靠大量的专家来编写规则或模板,覆盖的领域范围有限,而且很难适应数据变化的新需求。

基于统计机器学习的方法

随后,研究者尝试将机器学习中的监督学习算法用于命名实体的抽取问题上。单纯的监督学习算法在性能上
不仅受到训练集合的限制,并且算法的准确率与召回率都不够理想。相关研究者认识到监督学习算法的制约性后,尝试将监督学习算法与规则相互结合,取得了一定的成果。

面向开放域的抽取方法

针对如何从少量实体实例中自动发现具有区分力的模式,进而扩展到海量文本去给实体做分类与聚类的问题,提出了一种通过迭代方式扩展实体语料库的解决方案,其基本思想是通过少量的实体实例建立特征模型,再通过该模型应用于新的数据集得到新的命名实体。无监督学习的开放域聚类算法,其基本思想是基于
已知实体的语义特征去搜索日志中识别出命名的实体,然后进行聚类。

你可能感兴趣的:(自然语言处理)