m0_62870606

面向知识图谱的信息抽取

人工智能技术与咨询

点击蓝字 · 关注我们

来源：《数据挖掘,》，作者赵海霞等

关键词: 知识图谱；信息抽取；实体抽取；关系抽取；开放域

摘要：

摘要: 随着大数据时代的到来，海量数据不断涌现，从中寻找有用信息，抽取对应知识的需求变得越来越强烈。针对该需求，知识图谱技术应运而生，并在实现知识互联的过程中日益发挥重要作用。信息抽取作为构建知识图谱的基础技术，实现了从大规模数据中获取结构化的命名实体及其属性或关联信息。同时，由于具有多样化的实现方法，扩充了信息抽取技术的应用领域和场景，也提升了对信息抽取技术研究的价值和必要性的认可度。本文首先以知识图谱的构建框架为背景。探讨信息抽取研究的意义；然后从MUC、ACE和ICDM三个国际测评会议的角度回顾信息抽取的发展历史；接着，基于面向限定域和开放域两个方面，介绍信息抽取的关键技术，包括实体抽取技术、关系抽取技术和属性抽取技术。

1. 引言

随着计算机技术和互联网的飞速发展和知识互联时代的到来，人们期寄着构建一个更加智能的、机器可理解可计算的万维网。知识图谱(Knowledge Graph)的概念逐渐出现在人们视野中。知识图谱在语义处理、开放处理等功能方面都显现出很强的能力，在智能推荐、问答和对话系统以及大数据分析和决策等应用中也体现出越来越重要的价值。知识图谱预计将在互联网知识互联的实现过程中起到中流砥柱的作用。

文献 [1] 给出了知识图谱的定义：知识图谱是一个用于描述物理世界中的概念及其联系的语义网络，它包含以下三个重要的因素：1) 概念。概念可以是实体、属性，也可以是一个事实，例如“一个人有两只手”。概念通常被描述为节点；2) 关系。关系是两个概念节点之间的语义联系，例如属性关系、拥有关系等；3) 概念和关系的背景知识。因为同一个概念和关系都有许多不同的表达方式，因此需要其背景知识作为提供查询的字典或者本体对多种表现形式进行连接。

知识图谱是知识工程在现今大数据阶段的一个标志性工具。知识工程是将人工智能的原理和方法 [2] 用于构建大规模知识库。知识工程创立者费根鲍姆(Feigenbaum)给出了知识工程的确切定义，即将知识集成到计算机系统从而完成只有特定领域专家才能完成的复杂任务 [3]。知识工程从以图灵测试为代表的前知识工程开始，经历了以知识库、框架、推理机为核心的专家系统，Web1.0、群体智能Web2.0等发展阶段，随着2012年知识图谱概念的提出以及Dbpedia、Freebase、YAGO等知识库的建立，知识工程发展进入了一个新的发展阶段 [4]，即大数据知识工程(BigKE)。大数据知识工程实现了对数据中的语义，包括隐含语义的挖掘，使数据成为了智慧数据(Smart Data)，其目标是自动或半自动地获取知识，融合碎片化知识，然后建立基于知识的系统 [2]，最终达到为一众应用(例如，语义搜索系统、智能推荐系统、问答和对话系统以及大数据分析与决策)提供互联网智能知识服务的目的。

知识图谱的构建经历了人工构建和群体构建(众包)，现在自动构建技术成为了各个业界的研究热点 [5]。知识图谱构建的两个基本构造是“实体–关系–实体”三元组和“实体–属性(值)”键值对的构建。实体通过它们之间的关系连接在一起形成图数据库 [1]。知识图谱的构建从数据来源分类，可分为面向结构化数据、面向半结构化数据以及面向非结构化数据的知识图谱构建。本文主要介绍面向非结构化数据的知识图谱构建过程，以及应用的关键信息抽取技术。吴信东等人在文献 [6] 提出了大数据知识工程模型BigKE，实现了三层次的知识建模过程：首先对大数据进行三阶段处理，进行在线挖掘学习得到碎片化知识模型；接着对碎片化知识进行多个步骤的知识融合；最终实现以需求为导向的知识服务。因此，对应于BigKE提出的三层次过程，知识图谱的构建(Knowledge Graph Construction)技术按照自底向上的过程也包括三个层次：信息抽取(Information Extraction)、知识融合(Knowledge Fusion)和知识加工(Knowledge Processing) [7]。

基于大数据知识工程下知识图谱的构建，如吴信东等人在文献 [8] 提出的HACE定理所述，信息抽取可以描述为这样的一个过程：首先，第一阶段对大量孤立、模糊、复杂的动态非结构化数据进行初步处理和计算；然后，第二阶段对数据进行深层语义分析、用户隐私保护问题分析以及应用领域知识的结合分析；最后，第三阶段选择合适的挖掘算法和抽取技术进行数据抽取和融合 [8]。通过将抽取得到的碎片化知识存入知识库的数据层和模式层，我们最终可以对数据形成本体化表达。这里的抽取技术又按照抽取过程分为实体抽取(Entity Extraction)、关系抽取(Relation Extraction)、属性抽取(Attribute Extraction)以及实体链接(Entity Linking)等 [9] [10]。其中，实体抽取用于发现文本或者网页中的命名实体，并将其加入现有知识库中。关系抽取用于自动抽取实体之间存在的语义关系。属性抽取属于一种特殊的关系抽取。信息抽取的目标是自动化知识获取，即实现自动地从异构数据源中抽取实体、关系、属性等信息进而得到候选知识单元。

由于知识图谱的构建过程是通过以结构化形式描述客观世界中的概念、实体以及其关系开始的 [11]，概念、实体、关系等信息提取的准确性对构建过程至关重要，信息丢失、冗余、重叠往往是知识图谱构建面临的最大挑战 [1]。作为知识图谱构建的第一步，信息抽取是得到候选知识单元的关键。信息抽取的完整度、准确度直接显性影响后续知识图谱构建步骤的质量和效率以及最终知识图谱的质量。

面向知识图谱的信息抽取与传统信息抽取有很大区别。面向知识图谱的信息抽取大多面向开放域(Open Domain)而不再是限定领域(Closed Domain)。同时，随着维基百科(Wikipedia)等知识库的出现，知识图谱的数据源从有限的文本类型扩展为多源、异构、语义结构复杂的海量数据。因此，信息抽取的核心技术从单一的文本分析变为复杂的知识发现、知识链接等，并在新的应用场景和领域中对现有技术和实现方法提出了新的挑战问题。

信息抽取作为构建知识图谱的基础技术，实现了从大规模数据中获取结构化的命名实体及其属性或关联信息。同时，由于具有多样化的实现方法，扩充了信息抽取技术的应用领域和场景，也提升了对信息抽取技术研究的价值和必要性的认可度。

本文首先以知识图谱的构建框架为背景。探讨信息抽取研究的意义；然后从MUC、ACE和ICDM三个国际测评会议的角度回顾信息抽取的发展历史；接着，基于面向限定域和开放域两个方面，介绍信息抽取的关键技术，包括实体抽取技术、关系抽取技术和属性抽取技术。

2. 信息抽取研究的发展历史

2.1. 信息抽取相关概念

信息抽取系统是一种从大量信息源中迅速抛开无效信息找到有用信息的信息获取工具。关于信息抽取的定义有以下几种。

定义1 信息抽取的目标是从海量数据中，尤其是本文数据中，快速精准分析抽取出特定的事实信息(Factual Information)，将其转换成可理解可使用的结构化形式信息 [12]，最后将条理的结构化信息存储在数据库中，等待下一步的分析利用。

定义2 信息抽取是一种自动地从结构化(Structured Data)、半结构化(Semi-structured Data)或非结构化(Unstructured Data)数据中抽取概念、实体、事件，以及其相关的属性和之间的关联关系等结构化信息的技术 [13]。

信息抽取带有一定的文本理解。可以看作深层的信息检索技术，也可以看作是简化的文本理解技术。信息抽取通常从两方面进行实现：一类是基于知识发现(Knowledge Discovery in Databases, KDD)和数据挖掘(Data Mining)的方法，通常处理结构化、半结构化的数据；另一类是基于自然语言处理(Natural Language Processing, NLP)和文本挖掘(Text Mining)的方法 [12]，通常处理非结构化数据。信息抽取的具体方法可分为三类：第一类是基于规则(基于专家系统)的方法。主要在早期使用，使用人工编制规则，存在效率低，系统可移植性差等不可忽视的局限性；第二类是基于统计的方法，可在一定程度弥补第一类方法的缺点；第三类是基于机器学习的方法，，它大幅减少了人工干预，并具有处理新文本的能力，是目前常用的方法。

2.2. 信息抽取发展史

2.2.1. MUC会议和ACE会议

到20世纪80年代末，由于消息理解系列会议(Message Understanding Conference, MUC)的召开，信息抽取技术开始飞速发展，逐渐进入蓬勃期，成为了自然语言处理领域的重要分支之一。

MUC会议自1987年召开第一届起，一共进行了7届会议。会议由美国国防高级计划研究局DARPA资助，其主要目的是对信息抽取系统进行评测 [14]，是典型的评测驱动会议。会前MUC组织会提供样例文本和抽取任务说明，参会单位进行信息抽取系统的开发。在会议召开时参会单位将对各自系统进行样例文本集合的测试，然后通过与手工标注结果进行对比，得到评测结果。最后在会议中对评测结果进行分享、交流、讨论。

MUC会议在抽取任务中定义了模板、槽的填充规则以及模板填充机制，将信息抽取规定为模板填充的过程，模板填充即将抽取出的文本信息按照一定规则填入模板的相应槽中 [12]。除此，会议还定义了一套完整的评价指标，由准确率(Precision)、召回率(Recall)、F1值以及平均填充错误率(Error Per Response Fill, EPRF)等进行结果评价。

在会议的逐年开展过程中，信息抽取任务逐渐细化、复杂化：抽取模板由单一的扁平结构变为多个模板的嵌套结构；组成模板的槽，从18个、24个到47个的逐渐增加；评测任务也在开始仅有的场景模板(Scenario Templates)填充任务上进行了命名实体识别(Named Entity Recognition)任务、共指消解(Coreference Resolution)、模板元素填充(Template Elements)、模板关系抽取和事件抽取等的任务扩充。

总之，MUC会议的召开吸引了世界各地的研究者开始信息抽取系统的开发，在信息抽取研究的实践和理论方面都起到了极大的促进作用 [15]，并确立了信息抽取的各种标准和规范，以及信息抽取技术的研究和发展方向。

继MUC之后，2000年12月，由美国国家标准技术学会(NIST)、美国国家安全局(NSA)以及中央情报局(CIA)共同主管举办的自动内容抽取(Automatic Content Extraction, ACE)评测会议接着成为了信息抽取研究的又一巨大推动力，将信息抽取技术推向了一个新的高度。ACE会议的研究内容是开发自动内容抽取技术，实现对不同来源的语言文本的自动处理，尤其对新闻语料中的实体、关系、事件进行自动识别、抽取和描述。

和MUC相比，ACE不限定某个领域或场景 [16]，增加了对系统跨文档处理(Cross-Document Processing)能力的评价，采用基于漏报和误报的评价体系。其中，“漏报”表示实际结果中存在而系统输出中没有；“误报”表示实际结果中不存在而系统输出中有。

2.2.2. ICDM2019知识图谱比赛KGC [6]

2019年IEEE国际数据挖掘大会ICDM (International Conference on Data Mining)举办了知识图谱构建比赛KGC。该比赛由明略(Mininglamp)科学院和合肥工业大学主办，旨在对特定领域或多领域的非结构化文本进行自动知识图谱构建。该比赛的目的是生成类似人在阅读一段文字时的思维模式的知识图谱，因此比赛的评判由专家进行。比赛邀请了学位授予机构和工业实验室的团队参加，要求参与者首先设计模型，以文本作为输入，以知识图谱作为输出，从文本数据中提取知识三元组，并在比赛方提供的统一测试集上进行测试，若通过第一轮筛选，则进一步提供Web应用程序来可视化给定数据集的知识图谱。比赛规定知识图中的节点必须是文章中的实体词；链接必须是实体之间的关系词或属性；并且节点必须由原始文本中的单词或短语表示，且对同一单词的同义词进行合并。比赛的数据集是涵盖汽车工程、化妆品、公共安全和餐饮服务四个行业的300篇新闻短文本，其中120篇为专家预先进行手工标记的文章。

这个KGC比赛的新颖之处在于，没有为实体或关系预先提供任何类型的架构。除了ICDM 2019的KGC比赛，还涌现出了不少于信息抽取技术相关的国际学术会议，如国际信息和知识管理大会(International Conference on Information and Knowledge Management, CIKM)。

2.3. 性能衡量指标

在衡量信息抽取系统性能的指标中最常用的是准确率(Precision)跟召回率(Recall)。准确率指的是在抽取的所有结果中正确抽取结果所占的比例 [17]；召回率指的是所有可能的抽取结果中正确抽取结果所占的比例 [12]。通常两者的调和平均数F指数也常用于性能衡量，F指数的计算如下：

其中beta是召回率和准确率的相对权重。beta的取值一般为1、1/2、2。当beta = 1/2时召回率的重要程度是准确率的2倍；当beta = 2时召回率的重要程度是准确率的一半；为1时两者则同等重要。

3. 信息抽取中的关键技术

3.1. 命名实体识别

3.1.1. 命名实体识别相关概念

除了一些众所周知的英文缩写，如IP、CPU、FDA，所有的英文缩写在文中第一次出现时都应该给出其全称。文章标题中尽量避免使用生僻的英文缩写。

实体(Entity)是世界上客观存在并可相互区分的对象或事物。实体根据其在现实世界中的自然划分，通常分为如下三大类七小类 [18]：实体类包括人名、地名和机构名类三小类；时间类包括时间，日期两小类；数字类包括货币类和百分比类。

命名实体识别(Named Entity Recognition, NER)是信息抽取的第一步，是信息抽取中最为关键和重要的步骤。命名实体识别是从文本中识别出实体的命名指称。命名实体识别又称为“专名识别”、“实体抽取” [19]。实体识别包括两个步骤：实体边界识别和实体分类。边界识别的目的是判断字符串是否是一个完整实体，实体分类将实体划分到预先设定的不同类别。命名实体识别可以看作是识别出表示命名实体的短语，并对其进行类型指定的过程。

实体识别通常与实体链接密不可分。实体识别负责指定实体类别，实体链接是将识别出的实体通过识别和消歧等步骤后与数据库中的实体进行对应。实体识别与链接将文本转换为结构化的、以实体为中心的语义表示形式，是问答系统、机器翻译、数据标注、句法分析的基础前提步骤 [20]，是海量文本分析、知识图谱构建补全的“核心技术”之一。

3.1.2. 命名实体识别经典模型方法

命名实体识别技术方法分为基于规则、基于统计以及基于机器学习三类 [21]。随着时代的变换更新，命名实体识别技术也在不断革新。从早期面向特定领域，逐渐发展为面向开放域(Open Domain)；从最初基于人工编写规则，使用启发式算法转变为基于条件随机场(Conditional Random Field, CRF)、最大熵(Maximum Entropy, ME)、K-最近邻(K-Nearest Neighbors)等统计机器学习的方法；从基于有监督学习逐渐变为弱监督学习，再到无监督机器学习方式。以下是一些经典的面向特定领域的实体识别方法：

1) 基于规则的实体识别方法

这类方法通常利用一组手工定义的规则，在文本中搜索与这些规则匹配的字符串，来抽取人名、地名、组织名等。其中，谢菲尔德大学提出了用于英语命名实体识别的LaSIE-II系统 [22] 较为经典。除此，文献 [23] 利用启发式算法与规则模板结合的方法首次实现了公司名称抽取系统对公司实体进行抽取。

这类方法依赖固定的词法(Lexical)、句法(Syntactic)和语义约束(Semantic Constraints)，准确率较高，但是需要依靠特定专家对特定领域的规则进行编写，存在领域性强，系统可移植性差等缺点。

2) 最大熵分类模型 [24]

最大熵模型(Maximum Entropy)是一种概率估计模型，估计构建模型与已有训练集的效果相似度。其基本思想是选择创建一个模型使得其与给定的训练数据、训练样本产生效果尽可能一致。比如训练数据中命名实体前面的词为动词的概率为50%，则最大熵模型得到的结果中命名实体前为动词的概率也要为50%。最大熵模型的形式化描述如下：

其中， p′p′ 表示样本经验分布，P表示所有概率模型的集合 [25]。

通过上述表达式可知，满足给定训练集的模型并不唯一，而最终寻找的是在约束条件下各种评价指标分布最均匀的模型，即最符合客观情况、具有最大熵的模型。

最大熵模型可以用于特征函数的生成、特征函数选取、参数估计，常应用于文本分类、数据挖掘、词性标注等问题。例如，MENE系统采用最大熵模型实现英语命名实体的识别。MENE使用和比较了多种特征，包括外部系统特征、分类字典特征等等，提高了系统的跨语言可移植性和系统性能，实现了将文档中的每个单词分类为人名、组织、位置、日期、时间、金钱价值、百分比或“以上都不是”。该系统可以用于Internet搜索引擎，机器翻译，文档自动索引，也可以作为处理更复杂的信息提取任务的基础 [26]。

最大熵模型将实体识别的任务转换为子字符串的分类任务 [11]。该模型的优点是结构紧凑，通用性较高，便于自然语言处理，但存在训练复杂度高，时间消耗和计算空间开销大等缺点 [21]。

3) 隐马尔科夫模型

隐马尔可夫模型(Hidden Markov Model, HMM)是众多基于统计的模型中评价性能最佳的一种模型。HMM模型的基本思想就是给定观测序列(句子)，其数据是可以观测到的，通过捕获需要的状态转移信息，寻找观测值所对应的最佳状态序列(句子的标记序列) [26]，这类数据是隐藏的，无法直接观测。

HMM模型采用了Viterbi算法 [27] 求取命名实体最佳标记序列(状态序列)，显著提高了模型的训练速度、识别效率，这是隐马尔可夫区别于其他模型的显著优势，但是HMM模型的准确率要比期望最大化(Expectation Maximization, EM)模型、CRF模型低一些。因此HMM模型适用于实时性要求较高的场合，如语音识别、词性标注等领域。

HMM由于其输出独立性假设，导致其不能考虑上下文的特征，限制了特征的选择。虽然之后提出了更为有效的最大熵马尔可夫模型(Maximum Entropy Markov Model, MEMM)，考虑了整个观察序列，但仍存在“标注偏置”(Label Bias)问题。

4) 条件随机场模型

Lafferty等人 [28] 在2001年提出了条件随机场(Conditional Random Field, CRF)模型，它是一种判别式概率模型和一种序列分割及标记的可区分训练模型，其状态值取值的独立性不仅取决于临近的过去，也取决于未来，相对于MEMM和HMM更加有效。常用于分词、命名实体识别等预测问题。

CRF模型将实体识别问题转化为序列标注问题。文献 [29] 提出并实现了从简短非正式的Twitter文章中进行命名实体识别，处理推文的命名实体识别所面临的信息不足以及训练数据不可用的挑战。文章提出在半监督的学习框架下，将K个最近邻(KNN)分类器与线性条件随机场(CRF)模型相结合，基于KNN的分类器进行预标记以收集整个推文中的全局粗略证据，而CRF模型进行顺序标记以捕获推文中编码的细粒度信息。

条件随机场模型为命名实体识别提供了一个特征灵活、全局最优的标注框架 [21]，但是也存在收敛速度慢、训练时间长、依赖特征多的局限性。

5) 混合模型

基于规则的方法可移植性差，费时费力但是识别结果比较理想，基于统计机器学习的方法性能依赖于训练样本的规模，也出现了一定局限性。因此，出现了将两者相互结合的方法。Lin等人 [30] 实现的是从自然语言文本中识别生物医学命名实体，提取生物医学信息。文章提出的识别方法分为两个阶段：先使用最大熵作为基础的机器学习方法；然后结合基于字典和基于规则的方法进行后处理，包括边界检测扩展和错误分类纠正。对Medine论文摘要的GENIA数据集进行了实体抽取测试，取得了较理想的结果，召回率和准确率都得到了提升。

6) 基于深度学习的方法

深度学习方法的训练是一个端对端的过程，无需人工定义相关特征 [4]，其基本思想是使用训练数据学习对命名实体识别有用的特征，然后利用学习的特征在文本中进行命名实体识别。基于深度学习的方法主要有以下两类：

i. 神经网络–条件随机场架构(Neural Network-Conditional Random Field, NN-CRF) [31]

在这个架构中，卷积神经网络(Convolutional Neural Networks)/长短期记忆人工神经网络(Long Short-Term Memory, LSTM)用来学习每一个词的位置的向量表示，然后根据这个向量表示NN-CRF模型可以计算得到这个位置处的最佳标签。这类方法解决了实体识别的序列化标记问题。文献 [32] 提出了使用词向量表示特征的最简单、最有效的方法。文章 [33] 提出了一种半监督系统(以无监督的方式从大型语料库中学习单词表示，并使用这些单词表示作为有监督训练的输入特征，而不是使用手工制作的输入特征)，从4亿个Twitter微博中自动推断出的单词嵌入表示形式，作为系统输入，使用前馈神经网络(Feed Forward Neural Network, FFNN)进行分类，得到多种实体类别：公司、设施、地理位置、音乐艺术家、电影、人物、产品。该篇论文提出的方法没有加入人工参与，专注于分布式单词表示，可以应用于不同的语料库，并且得到较好结果。最近，文献 [34] 提出了一种神经半马尔可夫(Neural Semi-Markov)结构的支持向量机模型，这是一种训练精度驱动的NER模型，该模型将实体抽取扩展到序列标记问题，引入了代价敏感学习(Cost-Sensitive Learning)来控制精度和召回率之间的折衷。

ii. 基于滑动窗口分类的方法

该方法使用神经网络学习句子中的每一个N-Gram的表示，然后预测该N-Gram是否是一个目标实体 [4]。文献 [35] 实现了从科学文章中提取关键字短语并根据任务、材料、过程等方面对其进行分类的任务，该文章使用神经标记模型并引入基于图的半监督算法，将实体抽取归结为序列标记问题，对未标注的训练数据进行学习。这种方法对单一领域内、高数据量数据比使用跨域、小数据量数据具有更好的性能。

3.1.3. 面向开放域的实体抽取方法

在面向开放域的信息抽取中，信息来源不再是特定的知识领域，成为了全网信息，面向海量Web语料 [36]。例如，KnowItAll系统 [37] 处理的是规模庞大、具有异质性的Web语料库，例如Twitter、Wikipedia等。

开始研究人员采用人工方法进行实体识别和分类。例如，Sekine等人 [38] 在2002年采用人工预定义实体分类体系首次展示了一个层次结构的命名实体分类框架，将全网的实体分为了150个种类。Ling等人 [39] 在此基础上接着在2012年提出了112种的分类方法，该方法基于Freebase类型独特标记方法，先利用Wikipedia文件中的锚链接自动标记实体段，训练条件随机场模型，用来分割识别到的实体边界，接着采用自适应感知器算法实现对多类多标签实体的自动分类。

实体分类体系通过人工干预进行构建显得很是困难，因此，出现了通过统计机器学习方法从数据集抽取与当前类别实体具有相似上下文特征的实体，从而实现分类和聚类的方法。Jain等人 [40] 提出并实例化了一种用于通过web搜索查询日志进行公开信息提取的新颖模型。该方法的处理对象是网页中的查询日志，通过应用基于模式的启发式方法和统计方法，使用无监督方法从搜索查询日志中提取实体，采用聚类算法对基于日志搜索得到的实体进行聚类，进而得到分类。这是一种面向开放域的无监督学习算法，该方法可以应用在协助搜索的关键字生成方面，例如搜索“手机”出现“华为”“小米”等建议。

由于传统统计模型需要进行大量语料标注、人工构造大量特征的局限性，出现了一些新方法，例如，使用基于半监督算法 [41] 、远距离监督算法 [42] 、基于海量数据冗余性 [20] 的自学习方法等来解决开放式实体抽取问题。面向开放域的实体抽取方法常应用于基于常识的新颖的问答系统 [24]。

3.2. 关系抽取

命名实体识别是从文本中抽取特定实体，但仅孤立、离散的实体是无法得到语义结构无法满足应用需求的，这时候确立实体之间的关联关系显得更为重要。实体关系抽取是对已经识别出的实体进行预定义的关系识别，为更深层次的分析提供资源也是知识图谱构建的重要环节之一。

关系抽取是一种获取已经识别出的实体之间的语法或语义之间连接方式的技术。和命名实体识别类似，关系抽取中实体关系的类型也需要预先定义，例如人物之间的亲属关系、组织机构和地点之间的关系等等。

关系抽取的范围分为面向特定领域(Close Domain)、面向开放领域(Open Domain)以及联合推理三大类。面向特定领域的关系抽取方法和实体识别相似，前期主要使用基于模式匹配和基于词典驱动的方法，依靠人工编写抽取规则。随着人工构造规则低效性和领域局限性的明显化以及研究的深入，现在较多使用的两类方法是：基于机器学习(Machine Learning)的方法和基于本体(Ontology)的方法。其中，基于机器学习的方法又分为有监督、弱监督和无监督三类。在面向开放域的关系抽取发展中出现了以OIE系统为基础的多个系统，例如，WOE系统、OIE ReVerb系统、OILLIE系统等，实现了动词、非动词的关系抽取和二元、多元的关系抽取。同时，为了解决隐含关系的抽取，产生了将面向开放域的关系抽取方法与传统面向特定领域的信息抽取方法相结合的联合推理的思想，是关系抽取方法上的一个巨大进步。

3.2.1. 基于机器学习(Machine Learning)的办法

基于机器学习的实体关系抽取方法的思想是：首先对人工标注的语料库进行不断学习不断训练，获取特定领域的信息抽取规则，接着利用机器学习算法进行关系识别。基于机器学习的实体关系抽取系统一定程度上可以处理新的文本，这是其区别于以往方法的最大优点。基于机器学习的方法根据是否需要人工标注训练集以及对标签的需求程度又分为有监督、弱监督和无监督三类 [43]。

1) 有监督的学习方法

有监督的学习方法需要人工预先标注大量语料训练集以确保算法的有效性，然后对训练集进行不断学习获取信息抽取规则。关系抽取的有监督学习可以分为两大类：基于特征向量的方法和基于核的方法。

最早的有监督的学习方法是基于特征向量的学习方法。该方法将训练语料转换为特征向量形式，使用各种机器学习算法(最大熵模型(Maximum Entropy)、支持向量机(Support Vector Machine, SVM))为其构造分类器，从而对新数据进行分类和测试。基于特征向量的方法将信息抽取问题看作分类问题，对数据的正确分类即对信息的正确抽取。其研究重点是如何获取各种有效的词汇、语法和语义特征进行集成。Zhou等人 [44] 使用支持向量机，运用了多种词汇、语法解析树、依存树特征，并且加入了各种语义信息，如WordNet、名称列表name list、分块短语信息等，实现了基于特征的关系提取，使用语言数据协会(Linguistic Data Consortium, LDC) 1提供的ACE语料，抽取出了ACE 2004定义的7大类关系类型。这些基于有监督的学习方法发现实体的类别信息特征的提取有助于提高关系抽取性能。

基于核函数的方法以核函数理论为基础，以结构树为处理对象，通过直接计算两个离散对象(如语法结构树)之间的相似度来进行分类，不需要构造高维特征向量空间。核函数方法可以有效地利用句法树中的结构化信息，已成功应用于文本分类和生物信息学等问题。Liu等人 [45] 借助HowNet提供的本体知识构造语义核函数，在开放数据集上对六类ACE定义的实体进行识别，准确率达到了88%。Zhuang等人 [46] 提出了使用卷积树核方法进行实体语义抽取，在关系的结构化信息中加入实体的语义信息，应用树裁剪策略，在减少冗余信息的同时扩充了原有的树结构，使之包含更丰富的实体语义信息。通过直接计算两个实体关系对象(即句法树)的相同子树的个数来比较相似度，也改善了实体语义关系识别抽取的效果。实验数据取自ACE RDC 2004中的347篇新闻报道，共有4307个关系实例，系统对ACE所定义的7个大类进行关系抽取实验。Zelenko等人 [47] 在浅层句法分析树基础上定义了核函数，并设计了一个用于计算核函数的动态规划算法，然后通过支持向量机和表决感知器(Voted Perceptron)等分类算法来抽取实体语义关系，系统对200篇新闻文章(语料库包含来自不同新闻社和出版物(美联社，《华尔街日报》，《华盛顿邮报》，《洛杉矶时报》)进行处理，最终提取得到两种关系，“人员–隶属”关系(一个特定的人从属于一个特定的组织(如“小王是腾讯公司的程序开发工程师”中在人物“小王”和组织“腾讯公司”之间存在着人员–隶属关系)和“组织–位置”关系。

2) 弱监督的方法

弱监督学习方法又称为半监督学习，使用预先定义的关系类型和关系实例的种子来取代大量的人工信息标注过程，减轻了对标签的依赖。在定义了适当的实体作为种子之后，利用机器学习方法，挖掘对应关系描述模式，通过模式匹配抽取新的关系实例。关系抽取的弱监督学习中基于Bootstrap算法、基于神经网络模型是经典的学习方法。

基于Bootstrap算法的半监督学习方法由Carlson等人 [48] 提出，该算法实现了自动实体关系建模，首先利用少量实例作为初始种子集合，通过Pattern方式迭代学习非结构文本以获取新实例，接着从新实例中继续学习并扩展Pattern集合。Wang等人 [49] 以原始文本为输入，提出使用一个单一的模型、端到端联合识别边界、实体提及的类型和关系，使用了一种基于结构感知器的增量联合框架，利用有效的集束搜索进行实体和关系的抽取，该框架使用基于半马尔可夫链思想实现基于分段的解码算法。此后，Brin等人 [50] 发布了DIPRE系统，该系统使用少量的种子模板，从网络上大量非结构文本中抽取实例，通过新的实例学习新的抽取模板，设计了一个永无止境学习者系统(Never-Ending Language Learner, NELL)，用来不间断抽取学习网络文本中信息到结构化知识库中，对数据库中的事实、知识不断扩充。NELL主要学习的是两种类型的知识，一种是表示特定类别的词汇(比如，公司，家，学校)，另一种是表示特定关系的名词对(比如，表示所属关系的(小王，腾讯公司))。通过在前人抽取系统基础上进行大规模Pattern构建或完善对新抽取实例、新构建Pattern的描述限制，很多系统如Snowball系统 [42] 、NELL系统 [51] 相继出现，推动了知识图谱的构建进度。

斯坦福大学(Stanford University)的Mintz等人 [52] 于2009提出基于远距离监督学习的无标注文本的关系抽取方法。该方法以Freebase为训练数据进行远距离监督学习，设计面向文本特征的分类器，是融合了有监督和无监督的信息抽取方法；何婷婷 [53] 提出了基于种子的自扩展命名实体关系抽取方法，选取有关系的命名实体对作为初始关系种子集合，通过弱监督学习扩展关系种子，接着计算关系种子和命名实体对之间的上下文相似度，进而抽取新的命名实体对。

3) 无监督的方法

无监督方法使用未经人工标注的训练文本集，通过实体对聚类的方法，构造分类器，给定实体间的关系。无监督学习主要利用语料中大量冗余信息进行聚类分析，进而得到实体间关系 [5]。无监督方法既可以处理web文档也可以对文本文档进行处理。

无监督方法可以用来对web文档信息进行抽取。Kathrin [54] 实现了基于无监督学习的web文档信息抽取，过程分为预处理、关系抽取和关系聚类三步；同样地，Etzioni等人 [37] 实现了一个web信息抽取系统KNOWITALL，通过无监督方法实现了高召回率(Recall)的信息抽取。

实体之间语义关系的抽取是web挖掘和自然语言处理，例如信息提取，关系检测和社交网络挖掘中各种任务的重要第一步。Hashimoto等人 [55] 提出了一种词嵌入的方法对语义关系进行分类(监督学习)，词嵌入通过借助大型未标注语料库中特定关系的词汇特征来预测得到名词对中的特征，接着词嵌入用于构建特征向量，最终特征向量被训练成一个关系分类模型。Hashimoto等人 [55] 使用原始Wikipedia文件中提取的8000万个句子作为训练数据进行词嵌入的预训练，最后将文本中的名词对之间的关系分为9个特定关系类(比如原因–结果、物质–来源)和1个其他关系类(例如，“养家糊口是人们努力赚钱的很大动力之一”中“养家糊口”–“赚钱”之间存在因果关系)。无监督方法也可以通过协同聚类算法实现。Bollegala等人 [56] 提取了实体之间的语义关系，使用顺序联合聚类(co-clustering)算法，从未标记数据中提取大量有效关系，包括语义关系的双重关系(比如获取关系，房地产公司购买了一栋老洋房，同时可以表示为，老洋房被房地产公司收购)。该方法使用算法产生的聚类，训练了一个L1正则化逻辑回归模型识别用来描述聚类表达关系的模式 [56]。其中提出的模型对ENT基准数据集中实体对之间的关系相似性进行了计算；对SENT500基准数据集的500个手动注释的句子中的四种语义关系进行了开放信息提取；以及对包含3500万个节点的社交网络系统中53种不同的关系进行了识别和分类。

无监督方法可以用来对文本信息进行抽取。文献 [57] 通过将非结构化文本与知识库对齐来自动生成大量训练数据。文献 [58] 尝试将远程监督纳入文本处理中，以通过使语料和文本对齐来自动生成训练样本，从而提取特征训练分类器。

除了上述方法，Zhang等人 [45] 提出了基于实例的无监督学习方法，能够对实体之间的雇佣关系、生产关系以及位置关系进行准确的识别；Ji等人 [59] 提出了一个句子级别的注意力机制模型，该模型选择多个有效实例并充分利用知识库中的监督信息，使用传统CNN从Freebase或Wikipedia中抽取得到的实体特征信息来丰富实例的背景知识，提高实体表示。Qi等人 [45] 使用Riedel 2010开发通过将NYT语料对齐知识库得到的数据进行实验。

4) 深度学习方法

深度学习方法在自然语言处理(NLP)和图像识别方面表现的性能非常强大，使得众多研究者将其应用于解决关系抽取的问题。深度网络的结构有很多种，如RNN (Recurrent Neural Networks) [9]，CNNS (Convolutional Neural Networks) [3]，CNNs和RNNs的结合结构 [60] [61] 以及LSTMs (Long Short-Term Memories) [62]。基于神经网络模型不需要加入太多的特征，一般加入词向量特征、位置特征等就可以。Hsahimoto等人 [45] 利用Word Embedding方法来学习给定标注预料中特定名词对应的上下文特征，将特征加入神经网络分类器中；JainPoon等人 [63] 使用了用于关系提取的卷积神经网络(CNN)，针对不平衡语料库，自动从句子中学习特征并最大程度地减少对外部工具包和资源的依赖，从而摆脱了传统的复杂特征工程方法。该模型利用无监督框架自动训练词嵌入作为系统输入，模型使用预训练的词嵌入进行初始化，并优化词嵌入和位置嵌入作为模型参数，对句子中两个实体间的相对距离进行编码，并且提供了多种窗口大小的卷积过滤器，从而使网络适合于n元关系提取。从文本中提取实体对之间的语义关系可以用于信息抽取、知识库填充、问题解答等等。Zeng等人 [64] 将分段卷积神经网络(PCNN)与多实例学习一起用于远程监督关系提取。此方法中，无需复杂的NLP预处理即可自动学习特征。Zhang等人 [65] 提出了将LSTM序列模型与实体位置感知相结合的关系抽取神经序列模型，通过更好的监督数据和更合适的大容量模型的结合实现了更好的关系提取性能。

以上四种机器学习方法均可以对实体关系进行抽取。有监督的信息抽取方法需要预先人工标注大量语料集，对人工的依赖性较强，抽取的准确率较高，常常用来处理自然语言文本；弱监督学习减少了对标签的依赖，降低了对人工的依赖，其使用了预先定义的关系类型和关系实例的种子，实现了很多自动关系抽取模型，推动了知识图谱的构建进度；无监督方法使用的文本集不需要进行人工标注，它使用实体对聚类方法实现关系抽取。弱监督以及无监督学习常常用来处理规模大的web文本。深度学习方法通过引入神经网络模型进一步提升了关系抽取的自动化程度，并取得了更优秀的关系提取性能。

3.2.2. 基于本体(Ontology)的方法

基于本体的信息抽取技术，借助预定义的本体层次结构，可有效识别特定领域的概念、实体、关系等知识。本体可以看作一个呈树状结构的知识库模具，是同一领域内不同主体之间进行交流、连通的语义基础 [66]。

本体的构建是信息抽取的基础，本体的构建方法也随着技术的发展逐渐从人工构建、半自动化构建向自动构建发展。人工构建本体由大量的领域专家相互协作完成，Swartout等人 [67] 提出的循环获取法(CYC)，Nov等人 [68] 提出的Ontology Development 101 (七步法)都是人工构建的经典方法，其步骤包括确定领域范围、复用现有本体、列出概念术语、定义类与类之间的层次关系、定义属性之间关系、定义属性的约束和创建实例。但是七步法存在主观性强，评价机制弱的缺陷，缺少科学管理和评价机制。

半自动化构建本体主要是利用相关领域内的专业词典、叙词表等专家知识从中抽取感兴趣的概念和关系，构建需要的实体 [69]。这类方法复用了本体中的概念和关系带来了不同本体匹配的问题。

自动构建本体利用知识获取技术、机器学习方法以及统计的思想和技术从数据资源中自动获取本体知识。其具体方法分为基于语言规则和基于机器学习方法两类。基于语言规则的方法 [70]，通过对自然域文本的分析，提取候选关系并将其映射到预定义的语义表示中实现本体的构建。这类方法中一个动词可以表示两个或多个概念之间的关系。但也存在以下缺点：1) 不会发现新的关系，只是发现已知关系实例；2) 本体构建的效果依赖于语义模式，因而需事先构建较完备的语义模式。另一类是基于统计分析的机器学习方法 [71]，基于数据聚类对用于构建每个组的本体树的文档进行分组，使用模式树挖掘从部分本体树构建集成本体进行结构化的本体构建。其中，文档聚类主要通过潜在语义分析(Latent Semantic Analysis, LSA)和K-Means等检索关键字关系矩阵的方法来实现；本体构建主要通过形式概念分析和本体集成实现。机器学习方法比起基于规则的方法适用于范围更广的领域，构建的本体倾向于更好地描述概念间的关系，结构也更加复杂。但是，缺乏必要的语义逻辑基础，因此抽取概念关系松散且可信度无法得到很好的保证。信息抽取可以通过一个或者多个本体实现。Moreno [72] 提出了在一个独立域中基于本体实现信息抽取的方法，应用面向分子生物学领域，对大肠杆菌信息进行抽取，建立大肠杆菌监管网络，所建设的系统对该领域科学论文的摘要和完整文献进行了测试，先设计领域本体，然后根据本体所包含的知识实现信息抽取。Li等 [73] 人实现了基于农业本体的农业领域对结构化的AJAX数据的提取。Daya [74] 提出了使用多个本体进行信息抽取，分别在子域的确定和子域的表达两种情况下使用多个本体，所实现的第一个基于多本体的系统是针对大学领域开发的，它使用两种专门针对子域的本体，语料库由100所大学，50所来自北美和50所来自世界其他地区的网页组成文献。实现的第二个系统应用在恐怖袭击的领域和消息理解会议(MUC)使用的语料库实现子域的表达。

3.2.3. 基于开放域的关系抽取

随着大数据时代的来临，文本数据急剧增多，数据规模增大，传统的领域受限的、限制语义关系的信息抽取方法、知识表示结构出现了很大的局限性。之前的信息抽取方法面向的是特定数量的文本需要预先定义好的关系类别，领域知识也是由本体(Ontology)结构来表示，随着处理数据的海量化，本体构建越来越困难，抽取方法也开始出现问题。并且面向特定领域的抽取方法导致了信息抽取技术的难以普及和扩展，系统的可移植性差。

面向开放域的关系抽取技术直接利用语料库的中关系词汇进行实体关系分类建模，不再需要预先指定关系的分类，就可以实现数据分类。该方法成为了抽取模式上的一个巨大进步。开放式IE系统都采取标签–学习–提取三个步骤的方法：首先使用启发式或远距离监督方法自动标记句子；接着使用序列标记图形模型(例如CRF)学习关系短语提取器；最后系统将一个句子作为输入，从句子中识别出参数，利用提取器将两个自变量之间的每个单词标记为关系短语的一部分或不作为关系短语的一部分。抽取器用于语料库中的连续句子，然后收集所得的抽取内容 [11]。

华盛顿图灵中心的Banko等人 [16] [75] [76] 在2007年提出了面向开放领域的信息抽取框架(Open Information Extraction, OIE)，发布了基于自监督学习方式的开放信息抽取原型系统TextRunner，标志着第一个OIE系统的问世。TextRunner (O-CRF)首先利用启发式规则来训练样本，然后采用二阶线性链条件随机场抽取器从开放式文本中自动抽取关系三元组 [16]。TextRunner可以自动抽取文本中大量实体关系，但是在准确率跟召回率方面不是很理想。

Wu等人 [77] 2010年在OIE的基础上提出了基于Wikipedia的WOE (Wikipedia-based Open Extractor)系统，将Wikipedia作为数据源利用维基百科网页信息框(Infobox)中的属性信息经自监督学习与相应语句匹配，自动构造实体关系训练集，然后从样本中抽取出关系独立的训练数据经自监督学习得到抽取器。WOE系统实现了大批量构造高质量训练语料的方法，并且在准确率跟召回率方面都得到了改善，令人遗憾的是它速度方面出现了不足。Fader等人 [20] 在TextRunner系统和WOE系统基础上引入了语法限制条件和字典约束，进行关系指示词的预识别，消除了不合理实体关系三元组的生成。

随着研究的进一步发展，出现了第二代OIE系统ReVerb [20] [78]，基于通用句法和词法约束实现了关系短语识别器，处理的是随机抽取的英语句子，对其进行全面语言分析，使用动词表达句子中关系，抽取得到动词关系短语(例如，句子“Mr. Wang fought against Mr. Li，but finally lost the job”，系统将抽取出两组元组：(Mr. Wang, fought against, Mr. Li)和(Mr. Li, lost, the job))。Etzioni等人 [11] 通过应用浅层句法约束和词性约束减少了无意义信息以及错误信息的产生，所设计的Reverb系统主要进行动词关系的抽取，先抽取满足约束的关系，然后依据临近原则确定左右实体。REVERB支持学习选择偏好，获取常识知识，识别蕴含规则等等。

Mausam等人 [20] 在第二代OIE基础上提出了支持非动词性关系抽取的OILLIE (Open Language Learning for Information Extraction)系统，有效弥补了以往OIE系统抽取以动词为主而忽略名词形容词的缺陷，开始结合上下文全局分析而不是仅对语句局部分析、部分抽取，有效改善了自动抽取系统的召回率和准确率。McCallum等人 [75] 提出了后期采用关系推理的方法，有效地提高了隐含语义关系的发现识别能力。

以上提到的抽取方法都是二元的开放式关系抽取。开放式的关系抽取按抽取关系的复杂程度可以分为二元和多元。Alan等人 [79] 提出了基于N元关系模型的OIE系统，对除了常见二元实体关系的高阶多元实体关系进行识别；文献 [79] 在OIE ReVerb系统上提出了KPAKEN方法，通过输入Stanford的依存分析结果，经过检测事件短语、检测实体主导词、检测全部实体等步骤，实现了对任意英文语句中的N元实体关系的抽取。Del等人 [80] 提出了一种新颖的基于条款的开放信息提取方法，称为ClausIE，该方法从自然语言文本中提取关系及其参数，ClausIE基于依赖性分析和一小组与域无关的词典，无需经过任何后处理即可逐句操作，并且不需要训练数据(无论是带标签的还是无标签的)。ClausIE利用英语语法知识来首先检测输入句子中的从句，并随后根据其组成部分的语法功能识别每个从句的类型。根据此信息，ClausIE能够生成高精度提取系统，在实验中使用了三个不同的数据集：包含手工标记的500句子的Reverb数据集；从Wikipedia页面中随机提取的200个句子；从《纽约时报》合集随机提取的200个随机句子。ClausIE依据依存关系获取子句集合，并将其按类型灵活组合来抽取实体的N元关系。由于N元关系具有更加丰富的语义，因此由二元关系向N元关系的过渡是必然的，也是以后的研究发展方向。

随着理论研究的不断进行，更多面向开放域理论模型的出现，更优秀的知识表示结构的出现，更多研究成果正不断投入实践应用中，信息抽取研究正在不断取得进步，正在获得更大更开放的发展空间，为后续知识图谱的高质量构建提供了有力保障。

3.2.4. 联合推理

隐含关系抽取是关系抽取的一大难点。因此，为了挖掘文本中的隐含的深层语义信息，一些学者将面向开放域的关系抽取方法与传统面向特定领域(Close Domain)的信息抽取方法相结合，取长补短，提出了联合推理(Joint Inference)的概念 [25]。JainPoon等人 [63] 提出了一种完全联合方法。目前联合推理主要包括基于马尔科夫逻辑网和基于粗略至精细(Coarse-to-Fine)的本体推理两种。

1) 基于Markov逻辑网的逻辑推理

基于马尔可夫逻辑网MLN (Markov Logic Network) [79] [81] 的方法是联合推理关系抽取中的经典方法，该方法在OIE中加入了推理，将马尔可夫网络与一阶逻辑相结合，维护一个基于一阶逻辑的规则库，并对每一个逻辑规则附上权重，构建统计关系学习框架。其中马尔可夫逻辑是一种强大的新语言，将一阶逻辑与概率图形模型无缝结合 [77]。MLN的基本推理任务是寻找一个值从而使得可满足的子句的权值最大，即MAP (Maximum A Posteriori)推理。MLN可看作一种用一阶逻辑公式来实例化Markov网络的模板语言。该方法在语义角色标注、共指消解、文本蕴含、实体链接消歧等研究方面有很好的应用。

微软公司的人立方(Renlifang)项目基于该方法提出了StatSnowball模型 [59] 实现了自动生成或选择模板生成抽取器，从web挖掘实体关系，该模型在小型标记数据集和大规模web数据中都提现了较好的性能。该方法是一种基于无监督自学习的知识挖掘模型，可以抽取多种实体关系，并且可移植性强。人立方系统主要由以下几个应用：1) 搜索实体关系信息；2) 对话题相关人物进行排序；3) 检测某实体的受欢迎程度，并使用户可以浏览给定时间段内按其在网络上的知名度排名的不同类别的实体；4) 对人物进行排名。基于StatSnowball文献 [82] 提出了一种实体识别与关系抽取相结合的ENTSum模型，即将实体识别和关系抽取在一个模型中联合处理同时实现。该模型由扩展的CFR命名实体抽取模块和基于StatSnowball的Bootstrapping关系抽取模块组成，两个模块使用迭代方法相结合，实体识别可以利用关系抽取的模板语法特征和知识语义特征，使得两个模块准确率和召回率都得到了改善。文献 [75] [83] 提出了一种简易的Markov逻辑TML (Tractable Markov Logic)。Banko等人 [78] 提出了基于条件随机场的关系抽取模型(H-CRF)，根据目标数据集关系数量多少以及有无预定义的分类模型选择机器学习方法或开放域关系抽取方法。

2) 基于本体推理的联合推理

基于本体推理的联合推理面向开放域抽取方法形成的知识库基本上都是信息的基本存储并没有进行内容的规范和组织。为了使抽取结果形成的知识库成为真正的知识库，即能够推断文本深层含义进而从已有事实信息包含的隐含信息中推理出新的知识，能够为决策和问答所使用。研究者们提出了基于本体推理的信息抽取方法。

Zhang等人 [14] 提出了KOG模型，该方法基于MLN联合推理，将Wikipedia的Infobox与WordNet相结合用于本体结构的构建，本体结构是“实体–属性–属性值”的结构，为Wikipedia的查询/专题浏览功能提供了辅助作用。Moro等人 [84] 提出的VELVET方法利用联合推理以及本体平滑方法实现了最弱监督下实体关系的抽取，为结构化知识库的建立奠定了基础。Domingos等人 [85] 将概率推理(Lifted Probabilistic Inference)与Markov相结合，提出了简易Markov逻辑(Tractable Markov Logic, TML)。在TML逻辑语言中，领域知识按照层次结构分为若干部分，各部分又按照所属事物类进一步分解为若干部分，以此类推，最终形成了一个层次化的类/局部结构。TML被证明是目前最为丰富和高效的逻辑语言之一，可能将来在本体知识推理前进中起到推波助澜的作用。

另外一些学者提出了采用联合抽取模型的方法，典型成果如利用双层的LSTM-RNN (长短期记忆–递归神经网络)模型通过神经网络进行分类模型的训练 [64] 联合推理结合了面向特定领域和面向开放域的方法，在许多方面展示出了优势。对于隐含关系的抽取和抽取阶段的平衡，联合推理方法显现出比主流开放式信息抽取方法更高的性能 [86]。当前信息抽取技术多是顺序式抽取，即抽取过程分解为实体识别、关系抽取、属性抽取等连续的多个子任务再集成。这样的模式存在些缺陷，比如前一阶段无法识别的信息在后一阶段将不再被处理，从而出现了信息的缺失和不完整。前一阶段的错误信息结果将无法在后面阶段进行修复，从而在所有阶段结束后大大增加了错误率的积累。此外顺序式处理方式使前面阶段无法使用后面阶段出现的有用特征，准确率和效率得到了限制。而联合推理方法不仅能够综合各个阶段，实现相互补充和促进，而且可以实现文本深层理解，实现隐含信息的自动推理。因此，联合处理的方法将成为之后的研究重点。

3.3. 属性抽取

属性抽取是为实体识别而服务的，属性可以很好的对实体进行刻画。实体的属性可以看作实体和属性值之间的名称性关系，因此实体属性抽取可以视为一种特殊的关系抽取。属性抽取的方法之一是从各类百科网站抽取结构化知识作为属性抽取的训练集，再将模型运用到开放域中的属性抽取 [12]。例如，Domingos等人 [85] 提出了基于规则与启发式算法的属性抽取方法，实现了从Wikipedia和WordNet的半结构网页中自动抽取相应属性名称与属性值，而且达到了很高的准确率。另一种方法是利用实体属性与属性值之间的关系模式直接从开放域的数据集上抽取实体属性 [87]。Huang等人 [88] 使用DNN架构的规则，模式和约束条件实现了从大量原始文件中提取给定实体的某些属性类型值即Slot Filling (SF)的提取。

4. 信息抽取方法总结

信息抽取包括实体抽取、关系抽取、属性抽取等多个子任务。以下分别以应用领域、技术方法以及数据源为分类依据对提及的三个子任务分别进行了介绍。具体的方法和领域分类见表1和表2。

表3. 按处理对象分类

面向开放领域方法信息抽取方法应用范围广泛，可以很好的处理大规模数据，既可以处理自然语言文本，例如文献 [80] 提出的ClausIE模型，文献 [11] 提出的REVERB系统以及基于本体的系统 [74] 都是对文本进行信息抽取；又可以有效处理web文本，例如文献 [79] 提出N元关系抽取模型KPAKEN来对网络文本进行多元关系抽取。

在面向特定领域的信息抽取关系抽取方法中，基于有监督的抽取方法常用来处理自然语言文本，例如文献 [47] 提出基于核函数的系统，文献 [46] 提出使用卷积树核方法来对文本中的关系进行抽取，文献 [44] 使用了ACE语料作为输入来进行信息抽取，其数据规模较小，在人工标注预料训练集方面占有优势，通过学习训练集得到抽取规则因此准确率也较高；基于弱监督和无监督的抽取方法更多的用来处理大规模web数据，其减少了对于人工信息标注的需求，实现了对Freebase、Wikipedia等web文档的信息抽取，并且可以得到较准确的抽取效果，例如文献 [37] 基于无监督的机器学习方法提出KNOWITALL系统，对web文档进行实体和关系抽取，文献 [48] 基于弱监督机器学习方法Bootstrap对实体关系进行抽取，文献 [52] 使用Freebase为数据源进行基于远距离监督学习的无标注文本的关系抽取，文献 [59] 基于无监督方法提出的句子级别注意力级别模型，对Freebase、Wikipedia数据进行处理，文献 [55] 基于无监督方法提出的词嵌入方法处理Wikipedia文件中的信息。

在实体识别抽取中，基于规则以及基于统计的实体识别方法通常用来处理自然语言文本，其针对性强，准确率高，通常在人工标注下可以获得好的识别效果，例如文献 [23] 使用基于规则的方法实现了以公司名称为处理对象的，文献 [79] 将K最近邻(KNN)分类器与线性条件随机场(CRF)模型相结合实现了从简短非正式Twitter文章中进行命名实体识别，文献 [30] 使用混合模型将最大熵模型和基于规则的方法结合实现了从自然语言文本中识别生物医学命名实体；基于深度学习的方法无需人工定义相关特征通过训练数据自主学习有用特征然后利用特征进行命名实体识别，基于深度学习的方法既用来处理单领域自然文本，例如文献 [35] 以科学文章为处理对象使用神经标记模型实现从科研文章中提取关键字短语，深度学习也可以用来处理web数据例如文献 [33] 提出了一种半监督系统对Twitter微博进行实体识别和分布式表示。

信息抽取的数据来源除了自然语言文本以及web文本这两种数据源外，社交网络数据也是一种丰富数据源。社交网络节点规模大且关系种类繁多，文献 [56] 提出了基于无监督方法使用顺序联合聚类算法对包含多个节点的社交网络中的多种关系进行抽取。

5. 结束语

本文首先根据知识图谱的概念、构建技术框架引出了信息抽取的概念，接着通过三个国际评测会议介绍了信息抽取的发展历史；后续详细介绍了信息抽取关键技术，包括实体抽取、关系抽取和属性抽取；最后分析了信息抽取的研究趋势。我们系统性分析了面向知识图谱信息抽取的常用方法，根据技术特点分为实体抽取、关系抽取以及属性抽取三类子任务。其中各个子任务根据其应用领域分为面向特定领域和面向开放域两种，根据其数据来源分为面向文本和面向Web两种。

在面向特定领域的情境下，信息抽取各个子任务的技术方法较成熟、经典，例如在实体抽取中常用CRF、ME、HMM、NN-CRF等基于统计的模型；在关系抽取中常使用基于监督、半监督或无监督的机器学习方法。

在面向开放领域的应用中，随着大数据时代、全网时代的到来，更多新的优秀的方法正在不断地涌现。具体地，在实体识别任务中，出现了一些基于自学习方法的实体分类模型，从而不再需要通过人工构造大量语料标注、大量的特征；在关系抽取中，出现了以OIE框架为基础的众多优秀系统，基本实现了各种词性间的关系抽取以及隐含关系的抽取。

赶紧长按上面图片添加关注!

转发，点赞，在看，安排一下？

阅读原文

你可能感兴趣的:(计算机视觉,知识图谱,人工智能)

“AI 自动化效能评估系统：开启企业高效发展新征程上海拔俗网络 java 团队开发
在当今数字化飞速发展的时代，企业面临着日益激烈的市场竞争，如何提升效率、降低成本成为了企业生存与发展的关键。AI自动化效能评估系统应运而生，它如同一把智能钥匙，为企业开启了高效发展的新征程。AI自动化效能评估系统，简单来说，就是利用人工智能技术对企业的各项业务流程、生产环节以及员工工作表现等进行全方位、自动化的评估。它能够快速收集海量的数据，并通过先进的算法模型对这些数据进行深度分析，从而精准地判
3d系统误差分析 Ai智享结构光 3d 数码相机计算机视觉
系统标定重投影误差预估在计算机视觉和三维重建领域中，评估一个相机系统标定精度的重要指标。通过比较真实的三维点在图像中的投影位置与标定模型计算出的投影位置之间的差异，来衡量标定的准确性。以下是对这一概念的详细解析：什么是系统标定？系统标定(SystemCalibration)是指对一个视觉系统（例如单目相机、双目相机系统或结构光系统）进行参数标定的过程，包括：内参标定：相机的内部参数（如焦距、光心、
智能体（AI Agent）：概念、原理与应用，全面解析AI技术前沿! 和老莫一起学AI 人工智能学习数据库产品经理机器学习 ai 大模型
一、智能体概念的深度剖析1.1智能体（Agent）的本质智能体，作为人工智能领域的一颗璀璨明珠，是那些能够主动感知周遭环境、自主决策并付诸实践的系统实体。它们不仅拥有自主性、交互性、反应灵敏及高度适应性等鲜明特征，更在复杂多变的情境中展现出卓越的自我管理与任务执行能力。智能体的诞生，标志着人工智能技术从机械式的规则遵循迈向了更为灵活、智能的自主决策新时代。智能体的核心精髓在于其内置的学习与决策引擎
基于人工智能的Python面试题请一直在路上 python 开发语言
基于人工智能的Python面试题1.Python中的元组与列表区别是什么？列表是可变类型，元组不是。列表是引用类型，元组不是。列表使用场景更宽泛，元组更多用于一些数据不可变的场景，例如参数、或者返回值。2.Python中的字典是否有序？python3.6之前字典是无序的，之后是有序的。原因可以参考下这个帖子https://blog.csdn.net/weixin_48629601/article/
如何使用Java爬虫获取阿里巴巴热卖商品推荐：代码示例与实践指南小爬虫程序猿 Java java 爬虫 python
在电商领域，获取热卖商品推荐对于商家和开发者来说至关重要。阿里巴巴提供了热卖商品推荐API接口，能够根据消费者的购买历史、浏览行为、搜索习惯等数据，自动推荐符合其需求的商品。以下将详细介绍如何使用Java爬虫获取阿里巴巴热卖商品推荐，并提供相关的代码示例。一、阿里巴巴热卖商品推荐API接口简介阿里巴巴热卖商品推荐API接口是一种基于人工智能算法的推荐系统，能够根据消费者的购买历史、浏览行为、搜索习
AI与API的融合：构建智能互联技术世界的基石 IT数据V+I7809804594 人工智能数据分析 python 爬虫大数据
在当今科技飞速发展的时代，人工智能（AI）与应用程序接口（API）的融合正在开启智能应用的新纪元。AI以其强大的数据处理和分析能力，正在改变各行各业的工作方式，而API则作为连接技术与应用的桥梁，为AI技术的普及和应用提供了无限可能。本文将深入探讨AI与API的融合如何推动智能应用的创新和发展，以及其在各个领域的应用和前景。一、AI与API融合的背景随着大数据、云计算、物联网等技术的快速发展，人工
YOLOv8与Transformer：探索目标检测的新架构 AI架构设计之禅 AI大模型应用入门实战与进阶大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
YOLOv8与Transformer：探索目标检测的新架构关键词：目标检测，深度学习，YOLOv8，Transformer，计算机视觉，卷积神经网络摘要：目标检测是计算机视觉领域的一项重要任务，其目标是从图像或视频中识别和定位特定对象。近年来，YOLO（YouOnlyLookOnce）系列算法以其高精度和高速度成为目标检测领域的佼佼者。最新版本的YOLOv8引入了Transformer架构，进一步
基于Spring Boot和Vue的人脸识别项目（源码） AI人H哥会Java JAVA大作业项目实战 spring boot vue.js java 人工智能计算机视觉后端 sql
背景随着人工智能技术的迅猛发展，生物识别技术的迅猛发展，人脸识别已经成为最具潜力的人工智能应用之一。它不仅在安全监控、金融支付、智能家居等多个领域得到了广泛应用，也逐渐进入日常生活场景。人脸识别作为一种生物特征识别技术，能够通过分析人脸图像中的特征点，实现对个体的身份识别。利用计算机视觉技术，系统能够快速从大量图片中定位并识别特定人脸，实现身份验证和信息检索。这一技术的应用，不仅提高了安全性，还提
图像生成大模型：Imagen 详解转角再相遇 imagen python 深度学习计算机视觉
近年来，图像生成技术取得了显著进展，推动了计算机视觉和生成对抗网络（GAN）等领域的发展。Imagen是一个新兴的图像生成大模型，其在生成高质量、逼真图像方面表现出色。本文将详细讲解Imagen的基本原理、架构、训练流程及应用场景。1.Imagen的基本原理1.1什么是Imagen？Imagen是一种基于深度学习的图像生成模型，结合了自注意力机制（Self-attentionMechanism）和
人工智能伦理：技术发展背后的思考 m0_72547478 人工智能
近年来，人工智能技术呈爆发式发展，在医疗、交通、金融等诸多领域取得惊人成果，但与此同时，人工智能伦理问题日益凸显，引发广泛关注。数据隐私与安全首当其冲。AI系统依赖海量数据训练，这些数据包含个人信息、医疗记录等敏感内容。若数据保护不当，极易引发数据泄露风险，侵犯个人隐私。例如，某些智能健康APP，若未能加密传输用户健康数据，一旦遭受黑客攻击，用户的隐私将暴露无遗。算法偏见也是一大痛点。AI算法基于
Imagen架构详解：理解其背后的技术与创新范范0825 Imagen 架构
Imagen架构详解：理解其背后的技术与创新引言近年来，生成式人工智能技术取得了飞速发展，特别是在图像生成领域。作为这一领域的重要创新之一，Imagen是由谷歌开发的一种基于文本生成图像的模型。它在生成高质量、逼真的图像方面表现出色，并通过其先进的架构和技术手段推动了图像生成的技术进步。Imagen不仅在图像生成质量上具有显著优势，还能够通过自然语言描述生成细致复杂的图像。本文将详细剖析Image
【MySQL】Mysql数据库导入导出sql文件、备份数据库、迁移数据库程序员洲洲数据库数据库 mysql 导入导出sql sql文件备份迁移
本文摘要：本文提出了xxx的实用开发小技巧。作者介绍：我是程序员洲洲，一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。同时欢迎大家关注其他专栏，我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。同时洲洲已经建立了程序员技术交流群，如果您感兴趣，可以私信我加入我的社群，也可以直接vx联系（文末有名片）v：bdizztt随时
计算机视觉与深度学习：使用深度学习训练基于视觉的车辆检测器（MATLAB源码-Faster R-CNN） ZhShy23 javascript 深度学习
在人工智能领域，计算机视觉是一个重要且充满活力的研究方向。它使计算机能够理解和分析图像和视频数据，从而做出有意义的决策。其中，目标检测是计算机视觉中的一项关键技术，它旨在识别并定位图像中的多个目标对象。车辆检测作为目标检测的一个重要应用，在自动驾驶、智能交通系统等领域有着广泛的应用前景。本文将介绍如何使用MATLAB和深度学习技术，特别是FasterR-CNN模型，来训练一个车辆检测器。文章目录一
利用双分支CycleGAN进行图像数据的高效增强 jizhi-dataset 人工智能
随着人工智能技术的快速发展，图像数据处理变得越来越重要。为了提高图像数据的质量和可用性，我们需要采用高效的数据增强方法。双分支CycleGAN网络作为一种先进的图像处理技术，为我们提供了一种全新的解决方案。本文将详细介绍双分支CycleGAN的工作原理，并展示其在图像数据增强方面的实际效果。同时，我们也将讨论在实际应用过程中可能遇到的挑战以及如何解决这些问题。，，CycleGAN是一种用于图像到图
OpenCV计算机视觉 08 图像的旋转伊一大数据&人工智能学习日志 OpenCV 计算机视觉人工智能计算机视觉 opencv
图像的旋转下面是一张小猪佩奇的照片，请进行顺时针90度，逆时针90度，180度旋转方法一：使用了NumPy库的np.rot90()函数来实现图像的旋转np.rot90(img,k=-1)表示将输入的图像img顺时针旋转90度，np.rot90(img,k=1)表示将图像逆时针旋转90度。importcv2importnumpyasnp#导入原图img=cv2.imread('小猪佩奇.png')
揭秘AIP智能体平台：构建未来AI基础设施的新引擎大东（AIP内容运营专员）人工智能
在人工智能的浪潮中，科技正在改变我们生活的方方面面。从智能推荐到自动驾驶，从个性化广告到实时风险控制，AI的触角无处不在。但这些令人瞩目的成果背后，究竟是什么在支撑着AI的飞速发展？答案是——人工智能平台。人工智能平台是连接计算资源、开发工具和行业应用的重要桥梁，支撑着从模型开发到行业场景落地的每一个环节。它不仅为开发者提供高效便捷的工具，还为企业创造了无限的创新可能。本文将带你深入了解人工智能平
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
《鸿蒙Next应用商店：人工智能开启智能推荐与运营新时代》人工智能深度学习
在科技飞速发展的当下，鸿蒙Next系统的出现为操作系统领域带来了新的变革与机遇，而人工智能技术的融入更是让其应用商店的智能化推荐和运营迈向了一个全新的高度。用户画像精准构建在鸿蒙Next系统中，应用商店可以借助系统强大的权限管理和数据收集能力，全方位收集用户的多维度数据。通过对用户在应用商店内的浏览历史、下载记录、搜索关键词，以及在其他鸿蒙应用中的使用行为等多源数据进行汇总和分析，利用人工智能算法
机器学习的介绍 2201_75874206 机器学习人工智能
目录1.机器学习的定义2.机器学习的原理3.机器学习的方法4.机器学习的分类5.机器学习的评估6.机器学习的应用场景7.机器学习与人工智能的关系结论机器学习在自然语言处理中的最新应用和技术是什么？如何评估机器学习模型的性能，除了交叉验证、MSE和RMSE外，还有哪些其他重要的指标？在金融风险管理中，机器学习如何帮助预测市场趋势和信用风险？市场趋势预测信用风险评估机器学习与人工智能之间的关系在未来发
迅为RK3562开发板专为3562编写10大分类2900+页文档 mucheni rk3562 3562
iTOP-3562开发板采用瑞芯微RK3562处理器，内部集成了四核A53+MaliG52架构，主频2GHZ，内置1TOPSNPU算力，RK809动态调频。支持OpenGLES1.1/2.0/3.2、0penCL2.0、Vulkan1.1内嵌高性能2D加速硬件。内置独立NPU,算力达1TOPS,可用于轻量级人工智能应用。支持几乎全格式的H.264解码，支持1080p@60fps的解码，支持4K@3
工业场景将成为AI大模型的重要战场！零基础入门AI大模型，看这篇就够了！大模型扬叔人工智能工业多模态大模型
前言2024年，各大公司推出强大理解能力的多模态大模型，将引领人工智能（AI）技术创新和应用，工业场景将成为多模态大模型的最佳实践场地。随着GPT-4o、Gemini1.5Pro、LLaVA1.6的发布，基于Transformer架构和海量数据训练的多模态大模型再次点燃通用人工智能（AGI），其对文本、图像等多模态输入的支持和强大的理解能力也象征着人工智能迈向通用人工智能（AGI）的新阶段。随着工
人工智能学习路线全链路解析 power-辰南大模型算法实战工程人工智能学习机器学习
一、基础准备阶段（预计2-3个月）（一）数学知识巩固与深化线性代数（约1个月）：矩阵基础：回顾矩阵的定义、表示方法、矩阵的基本运算（加法、减法、乘法），理解矩阵乘法不满足交换律等特性，通过练习题加深对运算规则的掌握，例如计算简单的矩阵乘法式子、求矩阵的转置等。向量空间与线性变换：学习向量空间的概念，包括向量的线性组合、线性相关与线性无关，掌握线性变换的定义、几何意义以及如何用矩阵表示线性变换，借助
透过生活小故事，轻松理解大模型开发的五种核心方法 java
大家好，我是大圣，今天聊一下大模型开发的几种方法。大模型开发常用方法前言人工智能的世界听起来复杂神秘，但其实它与我们的日常生活有着许多相似之处。即使你对大模型开发一无所知，也能通过生活中的简单故事，理解其中的奥秘。本文将以贴近生活的五个场景，通俗易懂地讲解大模型开发中的五种核心方法：提示词工程和外部函数、Agent设计、RAG设计（检索增强生成）、微调以及预训练。让我们一同走进这些故事，揭开大模型
AI绘画工具介绍编程小郭 ai作画
市面上AI绘画工具众多，它们利用深度学习和图像处理技术，为用户提供了丰富的创作体验和可能性。以下是对几款主流AI绘画工具的详细介绍及横向对比：一、主流AI绘画工具介绍Midjourney简介：Midjourney是一个独立的研究实验室，专注于人工智能绘图，被广泛应用于设计、艺术创作、广告制作等领域。特点：以其强大的图像生成能力和跨界融合的创新特点著称，能够根据文本描述和视觉输入生成兼具故事性与视觉
文心一言vsGPT-4全面对比编程小郭文心一言 chatgpt java python 人工智能 ai
文心一言和GPT-4都是当前非常先进的人工智能语言模型，它们各自具有独特的特点和优势。以下是对这两款工具的全面比较：文心一言是由百度开发的一款大型人工智能语言模型，它基于强大的深度学习技术和海量的数据资源，具备出色的语言理解和生成能力。文心一言在中文处理方面尤为出色，能够准确理解中文语境和语义，生成流畅、自然的中文文本。文心一言还具备丰富的知识库和推理能力，能够回答各种问题，提供有用的信息和建议。
最近，大模型岗位爆了。。。 IT猫仔人工智能学习 ai
重磅消息，国资委打响了国内AI第一枪！宣布央企将把发展AI放在全局统筹地位上，并加快建设一批智能算力中心。这意味着传统行业又迎来了一次大洗牌，这个过程需要大量AI人才！！现在国内头部人工智能公司已经开始用AI数字人助力各行各业，央企+交互数字人将成今年一整年的趋势。除此之外，知名大厂也都在布局AI市场。懂AI的程序员年薪已经翻到80w-96w!风口之下，与其焦虑被行业淘汰，不如先人一步掌握AI大模
Kimi终于开源了，联手清华开源大模型推理架构Mooncake 吴脑的键客人工智能架构人工智能
在人工智能迅速发展的时代，大型模型的智能化水平不断提升，但随之而来的推理系统效率挑战也越来越明显。如何应对高推理负载、降低推理成本、缩短响应时间，已成为业界共同面对的重要问题。Kimi公司联合清华大学的MADSys实验室，推出了基于KVCache的Mooncake推理系统设计方案，该方案于2024年6月正式发布。Mooncake推理系统通过创新的PD分离架构和以存换算为中心的理念，显著提升了推理的
基于深度学习的认知架构的AI SEU-WYL 深度学习dnn 人工智能深度学习架构
基于深度学习的认知架构的AI是一类模仿人类认知过程的人工智能系统，旨在模拟人类感知、学习、推理、决策等复杂的认知功能。认知架构的目的是创建一个能够理解和处理复杂环境、实现自我学习和适应的AI系统。结合深度学习技术，这类AI可以更好地应对动态和复杂的任务需求。1.基于深度学习的认知架构的组成一个典型的基于深度学习的认知架构包含多个关键模块：感知模块：负责从外部环境中获取数据，处理和提取特征。深度学习
人工智能：人形机器人的开发需要哪些技能？ InnoLink_1024 机器学习 AGI 人工智能人工智能机器人 ai
人形机器人的开发需要多学科、多领域的专业技能，具体如下：机械工程技能机械设计与建模：熟练掌握计算机辅助设计（CAD）软件，如SolidWorks、AutoCAD等，能够创建精确的3D模型，进行结构分析，并为制造准备详细的图纸。材料与制造工艺：了解各种材料的性质、接合技术以及制造工艺，如铣削、车削、3D打印等，根据机器人的应用场景和性能要求，选择合适的材料和制造工艺。运动学与动力学分析：深入理解运动
人工智能：人形机器人的开发需求会创造哪些热门的就业岗位？ InnoLink_1024 机器学习 AGI 人工智能人工智能机器人 ai
人形机器人的开发需求会创造以下热门的就业岗位：研发设计类机械结构工程师：负责设计人形机器人的机械本体结构，包括关节、骨架、外壳等，需要对机械原理、力学知识有深入理解，熟悉使用CAD、SolidWorks等设计软件。电子电气工程师：设计和开发人形机器人的电子电路系统，包括传感器电路、控制电路、电源电路等，需要掌握电子技术、电路设计、PCB绘制等技能。算法工程师：运动控制算法工程师：负责移动机器人运动
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

面向知识图谱的信息抽取

面向知识图谱的信息抽取

来源：《 数据挖掘,》 ，作者赵海霞等

你可能感兴趣的:(计算机视觉,知识图谱,人工智能)

来源：《数据挖掘,》，作者赵海霞等