Percent_bigdata

2020-09-03

编者按

坦率地讲，各行各业对如何落地知识图谱这个问题，或多或少都心存一丝疑惑。人类知识和机器可理解的知识有什么区别？知识图谱如何突破自身局限性，从“万事通”转为“科学家”？北京百分点信息科技有限公司认知智能实验室在实践探索中，通过利用自然语言处理技术获取结构化的信息抽取能力，探索出了一套行业知识图谱构建流程方法。尤其是基于深度迁移学习，帮助构建法律百科词条、公安文本知识图谱等行业项目中，在实体抽取、关系抽取、事件抽取等方面都取得了理想的实践效果。本文将从概念辨析、技术路径、实践总结，由虚到实、由浅入深引导大家理性看待知识图谱技术的能与不能，以更好地在实践中运筹帷幄。

本文作者：陈肇江、王勋、陈旭、吴永科、苏海波

信息抽取、知识图谱及自然语言处理

信息抽取的内涵与外延

新基建的大潮涌中，人工智能、大数据与5G应用是人们竞相追逐的灯塔，在描绘数字经济时代宏伟蓝图的时候，知识图谱与自然语言处理成为追捧的香饽饽。

如何从海量的文本或网页的原始数据中提取有价值的信息是行业知识图谱构建的关键因素，信息抽取(Information Extraction，IE)作为自然语言处理技术的任务，该任务的重点在于从机器可读取的非结构化或半结构化的文本中抽取信息，最终以结构化的形式进行描述，使信息可以存入数据库以供进一步处理。

在下文探讨信息抽取技术之前，首先厘清几个重要概念的内涵与外延，方便读者更加清晰地理解本文的意图。

1.1 知识与知识图谱：人类知识和机器可理解的知识有什么区别？

哲学家柏拉图把知识定义为确证的真信念（Justified True Belief），满足该定义的知识具有三个要素：合理性（Justified）、真实性（True）、被相信（Believed）[1]。柏拉图三要素原则是哲学界对于知识定义的主流观点，即人类的知识是通过观察、学习和思考有关客观世界的各种现象而获得和总结出的所有事实（Facts）、概念（Concepts）、规则或原则（Rules&Principles）的集合。人类发明了各种手段来描述、表示和传承知识，如自然语言、绘画、音乐、数学语言、物理模型、化学公式等，可见对于客观世界规律的知识化描述对于人类社会发展的重要性[2]。

知识图谱（Knowledge Graph）以结构化的形式描述客观世界中概念、实体及其之间的关系，将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好地组织、管理和理解互联网海量信息的能力[3]。知识图谱本质上是以三元组结构（主语-谓语-宾语）表示实体及实体关系的语义网络，谷歌公司于2012年重新提出了知识图谱的概念以保持其在智能搜索引擎的领先地位。时任谷歌副总裁阿密特·辛格（Amit Singhal）指出知识图谱是“Things,Not Strings”，在此之前搜索引擎是通过爬取网页并基于关键词返回网页排序结果，而基于知识图谱得到的是与关键词有关联的表示真实世界中的实体的图文描述信息。

在行业的实践中之所以对知识图谱期望太高，是因为人类知识和知识图谱这两个概念容易引起歧义：人类知识包括原理、技能等高级知识，而知识图谱源自语义网络、本体论，借助RDF三元组及模式（schema）的形式构建计算机可理解、可计算的实体及实体之间关联的事实性知识库，即图谱可形象地称作“万事通”而非“科学家”。

1.2 知识获取、知识抽取与信息抽取的区别与联系

行业用户往往希望，结构化的知识靠AI自动化构建，不用介入任何人工，即可产生低成本、高质量的知识，然而这些是不切实际的幻想。因此，这里要正本清源，辨析知识图谱的常规的获取知识方式。

知识获取是组织从某种知识源中总结和抽取有价值的知识的活动（GB/T23703定义）[4]，我们认为，根据该定义，知识获取强调的是获取知识的一种活动，包括从结构化、半结构化和非结构化的信息资源中提取出计算机可理解和计算的结构化数据，以供进一步分析和利用。因此，其范围应包括知识抽取和信息抽取。

知识抽取，即从不同来源、不同结构的数据中进行知识提取，形成知识(结构化数据)存入到知识图谱[2]。信息抽取，即从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术[5]。

数据、信息和知识的关系为：信息是存在于数据（数字、文本、图像等）中的反映客观世界的实体，通过提炼、加工建立实体之间的联系形成了知识，知识是对世界客观规律的归纳和总结。因此，知识抽取在方法上包括了信息抽取和ETL（数据仓库），但方法不局限于结构化信息的生成或关系数据库模式（schema）的直接转换，还需借助本体库或自动方法归纳新的模式。

在本文中，知识抽取和信息抽取的内涵与外延近乎等价，两者都是应用自然语言技术从文本获取实体、关系、属性和事件知识。

图1 知识相关概念的包含关系

总的来说，知识、知识图谱、知识获取、知识抽取、信息抽取这些概念逐层递进，以一张韦恩图表示（如图1所示）：知识的表示、获取和处理是人类特有的能力，知识图谱架起了一座基于人类知识和计算机获取认知能力的桥梁，知识获取涵盖了产生机器可理解的知识的活动，知识抽取强调通过数据模式组织三元组知识，而信息抽取是借助自然语言处理技术生产知识的能力。信息抽取是知识工程、大数据、机器学习、自然语言处理的交叉技术。下文将重点探讨信息抽取在知识图谱的应用与实践。

融合信息抽取的知识图谱构建范式

近年来，自然语言处理技术的飞速发展尤其是深度迁移学习技术给方兴未艾的知识图谱注入了一针“强心剂”。预训练语言模型性能的提升降低了从海量的非结构化文本中获取知识的成本，推动了知识图谱在行业企业的落地应用。

如图3所示的体系架构，百分点公司在行业知识图谱的实践应用中，信息抽取技术占据着核心地位。行业知识图谱构建的生命周期历经知识定义、知识获取、知识融合、知识存储、知识应用多个环节，这些过程的每一步都需要专业的信息处理技术与技能才能完成。下面重点阐述信息抽取相关的知识定义及知识获取环节内容。

图2 融合信息抽取的知识图谱构建流程

2.1 知识定义

传统的知识工程研究领域人们以本体、主题词表、元数据、数据模式来建立结构化的知识，在本文知识定义泛指结构化的数据模型，即通过构建图谱模式（schema）规范数据层的表达与存储。数据模型是线状或网状的结构化知识库的概念模板，知识图谱一般采用资源描述框架（RDF）、RDF模式语言（RDFS）、网络本体语言（OWL）及属性图模型。

（1）RDF模型

RDF在形式上以三元组表示实体及实体之间的关系，反映了物理世界中具体的事物及关系，如图3所示。

图3 RDF数据模型示例

（2）RDFS模型

RDFS在RDF的基础上定义了类、属性以及关系来描述资源，并且通过属性的定义域和值域来约束资源。RDFS在数据层的基础上引入了模式层，模式层定义了一种约束规则，而数据层是在这种规则下的一个实例填充，如图4所示。

图4 RDFS数据模型示例

（3）OWL模型

OWL是对RDFS关于描述资源词汇的一个扩展，OWL中添加了额外的预定义词汇来描述资源，具备更好的语义表达能力。

（4）属性图

属性图数据模型由顶点、边及其属性构成，图数据库通常是指基于属性图模型的图数据库[6]。属性图与RDF图最大的区别在于：RDF图可以更好地支持多值属性；RDF图不支持两顶点间多个相同类型的边；RDF图不支持边属性。

图5 属性图数据模型

知识定义与信息模型的概念类似，可借鉴元数据和本体论技术，描述定义域的实体类型及其属性、关系和实体上的允许操作，常见的流行方法包括自上而下(Top-down)的构建方式、自下而上(Bottom-up)的构建方式。自上而下，即由行业专家预先定义图谱模式，再以模式组织数据层资源建设；自下而上，即通过信息抽取技术从文本中抽取出实体，再依赖大数据挖掘、机器学习技术分析实体的语义关联关系来构建模式。自上而下显然更加准确，然而自下而上代表着数据驱动的自动图谱构建模式，不论是哪一种方法知识定义应是信息抽取的前提条件。

2.2 知识获取

按数据源类型划分，知识获取包括从结构化、半结构化和非结构化的数据中获取知识。

从结构化数据中获取知识，需把关系数据库中的数据转换成RDF形式的知识，可使用开源工具D2RQ等将关系数据库转换为RDF，但难点在于难以自动与图谱模式结合与映射，需要依赖人工编写映射规则；从半结构化的网页数据获取知识主要采用包装器方法，而对于行文格式稳定的文本可视作半结构化数据，可通过格式解析、基于规则的方法进行抽取。

图6 知识获取[7]

对于非结构化的文本数据，抽取的知识包括实体、关系、属性、事件。

对应的研究问题有四个：一是实体抽取，也即命名实体识别，实体包括概念、组织机构、人名、地名、时间等；二是关系抽取，即两个实体之间的关联性知识等，包括上下位、类属关系等；三是属性抽取，即实体或关系的特征信息，关系反映实体与外部的联系，而属性体现实体的内部特征；四是事件抽取，事件是发生在某个特定时间点或时间段、某个特定地域范围内，由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变[8]。

非结构化数据的抽取问题，研究的人比较多，对于具体的语料环境，采取的技术也不尽相同。对于纯文本一般按照篇、章、段、句进行文本切割，基于主题词对文本分类、聚类预处理，并由人工开展数据标注与模型训练，最后集成多种信息抽取模型抽取知识。

基于信息抽取算法构建百分点行业知识图谱

知识定义是信息抽取的前提条件，结合当前结构化、半结构化和非结构化信息抽取的理论、工具和经典算法，百分点公司通过创新实践，探索出了一套行业知识图谱构建流程方法。

结构化信息抽取

行业知识图谱的构建过程往往需要将业务系统的部分关系型数据库的数据抽取出来，并转换为RDF模型或属性图模型的形式存入图谱数据库中，这种从关系型数据库接入数据、预处理并映射为图谱模式的抽取方式称为结构化信息抽取。

W3C为此制定了两个知识映射标准语言：R2RML及直接映射（DM），DM和R2RML映射语言用于定义关系数据库中的数据如何转换为RDF数据的各种规则，具体包括URI的生成、RDF类和属性的定义、空节点的处理、数据间关联关系的表达等[9]。

直接映射将关系型数据库中的一张表映射为RDF的类（Class），表中的列映射为属性（Property），表的一行映射为一个资源或实体并创建资源标识符，单元格值映射为属性值[9]。直接映射可将关系数据库表结构和数据直接转换为RDF图，但直接映射仅仅提供简单转换能力。而R2RML映射语言可灵活定制从关系型数据库数据实例转换为RDF数据集的映射规则，符合R2RML映射算法的工具输入是关系数据库检索数据的逻辑表，逻辑表通过三元组映射转换为具有相同数据模式的RDF并作为输出结果。

半结构化信息抽取

半结构化数据是一种特殊的结构化数据形式，该形式的数据不符合关系数据库或其他形式的数据表形式结构，但又包含标签或其他标记来分离语义元素并保持记录和数据字段的层次结构[9]。针对网页数据的信息抽取技术较为成熟，可依网页结构化的不同程度分别采用人工方法、半自动或全自动的方法开发包装器进行信息抽取。

基于有监督学习的包装器归纳方法，首先从已标注的训练数据中学习网页信息抽取规则，然后对具有相同结构的网页数据进行抽取，一般的开发流程遵循“网页清洗、数据标注、包装器空间生成、评估”四个步骤，该方法依赖人工长期维护更新包装器。手工方法开发包装器首先通过人工分析网页的结构和代码，并编写网页的数据抽取表达式；表达式的形式一般可以是XPath表达式、css选择器的表达式等，该方法适合简单、结构稳定的网站的抽取。

非结构化信息抽取

3.1 信息抽取框架

如前文所述，非结构化文本的信息抽取主要包括命名实体识别、属性抽取、关系抽取、事件抽取等四个任务。命名实体识别是知识图谱构建和知识获取的基础和关键，属性抽取可看做实体和属性值之间的一种名词性关系而转化为关系抽取，因此信息抽取可归纳为实体抽取、关系抽取和事件抽取三大任务。

3.2 命名实体识别

目前为止，命名实体识别主流方法可概括为：基于词典和规则的方法、基于统计机器学习的方法、基于深度学习、迁移学习的方法等[10]，如图7所示。在项目实际应用中一般应结合词典或规则、深度学习等多种方法，充分利用不同方法的优势抽取不同类型的实体，从而提高准确率和效率。在中文分词领域，国内科研机构推出多种分词工具（基于规则和词典为主）已被广泛使用，例如哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba分词等。

基于统计机器学习的方法可细分为两类：第一类，分类方法，即首先识别出文本中所有命名实体的边界，再对这些命名实体进行分类；第二类，序列化标注方法，即对于文本中每个词可以有若干个候选的类别标签，每个标签对应于其在各类命名实体中所处的位置，通过对文本中的每个词进行序列化的自动标注（也即分类），再将自动标注的标签进行整合，最终获得有若干个词构成的命名实体及其类别[11]。序列化标注曾经是最普遍并且有效的方法，典型模型包括条件随机场(CRF)、隐马尔可夫模型(HMM)、最大熵马尔可夫模型(MEMM)、最大熵(ME)、支持向量机(SVM)等。

图7 命名实体识别常见算法

深度学习、迁移学习使用低维、实值、稠密的向量形式表示字、词、句，再使用RNN/CNN/注意力机制等深层网络获取文本特征表示，避免了传统命名实体识别人工特征工程耗时耗力的问题，且得到了更好的效果，目前常用的框架方法有BiLSTM-CRF、BERT-CRF/BERT-BiLSTM-CRF。

在百分点的知识图谱构建应用中，法律百科概念词条领域实体，采用基于词典和规则的方法从文本中抽取实体类知识，具有更高的准确率；而抽取人名、地名、组织机构等，由于无法构建完整的词典且规则很难适应数据变化，采用基于序列标注的命名实体抽取模型BiLSTM-CRF 或者BERT-CRF 实现。

3.3 关系抽取

从前文可知，关系抽取指三元组抽取，实体间的关系形式化地描述为关系三元组（主语，谓语，宾语），其中主语和宾语指的是实体，谓语指的是实体间的关系。早期的关系抽取方法包括基于规则的关系抽取方法、基于词典驱动的关系抽取方法、基于本体的关系抽取方法[12]。基于机器学习的抽取方法以数据是否被标注作为标准进行分类，包括：有监督的关系抽取算法、半监督的关系抽取算法、无监督的关系抽取算法[12]，如图8所示。

图8 关系抽取常见算法

有监督的机器学习方法将一般的二元关系抽取视为分类问题，通常需预先了解语料库中所有可能的目标关系的种类，并通过人工对数据进行标注，建立训练语料库，使用标注数据训练的分类器对新的候选实体及其关系进行预测、判断。

同样地，传统机器学习的关系抽取方法选择的人工特征工程十分繁杂，而深度学习的关系抽取方法通过训练大量数据自动获得模型，无需人工提取特征。深度学习经过多年的发展，逐渐被研究者应用在实体关系抽取方面，有监督的关系抽取方法主要有流水线学习（Pipeline）和联合学习（Joint）两种。

（1）流水线式关系抽取方法

该方法将关系抽取分为两阶段任务：第一阶段对输入的句子进行命名实体识别；第二阶段对命名实体进行两两组合，再进行关系分类，把存在关系的三元组作为输出结果[12]。流水线方法将实体识别、关系抽取分为两个独立的过程，关系抽取依赖实体抽取的结果，容易造成误差累积。

当前深度学习的关系抽取主要聚焦在有监督学习的句子级别的关系抽取，根据使用的编码器以及是否使用依存句法树，可以大致将相关系统划分为三种：基于卷积神经网络的关系抽取，基于循环神经网络的关系抽取和基于依存句法树的关系抽取。

（2）实体关系联合学习抽取方法

实体关系联合学习方法主要包括以下两种：

a. 基于共享参数的方法：典型方法有BiLSTM、BiLSTM+Attention等，命名实体识别和关系抽取两阶段任务通过共享编码层在训练过程中产生的共享参数相互依赖，最终训练得到最佳的全局参数。流水线方法中存在的错误累积传播问题和忽视两阶段子任务间关系依赖的问题在该方法中可得到改善，并提高模型的鲁棒性。

b. 基于序列标注的方法：由于基于共享参数的方法容易产生信息冗余，如果将命名实体识别和实体关系抽取融合成一个序列标注问题，可同时识别出实体和关系，值得注意的是应使用新的标注策略标注（实体位置、关系类型、关系角色）[13]。该方法利用一个端到端的神经网络模型抽取出实体之间的关系三元组，减少了无效实体对模型的影响，提高了关系抽取的召回率和准确率。

在百分点的知识图谱构建应用中，构建法律百科概念词条图谱时从法律文件、权威案例和法律图书抽取概念实体的定义（可视作属性抽取）等行文格式较为规范、固定的文本抽取三元组采用基于模板的方法；警务文本的警务要素及内容抽取等较为开放的关系抽取采用BERT作为多分类器的关系分类抽取或序列标注方法。

3.4 事件抽取

“事件”被用于描述事情的发生或事务状态的改变，而事件抽取任务则是一种从自然语言文本中提取出具有事件框架的结构化信息的方法。具体地，一个事件的主要组成如表 1所示。

表1 事件组成框架[14]

从上述定义可以看出，实体、触发词、事件论元以及事件类型四者相互之间存在着包含或约束的关系。其中，实体是一种适用于所有文本的概念，但在自动内容抽取（Automatic Content Extraction，ACE）评测会议标准定义的事件中，实体是事件论元的主要组成。值得注意的是，实体本身的类型并不代表着其作为论元时在事件中的角色。事件论元的角色只与事件类型和触发词有关。事件论元的角色可以通过与事件句内触发词或其他实体的关系挖掘而确定。一般事件类型具有该类型下的事件模板，当中包含了固定的事件论元角色[14]。此外，由于触发词是事件发生的标志，因此事件类型的判别往往通过触发词的识别完成。事件抽取任务主要包含两个部分：

（1）事件类型检测

通常触发词与事件类型之间存在着对应关系，因此对事件类型的判定可通过触发词的识别和匹配实现。

（2）事件论元识别

在确定了事件类型后，根据该类型所具有的事件模板找到事件参与者的角色，再通过语义关系解析从事件句中挖掘相关论元。因此，基于ACE标准的完整事件抽取架构包括：文本预处理、事件类型检测和事件论元识别，如图9所示。

图9 基于ACE 标准的事件抽取任务架构[13]

在百分点的知识图谱构建应用中，警情文本的要素抽取符合事件论元抽取理论，该类非结构化的文本包含社会安全类、事故灾难类等事件类型及子类型，警务专家为子类型在内的所有事件类型制定了参考的事件模板，汇总触发词、事件类型和事件论元及角色。下文3.3节将给出基于事件论元的警情事件要素结构化案例介绍。

百分点信息抽取算法创新应用及实践效果

基于模板的法百科信息抽取方法

（1）应用场景：法律百科概念词条图谱信息抽取

法律百科概念词条图谱信息抽取主要目的是构建法律行业的百科全书，以便于用户查找专业法律词条知识。数据共分为三个来源数据，分别是法律文件、权威案例和法律图书，需要从数据中提取对应领域的专业词条名称及对应的相关释义。例如：从法律文件中提取“警用车船”词条，并给出对应的释义：车船税法第三条第三项所称的警用车船，是指公安机关、国家安全机关、监狱、劳动教养管理机关和人民法院、人民检察院领取警用牌照的车辆和执行警务的专用船舶。法百科词条构建及管理界面示例如图10所示。

图10 法百科词条构建及管理界面示例

（2）基于模板的知识抽取

通过人工研究法律文件、权威案例等法律领域的专业词条的写作规律和句式结构，分析法律相关概念实体与概念定义之间的特征，构建抽取的语言模板，通过模板从文本中匹配出实体之间的关系，该方法在构建法律词条这一特定领域内，可以取得较好的结果。

（3）应用效果

在相关文本数据上进行了足量的数据标注，并基于此对信息抽取进行了相关指标的考评，结果如表2所示，词条名称及释义整体准确率超过90%。

表2 法百科词条抽取评价指标

基于有监督学习的警务文本信息抽取

2.1 基于序列标注框架的命名实体识别

（1）应用场景：警务文本命名实体识别

警务文本包括案件叙述性文本描述数据，如案件卷宗、审讯笔录/口供、简要案情等等类型的数据，文本涉及到的与业务分析和研判相关的案发场所、嫌疑人特征等核心要素，通常可转化为自然语言处理中的实体识别问题。警务系统业务中有研判价值的实体通常包括：姓名、地址、组织机构、联系方式、公民身份号码、时间等。对于警务文本中的身份证号、手机号实体，应采用基于规则或基于词典的方法进行命名实体识别。而文本中的人名、地名、组织机构名称等实体信息在文本中的表述形式是多样并且难以完整列举，当前主要采用基于序列标注的有监督学习抽取方法。命名实体识别采用前文介绍的基于规则的方法及基于BERT+CRF序列标注模型进行抽取。

（2）BiLSTM/BERT+CRF模型架构

百分点在基于深度学习、迁移学习的实体识别实践中沉淀了两套经典的模型：BiLSTM+CRF模型架构、BERT+CRF模型架构。两套架构自底向上遵循词编码器、序列编码器、序列解码器三层结构。BiLSTM+CRF模型架构的词编码器采用Word Embedding，序列编码器采用BiLSTM，序列解码器采用CRF模型，模型架构如图11所示。

图11 BiLSTM+CRF序列标注模型架构

BERT+CRF模型架构词编码器采用WordPiece、字符位置编码器采用正弦位置嵌入（Postional Embedding）及句子嵌入（Segment Embedding）、序列编码器采用Transformer结构，序列解码器采用CRF模型，模型架构如图12所示。

图12 BERT+CRF序列标注模型架构

在序列标注的命名实体识别模型中，对于每个单词都需要预测一个多元分类问题。在经过序列编码器之后，每个单词都有一个向量表示，为了预测每个单词对应的标签，需要序列解码器来完成从序列向量到对应预测标签的转换。这两套模型的序列解码器都采用CRF模型作为解码器。

（3）警务文本实体抽取应用效果

警务文本的命名实体识别评价指标如表3所示。

表3 警务文本命名实体识别指标

2.2 基于关系分类的关系抽取

（1）应用场景：警务文本关系抽取

由于警务文本数据关注的是以人为核心的实体，因此当文本中出现一个以上的人员及其相关实体信息时候，需要在提取的姓名、性别、地址、联系方式、公民身份号码的基础上梳理清楚各个实体之间的对应关系或从属关系。简单而言就是将人名实体找到其对应的地址、公民身份号码、联系方式、性别等人员属性，可以表示为五元组<姓名,性别,公民身份证号,手机号,关联地址>。N元组本质上可以拆分成多个三元组，因此警务文本中的N元组关系对抽取形式如表 4所示。

表4 警务文本N元组关系对

（2）基于BERT的关系分类模型

BERT通过大型跨域语料库使用遮蔽语言模型和下一句预测任务共同预训练文本表示。警务文本信息抽取对BERT的应用方法如图13所示，模型的输入序列的整体结构为：{[CLS],w1,w2,…,wn, [SEP],s1,s2,…,si, [SEP],o1,o2,…,oj, [SEP]}，w为句子序列，s和o为实体序列。序列经过BERT分词处理，将字符转换为字id，然后映射到字嵌入向量，字嵌入向量E表示为E={E1,E2,…,En}。经过多层Transformer的Encoder编码，最后得到句子的编码向量。取“[CLS]”这个特殊开始字符对应的向量（“[CLS]”的编码表示经常用于判断下一个句子）将编码序列的第一个结果作为关系抽取的语义向量。该语义向量在关系分类器层，经过一层全连接层，然后使用softmax函数计算关系概率。

图13 基于BERT的关系分类模型

（3）关系抽取应用效果

警务文本的关系抽取如图14所示（示例数据是模拟的，已经完全脱敏）：

图14 警务文本信息抽取输入示例

关系抽取结果如图15所示（示例数据是模拟的，已经完全脱敏）：

图15 警务文本信息抽取结果实例

在相关警务文本数据上进行了足量的数据标注，并基于此对实体抽取和关系抽取的N元组进行了相关指标的考评，结果如表 5所示，采用流水线式的命名实体识别及关系抽取整体的准确率和召回率在95%以上。

表5 警务文本信息抽取评测指标

警情事件论元联合信息抽取

3.1 应用场景：警情事件论元抽取

警情事件识别与抽取是构建警情知识图谱的重要环节，目的是从非结构化警情文本中识别出描述事件的句子，并从中抽取出与事件描述相关的信息（事件元素、因果关系），最后以结构化的形式存储。警情文本的事件类型包括社会安全类、事故灾难类、网络舆情类、治安和刑事案件类、公共卫生类等5大类。

事件类型还可根据警情业务进一步细分为子类型，比如社会安全类可分为社会安全事件、涉稳事件、涉外事件、恐怖主义事件等4小类。事件发生子类的事件采用2.3.4节表示方法，将事件表示为实体、触发词、事件论元以及事件类型组成的复合知识单元。如图16所示（示例数据是模拟的，已经完全脱敏），警情案件文本按照图9所示流程识别触发词为“家门被撬”后判别事件类型为盗窃案件，最终抽取出事件论元及角色实现文本结构化分析。

图16 警情案件事件论元抽取例子

3.2 事件论元角色联合抽取模型

在实践应用中百分点参考分层二进制标注框架（Hierarchical Binary Tagging）[15]，将论元抽取视作事件触发词与事件论元的映射关系，模型的整体结构如图17所示，主要包括如下几个部分：

（1）BERT 编码器：通过BERT得到每个词的词表征，把BERT的输出当作词向量使用；

（2）事件论元标注器：该部分用于识别所有可能的事件论元。其通过对每一个位置的编码结果用两个分类器（全连接层）进行分类，来判断其是否是事件论元的开始或结束位置，激活函数为Sigmoid。

（3）事件角色标注器：针对每一个事件论元，都需要对其进行之后的事件论元的角色进行预测。由图中可知，其与事件论元标注器基本一致，主要区别在于每一个事件类型独享一组事件论元角色分类器，同时还要将事件论元作为特征和BERT词向量拼接后作为输入。

图17 事件论元、角色联合抽取

警情文本事件论元角色联合信息抽取在大多数人工标注数据集及实际应用中取得了较好的结果，在效果较差的某些事件类型的文本中通过增加人工标注数据可提升模型的准确率。

总结与展望

本文首先辨析了知识获取、知识抽取、信息抽取类似概念本质的区别与联系，然后总结了百分点行业知识图谱构建流程方法，指出知识定义是信息抽取的前提条件，在此基础上介绍了当前结构化、半结构化和非结构化信息抽取的理论、工具和经典算法。文末结合百分点公司在法律百科词条、警务文本实际图谱构建项目中，介绍信息抽取算法应用方法和效果，帮助读者深入了解信息抽取的实践应用状况。总的来说，信息抽取对构建行业知识图谱具有重要的价值，同时面临着巨大的挑战，应充分借助深度迁移学习的发展带来的机遇，一方面发展数据智能标注技术降低人工标注成本，另一方面突破模型对于标注数据数量的依赖，并在更多的实际业务需求中进行实践和应用。

参考资料

[1]中国中文信息学会.知识图谱发展报告（2018）

[2]中国电子技术标准化研究院.知识图谱标准化白皮书，2019年

[3]清华大学人工智能研究院.人工智能之知识图谱，2019年第2期

[4]GB/T 23703.2 知识管理第2部分：术语

[5]赵军，刘康，周有光等.开放式文本信息抽取. 中科院自动化所，中文信息学报，2011年

[6]图数据库白皮书.中国信息通信研究院云计算与大数据研究所.2019年

[7]王昊奋.行业知识图谱构建与应用101.PlantData

[8]陈玉博.事件抽取与金融事件图谱构建.中科院自动化所，2018年

[9]王昊奋，漆桂林，陈华钧.知识图谱方法、实践与应用.电子工业出版社

[10]黄晴雁，牟永敏.命名实体识别方法研究进展.现代计算机,2018年12月

[11]刘浏，王东波.命名实体识别研究综述.情报学报，2018年

[12]李冬梅，张扬等.实体关系抽取方法研究综述.计算机研究与发展，2019年6月

[13]Suncong Zhend等.JointExtraction of Entities and Relations Based on a Novel Tagging Scheme.中科院自动化所，ACL2017

[14]邹馨仪.基于深度学习的金融事件抽取技术研究.电子科技大学，2017年

[15]Zhepei Wei等.ANovel Cascade Binary Tagging Framework for Relational Triple Extraction，吉林大学.2020ACL

你可能感兴趣的:(大数据,数据挖掘,信息检索,知识图谱,自然语言处理)

高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
搜广推校招面经九十三 Y1nhl 搜广推面经机器学习人工智能 python 算法推荐算法 pytorch 搜索算法
字节懂车帝一面一、NDCG（NormalizedDiscountedCumulativeGain）的计算NDCG是信息检索和排序任务中常用的评价指标，用于衡量模型预测的排序质量与真实相关性排序的一致程度。1.1.DCG@k（DiscountedCumulativeGain）DCG@k=∑i=1krelilog⁡2(i+1)\text{DCG@k}=\sum_{i=1}^{k}\frac{rel_i
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
如何通过YashanDB提升客户体验数据库
如何优化查询速度？这是许多企业在使用数据库技术时常常会遇到的问题。查询速度的快慢直接影响到用户的体验，尤其是在大数据量和高并发的使用场景中。顾客期望迅速获取信息，若响应时间过长，可能导致客户流失。因此，优化数据库的性能成为提升客户体验的关键举措之一。YashanDB作为一种高性能的数据库技术架构，提供了多种优化机制，以提升系统的查询速度和整体处理能力。多种部署架构YashanDB支持多种部署架构，
如何通过YashanDB数据库实现企业级数据分区管理？数据库
在当今大数据时代，企业面临着海量数据的管理和优化访问的问题。如何有效地组织和划分庞大的数据集，以提升查询性能和运维效率，成为数据库系统设计的核心挑战。数据分区技术作为解决大规模数据处理的关键手段，能够显著减少无关数据的访问，优化资源利用率。本文聚焦于YashanDB数据库，详细解析其数据分区管理的实现机制及应用，为企业级应用提供高效、灵活的数据分区解决方案。YashanDB中的数据分区基础Yash
MySQL 中如何优化 DISTINCT 查询：基于 Java 的实践与应用喵手数据库 mysql java 数据库
全文目录：开篇语前言摘要简介概述1.使用索引优化2.限制选择字段3.使用`GROUPBY`替代`DISTINCT`核心源码解读Java代码示例：优化`DISTINCT`查询代码说明案例分析案例一：数据去重优化应用场景演示场景一：日志数据去重场景二：用户信息检索优缺点分析优点缺点类代码方法介绍及演示MySQLDistinctOptimization类测试用例main函数测试用例测试结果预期测试代码分
国产开源高性能对象存储RustFS保姆级上手指南光爷不秃对象存储 rust 国产开源软件 rust 云计算开源软件 github 开源数据仓库 database
在云计算与大数据爆发的时代，企业和开发者对存储方案的要求愈发严苛——不仅要能扛住海量数据的读写压力，还得兼顾安全性、可扩展性和兼容性。今天给大家介绍一款基于Rust语言开发的开源分布式对象存储系统——RustFS，它不仅是MinIO的国产化优秀替代方案，更是AI、大数据和云原生场景的理想之选。本文将从基础介绍到实战操作，带大家快速上手这款"优雅的存储解决方案"。一、RustFS核心特性解析Rust
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓