开放知识图谱

图谱实战 | 图视角下的信息抽取技术研究

导读：本次分享题目为《图视角下的信息抽取技术研究》，主要介绍：

研究背景和意义
国内外研究现状
研究目标与内容
主要成果与创新之处
完成项目及发表论文情况

分享嘉宾｜郁博文博士达摩院算法专家

编辑整理｜王露

出品平台｜DataFunTalk

研究背景和意义

信息抽取，是从无结构的自然文本中识别出实体、关系、事件等事实描述，以结构化的形式存储和利用的技术。以“信工所位于北京市海淀区，隶属于中国科学院”为例，可以得到<信工所，位于，北京市海淀区>和<信工所，隶属于，中国科学院>两个三元组。

信息抽取的目标是，让机器理解互联网上的海量信息，为机器做正确决策提供大量相关知识。

信息抽取是知识图谱构建与填充、自动机器问答、信息检索、辅助决策等下游任务和应用的重要基础。如 AliCoCo 电商图谱，为商品推荐和阿里小蜜智能问答提供知识基础。

1. 实体识别

实体识别，指的是从文本中识别出实体的边界和类别（来自于预定义好的类别集合）。根据实体是否包含单个连续片段，可以将实体识别任务划分为连续实体识别和不连续实体识别任务。

连续实体识别，指的是每个实体只包含一个片段，但是不同实体之间可能有嵌套。如“呼吸中枢受累”文本片段中，存在两个实体“呼吸中枢”和“呼吸中枢受累”，分别代表“部位”和“症状”。

不连续实体中，一个实体包含多个不连续的片段。如“明朝嘉靖、万历年间”，包含两个实体 “明朝嘉靖年间”和“明朝万历年间”。“明朝嘉靖年间”，包含两个片段“明朝嘉靖”和“年间”，“明朝万历年间”包含“明朝”和“万历年间”两个片段。对于不连续实体，需要识别出每个片段的边界和片段之间如何组合不连续实体。

2. 关系抽取

关系抽取，致力于从文本中识别一对实体以及实体间的语义关系，构成关系三元组。关系类型来自于预先定义的类型集合。根据是否给定目标实体，关系抽取可以分为，关系分类和实体关系联合抽取任务。

关系分类的任务中，输入为原始文本、文本中抽取出的实体，输出关系类型。如下图中的“鲍卡斯”和“蒙大拿州”，输出关系类型“Come From”。

实体关系联合抽取任务中，只输入原始文本，不给定实体，输出文本中包含的所有满足预定义关系集合中的关系三元组。

3. 事件抽取

事件抽取的目标是，从文本中抽取出用户感兴趣的事件。如某人在某时某地做了某事。

组成事件的元素包含，事件类型、触发词、论元和论元角色。论元，指的是事件文本中出现的人或物的名称。论元角色，指的是论元在事件中承担的角色。事件抽取，需要识别文本中术语预定义类型的所有事件的类型、触发词、论元和论元角色。

以“2004 年 12 月 24 日，杨振宁与翁帆在广东省汕头市举行婚礼”为例，事件类型为结婚，触发词是“举行婚礼”，论元是“杨振宁”、“翁帆”、“广东省汕头市”和“2004 年 12 月 24 日”，对应论元角色分别为参与者、参与者、地点和时间。

4. 开放域抽取

前面提到的实体识别、关系抽取和事件抽取都是面向限定类别的知识抽取，难以应对未知域，也就是不在定义好的训练集合类别中的知识抽取，开放域抽取能够解决这个问题。开放抽取直接使用句子原始字词片段作为实体之间的关系短语，而不是从固定的类型集合中选取的短语。根据是否给定头实体，开放抽取可以分为半开放信息抽取和开放信息抽取。

半开放信息抽取，给定一个头实体。下图的话中，以“鲍卡斯”为中心，抽取出与它有关的尾实体和关系短语，也就是“曼斯”，“蒙大拿州”。

开放信息抽取，不给定头实体，希望能够抽取句子中所有的知识。也就是<鲍卡斯，来自于，蒙大拿州>和<曼斯，来自于，蒙大拿州>。最关键的是，实体间的关系短语来自于文本中的片段，因此可以应用于任何领域、任何语言，而不需要预定义关系类别集合。

通过上述定义可以发现，信息抽取的不同子任务有不同的输入和输出，因此，在语言学中各子任务被视为单独的研究领域。下图统计了 ACL 2021 年各种任务的论文数量，可以发现，不同子任务多有较多的研究，但很少有文章研究如何用统一的视角看待信息抽取的不同子任务，用统一的思路解决这些子任务，因此本篇文章研究了以统一视角和设计思路指导模型设计。

国内外研究现状

1. 序列标注

早年信息抽取任务间统一的方法是序列标注，也就是给文本中句子的每个词项打预定义的类别标签。该方法本质是对文本中每个词项进行分类的问题。

以“2017 年，鲍卡与曼斯先后担任大使”为例，“2017 年”是一个时间类实体，标签为 B-TI、I-TI，“鲍卡”和“曼斯”是一个人物类的实体，标签为 B-PER、I-PER，“大使”是一个工作类的实体，标签为 B-JOB，I-JOB。下图中符号与含义解释如下表：

在更为复杂的实体中，通常会使用三段式标注，也就是 BIO 表示法。其中B（Begin，简写为 B）表示实体的起始位置，I（Inside，简写为 I）表示实体中间字，O（Other，简写为 O）表示非实体字。1 和 2 分别代表头实体和尾实体。如“鲍卡”和“曼斯”为头实体，“大使”是尾实体，因为希望抽取到的三元组为<鲍卡，担任，大使>，<曼斯，担任，大使>，因此，这句话中有两个头实体，对应的序列标注结果为 B-1-J、I-1-J、B-1-J、I-1-J、B-2-J、I-2-J。

（备注：上图中最后一列“使”对应的序列标注应该为 I-2-J）

事件抽取与开放抽取类似实体抽取和实体关系抽取，可以采用同样的方式抽取三元组。

尽管序列标注能够优雅的统一信息抽取的各个子任务，但是对复杂的输入文本，序列标注的表达能力有限，而我们希望能够抽取到所有感兴趣的知识。以“鲍卡斯来自蒙大拿州，担任大使”为例。两个关系三元组共享同一个头实体“鲍卡斯”，但关系类型不一样，分别为“来自于”和“担任”。序列标注的方法只能识别出一个三元组，因此，序列标注无法识别出共享一个实体且关系类别不一致的知识，为了解决这个问题，当前主流的解决方式有级联式标注和序列分层。

2. 级联式标注

级联式标注，不再一次性将所有的头实体、尾实体以及关系都抽取出来，而是对任务进行分解，先抽取头实体，再标记对应的尾实体和关系。

以“故宫博物院坐落于中国首都北京”为例，先找到句子中的头实体“故宫博物院”，进行序列标注，第一个序列中标注头实体的开始类型，第二个序列标注头实体的结束词类型，结合两个序列得到头实体。之后针对每个头实体枚举所有关系类型（如Located-in，Capital 和Contains），在关系类型下，标注头实体对应的尾实体，得到头实体与尾实体的三元组。从而，能够抽取到文本中所有的三元组，如<故宫博物院，Located-in，北京>，<中国，Capital，北京>，<中国，Contains，北京>。

3. 序列生成

序列生成，利用编码解码框架，根据输入的文本直接生成三元组。不同的三元组按照预先定义的顺序生成。如<故宫博物院，Located-in，北京>，先生成“故宫博物院”，再生成“Located-in”，最后生成“北京”。通过这种方式可以将复杂的实体联合抽取任务转换为序列生成问题。

4. 不连续实体识别之级联标注和序列生成

在前面的举例中提到，实体识别中存在实体嵌套和实体不连续的问题。实体嵌套，指的是两个实体有重叠部分，实体不连续指的是，一个实体包含多个片段。序列标注的方式为每个实体赋予一个标签的方式无法解决这两种问题。如“呼吸中枢受累”和“呼吸中枢”都是实体，但是用单个序列标注在“呼吸中枢受累”有标签时无法区分出“呼吸中枢”也是一个实体。而在“患者腿部、腰部痛”这句话中，“腿部痛”和“腰部痛”都是实体，但是“腿部”和“痛”是不连续的，简单的序列标注方法也无法正确识别出来。因此，有一种解决方案是，移进归约解析器，借鉴到实体识别任务中，利用动作序列识别不连续和重叠的结构。解析器使用栈结构存储已经被处理过的片段，使用缓存区存储未被处理的片段，前后动作是相互依赖的。

序列生成根据输入的文本，先生成第一个实体，“腰部痛”，之后生成实体类型是症状，再生成第二个实体“腿部痛”，预测实体类型也是症状。以此类推，生成所有的实体。

5. 开放信息抽取之级联标注和序列生成

由于开放信息抽取任务中面向开放信息的特性，在三元组中会不可避免的出现实体重叠、实体不连续等复杂的知识描述。如“豫园建造于明朝嘉靖和万历年间”这句话中，有两个三元组<豫园，建造于，明朝嘉靖年间>，<豫园，建造于，明朝万历年间>，它们共享头实体“豫园”，实体“明朝嘉靖年间”和“明朝万历年间”不连续。

在这个任务中，复杂程度在于同时出现了实体重叠和实体不连续的问题。为了解决这个问题，级联标注会自回归的进行序列标注，每个序列标注会对应一个三元组，前一个三元组的预测标签输入到下一个三元组序列中用于标注后一个三元组，以此类推，直到某一层的三元组中标签全部为 O，表示序列中不再存在三元组，则停止标注。

使用序列到序列的生成模型解码得到三元组，输入为原始文本，生成多个三元组，三元组之间使用特殊字符进行分割，得到所有的三元组。

上面介绍了总结实体识别、关系抽取和开放抽取中的相关工作，总结如下：

无论是序列标注还是序列生成，从统一视角看，都是将业务关注的知识构建成树结构。以实体关系联合抽取的任务为例，级联式标注会先抽取头实体作为根节点，再抽取尾实体作为树的子节点，而序列生成将输入文本生成一个链表类的树结构，但由于树结构在表达能力、表达效率和预测方式上存在局限，提出一种新的视角解决现有的树视角下的问题。

研究目标与内容

重新划分任务，不再关注信息抽取任务类型是实体抽取、关系抽取、事件抽取或开放抽取，而是关注想要抽取出的知识，将原来的四大类七小类任务按照目标知识中包含的片段个数划分为一元信息抽取、二元信息抽取和多元信息抽取。

一元信息抽取，指的是，输出知识只包含一个片段。如连续实体识别和关系分类，关系分类中输出为关系类型，连续实体识别输出虽然包含实体和实体类型两部分，但两者可同时识别，因此可视为一元信息抽取。

二元信息抽取，指的是，输出知识包含两个片段。如半开放抽取输出为关系和实体的二元组，实体关系联合抽取输出为头实体、尾实体以及实体之间的关系三元组，但实体关系可以视为头实体和尾实体识别时的副产物，因此可以看做二元信息抽取。

多元信息抽取，指的是，输出知识包含三个或三个以上片段。其中不连续实体识别的片段的目标实体片段数量不固定，事件抽取中角色数量不固定，开放抽取需要同时识别和组合三个或更多的片段。

按照片段划分任务的优点是，能够剥离原有任务定义，从抽取任务最本质的需求，即抽取并组合目标片段并输出知识出发，重新思考任务间的关联性。

1. 一元信息抽取

一元信息抽取任务，究其根本就是从文本中识别目标片段，也就是将一个知识片段组合。识别和组合的动作也就是将文本中的词项进行联系，使得原有的一维文本转换为具有特定联系的词项集合。例如，在关系分类任务中，已知两个实体之间的联系就是关系类型，在图视角下，可以将任务转换为，在图中预测头实体和尾实体词项节点之间的连边类型，也就是说，预测图中的边类型。以“鲍卡斯与曼斯来自蒙大拿州”为例，“鲍卡斯”是头实体，“蒙大拿州”是尾实体，在图中可以构建一条“鲍”和“蒙”之间的连边，预测连边类型，也就是实体之间的类型。

在连续实体识别任务中会更复杂一些，需要在空白图中目标实体的开始位置和结束位置之间进行连边，如“鲍卡斯”是一个目标实体，因此，需要在“鲍”和“斯”之间建立连边，预测连边类型，也就是实体类型。能够知道实体类型的原因是，在图中如果我们能够确定一个实体在文本中的开始词和结束词，就能够唯一的确定实体。如“蒙大拿州”是尾实体，类型为Location。因此，在 “蒙”和“州”之间进行连边，表示以“蒙”作为开始“州”作为结束的片段的类型是location类的实体。因此，一元知识可以用图中的连边表示，无论是实体或关系，都可以将类型转换为图的连边类型。

2. 二元信息抽取

二元信息抽取的一个经典任务是实体和关系的联合抽取任务，在这个任务中，需要知道实体的开始位置和结束位置，并在之间建立连边，还需要联系具有语义关系的两个实体，可以通过连接两个实体的开始词和结束词的位置建立关系。

如“鲍卡斯”是一个实体，先连接“鲍”和“斯”，“蒙大拿州”是一个实体，连接“蒙”和“州”，之后组合两个实体之间的关系，需要把“鲍”（头实体的开始词）和“州”（尾实体的结束词），“斯”（头实体的结束词）和“蒙”（尾实体的开始词）进行连接，得到一个环表示二元知识。环代表了<头实体，实体关系，尾实体>的三元组，实体之间的连边表示关系类型。因此，二元信息可以用图中的环进行表示。

3. 多元信息抽取

为了准确的组合同一个知识内部的多个片段，需要用图结构对所有知识的所有片段进行准确组合，而不能仅仅通过一套或固定数量的连边建立，需要通过两两连边组合避免表达的歧义性。当构建出多元组中片段的两两连边后，多元信息抽取可以转换为图的极大团查找问题。图的每个极大团代表一个多元组，因此，多元知识可以用图的极大团表示。

4. 研究工作总结

作者在博士期间的主要工作就是，用图视角建立三类七种信息抽取任务的统一建模，建立文本、信息抽取和图分析研究领域的桥梁，接下来论述每个图结构建立的过程，以及如何表达处理任务。

主要成果和创新之处

1. 图视角下的一元信息抽取

上面提到一元信息抽取任务可以转换为图中连边类型预测问题。

（1）图视角下关系分类

以关系分类为例。关系分类中，知道图中的头实体和尾实体，需要预测连边的类型。对应的问题，相当于构建一个 N*N 的二维矩阵表达图结构，想要预测的就是头实体和尾实体交叉部分的区域，代表了两个实体连边之间的类型。实现方式为，首先对头实体和尾实体位置的所有词项进行平均池化，将头尾实体的向量拼接，对拼接后的向量进行分类，相当于预测图中关系的连边。

然而，仅仅依赖头尾实体的表示判断实体关系是不充分的，需要联系实体的上下文信息。以“鲍卡斯与曼斯菲尔德都来自蒙大拿州,后者担任美国驻日大使”这句话为例。包含两个三元组<鲍卡斯，来自，蒙大拿州>，<曼斯菲尔德，来自，蒙大拿州>，“后者担任美国驻日大使”中虽然也包含三元组<曼斯菲尔德，担任，大使>，但并不是我们关注的关系类型。我们需要关注的是“鲍卡斯”、“曼斯菲尔德”和“蒙大拿州”之间的 Come-From 关系，为了准确的预测关系类型，希望模型能够更多的关注 Come-From 的关系描述，排除“担任”关系描述，防止噪声误导模型给予 JOB 很高的权重。因此，为了准确的找到想要的关系描述，一个较好的方法是引入注意力机制。

基于注意力机制的方法为每个词项单独计算与目标实体之间的相关性得分，并进行归一化，再对所有词项加权求和作为实体对的语义关系表示。然而，这种方法可能会导致模型无法识别连续的关系描述（指的是实体间的关系描述往往是连续的片段，而不是一个个离散的词），要解决这个问题，我们希望让注意力机制关注连续的片段，实现的方式是让注意力权重在连续的片段内部变化不明显，此时，计算每个词的重要性时不止要考虑自身的重要性，也要考虑上下文词的重要性。基于此，引入概率图模型，建模前后词之间的相互依赖关系。受到相关工作的启发，提出使用线性链条件随机场建模注意力得分的转移。具体的说，将注意力机制建模为一个选择问题，也就是每个词有两个状态 0 和 1，分别代表不被选中、被选中，在不同的状态下有不同的得分。计算建立前后词项在选中和未选中状态下的转移概率，用两个势函数分别表示每个词项的重要性、词项之间转移的重要性。函数 ψ1，单独计算每个词项的重要性，函数 ψ2，训练了一个 2*2 的矩阵，建模相邻词项的状态转移，之后利用条件随机场中的前向-后向算法计算每个词项在全局下进行状态转移得分后的一个全局重要性。通过计算全局重要性，计算每个词项被选中的概率，作为计算上下文表示公式中的权重。通过这种方式，在计算每个词项的时候不仅考虑自身，也考虑到前后词项。

此外，还考虑了两个正则项——转移正则项和稀疏正则项，转移正则项，我们希望得到相同状态的得分大于不同状态时的得分，也就是模型能生成类似 101010 的一个连续片段，而不是离散片段。稀疏正则项，希望被选中的词越少越好，因为关系描述往往是很短的片段。计算上下文表示时，对头尾实体进行了拼接，拼接后再进行分类。这样使得计算实体连边时，不仅考虑到自身的表示也考虑到相关上下文。

在公开数据集进行了实验，证明了图视角和片段注意力机制的优越性，消融实验和可视化分析，注意力机制在引入了条件随机场之后，能够准确地关注到一些连续片段。

（2）图视角下的连续实体识别

连续实体识别，也被建模为图上的连边预测问题，将实体类别视为连边类型。因此，需要构建实体的开始和结束词项之间的连接。例如，下图中的例子中包含了三个实体，其中有两个实体“中央”和“中央办公厅”是嵌套的，在传统的序列标注方法中，很难用一个标签序列识别出两个嵌套实体，但是在图视角下，两个实体的开始词相同但结束词不同，在图中就会有两条边，从而能够解决实体嵌套的问题。同理，“西城区”是一个 LOC 类的实体，需要给“区”和“西”建立一条连边。我们需要做的就是，构建一个图结构，利用图结构从中解码出所有的实体。

命名实体识别与关系分类不一样的地方在于，没有给定抽取目标，需要遍历文本中所有的词项对并判断它们之间是否有连边以及连边的类型。为长度为 N 的文本构建一个 N*N 的矩阵，代表图的邻接矩阵，判断第 i 和 j 个词项的关系，如“中央”是一个ORG，“中”和“央”在矩阵中交叉点的位置代表了它们连边的类型 ORG，“西”和“区”的交叉位置代表了它们的连边类型（实体类型）为 LOC。

如何预测矩阵呢？我们枚举所有的词项对，通过 LSTM 或 BERT 等编码器，输出每个词项对的表示，将词项进行拼接预测类型，从而判断连边的类型。连续实体识别任务中，对嵌套实体和非嵌套实体都做了实验，有很好的效果。

2. 图视角下的二元信息抽取

二元抽取，相比一元抽取复杂之处在于，不仅仅关注一个片段，而是需要两个片段。以实体抽取为例，我们知道单个实体可以看做图中的一条连边，类似地，希望实体和关系也能在图中通过连边组合产生。

以“故宫博物院在中国首都北京”为例，有 3 个三元组<故宫博物院，Located-in，北京>，<中国，Capital，北京>，<中国，Contains，北京>要构建这个三元组。对于三元组<故宫博物院，Located-in，北京>，操作流程为：

① 构建“故”和“院”之间的连边作为头实体；

② 构建“北”和“京”之间的连接作为尾实体；

③ 连接“故”和 “北”这两个头尾实体的开始词用located-in的连边表达它们之间的关系类型。

之后发现通过这样三条连边的组合，就可以识别上面提到的三元组。

上文方式构建的结构，如果我们按照原文不能中的语句进行还原，并且删除掉没有参与到连边关系的节点，就可以产生一个有效的无环图。

然而，某些场景中用三条连边构成的无环图无法准确的找到三元组。例如，有两个三元组<故宫博物院，Located-in，北京市西城区>，<西城区，Belong to，北京市>，“北京市”和“北京市西城区”是嵌套的，在这种情况下，从“故”到“北”的连边代表了故宫博物院和北京市这两个实体的关系，但是由于只有一条连边，无法确定这条连边指向的尾实体是“北京市”还是“北京市西城区”，因此，只有头实体开始词连接的边会存在歧义。为了解决这个问题，在图结构中，为每个三元组再添加一条从头尾实体的结束词连接的边，使用两条边双重校验实体的开始位置和结束位置，从而唯一的确定头尾实体。如，在“北”和“市”、“市”和“区”、“西”和“区“、“北”和“西”之间都存在一条连边，这四条连边组成的环代表了一个三元组。

考虑到一个环可以表示为一个三元组，在关系抽取任务中，解码时可以从图中抽取所有的环，从而抽取所有的三元组。以<故宫博物院，Located-in，北京>为例，从“故”到“京”，从“京”到“北”，从“北”到“院”，从“院”到“故”构成一个环，这四条连边表示两个实体构成一个三元组。

基于上述的思想，与一元关系抽取任务类似的思想构建实体关系联合抽取的任务的图结构，使用二维标注来预测图的邻接矩阵。

首先，用一个二维矩阵标注文本中可能的实体，比如“故”和“院”，“中”和“国”，“北”和“京”这样的三条连边对应的图中三个交叉位置，表示两个实体之间的连边类型。“故宫博物院”是我们关心的实体，因此有“故”到“院”的一条连边，分别代表实体的开始和结束。

之后，为每个关系类型都构建一个二维矩阵，如 Located-in 关系的二维矩阵。连接这个关系下的头实体和尾实体，这个矩阵里面存在两个标签，头实体开始到头实体结束，尾实体开始到尾实体结束，我们用这两个标签去分别连接 Located-in 关系类型下头尾实体开始词项和结束词项，如“故宫博物院”和“北京市”，“故”和“北”交叉位置的标签就是头实体的开始到尾实体开始，“院”和“京”的标签是头实体结束到尾实体结束。由于它们构成了一个三元组，且这两个实体的开始词分别是“故”和“北”，结束词分别是“院”和“京”，因此，在解码的时候对照下面两个图就能构建出 LOCATED-IN 这个关系类型下的图结构。同理，也可以构造 Capital 的图结构。

总结：这种方式实际上为每种关系和实体类型都构建了一个 N*N 的矩阵代表图结构，预测图结构的方式就是，枚举图中的每个词项对表示，对头尾实体进行拼接分类，之后选择最大的概率的输出作为标签。由于会为每个关系类型都构建一个标注矩阵，不同类型的三元组都会单独解码，因此不会存在实体重叠的问题。

在联合抽取任务下也进行了实验并证明了结果的优越性。

3. 图视角下的半开放抽取

半开放抽取任务，就是想要知道与某个实体相关的知识，而不是文本中所有的知识或固定类型的知识。

如何实现半开放抽取？与实体联合抽取任务类似，半开放抽取也是从开放域中抽取二元知识，因此，问题可使用环结构表示，用二维矩阵标注。第一个矩阵中标注关系短语和尾实体的边界位置，标注出“关系短语开始-尾实体结束”，“尾实体开始-尾实体结束”，如下图中的粉色和绿色位置。第二个矩阵中标注“关系短语开始-尾实体开始”、“关系短语结束-尾实体结束”，如下图中的绿色和蓝色位置。

由于面向特定的实体去抽取，所以在编码的时需要考虑到我们所关注的头实体信息。为了实现这个功能，设计了目标实体感知编码器，把头实体拼接在输入的前面作为关注的锚点输入到BERT中编码，之后取出头实体的位置表示，添加条件层正则化机制，使得表示更偏向于头实体的语义信息。通过实验发现，在我们构建的数据集上，能够取得很好的效果，F1=0.803，并且在实际业务中产生了真正经济价值。

4. 图视角下的多元信息抽取任务

多元抽取任务，是信息抽取任务中最复杂的。包括了不连续实体识别、开放信息抽取和事件抽取。与一元抽取和二元抽取不同的是，多元抽取任务中，对抽取的知识片段数量没有限制，因此无法像二元抽取任务一样，可以通过四条边连接固定的抽取到目标知识。为了实现多元信息抽取任务，一个很直接的思路就是，对二元抽取的环结构进行扩展适配到多元抽取任务中，但是在一些复杂的例子中会出现表达歧义。

给出一个开放抽取的示例，“腾讯控股盛大文学，并收购了该公司剩余的所有股份”。这句话中有两个三元组<腾讯，控股，盛大文学>，<腾讯，收购，盛大文学剩余的所有股份>，如果采取二元抽取的方式，只连接每个实体的开始词和结束词，每个关系的开始词和结束词，并对片段的开始词和结束词进行连接构成环，可以发现整个图结构中有四个环，其中，“腾讯控股盛大文学剩余的所有股份”和“腾讯收购盛大文学”这两个环是错误的。这是因为，“盛大文学”本身是一个尾实体，同时也是“盛大文学生育的所有股份”尾实体的一部分，导致了环结构代表的语义出现歧义。

为了解决上述的问题，需要在环结构中构建三元组中所有片段边界位置的连边，从而避免复杂知识表达的歧义性。我们发现两两都连边的图结构，构成一个紧密的团结构。团，是一个无向图的无向子图，团中的每对顶点必须有边连接。

下图中左侧的图结构，可以拆分为右侧的十个团，每个团的不同节点之间都有一条边相连。例如节点 0 和 5 是一个团，“0,5,4”也构成一个团。进一步地说，如果一个团不被其他任何团包含，就称它是图的极大团。下图中，节点 0 和 5 是一个团，添加节点 4 后仍然组成团，对于团 0,5,4 无法再添加一个节点形成新的团，因此，054 成为图的一个极大团。下图中有 3 个极大团分别为 054，014，124 节点组成的团。

因此，如果我们文本看做一个图结构，多元信息抽取任务就是转换为图中极大团查找任务，解码时找到图中所有的极大团，再判断团中每一个节点的角色和类型就可以去组合还原出想要的多元知识。

下面给出了基于极大团的开放信息抽取的一个流程：

① 首先，构建一个图，图中的节点是头实体、关系短语、尾实体；

② 把属于同一个三元组的所有角色进行连边；

③ 在图中进行极大团查找，每个极大团代表一个目标知识。

在建图过程中，用二维矩阵标注文本中所有三元组中的片段，如“豫园”、“建造于”、“明朝嘉靖年间”，之后构建片段的连边，包含位置和角色两种标签。位置用来表达对应两个词项是属于同一个三元组片段的开始或结束位置，如“豫”和“建”分别代表三元组头实体和关系短语的开始位置，因此用标签 1 表示。“豫”和“建”分别代表头实体和关系短语，用标签 3 表示。通过这两个矩阵就可以构建出想要的图结构。

我们在中文和英文数据集上都进行了实验，并取得非常好的效果，在实体重叠、实体嵌套和不连续的场景中也有出色的表现。

（1）图视角下的不连续实体识别

类似开放信息抽取，不连续信息抽取也可以采用类似方法实现。首先标注文本里所有不连续实体的片段，之后构建片段之间的两两连边，最后构建极大团结构。

在三个数据集上做实验，效果非常好，在仅包含不连续实体的数据集上超越了之前的方法至少六个点，速度也非常快，训练时间减少五倍。

（2）图视角下的事件抽取

事件抽取也采用类似之前的方法，先识别出文本中给定事件定义下所有的角色（每个标签就是一个角色），之后识别事件类型下所有的片段，如敌人、攻击、基地、士兵等，之后在连边下识别出关心的片段，以及片段组合的连边类型。例如“敌人”和“攻击”之间的关系就是“Attack 事件的 Trigger”，“基地”表示一个攻击性事件的一个 Target。之后判断词项是两个要素的开始或者结束，从而构建出要素之间的连边。从而实现在事件抽取里，不同要素同属于一个事件的所有要素两两之间构建起连边的图结构。

5. 本节总结

我的课题提出一个统一的信息抽取的图视角，将图分析领域和信息抽取领域相结合，把七类信息抽取任务建立为 3 种图结构，从连边到环再到团，并在数据集上取到较好的效果。

｜分享嘉宾｜

郁博文博士

阿里巴巴达摩院智能对话团队算法专家

郁博文，阿里巴巴达摩院智能对话团队算法专家，2022年博士毕业于中国科学院大学，研究方向为自然语言处理中的知识发现与利用，累计在ACL、WWW、SIGIR、AAAI、IJCAI、EMNLP等重要国际会议上发表高水平论文三十余篇。担任ACL、EMNLP、AAAI、IJCAI、WSDM等会议的程序委员会委员，以及WWWJ、AI、TALLIP、TKDE等期刊的审稿人。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文，进入 OpenKG 网站。

你可能感兴趣的:(知识图谱,人工智能)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
音视频知识图谱 2022.04 关键帧Keyframe
前些时间，我在知识星球上创建了一个音视频技术社群：关键帧的音视频开发圈，在这里群友们会一起做一些打卡任务。比如：周期性地整理音视频相关的面试题，汇集一份音视频面试题集锦，你可以看看《音视频面试题集锦2022.04》。再比如：循序渐进地归纳总结音视频技术知识，绘制一幅音视频知识图谱。下面是2022.04月知识图谱新增的内容节选：1）图谱路径：**采集/音频采集/声音三要素/响度******主观计量响
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
LiteBee Wing测评：走进中小学课堂，合适的编程无人机非常重要！ song_bcbd
“国务院在《新一代人工智能发展规划》中明确，要广泛开展人工智能科普活动，实施全民智能教育项目，要在中小学阶段设置人工智能相关课程，逐步推广编程教育，鼓励社会力量参与寓教于乐的编程教学软件、游戏的开发和推广，而且要进行人工智能竞赛。”作为从事创客教育多年的老师，感谢在这个大环境，让学生能够了解人工智能，接触到前沿科技，同时也鼓励更多学生学习编程，因为没有学编程，可能就会像现在的我们后悔以前没有学习好
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n