洛小李

关系抽取综述

 
  知识图谱之关系抽取 
     1 概述 
      知识图谱将知识以图的形式表示，用图的节点来表示概念和实体，用边来表示关系和属性，从而将事物用更小的粒度进行表示和连接，用这种基于符号和方式来表示概念和概念之间的关联关系。从上面的概念可以看出，知识图谱是由实体、属性和关系三部分构成。而实体抽取技术有经典的BiLSTM+CRF的模型已经能够取得很好地效果，属性和关系抽取则成为知识图谱构建体系当中最重要的部分了，对其抽取方式和效果进行研究是非常有必要的。
一般来讲，可以根据数据的特点将其分为结构化数据如(数据库表等)、半结构化数据如（infoxBox等）和非结构化数据（网络语料）。结构化的数据往往直接描述了明确的语义关系，可以直接融入到当下的知识库中，半结构化数据也可以通过配置简单规则可快速准确的从数据中抽取关系。但是结构化数据和半结构化数据的占比是非常小的，而且更新缓慢。为了能够及时有效的抽取更多的知识，将目光转向各种非结构化网络语料是非常需要的。因为非结构化文本往往蕴含有大量的语义知识，而且比较高效实时。但是，非结构化文本的句法结构也比较灵活多变，规律性并不强。所以，如何从一段非结构化文本中高准确率、高召回率的抽取出存在特定语义关系的实体对也一直试自然语言处理领域的研究热点。
接下来，本文将首先介绍非结构化文本关系抽取的各种不同的方法及其对比情况，实际落地应用和未来的发展。
 
 2 关系抽取技术框架分类体系及其对比 
      关系抽取即是从一句话中抽取出存在特定关系的实体对，基于这个目的，可以将关系抽取任务转化为分类任务和序列标注任务。分类任务是指通过对文本做特征抽取，然后根据待预测的关系训练多分类模型，每种关系都是一个特定的类别。而序列标注任务将类似于命名实体识别任务，通过预测实体的标记类型来确定两个实体是否存在关系[1]（下文详细叙述）。由于知识图谱在构建过程中，已经存在一个设计好的Schema，也就是说其不再像语义网络那样关系种类不加很强标准约束，而是在某一领域都只会存在有限的关系类型，这就支持我们将关系抽取任务转化为分类任务，并且经过试验证明确实要比序列标注人物表现要更好。所以本文将关注如何将关系抽取任务转化为分类任务来抽取知识。
由于关系抽取任务是预测存在关系的实体对，所以对命名实体识别过程就会有很强的依赖。在针对一个特定的句子做关系抽取时，会首先要求识别出语句中的实体，然后再识别两两实体对之间的关系。根据命名实体识别任务(Named Entity Recognition,简称NER)和关系抽取任务之间的关系，可以先做NER再根据NER的结果进行关系抽取。当然也有研究者使用联合抽取的师兄，即同时做两个任务。在实际应用的过程中，NER技术已经相对成熟，而且NER数据集获取也更加容易，但是如果和关系抽取做联合模型，那可用的数据集也将大大缩减，造成NER的误差传播更加的严重。所以实际应用时，还是先做NER，然后再进行关系抽取能够取得更好的效果，本文也采用这种技术体系来完成关系抽取的任务。
如果将关系抽取任务转化为分类任务，可以更进一步的将关系抽取算法分为有监督关系抽取算法、boostrap关系抽取算法、无监督关系抽取以及远程监督关系抽取算法。 
        有监督关系抽取 
          有监督关系抽取也就是采用有监督学习的思想：利用人工标注的语料来训练模型，学习句子的句法和语法语义特征，然后基于训练好的模型来做关系抽取。有监督的关系抽取往往准确率和召回率都是比较高的，但是其需要人工标注的训练数据，而标注的成本往往是比较高的。所以其很难扩展大新的领域，只能在一些小规模的垂直领域有很好的落地。
 
boostrap关系抽取 
          boostrap关系抽取就是基于boostraping的思想，首先利用少量的种子实例或模板来为每种关系标注少量的种子实体对，基于这些实体对在文本语料库中抽取相关的句子集合，基于这些句子抽取表达关系的模式，一次循环迭代，即“滚雪球”式的关系抽取。boostrap的方法可以较少模型对标注数据的依赖，但是这种方法也容易产生语义漂移的现象，同时抽取结果的准确率较低也是一个需要迫切解决的问题。
 
无监督关系抽取 
          无监督关系抽取是指通过聚类等方法抽取实体之间的关系字符串。这种方法可以抽取非常大量的关系对，但是抽取结果很难映射到知识库中。
 
远程监督关系抽取 
          为了解决有监督关系抽取对人工标注预料的过于以来的问题，2009年Mintz提出了远程监督关系抽取的思想：如果一个实体对在知识库中国存在某种关系，那所有包含该实体对的句子都存在这种关系[2]。基于这种假设就可以完成对文本的远程标注，然后再使用类似有监督学习的思想来训练学习。远程监督关系抽取降低了模型对人工标注语料的依赖，为大规模跨领域的关系抽取提供了实现的可能。自该思想被提出依赖，工业和学术界都在做持续深入的研究，并已取得了很不错的效果。
 
 
除了上述方法以外，也可以设定规则模板或者基于依存句法等方法来完成关系抽取，本文不做详细论述。下图是对上述几种方法的一个总结：
#图1#
上文就关系抽取的技术分类框架及其优劣点进行了简单地分析，接下来着重针对有监督关系抽取和远程监督关系的研究热点做简单介绍。
 
 3 有监督关系抽取框架 
      有监督关系抽取就是利用已经标注好的训练语料，进行有监督的学习，然后实现一个多分类器。传统的有监督关系抽取框架是采用SVM、最大熵模型等等，这种方法将更加依赖于手工构建的词法，或利用nlp工具等构建的句法特征等，这些方法要么依赖于手工提取的特征，要么依赖于精心设计的kernel，不仅容易出错，提取特征的能力也是有限的，当应用到新的领域时不够鲁棒。而随着深度学习方法在nlp领域的应用，将RNN,CNN等深度学习方法应用到有监督关系抽取框架中来解决传统模型对人工构建特征的依赖成为一种趋势。也就是说，nlp任务中任何可以用来提取词法、句法或语法语义的模型都可以用于关系抽取任务来提取非结构化文本的特征。
#如图所示# ，是对有监督关系抽取研究思路的基本总结
对于传统的机器学习方法，可以提取到的特征就有实体串的上下文字符、两个实体之间的距离、还有实体串在句法树种的路径和位置等等。通过人工设计和构建来抽取句子特征使得模型应用到新的领域时鲁棒性往往都比较差，而且还都需要专家来设计，要耗费的代价也是巨大的。
深度学习方法的大规模研究和应用对nlp领域的发展起到至关重要的作用，通过深度学习的模型，研究人员不在需要手工来设计数据的特征，而是让模型自动的学习到句子中所蕴含的语法和句法特征，从而使得模型的鲁棒性大大提高，同时也不需要花费大量的人力和物力来设计特征。下面对一些基于深度学习的经典有监督学习关系抽取框架做一个简单介绍
Semantic Compositionality through Recursive Matrix-Vector Spaces（MV-RNN） Richard Socher.2012 
        这是第一篇用于深度学习的方法来解决关系抽取模型中特征抽取的论文，作者提出使用向量和矩阵来表示语法树中的每个节点，其中向量表示内在含义，矩阵表示邻接词或短语对当前词的影响程度。基于递归神经网络结合句法树来学习任意语法类型和长度的联合向量表示。并在抽取完特征后使用softmax分类器进行多分类学习和预测。 #如图所示# 
          其中 P = f M ( A , B ) = W M ( [ A B ] ) P = f_M(A,B) = W_M ([A \\ B]) P=fM​(A,B)=WM​([AB])
 p 1 = f ( B a , A b ) p_1 = f(Ba,Ab) p1​=f(Ba,Ab)
 
这篇论文解决了传统模型手动捕获特征的缺点，但也仍然依赖于句法解析等nlp工具。
从试验结果来看，这篇论文在使用位置特征、wordNet等特征的基础上，能够取到F1 @82.4 的效果，和传统模型中表现最好的模型[email protected]相比，还是有一定的提升，关键是减少了对人工构建特征的依赖。
 
relation classification via convolutional deep neural network -OCNN Zeng.2014 
        Base CNN 
          Convolution Neural Network for Relation Extraction Liu. 2013 
该篇论文是第一次将CNN这种经典的深度学习模型引入到关系抽取框架中，将关系抽取任务转化为分类任务并使用End-to-End 模型来解决问题。使用Synonym Embedding作为词的特征，这一点后续一部分工作也在使用，相当于引入额外的信息。
但是，该模型也有如下缺点 
            CNN的结构比较简单, 没有Pooling层，容易受噪音影响。
仍然使用了一些Linguistic Feature比如POS Tagger, NER 等，并没有完全做到end-to-end的关系抽取
使用Synonym Embedding(随机初始化的LookUp Table) 可以引入一部分额外信息，但是却完全忽略了word embedding的语义信息，这一块在后续工作中都会加入pre-train的word embedding.
 
 
zeng等人在2014年提出的基于CNN的关系抽取框架是真正意义上基于深度学习的End-To-End关系抽取框架。这篇论文解决了liu等人提出的base CNN的诸多问题：例如设计了Pooing层，并引入Position Features（即句中所有字词到两个实体的相对位置）来提升模型的特征抽取能力，这也成为后续关系抽取模型特征输入的经典组合。论文提出模型的整体架构 #如图所示#
模型框架解析 
          模型的第一层为一个Embedding层，作者使用了预训练的词向量来完成句子的分布式表示；
然后进一步融合了Position Features来组合模型的特征。然后经过单核CNN和池化层来最终得到句子的特征表示，这里需要注意的是作者额外引入了5中Lexical Level 特征来从词级别增强模型对句子特征的描述能力；如下
在输出层，作者使用的是Softmax分类器做多分类学习和训练。
 
这篇论文的有点时引入了一个标准的卷积池化特征抽取模型、同时引入了Word Embedding+Position Features 来增强模型对句子的特征抽取能力，模型的抽取效果也确实有一定的提升。但是，该模型也存在一下缺点： 
          1.只采用但卷积核，特征抽取能力不够强
2.需要人工构造Lexical Level 特征
 
 
Relation Extraction: Perspective from Convolutional Neural Networks Thien.2014 
        为了解决OCNN的问题，就自然的引入了多卷积核来基于超级N-gram的思想增强模型的特征抽取能力，同时终于彻底避免了对人工构造特征的依赖。模型框架 #如图所示#
与OCNN的对比 
          不再使用Lexical Level Features
使用多个卷积核（参数）
完全不再使用词法特征，包括wordnet, 词的上下文等。
 
 
Classifying Relations by Ranking with Convolutional Neural Networks(CR CNN) Santos.2015 
        这篇论文是在Thien.2014的基础上进行改进，主要是在损失函数上将原来为softmax+cross-entropy，变为margin based的ranking-loss。模型框架 #如图所示#
重新定义的损失函数如下 
           L = l o g ( 1 + e x p ( γ ( m + − s θ ( x ) y + ) ) ) + l o g ( 1 + e x p ( γ ( m − − s θ ( x ) c − ) ) ) L=log(1+exp(\gamma (m^+ - s_\theta(x)_{y^+}))) + log(1+exp(\gamma (m^- - s_\theta(x)_{c^-}))) L=log(1+exp(γ(m+−sθ​(x)y+​)))+log(1+exp(γ(m−−sθ​(x)c−​)))
其中 s θ ( x ) y + s_\theta(x)_{y^+} sθ​(x)y+​表示句子x正确分类对应的得分，同理 s θ ( x ) c − s_\theta(x)_{c^-} sθ​(x)c−​就表示从全连接层得到的分数向量中除去 s θ ( x ) y + s_\theta(x)_{y^+} sθ​(x)y+​之外最大的分量，也就是错误分类的最大得分。
通过这样设计，在训练过程中 s θ ( x ) y + s_\theta(x)_{y^+} sθ​(x)y+​不断增大而 s θ ( x ) c − s_\theta(x)_{c^-} sθ​(x)c−​会减小。其中 m + m^+ m+和 m − m^- m−表示正确和错误对应的margin
 
根据作者的试验结果 [email protected],和cross-entropy [email protected]相比，确实有很大的提升。
 
Relation Classification via Multi-Level Attention CNNs wang.2016 
        随着Attention机制的提出，各种机遇Attention的CNN模型被应用到关系抽取当中，其中最好的一篇就是引入两层Attention来突出句子中对关系分类更有贡献的部分。模型框架 #如图所示#
该模型提出的背景在于现实世界中，同一关系可以被表达为很多种形式，这就要求模型不仅得考虑词级信息，还得考虑句级和语义级别的信息；也有一些基于神经网络的模型，但大多需要外部依赖，同时，对于关键信息的捕捉还不理想。
如图，两次Attention分别为： 
          输入层Attention 用词和实体的词向量相似度作为权重，刻画不同词的影响力。基于上下文与实体的对角矩阵实现，矩阵中各元素反映词语与实体间的强弱关系（即分配的注意力），例如:  a i , i j = f ( e j , w i ) a^j_{i,i}=f(e_j,w_i) ai,ij​=f(ej​,wi​) 就是反映 $w_i $和 $e_j $的联系强弱，注意是内积计算，所以将值填充到对角位置。然后进行归一化得到权重值 $ \alpha^j_i $
池化层Attention 对卷积结果进行Attention Pooling，替代原本的Max Pooling。G对应函数的计算方法得到一个相关性矩阵U为权重矩阵， W L W^L WL为关系嵌入，将G进行归一化，然后得到attention pooling矩阵A,最后与卷积结果计算内积，并max 池化获取输出
这种设计可以有效减弱噪声，加强相关性强的词的权重。
 
模型的目标函数 
           δ t h e t a ( S , y ) = ∣ ∣ w o ∣ w o ∣ − W y L ∣ ∣ \delta_theta(S,y) = || \frac{w^o}{|w^o|} - {W_y}^L || δt​heta(S,y)=∣∣∣wo∣wo​−Wy​L∣∣
 
模型损失函数 
           L = [ δ t h e t a ( S , y ) + ( 1 − δ t h e t a ( S , y − ) ) ] + β ∣ ∣ θ ∣ ∣ 2 L = [\delta_theta(S,y) + (1-\delta_theta(S,y^-))]+\beta||\theta||^2 L=[δt​heta(S,y)+(1−δt​heta(S,y−))]+β∣∣θ∣∣2
 
模型的优点 
          两层Attention: 在文章中的两处Attention 均是基于embedding 的内积来运算的。 其中Input Attention 很直观，利用embedding的内积来衡量相关。
Distance Function：从margin based ranking loss 出发，类似TransE等模型，使用embedding的逼近来作为距离函数。
 
模型的缺点: 
          Input Layer的attention 使用word 与 entity的 embedding similarity 来作为attention的权重，这里有些问题。比如“ caused by ” 这里的 caused 很关键，但是与e1, e2的相似度应该比较小。而且不同的词在不同的relation中的重要程度是不一样的。使用统一的embedding 可能会有噪音影响。在一个可能原因是Out Of Vocab 的词语也会降低performance。
结构复杂 复杂度高，收敛困难，尤其是第二个Attention
 
试验效果分析 
          #如图所示#
 
 
Relation Classification via Target-Concentrated Attention CNNs zhu.2017 
        论文的思想 
          这篇论文就是在wang.2016的基础上定义 每个词在不同的relation有不同的权重Attention 矩阵。也就是说Input Layer 引入一个权重矩阵，直接计算word 与 relation的相关度， 而不是计算word 与 entity的相关性:
 
另外，这篇论文去掉了Pool Attention 部分，直接max pooling。自定义的距离函数，而是直接使用类似Santos 2015的那种向量内积计算score的方式. 最终仍然使用ranking loss
总的来说，这篇文章在Input Layer的Attention的改进比较符合直观。 在没有使用二级Attention 以及改进的损失函数的情况下， 可以达到[email protected]%，相对于上一篇的[email protected]%还是有提升。不过整体来看，文章的创新点比较少，感兴趣的同学可以移步去看下一年。
 
 Relation classification via recurrent neural network Zhang.2015 
        在当下的nlp领域中，没有用RNN实现的任务总是带点缺憾的。zhang等人开始尝试使用RNN模型来抽取句子的特征，并声称达到了zegn.2014的效果。
模型框架 #如图所示#
作者使用使用更加简单的Position Indicators(简称PI)，而非Zeng 2014的Position Feature. PI很简单，直接使用标签来表示两个entity的位置. 比如在数据中例子: “ people have been mov- ing back into downtown ” 这样就将 , <\e1>, , <\e2> 作为四个Indicators. 在训练的时候，直接将这四个标签作为普通的word即可，无需特殊处理. 通过这样的方式来突出两个entity.
试验结果 
          从论文中看，是达到了和zeng.2014几乎一致的效果，但实际应用的效果并不是很好。
 
 
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification Zhou.2016 
        基于RNN对句子建模，在上一篇RNN的基础上做了一点改进，使用标准的的Attention + BiLSTM，效果与(CR CNN)Santos.2015类似,达到了 84%
试验结果分析 
          在没有使用词法/语法特征的情况下，达到84%的F1 Score，使用Attention 可以起到作用，能够减弱句子中的噪音词语影响，增强关键词的影响。
Attention + BiLSTM 作为NLP Task的标配，在Relation Classification上也取得了不错的效果。文中不足是仅仅使用标准的Attention+LSTM直接简单用到这个Task， 创新点几乎没有，并没有针对关系分类这个任务的改进。
 
 
[Semantic Relation Classification via Bidirectional LSTM Networks with Entity-Aware Attention Using Latent Entity Typing lee.2019](file:///C:/Users/mirli/Downloads/symmetry-11-00785.pdf) 
        这篇论文借鉴了wang.2016和zhou.2016两篇论文的思想。在BiLSTM基础上增加了self-attention来让考虑上下文信息，增强词表示学习能力。同时，作者在BiLSTM之后加入entity-aware attention,来融入position Features和Entity Features with Latent Type两个特征。模型的框架 #如图所示#
该模型提出了使用self attention和entity-aware attention两层Attention机制来增强模型的特征抽取能力。特别是entity-aware attention加入了位置特征和实体潜在类别，充分利用实体对的先验知识，并增强了模型的可解释性。缺点是计算复杂度高，难以收敛，且实体类别的个数是需要人为进行设定的。
 
Graph Convolution over Pruned Dependency Trees Improves Relation Extraction zhang.2018 
        在依存树关系抽取模型的基础上，作者针对依存树修剪过度（容易忽略否定）和并行计算效率存在矛盾的基础上提出图卷积网络(GCN)来存储任意依赖结构信息。保留两个可能存在关系的实体之间的最短路径中的词来修剪树。一般将这类模型称之为Dependency Models。模型框架 #如图所示#
作者通过GCN来捕捉词与词之间的依赖关系，融合句法信息来完成词的隐藏表示学习，从而增加模型的特征抽取的能力。在输出层，仍然使用softmax分类器做多分类的学习。
将GCN引入到关系抽取等nlp任务当中是当下的一个研究热点，这里只对该模型做简单介绍，感兴趣的同学请移步到论文哈~
 
Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme zheng.2017 
        这篇论文将关系抽取任务转化为序列标注的任务，并使用了联合实体和关系抽取的模型。作者提出了新的命名实体和关系抽取的联合序列标注方案 #如图所示# ：
标注方案由三部分构成：Ent-Rel-index。其中Ent表示BIES的实体标注，Rel则是关系的缩写标注，例如这里的 CP 和 CF 等，index则别用来区分主实体和客实体。
论文采用了BiLSTM模型来实现特征抽取，模型分为Embedding层，Encoding Layer层和Decoding Layer均使用BiLSTM实现，最后使用softmax分类器作为输出，得到各个字符的序列表示。论文的框架 #如图所示#
试验分析 
          从试验结果来看，该模型确实取得了很不错的效果。综合来说，这篇论文提出一个新的标注方法，并且研究了利用end-to-end模型来联合抽取实体和关系，实验结果证明该方法非常有效。
但是面对重叠关系，依旧存在缺陷。后续将研究在输出层用多分类代替softmax函数来解决重叠关系的问题。
 
 
Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism Zeng.2018 
        这篇论文也使用了实体和关系的联合抽取的思想，并使用了复制机制来实现。在实际情况下，句子中的关系事实往往是最复杂的，不同的关系三元组在一个句子中可能有重叠。现有的关系抽取模型往往考虑的是三元组实体不重叠的问题，而对重叠实体对或单实体重叠的情况考虑较少。
作者提出基于复制机制的端到端序列学习模型，来从句子中联合提取关系事实。模型的框架 #如图所示# ：
模型使用LSTM模型做模型特征编码，产生输出和隐藏状态。
解码过程则比较复杂： 
          首先复制第一个实体，然后复制第二个实体。如此重复，直到生成关系NA停止 
            计算解码器的输出 O t D , h t D = g ( u t , h t − 1 D ) {O_t}^D,{h_t}^D = g(u_t,{h_{t-1}}^D) Ot​D,ht​D=g(ut​,ht−1​D)
 
其中 h t − 1 D h^D_{t-1} ht−1D​为t-1时刻解码器隐藏状态， u t u^t ut表示t时刻解码器输入,被表示成 u t = [ v t : c t ] W u u_t = [v_t:c_t]W^u ut​=[vt​:ct​]Wu 
            其中 v t v_t vt​为注意向量， c t c_t ct​为在时间步t - 1对应的复制实体的嵌入或预测关系。w是一个权矩阵。
 
计算关系及NA置信向量（选择概率最大的关系作为预测关系） 
             q T = s e l u ( o t D W T + b T ) q^T = selu({o_t}^DW^T+b^T) qT=selu(ot​DWT+bT)
 q N A = s e l u ( o t D W N A + b N A ) q_{NA} = selu({o_t}^DW^{NA}+b^{NA}) qNA​=selu(ot​DWNA+bNA)
 p T = s o f t m a x ( [ q T ; q N A ] ) p^T = softmax([q^T;q^{NA}]) pT=softmax([qT;qNA])
 
选择第一个实体 
            计算所有单词置信向量，并选择最高的作为预测单词 q i e = s e l u ( [ o t D ; o i E ] w e ) {q_i}^e = selu([{o_t}^D;{o_i}^E]w^e) qi​e=selu([ot​D;oi​E]we)
 p e = s o f t m a x ( [ q e ; q N A ] ) p^e = softmax([q^e;q^{NA}]) pe=softmax([qe;qNA])
 
复制第二个实体，注意不能重复选取。
 
总结 
          论文对不同三元组提取的场景进行了细致的划分，并精心设计了一个copy模型，联合了实体提取和关系分类两个步骤，总体来说有一定的创新性，但是论文中提到的方案并不能完全解决三元组重叠的问题，除了文中描述的三种情况，还有一种一个关系对应多个实体对的情况，这种情况用论文中方案无法解决。
但是这篇论文没有对比模型，感兴趣的同学可以移步过去看一下。
 
 
Overcoming Limited Supervision in Relation Extraction: A Pattern-enhanced Distributional Representation Approach 2016 
        这篇论文必有有意思的地方时没有使用神经网络的模型，而是使用了弱监督学习的方法。作者建立两个模型， 互相为对方提供监督。分布模型是判别模型，而模式模型作为生成模型。基于模式的模型会基于模式生成许多候选的实例，而分布模型作为一个判别器则会从中选择出好的实例，并将其作为补充回馈到前者。训练过程中通过不断迭代，同时提升两个模型的性能。作者基于两个task: KB推理和语料级别实体关系抽取。
这篇论文证明了仅使用两个简单地模型迭代训练的弱监督模型被证明非常有效的，并且没有使用神经网络的模型，而且只需要少量的人工标注数据。
这里不加详细说明，感兴趣的小伙伴可以goole一下看看。
 
Effectively Combining RNN and CNN for Relation Classification and Extraction 2018 
        这篇论文使用了将RNN和CNN做模型融合的的方法，在SemEval Task7 的四个子任务中取得了三个第一。
作为一名由评测比赛而诞生的论文，作者加了很多工程性的内容。核心技巧在于使用CNN, RNN模型集成。文中还提到了多种方法，不择手段提升最终模型的性能。虽然该模型训练速度可以说是非常慢了，但是还是有很多地方可以借鉴。
模型框架 #如图所示#
输入是 word embedding + POS + RPE, CNNN部分：一层conv + reu + maxpooling + FC ， 没有dropout, 输出prob。 RNN 部分：不加padding的Bi-LSTM + FC + dropout, 输出prob。这样的网络训练20个，得到40个prob, 取平均。
本文进行了非常非常详细的实验，正是这样才能在SemEval Task 7 上表现这么好。分析提到的很多feature有拟合数据集或者取巧的嫌疑，不过还是有几点有实际用处，有值得借鉴的地方：比如句子反转RS, 加权的cross entropy, ensemble CNN 和 RNN 模型，以及对于RNN和CNN根据句子长度加权预测的方式。结合这些加上对于深度学习方式的探索，相信还可以将NYT上的表现刷的更高。
 
 
 4 远程监督关系抽取框架 
      采用有监督学习的算法来实现有监督的关系抽取能够保证抽取的知识是高质量的，且是高召回率的。但是，有监督学习的方法对标注数据的依赖性也是比较高的，而人工标注语料的获取成本是比较高的。因此在实际应用的过程中，很难获取到用于关系抽取的大量标注数据，这就导致模型的领域可扩展性较差，所以有监督学习的方法一般在评测或学术界做垂域的知识抽取时比较实用，而工业落地则有很大的限制。
为了解决这个问题，2009年，在ACL峰会上Mintz提出了使用远程监督来做关系抽取任务的思想，这里的远程监督主要是指远程标注的过程：即如果一个实体对在知识库中存在某种关系，那就假设所有包含这个实体对的句子都表达了这种语义关系。这样，就可以对朴素文本做了一个关系抽取的标注，而无需人工标注啦。
基于这这个假设，我们就可以利用已有的知识库（包含设计好的Schema,严格来说应该是知识图谱）对非结构化的朴素文本进行标注（远程监督），这样就构建了大量的标注正例。
例如：如果知识库中存在（苹果，CEO, 乔布斯）这条语义关系，那就可以对所有包含该实体对的句子标注 #如图所示#
一方面，远程监督确实可以有效地解决关系抽取框架对人工标注数据的依赖问题。但我们也看到，因为远程标注假设过强，不可避免的带来了很多的噪声。例如 “乔布斯每天都要吃一个苹果” 这句话描述的是乔布斯的生活习惯，而在这里苹果应该是一个水果，而不能表达苹果的CEO就是乔布斯这条知识。一般，也会将这种噪声称之为假正例问题，也就是wrong labeled 问题。
另一方面，远程监督假设限定了每个实体对仅存在一种语义关系，也就是单标记问题，但是在实际应用中，实体对至今可能存在有多重语义关系。例如 娱乐明星 “黄磊” 和 “孙莉” 存在 “校友”、“夫妻”、“师生”等多重语义关系，而这时基本的远程监督模型所无法解决的。
上述两个问题属于远程监督假设所自带的缺陷，为了使远程监督的思想能够更好地应用到关系抽取当中，领域内的研究者一直着手来解决上述问题。下面将选取几篇关键性的论文对上述问题的解决方案做简要介绍。
首先，贴上当前远程监督关系抽取模型的技术分类和研究现状的调研 #如图所示#
4.1 远程监督的基本思想 
        Paper: Distant supervision for relation extraction without labeled data Mintz.2019
在这篇论文中，Mintz提出了远程监督关系抽取的思想，用已有知识库来对齐朴素文本，生成大量的标注数据。
在模型的特征方面,Mintz大佬使用了手工构建的词法和句法特征表示句子 
          词法特征 
            实体对之间的词串；
这些词语的POS(part-of-speech)标记；
句子中那个实体出现在前面；
实体1左边k个词和它们的POS标记；(k:0,1,2)
实体2右边k个词和它们的POS标记。
 
句法特征 
            利用依存句法解析器(dependency parser) MINIPAR对句子进行解析，然后从解析树中提取实体的依赖路径。依存句法解析的结果是对句子中的词和词组，利用有向的依存关系边进行连接。 #如图所示#
特征包括：1.两实体之间的依存路径（dependency path）；2. 对每个实体，增加一个window node做为特征。window node是指与其中一个实体连接，但并不在依存路径中的节点。
 
此外，作者将两实体的POS（命名实体）标记也做为特征加到特征向量中。由于数据量大，使用联合特征来提高精度。联合特征会让特征的命中率降低，但在数据量大的情况下，特征命中率的问题不严重。
 
在特征抽取之后，作者使用多分类逻辑回归模型进行学习和训练 
          训练 
            相同元组的不同句子被放到一个bags中，本文对bags中的实例进行特征抽取与合并，然后作为一个正样例
负例构造：随机选取不在freebase中的实体对（有错误的可能，不过很小）
 
训练和测试数据构造：freebase中的关系实例一半用来训练，另一半用来测试。数据使用维基百科数据
2:1的训练和测试数据分配。测试时只对在训练时未出现（不属于训练时的freebase中）的实例对分类
 
 
4.2 远程监督降噪 
        上面提到：由于 mintz 远程监督的假设过于理想，所以带来很多噪声（wrong-labled，false-positives问题）。据统计，在NYT语料集中，约有31%的假正例问题，这个比例还是非常高的。
[思想] 为了解决这个问题，在Modeling Relations and Their Mentions without Labeled Text Riedel.2010这篇论文中，Riedel等人将多示例学习的思想引入到远程监督关系抽取当中,即做At-Least-One假设： 
          在远程监督假设的基础上，进一步假设在所有包含两个entity的句子中，至少有一个句子可以表示relation，即至少有一个标注正确的句子。也就是说如果两个实体对存在某种关系，在所有包含该实体对的句子实例集（bags）中至少有一个实例表达了这种关系
关于多示例学习的内容可以参考 多示例学习 
            假设训练数据集中的每个数据是一个包(Bag)，每个bag都是一个示例(instance)的集合,每个包都有一个训练标记，而包中的示例是没有标记的；如果包中至少存在一个正标记的示例，则包被赋予正标记；而对于一个有负标记的包，其中所有的示例均为负标记。
我们的目的得到每个bag的标签，并不关注bag里面instances的。因为每个bag上的label就是两个entity的relation。 采取的措施是根据At-Least-One的假设，每个Bag都有至少有一个标注正确的句子，这样就可以从每个bag中找一个得分最高的句子来表示整个bag
 
 
基于At-least-one假设，近年来关于远程监督降噪，我们一步步提出了如下的降噪算法 #如图所示#
Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks zeng.2015 
          zeng等人在ACL2015上提出的模型不仅应用了多示例学习，还改进了有监督关系抽取领域标准CNN模型。下面将进行简单介绍。总的来说，论文思想: 
            基于多示例学习来解决噪声问题，然后提出PCNN的pooling方式来解决第二个问题
同时，这也是第一篇引入深度学习方法的远程监督关系抽取的领域论文。在此之前，原始方法大都是基于词法、句法特征来处理， 无法自动提取特征。而且句法树等特征在句子长度边长的话，正确率很显著下降。而采用CNN等深度学习的方法来自动的学习和抽取特征，使得模型的鲁棒性大大的提高。
 
PCNN模型介绍 
            模型的框架 #如图所示#
由于一个实体对会天然的把所在的句子分为三个部分，即实体1之前、实体1和实体2之间、实体2之后的文本。根据这个特点，zeng等人在CNN的基础上提出了分段池化的思想，即将这三部分的卷积结果进行分段最大池化，这样可以得到三个值，相比传统的max-pooling 每个卷积核只能得到一个值，这样可以更加充分有效的得到句子特征信息。 假设一共有个N个卷积核，最终pooling之后得到的sentence embedding的size为: 3N, 后面再加softmax进行分类，最终得到输出向量  o o o
上面的示意图很清晰了，其中的 c 1 , c 2 , c 3 c_1,c_2,c_3 c1​,c2​,c3​是不同卷积核的结果，然后都分为3段进行Pooling。 下面可以减弱错误label问题的Multi-Instance Learning。这里面有一个概念， 数据中包含两个entity的所有句子称为一个Bag。
 
At-Least-One假设降噪 
            基于At-Least-One思想，zeng等人假设每个Bag都有至少有一个标注正确的句子，这样就可以从每个bag中找一个得分最高的句子来表示整个bag,于是定义如下的目标函数 
               J ( θ ) = ∑ i = 1 T l o g p ( y i ∣ m i j ; θ ) J(\theta) = \sum_{i=1}^Tlogp(y_i|{m_i}^j;\theta) J(θ)=i=1∑T​logp(yi​∣mi​j;θ)
 j ∗ = a r g m a x f p ( y i ∣ m i j ; θ ) 1 < = j < = q i j^* = arg max_f p(y_i|{m_i}^j;\theta) 1<= j <= q_i j∗=argmaxf​p(yi​∣mi​j;θ)1<=j<=qi​
j* ：计算根据bag中示例和参数，最有可能得到bag对应的关系y_i的示例，然后用该示例的得分计算目标函数
 
 
论文在NYT数据集上进行测试，从试验结果来看效果还是很不错的，这是第一次将CNN和多示例学习应用到远程监督，并试验证明确实能减弱噪声。但是，作者在MIL直接取置信度最高的示例代表bags，会带来信息的损失。
 
Relation Extraction with Multi-instance Multi-label Convolutional Neural Networks Jiang.2016 
          该问从跨句子最大池化的角度来解决 zeng.2015所遇到的问题。
基本思想 
            取最高置信度信息丢失：对bag内部的所有sentence embeding做instance-max-pooling的操作
关系重叠问题：对于多标签，使用多个二分类函数来做多标签分类，即： 使用sigmod计算每一个类别的概率, 然后判断该bag是否可能有这种关系。
 
模型框架 #如图所示#
使用CNN或PCNN模型根据句子的嵌入表示抽取特征，然后直接在每一维度取最大值组合出新的向量g
之后基于全连接得到中间结果o,最后使用sigmoid得到每个relation的概率，并设定两种损失对比 
             L o s s s i g m o i d = − ∑ i = 1 l y i l o g ( p i ) + ( 1 − y i ) l o g ( 1 − p i ) Loss_{sigmoid} = -\sum_{i=1}^l y_ilog(p_i) + (1-y_i)log(1-p_i) Losssigmoid​=−i=1∑l​yi​log(pi​)+(1−yi​)log(1−pi​)
 L o s s s q u a r e d = ∑ i = 1 l ( y i − p i ) 2 Loss_{squared} = \sum_{i=1}^l(y_i-p_i)^2 Losssquared​=i=1∑l​(yi​−pi​)2
 
总结 
            仅仅对bags内的sentence的每一维度取了最大值，就可以得到一个很不错的效果， 可以考虑其他稍微复杂一些的融合方式，从而得到更多的信息，Attention仅仅取权重，其实还是属于线性融合。
 
 
Neural Relation Extraction with Selective Attention over Instances Lin.2016 
          在zeng.2015的基础上，这篇论文引入了Attention机制来处理噪声问题。
[基本思想] 一个bag内可能有很多个positive instance。应用Attention机制可以减弱噪音，加强正样本，因此可以更充分的利用信息。
模型的框架 #如图所示#
作者提出了不同的方法来综合bags中所有实例的信息 
            Average 直接取平均:  s = ∑ i = 1 n x i s s= \sum_{i=1}^n x_{i_s} s=i=1∑n​xis​​，这种将所有instance同等对待的方式还是有缺陷，放大了噪音影响。
Attention 目标是增加positive instance的权重，减小noise instance的权重。但是并不知道每个instance的groud truth，但是知道每个bag的label，因此就可以用instance 与 该relation label的相关度大小引入Attention: 如下 
               e i = x i A r , e_i = x_i Ar, ei​=xi​Ar,
 α i = e x p ( e i ) ∑ k e x p ( e k ) \alpha_i = \frac{exp(e_i)}{\sum_k exp(e_k)} αi​=∑k​exp(ek​)exp(ei​)​
 
其中A为Attention对角矩阵，r可以认为是该数据的relation标签的embedding向量。 这样ei就可以一定程度表示句子与标签的相关性。
得到加权s作为bag的嵌入，然后与关系标签的embdding 计算相似度作为关系r的得分，然后每个关系的score计算完后，利用softmax来归一化成概率
在测试阶段，当前的测试示例没有label，就与关系嵌入矩阵M计算权重耦合，然后得到s,然后使用s在于关系r做线性分类，softmax得到r的预测概率
 
实验分析 
            实验结果 #如图所示#
Attention的效果最好, 而且+ONE比+AVE要稍微好一些，也很容易理解，+AVE对噪音数据放大了影响。最后一组实验则是更进一步验证Attention的作用。
因为在测试数据中，有超过3/4的bags 只有一个句子。 因此文中把拥有多个句子的entity pair 提取出来验证效果，在该子集上使用一下三种设置: 
              One: 表示在每个bag里面随机选择一个句子来进行预测
Two: 表示在每个bag里面随机选择两个句子来进行预测
All: 使用bag里面所有的句子来进行测试
 
 
 
Reinforcement Learning for Relation Classification from Noisy Data. Feng.18 
          随着增强学习和对抗网络等技术的发展，将其应用到远程监督关系抽取领域来做假正例识别器收到了越来越多研究者的关注。值得一提的是，这些假正例识别器是时间应用的时候都可以作为一种即插即用的技术，放在远程监督关系抽取模型之前。
基本思想 
            分别训练实体选择器（假正例识别器）、关系分类器
通过实体选择器，从一组句子中选出高质量的句子，然后通过句子级别的关系分类器来选择关系。并且如果一整个包的句子标签都是错误的，那么实例选择器将会过滤掉整个包。
 
模型的基本架构 #如图所示# 
            实体选择器 
              状态 s i s_i si​主要包含当前句子，已经选过的句子（平均）以及实体对。
一对实体的Vector表示是从预训练的knowledge graph embedding中获得。
增强学习 
                为了让奖励更新更加有效，每个袋子将会更新一次。同时，合并每个袋子中选择的句子作为一个纯净的标注数据用于训练
动作 a i a_i ai​的的取值是{0,1}，表示是否选取一个句子。
模型完成所有的选择之后，会有一个最奖励，因此只需要在最终状态s|B|+1接收一个delayed reward，其他状态的奖励都是0。
使用平均似然来计算奖励
 
 
 
 
Robust Distant Supervision Relation Extraction via Deep Reinforcement Learning Qin.18 
          这篇论文是在feng.2018的基础上做出来了改进。
为了解决wrong labeled（样本噪声）问题，人们尝试利用注意力机制对含有噪声的句子集合赋予权重以选择出有效的训练样本。但是，作者认为这种只选择出一个最佳样本的思路并不是最优的策略（因为作者认为假正例应该完全被放入负例集中，而不是分配一个较低的权重）。为了提高模型的鲁棒性，对于假正例不应只是简单的移除，而是应把它们放在正确的位置——负例集合中。
模型的框架 #如图所示#
框架能够动态识别假正例数据，但是并不是简单的移除，而是将其移动到负例集中，然后对重新分配的训练集进行学习，并使用测试集进行测试，根据测试结果对之前的划分行为进行奖励或惩罚，最终使模型能够自动识别假正例实例。
也就是说模型要根据关系分类器性能的变化，决定是保留还是移除当前的实例（即一个句子）。然后，框架进一步使基于深度强化学习策略的 agent 学会如何重建一个纯净的远程监督训练数据集。
作者描述为性能驱动、基于决策的强化学习、启发式的识别
关于该论文的详细内容可以移步我的个人博客或直接阅读作者的论文。
 
DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction Qin.18 
          这篇论文使用了生成式对抗网络对关系抽取任务进行降噪，通过对抗网络获取基于句子层面的生成模型，与传统的对抗网络中用于生成新数据的生成模型不同，这里的生成模型的作用是识别数据集中的噪声数据，对训练集进行降噪来提升关系抽取模型的表现效果。
使用判别模型识别错误数据和正确（true/false positive），生成模型则从所有数据中生成真实正确的数据并将其标注为负例，识别所有的错误数据（已知错误和假阳性数据）标注为正例，并将标注好的数据加入到判别模型用于干扰。如果生成模型能够很好地分类，那判别模型的效果将会降低，从而可以判断训练停止的条件。
从sentence level层面解决bag噪声问题，和增强学习的思想类似
模型结构 #如图所示#
生成模型训练完成后，将用于对原始训练集进行降噪。训练集中得分低于阈值的数据将作为噪声数据剔除；而如果所有包含同一实体对的句子的模型得分都低于阈值，那么该实体对及其句子集合将作为其对应关系类别的负例。降噪后的训练集可以应用于任一已有的关系分类模型，使得该模型的表现能够进一步提升。
 
 
4.3 多标记学习 
        上文中提及，由于远程监督假设每种关系都只有一种关系，而这与实际的场景是不符的。据统计，NYT语料中7.5%的实体对存在多标记问题。
所以 Surdeanu.2012 在Multi-instance Multi-label Learning for Relation Extraction Surdeanu.2012这篇论文中提出了多标记学习的思想。 
          练集中的每个 instance 都有一个 label，但是允许一个实体对在不同的语境中显示不同的标记
使用基于潜在变量的图模型，联合建模文本中一个实体对的所有实例及其标签
模型架构 #如图所示#
作者使用因子图来做特征的抽取，在不知道一个关系提及可能表示的关系时，使用一个隐变量z来表示（为预定一的k个关系标记中的一个或NIL） 
             M i M_i Mi​ 当时实体对应的提及的集合， x i x_i xi​ 表示句子
z是一个多分类器， y i y_i yi​是二分类器，用于表示同一个实体对是否可以具有两个标记， w w w为权重向量
 
使用wike的infoboxes来标注对齐训练数据，对于每个实体对，检索多大50个包含这个实体对的提及
 
从论文给出的试验结果来看，作者提出的方法确实有一定的提升，尤其是在准确率上，这可能是因为MIM模型是具有消除不需要标记的能力
这也是第一篇提出多标记学习的论文，之后的论文再多标记学习方面都会简介这个论文。
 
4.4 其他经典论文 
        Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions Ji.17 
          这篇文章引入了额外的Knowledge Graph 信息: 实体描述(entity Description). 从而弥补了背景知识不足的缺陷。 
            每个实体在FB或wiki中都有一段文字描述， 文中认为现在的工作都集中在NYT + Freebase数据本身上，却忽略了该数据集中背后的KG信息，其中就有实体的描述信息。
因此本文在之前的工作基础上引入了实体描述信息，加强对实体embedding的学习。此外，在处理Multi Instance Learning方面， 本文同样使用了Sentence-Level Attention的机制，类似Lin 2016.
 
借鉴graph embedding的思想，使用两个实体的词向量相减得到关系的分布式表示，然后和句子向量拼接计算权重，然后通过加权耦合得到整个bag的一个表示。
模型框架 #如图所示#
使用PCNN获取句子向量，然后将每个句子与关系向量联合计算权重，然后使用bag的向量表示计算关系r的预测
作者使用CNN模型对描述做特征抽取，使用如下目标函数更新e的表示  L e = ∑ i = 1 ∣ ∣ D ∣ ∣ ∣ ∣ e i − d i ∣ ∣ 2 2 L_e = \sum_{i=1}^{||D||} {|| e_i-d_i||_2}^2 Le​=i=1∑∣∣D∣∣​∣∣ei​−di​∣∣2​2
 
GAN Driven Semi-distant Supervision for Relation Extraction Li.2018 
          由于知识库中知识的不完整性，远程监督数据集中存在一部分错误标记的负例问题（包含真实关系的句子被标记为负例）
所以作者提成了一种半远程监督思想的算法来解决上述问题 
            构建一部分小的精准数据集合，适当的利用没有标记的大量实例
基于GAN来进一步的利用未标记实例
通过示例的定义（描述）相互包含则很有可能存在关系来判断一个负例有没有可能被错误标记
 
模型框架 #如图所示# （句子特征抽取模型没有改进，只在远程监督方面改进） 
            模型包括句子编码器，生成器和判别器。生成器最小化标注数据和未标注数据的分布，判别器则最大化实例之间的区分度。
 
 
RESIDE: Improving Distantly-Supervised Neural Relation Extractionusing Side Information Vashishth.2018 
          在这篇论文中，作者引入了 
            实体类别和关系别名来增强数据的特征
提出GCN来对语义信息进行建模
 
模型框架 #如图所示#
 
            从模型中看出，作者使用GCN语法树和GRU来编码句子的表示。给定一个句子，基于CoreNLP生成依赖树，并使用BI-GRU的结果作为节点表示输入到GCN中，然后使用GCN抽取特征
删除噪声（边）:通过给每条边分配一个相关性得分，第k层边得分 g u v k = Σ h u k w l u v k + b l u v k ) g_{uv}^k = \Sigma {h_u}^k{w_{luv}}^k + b_{luv}^k) guvk​=Σhu​kwluv​k+bluvk​)
最终的节点特征编码为 h v k + 1 = f ( ∑ w ∈ N ( v ) g u v k ) ∗ ( W l u v k h u k + b l u v k ) {h_v}^k+1 = f(\sum_{w \in \Nu (v)}{g_{uv}}_k) * (W_{luv}^k{h_u}^k + {b_{luv}^k}) hv​k+1=f(w∈N(v)∑​guv​k​)∗(Wluvk​hu​k+bluvk​)
 
 
 
 
 5 业务应用 
      在实习期间，我们初步构建了一个 远程监督的关系抽取框架。整个关系抽取框架可以分为数据处理与远程标注、模型训练、关系预测、下游过滤、boostraping模板生成几个阶段。 
        首先利用KG中已有的数据模式和知识库对网络语料（百科简介等）等进行标注。在这里，我们采用了基于规则的方法对标注的正例做了一个基本的降噪处理，对明显不符合特定语义关系的句法规则的（假）进行过滤。后期可以使用EL技术来确定实体串的ID，从而在做更强更准确的降噪。例如上面举得 苹果和乔布斯的例子，就可以通过EL连接到ID来实现降噪。
在模型训练阶段，我们尝试了各种经典的句子特征抽取模型：PCNN,CNN,RNN和BiRNN四种模式，目前来看是PCNN拥有最好的特征抽取能力，BiRNN次之，所以可以首选使用PCNN来做特征抽取。
在降噪方面，我们采用lin.2016提出的Attention思想降低噪声数据的权重，从而抑制假正例问题对模型的影响。另外，我们借鉴了feng.2018的思想，采用增强学习的技术来训练一个假正例识别器，使得模型能够更好地降噪
下游过滤阶段，优先使用基于规则的过滤，根据句法等特征来判断来判断两个实体对是否是不可能存在目标关系的，从而将确定不存在关系的预测结果排除。下一阶段，为了更好地让模型快速拓展至新的领域，应考虑融合kg embedding的信息来做下游过滤。
模板生成是指利用远程监督模型预测的结果来生成一批高质量的种子，对高频的模板进行提取得到种子，再应用文本来抽取更多的实体。可以进一步考虑基于种子模板来提取正则模板，提高种子的置信度和覆盖率（只是最后一步需要人工参与，也可以不做）。
目前，该关系抽取框架覆盖了“作品”、“专辑”、“演唱者”等8中语义关系，也可以快速的扩充到更多的关系类型，一般来说，最好保证相近领域、数量均衡的关系类型放在一起训练。
 
在远程监督实际落地应用的过程中，还有一个必须要解决的问题就是如何有效的构造负例。因为远程标注只能产生正例，而负例就必须通过采样得到。 
        例如下面一句话 ： 
          “杜歌 2018年4月，发行与安琥合唱的单曲《打个电话》；同年7月，发行由音乐人高进作词作曲的单曲《在何方》，并在歌曲MV中出演一名缉毒警察”
 
以及知识库中存在的关系 
          （ “杜歌”，“演唱歌曲”，“打个电话” ）
（“高进”，“作品”，“在何方” ）
“杜歌”，“饰演”，“缉毒警察” ）
 
一般来说，会将不存在关系的实体对直接采样成负例如表中第一列所示，但是可以看到“杜歌”和“高进”在这句话中是肯定不存在各种待预测目标语义关系的。所以我们根据关系类型为依据来限制可采样的实体，也就是说“高进”作为主体时，对应作品这一关系类型，然后“高进”在这里是个人物，不会成为作品的客体，所以这个负例就被过滤掉。但同时，“高进”和“缉毒警察”这么一个负例也会别过滤掉，为了解决这个问题，我们放宽限制，使得相近的关系类型也可以被采样，从而就保留到了“高进”和“缉毒警察”这么一组负例。
 
试验效果分析 
        在模型训练过程中，我们使用AUC作为性能的评价指标。目前来看 PCNN +attention的模型能够取得更好地效果,muqian ,我们使用的是使用中文百科训练的一个词向量，如果不考虑Bert模型的时效性问题，可以使用Bert模型来做。
在通过下游过滤之后，人工标注了Top20的数据对模型进行评估评估结果 #如下表所示#
 
 
本文简单介绍了关系抽取领域的一些分类的技术体系和经典的方法，最后介绍了我们使用远程监督思想来做关系抽取的一些探索。下一步，我们将会考虑将远程监督模型作为上游任务，再下游使用kg embedding的信息来做更有效地过滤，从而解决远程监督准确率不高，而基于规则的方法可扩展性较差的问题。
参考论文 
      Relation Classification via Multi-Level Attention CNNs，ACL2016
Classifying Relations by Ranking with Convolutional Neural Networks. ACL2015
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
A Survey of Deep Learning Methods for Relation Extraction. Shantanu Kumar. 2017. 
Relation Extraction : A Survey. Sachin Pawara,b, Girish K. Palshikara, Pushpak Bhattacharyyab. 2017. 
Distant supervision for relation extraction without labeled data 09
Knowledge-Based Weak Supervision for Information Extraction of Overlapping Relations 2011
Modeling Relations and Their Mentions without Labeled Text 2010
Multi-instance Multi-label Learning for Relation Extraction 2012
Relation Extraction with Multi-instance Multi-label Convolutional Neural Networks 2016
 - Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks
 - Neural Relation Extraction with Selective Attention over Instances
Adversarial Training for Relation Extraction. Yi Wu, David Bamman, Stuart Russell. EMNLP 2017. 
A Walk-based Model on Entity Graphs for Relation Extraction. Fenia Christopoulou, Makoto Miwa, Sophia Ananiadou.ACL 2018. 
Reinforcement Learning for Relation Classification from Noisy Data. Jun Feng, Minlie Huang, Li Zhao, Yang Yang, Xiaoyan Zhu. AAAI 2018.
Robust Distant Supervision Relation Extraction via Deep Reinforcement Learning. Pengda Qin, Weiran Xu, William Yang Wang. 2018.
A Soft-label Method for Noise-tolerant Distantly Supervised Relation Extraction. Tianyu Liu, Kexiang Wang, Baobao Chang, Zhifang Sui. EMNLP 2017. 
GAN Driven Semi-distant Supervision for Relation Extraction 
Hierarchical relation extraction with coarse-to-fine grained attention.
Attention-Based Capsule Networks with Dynamic Routing for Relation Extraction
Genre Separation Network with Adversarial Training for Cross-genre Relation Extraction
Extracting Entities and Relations with Joint Minimum Risk Training
RESIDE: Improving Distantly-Supervised Neural Relation Extraction using Side Information
Multi-Level Structured Self-Attentions for Distantly Supervised Relation Extraction
A Hierarchical Framework for Relation Extraction with Reinforcement Learning
Ranking-Based Automatic Seed Selection and Noise Reduction for Weakly Supervised Relation Extraction 2018
Neural Relation Extraction via Inner-Sentence Noise Reduction and Transfer Learning 2018
Label-Free Distant Supervision for Relation Extraction via Knowledge Graph Embedding
Combining Distant and Direct Supervision for Neural Relation Extraction 2019
Distant Supervision Relation Extraction with Intra-Bag and Inter-Bag Attentions 2019
Adversarial learning for distant supervised relation extraction 2018
Graph Convolution over Pruned Dependency Trees Improves Relation Extraction 2018
Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism 2018
N-ary Relation Extraction using Graph State LSTM
Joint extraction of entities and relations based on a novel tagging scheme
Self-training improves Recurrent Neural Networks performance for Temporal Relation Extraction 
https://www.aclweb.org/anthology/W18-5617
Sentence Embedding Alignment for Lifelong Relation Extraction
Connecting Language and Knowledge with Heterogeneo
Long-tail Relation Extraction via Knowledge Graph Embeddings and Graph Convolution Networks 
Graph Convolution for Multimodal Information Extraction from Visually Rich Documents
Extracting Entities and Relations with Joint Minimum Risk Training 
Label-Free Distant Supervision for Relation Extraction via Knowledge Graph Embedding
Revisiting Distant Supervision for Relation Extraction
A Unified Architecture for Semantic Role Labeling and Relation Classification
Cooperative Denoising for Distantly Supervised Relation Extraction
 
 
 
 

你可能感兴趣的:(知识图谱,关系抽取,综述,关系抽取综述)

AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
音视频知识图谱 2022.04 关键帧Keyframe
前些时间，我在知识星球上创建了一个音视频技术社群：关键帧的音视频开发圈，在这里群友们会一起做一些打卡任务。比如：周期性地整理音视频相关的面试题，汇集一份音视频面试题集锦，你可以看看《音视频面试题集锦2022.04》。再比如：循序渐进地归纳总结音视频技术知识，绘制一幅音视频知识图谱。下面是2022.04月知识图谱新增的内容节选：1）图谱路径：**采集/音频采集/声音三要素/响度******主观计量响
腾讯发表多模态综述，一文详解多模态大模型存内计算开发者社区多模态大模型人工智能 chatgpt AIGC 量子计算 AI-native gpt agi
多模态大语言模型（MLLM）是近年来兴起的一个新的研究热点，它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力，如基于图像写故事和无OCR的数学推理，在传统方法中是罕见的，这表明了一条通往人工通用智能的潜在道路。在本文中，追踪多模态大模型最新热点，讨论多模态关键技术以及现有在情绪识别上的应用。腾讯AILab发表了一篇关于多模态大模型的最新综述《MM-LLMs:RecentA
Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
《中国特殊教育》专注知识产权服务13937636601 职称评审知网期刊核心期刊核心期刊职称评审
刊物名称《中国特殊教育》刊号国内CN11-3826/G4国际ISSN1007-3728投稿须知1．征稿范围及各类稿件的要求特殊教育与心理学研究各领域的实证研究、综述、教学改革研究等，具体研究领域包括全纳教育、特殊教育理论、听力障碍、视力障碍、智力障碍、学习障碍、自闭症、情绪与行为障碍、康复与治疗、超常儿童教育、特殊群体教育（留守儿童、流动儿童、孤儿、小团伙、网络成瘾儿童、工读学生）等1.1实证类稿
概率图模型（PGM）综述医学影像处理概率图模型概率图模型综述
RefLink:http://www.sigvc.org/bbs/thread-728-1-1.htmlGraphicalModel的基本类型基本的GraphicalModel可以大致分为两个类别：贝叶斯网络(BayesianNetwork)和马尔可夫随机场(MarkovRandomField)。它们的主要区别在于采用不同类型的图来表达变量之间的关系：贝叶斯网络采用有向无环图(DirectedAc
Python：100行完成属于你的第一个贪吃蛇 ling1s python 开发语言
目录综述制作前的分析任务分析对象分析编程思路分析代码块引用定义变量函数函数一：change（x，y）函数二：inside_map()函数三：inside_snake()函数四：deffruit_appear()函数五：gameLoop()蛇吃东西的机制死亡判定画图相关主函数完整程序总结综述turtle库是Python的一个图形绘制库，它可以通过简单的命令来控制一个小海龟在窗口上绘制图形。这个库的设
pygame制作贪吃蛇 ling1s pygame python
目录综述制作前的分析面向对象和面向过程对象相关（地图，蛇，食物）地图和墙体的绘制蛇的绘制食物的绘制总结代码游戏的基础（gamebase.py）引用一些基础参数的设置颜色点类（方块元素）文本类游戏主体（snake.py）引用基础参数（其实可以加到gamebase里）一些函数食物生成画图方块圆形初始化函数游戏主体暂停功能死亡判断正常游戏操作按键监听相关吃东西相关移动和检测渲染和绘制完整代码gameba
综述论文“A Survey of Zero-Shot Learning: Settings, Methods, and Applications” 硅谷秋水机器学习机器学习神经网络深度学习
该零样本学习综述，发表于ACMTrans.Intell.Syst.Technol.10,2,Article13(January2019)摘要：大多数机器学习方法着重于对已经在训练中看到其类别的实例进行分类。实际上，许多应用程序需要对实例进行分类，而这些实例的类以前没有见过。零样本学习（Zero-ShotLearning）是一种强大而有前途的学习范例，其中训练实例涵盖的类别与想分类的类别是不相交的。
arXiv综述论文“Graph Neural Networks: A Review of Methods and Applications” 硅谷秋水自动驾驶
arXiv于2019年7月10日上载的GNN综述论文“GraphNeuralNetworks:AReviewofMethodsandApplications“。摘要：许多学习任务需要处理图数据，该图数据包含元素之间的丰富关系信息。建模物理系统、学习分子指纹、预测蛋白质界面以及对疾病进行分类都需要一个模型从图输入学习。在其他如文本和图像之类非结构数据学习的领域中，对提取的结构推理，例如句子的依存关系
【笔记】自然语言处理NLP---概论 xhanZ NLP相关
（from人文学院开设课程）目录1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自然语言的特点1.1.2自然语言处理研究的意义1.1.3国外研究现状1.2NLP的方法、特点和规律1.2.1理性主义与经验主义1.2.2语料库语言学：经验主义研究方法1.2.3汉语语言处理的方法1.2.4基于知识图谱的深度学习1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自
写论文不再头秃！教你用ChatGPT一天搞定初稿！芙蓉姐姐陪你写论文 AI论文 chatgpt 数据库人工智能 AI写作论文笔记论文阅读 AIPaperGPT
论文写作，这大概是每个学生避不开的“必修噩梦”吧。尤其是，当你发现截止日期就像明天的天气预报一样迫在眉睫，而文档依然一片空白时，那种无力感，简直就是“说好的秃头，怎么突然就到了呢？”然而，如今我们有了学术界的“救星”——猜猜是什么？是的，你没猜错，就是ChatGPT！想象一下，你一边悠闲地喝着咖啡，一边对着电脑发号施令：“帮我写个引言，顺便再给我整理下文献综述，对了，别忘了结论！”而屏幕那头的Ch
【系统分析师】-安全体系宣晨光系统分析师软考真题标签安全软考系统分析
考点综述(1)综合知识:包括加密密钥和公开密钥算法:计算机病毒及防治技术计算机犯罪基本概念与防范措施、入侵检测与防范、系统访问控制技术;信息删除、修改、插入和丢失;伪造与重放攻击的防止;SHA、MD5;私有信息保护。(2)案例:根据具体案例，说明在网络与分布式环境下的分布式应用系统在安全性方面需要考虑的因素。(3)论文:包括入侵检测、VPN、安全协议(IPSec、SSL、PGP、HTTPSSSL)
P2P网络介绍 mazidao2008 网络学习 p2p 网络 internet 服务器存储通讯
Peer-To-Peer综述第1章Peer-To-Peer介绍罗杰文中科院计算技术研究所最近几年，Peer-to-Peer(对等计算，对等网络，简称P2P)迅速成为计算机界关注的热门话题之一，财富杂志更将P2P列为影响Internet未来的四项科技之一。“Peer”在英语里有“对等者”和“伙伴”的意义。因此，从字面上，P2P可以理解为对等互联网。国内的媒体一般将P2P翻译成“点对点”或者“端对端”
如何使用ChatGPT写学术论文？从论文综述写作全攻略避坑指南智写AI AI学术写作指南 chatgpt AI写作人工智能
大家好，感谢关注。我是七哥，一个在高校里不务正业，折腾学术科研AI实操的学术人。关于使用ChatGPT等AI学术科研的相关问题可以和作者七哥（yida985）交流，多多交流，相互成就，共同进步，为大家带来最酷最有效的智能AI学术科研写作攻略。经过数月爆肝，终于完成学术AI使用教程，估计也有个50万字的详细操作指南。跟着一步一步操作，借助ChatGPT做学术、干科研、写论文、课题申报都变得超简单。欢
sv标准研读第二章-标准引用 yunduor909 system verilog 前端
书接上回：sv标准研读第一章-综述第2章标准引用以下所引用的文件对于本标准的应用是必不可少的(即必须被使用，因此在文本中引用了每一个所引用的文件并解释了其与本标准的关系)。对于注明日期的参考文献，只适用所引用的版本。对于未注明日期的引用，引用文件的最新版本(包括任何修订或更正)适用。Anderson,R.,Biham,E.,andKnudsen,L.“Serpent:AProposalforthe
GraphRAG入门:基本概念、应用场景及学习方法学习中的程序媛~ 学习方法
一、GraphRAG的用途是什么GraphRAG用于复杂信息分析,适合处理跨文档、有噪音或主题抽象的数据.二、GraphRAG能做什么GraphRAG能连接大量信息,回答普通难搜索难以解答的问题.她可以回答跨文档的问题,也能总结数据集的主要主题.三、GraphRAG的特点1.知识图谱提取:使用llm自动从输入文本文档中创建知识图谱,表示数据中的实体、关系和关键声明2.层次聚类使用leiden技术对
采用FPGA进行SDI输入输出时钟同步设计炫视科技系统架构计算机视觉图像处理 fpga开发嵌入式硬件
模块综述目前SDI传输系统的视频传输都需要进行时钟恢复和去抖，导致每一级都耗费了较大的成本，而且不利于板卡的布局布线。因此该设计的优点在于每一级传输不需要si5324等芯片的费用，FPGA内部不同通道的数据也会同步到同一个主时钟上，节省了时钟资源。此外，该模块仍然遵循BT1120的数据协议。不足之处在于，在输出SDI端需要进行帧缓存，否则这种异步传输方式无法直接输出，需要重新生成标准SDI的BT1
看懂运营数据，学会如何利用微信公众号实现内容变现行政村进口量照相机
周去杭州为全国百家装修公司做了一次内容营销课培训，这是《装修情报》作为一家以内容生产为核心的专业装修媒体公司，第一次在业内系统地分享多年来的“内容营销”实操经验。微信公众号作为目前大多数品牌企业都在使用的自媒体，如何通过内容策划、撰写及运营，使之成为一个既能为企业做品牌传播，又能获客的一个渠道，是大多数企业在微信公众号运营上存在的一个普遍需求。雄大（以一篇“2017年上海装修公司选择指南综述”文章
最新计算机专业开题报告案例88：社区垃圾分类智能小程序的设计与实现平姐设计计算机毕业设计100套微信小程序项目实战 java项目实战小程序积分兑换商城获取定位在线答题云数据库百度AI接口研究方法
计算机毕业设计100套微信小程序项目实战java项目实战需要源码可以滴滴我项目演示地址目录一、研究目的与意义1.1目的1.2意义二、研究现状与文献综述2.1关于同类系统内容相关的研究2.2关于同类系统技术相关的研究三、研究的主要内容、预期目标与创新点3.1研究的主要内容3.2预期目标3.3创新点四、研究思路、研究方法与研究计划4.1研究思路4.2研究方法4.3研究计划一、研究目的与意义1.1目的近
如何避开毕业答辩里的坑论文学术交流地
在这里，你一定要记住三句话。一是“论文内容不会有人仔细看”（当然不是不看，这里是针对本科生而言）；二是“PPT制作要精良”；三是“只答不辩，疯狂道歉”。1、答辩老师不会仔细看论文内容“答辩老师不会仔细看论文内容”不是说答辩老师不会看论文内容，而是答辩老师只会看重点。对于不同层次的毕业论文，答辩老师的侧重点是不一样的：（1）本科毕业论文主要看规范；（2）硕士毕业论文主要看综述、参考文献和数据；（3）
模型剪枝综述发狂的小花人工智能 #模型部署深度学习人工智能模型部署模型剪枝性能优化
目录1深度神经网络的稀疏性：2剪枝算法分类：3具体的剪枝方法包括：4剪枝算法流程：5几种常见的剪枝算法：6结构化剪枝和非结构化剪枝各有其优缺点：7剪枝算法对模型精度的影响8影响剪枝算法对模型精度的因素模型压缩中的剪枝算法是一种应用广泛的模型压缩方法，其通过剔除模型中“不重要”的权重，来减少模型的参数量和计算量，同时尽量保证模型的精度不受影响。模型剪枝的核心是模型中的权重、激活、梯度等是稀疏的，减少
tomcat + spring mvc 原理（一）：tomcat原理综述和静态架构「已注销」 tomcat java spring linux docker
tomat+springmvc是目前比较流行java微服务体系架构，包括现在的springboot以及基于springboot的进一步应用化封装的springcloud框架，底层都是基于tomcat+springmvc的框架。因此学习tomcat+springmvc的基础原理，对于解决使用中出现的问题会有比较大的帮助。tomcat+springmvc的运作模式理解tomcat+springmvc的
【Java那些年系列-启航篇 01】史上最强JavaSE学习路线图 & 知识图谱夏之以寒 Java那些年专栏 Java JavaSE Java学习路线 Java知识图谱
【Java那些年系列-启航篇01】史上最强JavaSE学习路线图&知识图谱作者名称：纸飞机-暖阳作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：Java那些年专栏专栏介绍：本专栏涵盖了JavaSE从基础语法到面向对象编程，从异常处理到集合框架，从I/O流到多线程并发，再到网络编程和虚拟机内部机制等一系列编程要素个人感慨：市面上关于JavaSE的学习路线或知
【Java那些年系列-启航篇 04】Java程序架构：深入理解类与对象的设计原则夏之以寒 Java那些年专栏 java 架构类对象数据结构
作者名称：纸飞机-暖阳作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：Java那些年专栏专栏介绍：本专栏涵盖了JavaSE从基础语法到面向对象编程，从异常处理到集合框架，从I/O流到多线程并发，再到网络编程和虚拟机内部机制等一系列编程要素个人感慨：市面上关于JavaSE的学习路线或知识图谱很繁杂，学习起来比较费劲，Java知识体系非常庞大，刚接触阶段只需要
C++11新特性综述 CC-xx C++
ScottMeyersTrainingCoursesAnOverviewoftheNewC++(C++11/14)SpecificationofthelatestversionofC++(“C++11”)wascompletedin2011,andmanycompilersnowofferawealthoffeaturesfromtherevisedlanguage.Andsuchfeatures
《深入浅出多模态》（九）多模态经典模型：MiniGPT-v2、MiniGPT5 GoAI 深入浅出多模态深入浅出AI 多模态 vllm LLM 大模型 stable diffusion
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：</
调整主基调下，以稳为主 ——1.13期货复盘期市狙击队
策略综述：今天盘中有两个方向比较强，一个是以原油为主力的原化板块，另一个是两粕。原化盘升走势，仍以短线行情为主；粕属于中期突破行情，但中途上车只能以短线为切入点。这两个方向今天大幅拉升，短线就不追了。目前整个市场仍然缺少波段机惠，只有少数品种有日内机惠。今日复盘股指期货：指数放量震荡，好在幅度不大，当前走势暂时应该问题不大。我们可以继续在调整合适时，短线切入。300短线切入仍然还要再调整，至少明天
消息中间件概述小孩真笨
什么是JMSJava消息服务（JavaMessageService）即JMS，是一个Java平台中关于面向消息中间件的API，用于在两个应用程序之间，或分布式系统中发送消息，进行异步通信。常用的消息中间件综述组件\特点ActiveMQRabbitMQKafka跨语言支持（Java优先）语言无关支持（Java优先）支持协议OpenWire,Stomp,XMPP,AMQPAMQP-优点遵循JMS规范，
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟