byn12345

【转载】关系抽取之远程监督算法

本文转自：https://www.cnblogs.com/Luv-GEM/p/11598294.html

一、关系抽取综述

二、远程监督关系抽取算法的滥觞

三、多实例学习和分段最大池化

四、句子级别的注意力机制

一、关系抽取综述

　　信息抽取是自然语言处理中非常重要的一块内容，包括实体抽取（命名实体识别，Named Entity Recognition）、关系抽取（Relation Extraction）和事件抽取（Event Extraction）。

　　这次介绍的关系抽取属于自然语言理解（NLU）的范畴，也是构建和扩展知识图谱的一种方法。

　　关系抽取理解起来也比较简单，比如下面图片中的第一句话:

　　He was in Tennessee.

　　首先做命名实体识别，识别出He（PER）和Tennessee（GPE）两个实体，然后找出两个实体之间的关系为：Physical-Located，最后可以把抽取出来的关系表示为三元组的形式：（HePER, Physical-Located, TennesseeGPE），或者Physical-Located（HePER, TennesseeGPE）。

　　可见关系抽取包含命名实体识别在内，在技术实现上更复杂。

　　关系抽取从流程上，可以分为流水线式抽取（Pipline）和联合抽取（Joint Extraction）两种，流水线式抽取就是把关系抽取的任务分为两个步骤：首先做实体识别，再抽取出两个实体的关系；而联合抽取的方式就是一步到位，同时做好了实体和关系的抽取。流水线式抽取会导致误差在各流程中传递和累加，而联合抽取的方式则实现难度更大。

　　关系抽取从实现的算法来看，主要分为四种：

　　1、手写规则（Hand-Written Patterns）；

　　2、监督学习算法（Supervised Machine Learning）；

　　3、半监督学习算法（Semi-Supervised Learning，比如Bootstrapping和Distant Supervision）；

　　4、无监督算法。

　　本文的主人公是远程监督算法（Distant Supervision），这是一种半监督学习算法。其他的方法大致了解一下，有助于理解，为什么相对而言，远程监督做关系抽取是一种比较可行的方法。

　　（一）手写规则模板的方法

　　1、例子：

　　有种关系叫做上下位关系，比如hyponym(France; European countries)。从下面两个句子中都可以抽取出这种关系：

　　European countries, especially France, England, and Spain...

　　European countries, such as France, England, and Spain...

　　两个实体之间的especially和such as可以看做这种关系的特征。观察更多表达这种关系的句子，我们就可以构造如下的规则模板，来抽取构成上下位关系的实体，从而发现新的三元组。

　　2、优点和缺点：

　　优点是抽取的三元组查准率（Precision）高，尤其适合做特定领域的关系抽取；缺点是查全率（Recall）很低，也就是说查得准，但是查不全，而且针对每一种关系都需要手写大量的规则，比较惨。

　　（二）监督学习的方法

　　监督学习的方法也就是给训练语料中的实体和关系打上标签，构造训练集和测试集，再用传统机器学习的算法（LR，SVM和随机森林等）或神经网络训练分类器。

　　1、机器学习和深度学习方法

　　对于传统的机器学习方法，最重要的步骤是构造特征。可以使用的特征有：

　　（1）词特征：实体1与实体2之间的词、前后的词，词向量可以用Bag-of-Words结合Bigrams等。

　　（2）实体标签特征：实体的标签。

　　（3）依存句法特征：分析句子的依存句法结构，构造特征。这个不懂怎么弄。

　　人工构造特征非常麻烦，而且某些特征比如依存句法分析，依赖于NLP工具库，比如HanLP，工具带来的误差不可避免会影响特征的准确性。

　　用端到端的深度学习方法就没这么费劲了。比如使用CNN或BI-LSTM作为句子编码器，把一个句子的词嵌入（Word Embedding）作为输入，用CNN或LSTM做特征的抽取器，最后经过softmax层得到N种关系的概率。这样省略了特征构造这一步，自然不会在特征构造这里引入误差。

　　2、监督学习的优缺点

　　监督学习的优点是，如果标注好的训练语料足够大，那么分类器的效果是比较好的，可问题是标注的成本太大了。

　　（三）半监督

　　鉴于监督学习的成本太大，所以用半监督学习做关系抽取是一个很值得研究的方向。

　　半监督学习的算法主要有两种：Bootstrapping和Distant Supervision。Bootstrapping不需要标注好实体和关系的句子作为训练集，不用训练分类器；而Distant Supervision可以看做是Bootstrapping和Supervise Learning的结合，需要训练分类器。

　　这里介绍Bootstrapping的思想，Distant Supervision作为主人公，在后面的部分详细介绍。

　　1、例子

　　Bootstrapping算法的输入是拥有某种关系的少量实体对，作为种子，输出是更多拥有这种关系的实体对。敲黑板！不是找到更多的关系，而是发现拥有某种关系的更多新实体对。

　　怎么做的呢？举个栗子，“创始人”是一种关系，如果我们已经有了一个小型知识图谱，里面有3个表达这种关系的实体对：（严定贵，你我贷），（马云，阿里巴巴），（雷军，小米）。

　　第一步：在一个大型的语料集中去找包含某一实体对（3个中的任意1个）的句子，全部挑出来。比如：严定贵于2011年创立了你我贷；严定贵是你我贷的创始人；在严定贵董事长的带领下，嘉银金科赴美上市成功。

　　第二步：归纳实体对的前后或中间的词语，构造特征模板。比如：A 创立了 B；A 是 B 的创始人；A 的带领下，B。

　　第三步：用特征模板去语料集中寻找更多的实体对，然后给所有找到的实体对打分排序，高于阈值的实体对就加入到知识图谱中，扩展现有的实体对。

　　第四步：回到第一步，进行迭代，得到更多模板，发现更多拥有该关系的实体对。

　　细心的小伙伴会发现，不是所有包含“严定贵”和“你我贷”的句子都表达了“创始人”这种关系啊，比如：“在严定贵董事长的带领下，嘉银金科赴美上市成功”——这句话就不是表达“创始人”这个关系的。某个实体对之间可能有很多种关系，哪能一口咬定就是知识图谱中已有的这种关系呢？这不是会得到错误的模板，然后在不断的迭代中放大错误吗？

　　没错，这个问题叫做语义漂移（Semantic Draft），一般有两种解决办法：

　　一是人工校验，在每一轮迭代中观察挑出来的句子，把不包含这种关系的句子剔除掉。

　　二是Bootstrapping算法本身有给新发现的模板和实体对打分，然后设定阈值，筛选出高质量的模板和实体对。具体的公式可以看《Speech and Language Processing》（第3版）第17章。

　　2、Bootstrapping的优缺点

　　Bootstrapping的缺点一是上面提到的语义漂移问题，二是查准率会不断降低而且查全率太低，因为这是一种迭代算法，每次迭代准确率都不可避免会降低，80%---->60%---->40%---->20%...。所以最后发现的新实体对，还需要人工校验。

　　（四）无监督

　　半监督的办法效果已经勉强，无监督的效果就更差强人意了，这里就不介绍了。

二、远程监督关系抽取算法的滥觞

　　第一篇要介绍的论文是《Distant supervision for relation extraction without labeled data》，斯坦福大学出品，把远程监督的方法用于关系抽取。研究关系抽取的远程监督算法，不得不提这篇论文。

　　（一）远程监督的思想

　　这篇论文首先回顾了关系抽取的监督学习、无监督学习和Bootstrapping算法的优缺点，进而结合监督学习和Bootstrapping的优点，提出了用远程监督做关系抽取的算法。

　　远程监督算法有一个非常重要的假设：对于一个已有的知识图谱（论文用的Freebase）中的一个三元组（由一对实体和一个关系构成），假设外部文档库（论文用的Wikipedia）中任何包含这对实体的句子，在一定程度上都反映了这种关系。基于这个假设，远程监督算法可以基于一个标注好的小型知识图谱，给外部文档库中的句子标注关系标签，相当于做了样本的自动标注，因此是一种半监督的算法。

　　具体来说，在训练阶段，用命名实体识别工具，把训练语料库中句子的实体识别出来。如果多个句子包含了两个特定实体，而且这两个实体是Freebase中的实体对（对应有一种关系），那么基于远程监督的假设，认为这些句子都表达了这种关系。于是从这几个句子中提取文本特征，拼接成一个向量，作为这种关系的一个样本的特征向量，用于训练分类器。

　　论文中把Freebase的数据进行了处理，筛选出了94万个实体、102种关系和180万实体对。下面是实体对数量最多的23种关系。

　　关系种类相当于分类的类别，那么有102类；每种关系对应的所有实体对就是样本；从Wikipedia中所有包含某实体对的句子中抽取特征，拼接成这个样本的特征向量。最后训练LR多分类器，用One-vs-Rest，而不是softmax，也就是训练102个LR二分类器——把某种关系视为正类，把其他所有的关系视为负类。

　　因为远程监督算法可以使用大量无标签的数据，Freebase中的每一对实体在文档库中可能出现在多个句子中。从多个句子中抽出特征进行拼接，作为某个样本（实体对）的特征向量，有两个好处：

　　一是单独的某个句子可能仅仅包含了这个实体对，并没有表达Freebase中的关系，那么综合多个句子的信息，就可以消除噪音数据的影响。

　　二是可以从海量无标签的数据中获取更丰富的信息，提高分类器的准确率。

　　但是问题也来了，这个假设一听就不靠谱！哪能说一个实体对在Freebase中，然后只要句子中出现了这个实体对，就假定关系为Freebase中的这种关系呢？一个实体对之间的关系可能有很多啊，比如马云和阿里巴巴的关系，就有“董事长”、“工作”等关系，哪能断定就是“创始人”的关系呢？

　　这确实是个大问题，在本篇论文中也没有提出解决办法。

　　（二）分类器的特征

　　论文中使用了三种特征：词法特征（Lexical features）、句法特征（Syntactic features）和实体标签特征（Named entity tag features）。

　　1、词法特征

　　词法特征描述的是实体对中间或两端的特定词汇相关的信息。比如有：

两个实体中间的词语和词性
实体1左边的k个词语和词性，k取{0,1,2}
实体2右边的k个词语和词性，k取{0,1,2}

　　然后把这些特征表示成向量再拼接起来。比如用词袋模型，把词语和词性都表示为向量。

　　2、句法特征

　　论文中的句法特征就是对句子进行依存句法分析（分析词汇间的依存关系，如并列、从属、递进等），得到一条依存句法路径，再把依存句法路径中的各成分作为向量，拼接起来。

　　如下为一个句子的依存句法路径，我不太懂，不多说。

　　3、命名实体标签特征

　　论文中做命名实体识别用的是斯坦福的NER工具包。把两个实体的标签也作为特征，拼接起来。

　　总结一下，论文中使用的特征不是单个特征，而是多种特征拼接起来的。有多个句子包含某实体对，可以从每个句子中抽取出词法特征、句法特征和实体特征，拼接起来，得到一个句子的特征向量，最后把多个句子的特征向量再拼接起来，得到某实体对（一个样本）的特征向量。

　　不过作者为了比较词法特征和句法特征的有效性，把特征向量分为了3种情况：只使用词法特征，只使用句法特征，词法特征与句法特征拼接。

　　（三）实验细节

　　1、数据集说明

　　知识图谱或者说标注数据为Freebase，非结构化文本库则是Wikipedia中的文章。

　　论文中把Freebase的三元组进行了筛选，筛选出了94万个实体、102种关系和相应的180万实体对。用留出法进行自动模型评估时，一半的实体对用于训练，一半的实体对用于模型评估。

　　同样对Wikipedia中的文章进行筛选，得到了180万篇文章，平均每篇文章包含约14.3个句子。从中选择80万条句子作为训练集，40万条作为测试集。

　　2、构造负样本

　　由于对于每种关系，都要训练一个LR二分类器，所以需要构造负样本。这里的负样本不是其他101种关系的训练样本，而是这样的句子：从训练集中的句子中抽取实体对，如果实体对不在Freebase中，那么就随机挑选这样的句子就作为负样本。

　　3、训练过程

　　LR分类器以实体对的特征向量为输入，输出关系名和概率值。每种关系训练一个二分类器，一共训练102个分类器。

　　训练好分类器后，对测试集中的所有实体对的关系进行预测，并得到概率值。然后对所有实体对按概率值进行降序排列，从中挑选出概率最高的N个实体对（概率值大于0.5），作为发现的新实体对。

　　4、测试方法和结论

　　测试的指标采用查准率，方法采用了留出法（自动评估）和人工评估两种方法。留出法的做法是，把Freebase中的180万实体对的一半作为测试集（另一半用于训练）。新发现的N个实体对中，如果有n个实体对在Freebase的测试集中，那么查准率为n/N。人工评估则采用多数投票的方法。

　　模型评估的结果表明，远程监督是一种较好的关系抽取算法。在文本特征的比较上，词法特征和句法特征拼接而成的特征向量，优于单独使用其中一种特征的情况。此外，句法特征在远程监督中比词法特征更有效，尤其对于依存句法结构比较短而实体对之间的词语非常多的句子。

　　（四）评价

　　这篇论文把远程监督的思想引入了关系抽取中，充分利用未标注的非结构化文本，从词法、句法和实体三方面构造特征，最后用留出法和人工校验两种方法进行模型评估，是一种非常完整规范的关系抽取范式。

　　不足之处有两点：

　　第一个是前面所提到的问题，那就是远程监督所基于的假设是一个非常强的假设。哪能说一个实体对在Freebase中存在一种关系，那么只要外部语料库中的句子中出现了这个实体对，就假定关系为Freebase中的关系呢？还可能是其他关系啊？

　　Bootstrapping中也有这个问题，称为语义漂移问题，但Bootstrapping本身通过给新发现的规则模板和实体对打分，在一定程度上缓解了这个问题，而这篇论文并没有提到这个问题，更没有涉及到解决办法。我猜这是因为Freebase中的实体对和关系主要就是从Wikipedia中抽取出来的，而且关系属于比较典型的关系。

　　这点就成了后续远程监督关系抽取算法的一个改进方向，后面的研究人员提出了利用多实例学习和句子级别的注意力机制来解决这个问题。

　　第二个是论文中用到了三种特征，貌似一顿操作猛如虎，但实际上构造这些特征非常繁琐，而且词性标注和依存句法分析依赖于NLP工具库，因此工具库在标注和解析中所产生的误差，自然会影响到文本特征的准确性。

　　这点也是后续研究的一个改进方向，后面的研究人员用神经网络作为特征提取器，代替人工提取的特征，并用词嵌入作为文本特征。

三、多实例学习和分段最大池化

　　第二篇论文是《Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks》，是用神经网络结合远程监督做关系抽取的扛鼎之作。

　　（一）论文的贡献

　　1、用PCNNs的神经网络结构自动学习文本特征，代替复杂的人工构造特征和特征处理流程。

　　PCNNs全名为Piecewise Convolutional Neural Networks，包含两层含义：Piecewise max pooling layer和Convolutional Neural Networds，对应到最大池化层和卷积层。用卷积神经网络强大的特征提取功能，能自动抽取丰富的特征，并且减少人工设计特征和NLP工具库抽取特征带来的误差。省时省力又能减少误差，何乐不为。

　　2、设计了分段最大池化层（三段，Piecewise max pooling layer）代替一般的最大池化层，提取更丰富的文本结构特征。

　　一般的最大池化层直接从多个特征中选出一个最重要的特征，实际上是对卷积层的输出进行降维，但问题是维度降低过快，无法获取实体对在句子中所拥有的结构信息。

　　如下图，把一个句子按两个实体切分为前、中、后三部分的词语，然后将一般的最大池化层相应地划分为三段最大池化层，从而获取句子的结构信息。

　　3、用多实例学习（Multi-Instances Learning）解决远程监督做自动标注的错误标注问题。

　　远程监督本质上是一种自动标注样本的方法，但是它的假设太强了，会导致错误标注样本的问题。

　　论文认为远程监督做关系抽取类似于多实例问题（Multi-Instances Problem）。知识图谱中一个实体对（论文中的Bag）的关系是已知的，而外部语料库中包含该实体对的多个句子（Instances of Bag），表达的关系是未知的（自动标注的结果未知真假），那么多实例学习的假设是：这些句子中至少有一个句子表达了已知的关系。于是从多个句子中只挑出最重要的一个句子，作为这个实体对的样本加入到训练中。

　　本篇论文设计了一个目标函数，在学习过程中，把句子关系标签的不确定性考虑进去，从而缓解错误标注的问题。

　　总结一下，本文的亮点在于把多实例学习、卷积神经网络和分段最大池化结合起来，用于缓解句子的错误标注问题和人工设计特征的误差问题，提升关系抽取的效果。

　　（二）研究方法

　　本文把PCNNs的神经网络结构和多实例学习结合，完成关系抽取的任务。

　　1、PCNNs网络的处理流程

　　PCNNs网络结构处理一个句子的流程分为四步：特征表示、卷积、分段最大池化和softmax分类。具体如下图所示。

　　（1）文本特征表示

　　使用词嵌入（Word Embeddings）和位置特征嵌入（Position Embeddings），然后把句子中每个词的这两种特征拼接起来。

　　词嵌入使用的是预训练的Word2Vec词向量，用Skip-Gram模型来训练。

　　位置特征是某个词与两个实体的相对距离，位置特征嵌入就是把两个相对距离转化为向量，再拼接起来。

　　比如下面这个句子中，单词son和实体Kojo Annan的相对距离为3，和实体Kofi Annan的相对距离为-2。

　　假设词嵌入的维度是dw，位置特征嵌入的维度是dp，那么每个词的特征向量的维度就是：d=dw+2*dp。假设句子长度为s，那么神经网络的输入就是s×d维的矩阵。

　　（2）卷积

　　假设卷积核的宽为w（滑动窗口），长为d（词的特征向量维度），那么卷积核的大小为W=w * d。步长为1。

　　输入层为q = s×d维的矩阵，卷积操作就是每滑动一次，就用卷积核W与q的w-gram做点积，得到一个数值。

　　卷积完成后会得到（s+w-1）个数值，也就是长度为（s+w-1）的向量c。文本的卷积和图像的卷积不同，只能沿着句子的长度方向滑动，所以得到的是一个向量而不是矩阵。

　　为了得到更丰富的特征，使用了n个卷积核W={W1, W2, ... Wn}，第i个卷积核滑动一次得到的数值为：

　　最终，卷积操作完成后会输出一个矩阵C：

　　（3）分段最大池化

　　把每个卷积核得到的向量ci按两个实体划分为三部分{ci1, ci2, ..., ci3}，分段最大池化也就是分别取每个部分的最大值：

　　那么对于每个卷积核得到的向量ci，我们都能得到一个3维的向量pi。为了便于下一步输入到softmax层，把n个卷积核经过池化后的向量pi拼接成一个向量p1:n，长度为3n。

　　最后用tanh激活函数进行非线性处理，得到最终的输出：

　　（4）softmax多分类

　　把池化层得到的g输入到softmax层，计算属于每种关系的概率值。论文中使用了Dropout正则化，把池化层的输出g以r的概率随机丢弃，得到的softmax层的输出为：

　　输出的向量是关系的概率分布，长度为关系的种类（n1）。概率值最大的关系就是句子中的实体对被预测的关系。

　　2、多实例学习的过程

　　我们知道一般神经网络模型的套路是，batch-size个句子经过神经网络的sotfmax层后，得到batch-size个概率分布，然后与关系标签的one-hot向量相比较，计算交叉熵损失，最后进行反向传播。因此上述PCNNs网络结构的处理流程仅是一次正向传播的过程。

　　PCNNs结合多实例学习的做法则有些差别，目标函数仍然是交叉熵损失函数，但是基于实体对级别（论文中的bags）去计算损失，而不是基于句子级别（论文中的instances）。这是什么意思呢？

　　对照上面的图，计算交叉熵损失分为两步：

　　第一步，对于每个实体对，会有很多包含该实体对的句子（qi个），每个句子经过softmax层都可以得到一个概率分布，进而得到预测的关系标签和概率值。为了消除错误标注样本的影响，从这些句子中仅挑出一个概率值最大的句子和它的预测结果，作为这个实体对的预测结果，用于计算交叉熵损失。比如上面的例子中，挑出了第二个句子。公式为：

　　第二步，如果一个batch-size有T个实体对，那么用第一步挑选出来的T个句子，计算交叉熵损失：

　　最后用梯度下降法求出梯度，并进行误差反向传播。

　　如下是算法的伪代码，θ是PCNNs的参数，Eq.(9)是第一步中的公式。

　　（四）实验细节

　　1、数据集和评估方法

　　知识图谱为Freebase，外部文档库为NYT。把NYT文档库中2005-2006年的句子作为训练集，2007年的句子作为测试集。

　　评估方法沿用第一篇论文中的方法，留出法和人工校验相结合。

　　2、词嵌入和调参

　　预训练的词向量方面，本文用Skip-Gram模型和NYT文档库训练了50维的词向量。

　　位置特征嵌入使用随机初始化的向量，维度为5。

　　调参方面，PCNNs网络结构中有两个参数比较重要：卷积核的滑动窗口大小和卷积核的个数。本文使用网格搜索，最终确定滑动窗口为3，卷积核个数为230。

　　模型的其他参数如下：

　　3、模型评估结果

　　（1）对留出法和人工校验法的说明

　　使用留出法和人工校验法来评估模型的效果。这里对这两种评估方法进行补充说明：

　　留出法的做法是把Freebase中一半的实体对用于训练，一半的实体对用于测试。多分类模型训练好之后，对外部文档库NYT中的测试集进行预测，得到测试集中实体对的关系标签。如果新发现的实体对有N个，其中有n个出现在Freebase的测试集中，那么准确率为n/N，而不在Freebase测试集中的实体对就视为不存在关系。可是由于Freebase中的实体对太少了，新发现的、不在Freebase里的实体对并非真的不存在关系，这就会出现假负例（False Negatives）的问题，低估了准确率。

　　所以人工校验的方法是对留出法的一个补充，对于那些新发现的、不在Freebase测试集中的实体对（一个实体不在或者两个实体都不在）进行检查，计算查准率。所以留出法和人工校验要评估的两个新实体对集合是没有交集的。具体做法是从这些新实体对中选择概率值最高的前N个，然后人工检查其中关系标签正确的实体对，如果有n个，那么查准率为n/N。

　　（2）卷积神经网络与人工构造特征的对比

　　首先把PCNNs结合多实例学习的远程监督模型（记为PCNNs+MIL），与人工构造特征的远程监督算法（记为Mintz）和多实例学习的算法（记为MultiR和MIML）进行比较。

　　从下面的实验结果中可以看到，无论是查准率还是查全率，PCNNs+MIL模型都显著优于其他模型，这说明用卷积神经网络作为自动特征抽取器，可以有效降低人工构造特征和NLP工具提取特征带来的误差。

　　（3）分段最大池化和多实例学习的有效性

　　将分段最大池化和普通的最大池化的效果进行对比（PCNNs VS CNNs），将结合多实例学习的卷积网络与单纯的卷积网络进行对比（PCNNs+MIL VS PCNNs）。

　　可以看到，分段最大池化比普通的最大池化效果更好，表明分段最大池化可以抽取更丰富的结构特征。把多实例学习加入到卷积网络中，效果也有一定的提升，表明多实例学习可以缓解样本标注错误的问题。

　　（四）评价

　　这篇论文中，分段最大池化的奇思妙想来自于传统人工构造特征的思想，而多实例学习的引入缓解了第一篇论文中的样本错误标注问题。这篇论文出来以后是当时的SOTA。

　　不足之处在于，多实例学习仅从包含某个实体对的多个句子中，挑出一个最可能的句子来训练，这必然会损失大量的信息。所以有学者提出用句子级别的注意力机制来解决这个问题。

四、句子级别的注意力机制

　　第三篇论文是《Neural Relation Extraction with Selective Attention over Instances》，这篇论文首次把注意力机制引入到了关系抽取的远程监督算法中，刷新了当时的SOTA。论文作者中有知乎网红刘知远老师。

　　（一）论文的贡献

　　这篇论文要解决的问题，就是多实例学习会遗漏大量信息的问题。所以这篇论文用句子级别的注意力机制代替多实例学习，对于包含某实体对的所有句子，给每一个句子计算一个注意力得分，动态地降低标注错误的样本的得分，再进行加权求和，从而充分利用所有句子的信息。

　　多实例学习相当于硬注意力机制（Hard Attention），而我们耳熟能详的以及论文中用到的注意力机制是选择性注意力机制（Selective Attention）或者说软注意力机制（Soft Attention），所以多实例学习其实是选择性注意力机制的特殊情况（只有一个句子的权重为1，其他全为0）。

　　（二）模型介绍

　　模型主要分为两个部分：句子编码器和注意力层。

　　1、句子编码器

　　句子编码器就是上一篇论文中的PCNN或CNN网络结构，由卷积神经网络的输入层、卷积层、池化层、非线性映射层（或者说激活函数）构成。

　　文本特征同样用词嵌入和位置特征嵌入，池化层用普通的最大池化或者分段最大池化。

　　因此，本文的句子编码器部分输出的是一个句子经过最大池化并且非线性激活后的特征向量，用于输入到注意力层。这部分和上一篇论文基本相同，无须赘述。

　　2、注意力层

　　句子编码器的作用是抽取一个句子的特征，得到一个特征向量。如果外部文档库中包含某实体对的句子有n条，那么经过句子编码器的处理后，可以得到n个特征向量：x1, x2, ..., xn。在句子编码器和softmax层之间加一个选择性注意力层，那么处理的步骤如下：

　　第一步：计算句子的特征向量xi和关系标签r的匹配度ei，并计算注意力得分αi。公式中的r是关系标签的向量表示。

　　第二步：计算该实体对的特征向量s。该实体对的特征向量是所有句子的特征向量xi的加权之和，权重为每个句子的注意力得分αi。

　　第三步：经过softmax层得到该实体对关于所有关系的概率分布，概率值最大的关系为预测的关系标签。

　　3、误差反向传播

　　如果一个batch-size有s个实体对，那么用s个实体对的概率分布，计算交叉熵损失：

　　最后用梯度下降法求出梯度，并进行误差反向传播。

　　（三）实验细节

　　1、数据集和评估方法

　　数据集和上一篇论文一样，知识图谱是Freebase，外部的文档库是NYT（New York Times corpus）。划分数据集的做法也一致。

　　评估方法采用留出法，不再赘述。

　　2、词嵌入和参数设置

　　用NYT数据集训练Word2Vec，用网格搜索（Grid Search）确定参数。

　　3、选择性注意力机制的效果

　　句子编码器分别采用CNN和PCNN的网络结构，PCNN+ONE表示PCNN结合多实例学习的模型，PCNN+ATT表示论文中的选择性注意力模型，PCNN+AVE表示对各句子求算术平均的模型（每个句子的注意力得分相同）。

　　实验结果表明，无论是CNN还是PCNN，加入注意力机制的模型在查准率和查全率上，都显著优于其他模型。

　　论文还有其他更细致的实验，欲知详情，请自行翻看论文。

　　（四）评价

　　这篇论文把注意力机制和CNN句子编码器结合，用来解决多实例学习存在的遗漏信息问题，更好地缓解了远程监督算法中的样本错误标注问题。

　　注意力机制在NLP任务中的效果是有目共睹的，PCNN+ATT的模型看起来非常漂亮，那么有什么改进方向呢？

　　开头我们说了，关系抽取可以分为流水线式抽取（Pipline）和联合抽取（Joint Extraction）两种，流水线式抽取就是把关系抽取的任务分为两个步骤：首先做实体识别，再抽取出两个实体的关系；而联合抽取的方式就是一步到位，同时抽取出实体和关系。

　　因此上面介绍的三篇论文中的模型都属于流水线式抽取的方法，实体识别和关系抽取的模型是分开的，那么实体识别中的误差会影响到关系抽取的效果。而联合抽取用一个模型直接做到了实体识别和关系抽取，是一个值得研究的方向。

参考资料：

1、《Speech and Language Processing》（Third Edition draft）第17章

2、《cs224u: Relation extraction with distant supervision》

3、《Distant supervision for relation extraction without labeled data》

4、《Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks》

5、《Neural Relation Extraction with Selective Attention over Instances》

6、《Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme》

你可能感兴趣的:(事件抽取,关系抽取,知识图谱,远程监督)

虚幻基础09：帧运算 qq_42863961 虚幻基础虚幻游戏引擎
能帮到你的话，就给个赞吧文章目录帧运算tick事件delaynexttick子弹帧运算ue的运算包括碰撞都是每帧运算一次。tick事件每帧运算一次，性能消耗大delaynexttick延迟到下一帧计算，可以解决许多帧运算的bug子弹子弹不应用碰撞，因为速度过大会导致检测不到。引用射线检测。
关于断网事件的海底光缆脆弱性问题探讨 purpleforest 网络安全网络工作数据备份 verizon 电信互联网
本文发表于《信息网络安全》2007.2，欢迎转载，请注明作者和期刊名。关于断网事件的海底光缆脆弱性问题探讨张鉴国家信息中心网络安全部一、引言2006年12月26日晚27日凌晨，在距中国台湾南部约15公里的海域处，连续发生两次7级左右的强烈地震。铺设在该区域附近的中美海缆、亚太1号海缆、亚太2号海缆、FLAG海缆、亚欧海缆、FNAL海缆等多条国际海底通信光缆，在强烈地震下发生断裂。此次海缆断裂中，中
一文大白话讲清楚webpack进阶——8——Module Federation 16年上任的CTO webpack webpack 前端 node.js 模块联邦 Federation
文章目录一文大白话讲清楚webpack进阶——8——ModuleFederation1.啥是ModuleFederation2.这里讲两个基础概念3.容器应用配置4.远程应用配置5.模块使用5.ModuleFederation好在哪里6.ModuleFederation实战一文大白话讲清楚webpack进阶——8——ModuleFederation1.啥是ModuleFederationModul
java ddd 领域事件_领域驱动设计(DDD) 领域事件呵吁 java ddd 领域事件
何时and为什么使用领域事件领域事件往往需要发布到外部系统，比如发布到另一个限界上下文中，由于这样的事件需要由订阅方处理，它将对本地和远程上下文产生深远的影响。当领域事件到达目的地后，不论是本地还是外部系统，我们通常将领域事件用于维护事件的一致性，例如聚合的其中一个原则是单个事务只允许对一个聚合实例进行修改，由此产生的其他改变。另外，领域事件还可以使远程依赖系统与本地系统保持一致，而二者解耦有助于
Java重要面试名词整理（二十三）：DDD架构正在绘制中 Java面试 java 面试架构
文章目录DDD如何应对软件核心复杂性？技术主动理解业务“刚刚好”解决问题。概念通用语言-定义上下文的含义领域和子域-确定逻辑边界领域子域限界上下文（BoundedContext）-定义领域边界的利器上下文映射图（ContextMapping）-集成三种集成方式上下文映射的种类DDD的战术设计实体和值对象实体（Entity）值对象（ValueObject）聚合和聚合根聚合聚合根领域事件（Domain
Cocos Creator 3.8 2D 游戏开发知识点整理寻找优秀的自己 cocos
目录CocosCreator3.82D游戏开发知识点整理1.CocosCreator3.8概述2.2D游戏核心组件(1)节点（Node）与组件（Component）(2)渲染组件(3)UI组件3.动画系统(1)传统帧动画(2)动画编辑器(3)Spine和DragonBones4.物理系统(1)物理引擎(2)刚体（RigidBody2D）(3)碰撞检测5.输入系统(1)触摸与鼠标事件(2)键盘输入(
【SpringCloud微服务实战08】RabbitMQ 消息队列李维山 MQ实战 Java rabbitmq spring cloud spring boot
MQ异步通信优缺点：优点：吞吐量提升：无需等待订阅者处理完成，响应更快速故障隔离：服务没有直接调用，不存在级联失败问题调用间没有阻塞，不会造成无效的资源占用耦合度极低，每个服务都可以灵活插拔，可替换流量削峰：不管发布事件的流量波动多大，都由Broker接收，订阅者可以按照自己的速度去处理事件缺点：架构复杂了，业务没有明显的流程线，不好管理需要依赖于Broker的可靠、安全、性能常见MQ对比：一、R
《告别监控焦虑！Kylin系统Zabbix保姆级安装手册》入眼皆含月 kylin zabbix 大数据
一、概况Zabbix是一个广泛使用的企业级开源监控解决方案，能够监控网络、服务器、虚拟机和云服务等IT基础设施。它通过灵活的通知机制，使用户能够为几乎所有事件配置基于电子邮件的警报，从而快速响应服务器问题。二、Zabbix的主要功能（1）全面的监控能力：能够监控几乎所有类型的IT组件，包括操作系统性能、网络设备、数据库、应用程序等。（2）灵活的数据收集方式：支持多种数据收集方法，如SNMP、IPM
如何解决Webview和H5缓存问题，确保每次加载最新版本的资源 qq_39279448 缓存
WebView用于加载H5页面是常见的做法，它能够加载远程的HTML、CSS、JavaScript资源，并且让Web应用嵌入到原生App中。然而，WebView的缓存机制有时会导致用户看到的是旧版本的页面或资源，尤其是在H5发版后，iOS端用户可能仍然加载到缓存的旧页面，造成了不一致的体验。本篇文章将详细分析这个问题的根本原因，并介绍一些有效的缓存处理策略，确保每次加载的都是最新的资源。一、Web
搭建 PostgreSQL 阿杰技术数据库数据库 postgresql
端口：5432代理备份端口：6432下载postgresql-15.0-1-windows-x64乱码显示配置环境变量PGDATA=数据目录位置找到postgresql.conf文件，修改参数lc_messages='UTF8'max_connections=1000shared_buffers=4GBwork_mem=8MB问题：远程易掉线方案：修改配置信息tcp_keepalives_idle
Windows 远程桌面 RDP 会话超时设置 TechExplorer365 Tool windows
Windows远程桌面RDP会话超时设置Windows远程桌面（RDP）可能由于会话超时而导致重新要求登录。你可以通过修改注册表或组策略来延长远程桌面的会话超时时间。修改注册表：打开注册表编辑器（regedit）。导航到以下路径：HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\TerminalServer找到IdleTimeoutSecs键（
【Ubuntu】使用远程桌面协议（RDP）在Windows上远程连接Ubuntu 林九生 Ubuntu windows ubuntu linux
使用远程桌面协议（RDP）在Windows上远程连接Ubuntu远程桌面协议（RDP）是一种允许用户通过图形界面远程控制计算机的协议。本文将详细介绍如何在Ubuntu上安装和配置xrdp，并通过Windows的远程桌面连接工具访问Ubuntu。1.在Ubuntu上安装xrdp首先，我们需要在Ubuntu上安装xrdp服务。xrdp是一个开源的RDP服务器，允许远程用户通过RDP协议连接到Ubunt
基于uni-app实现的物品有效期管理APP开发分享烂蜻蜓 vue.js html
基于uni-app实现的物品有效期管理APP开发分享一、项目概述本APP实现了物品信息管理功能，支持以下核心功能：增删改查：物品信息的增删改查操作滑动删除：左滑显示删除按钮的交互设计有效期计算：自动计算剩余有效天数本地存储：使用uni-app本地存储实现数据持久化图片管理：支持上传和展示物品图片二、核心功能实现解析1.滑动删除交互实现实现原理：通过触摸事件计算滑动距离，结合CSS过渡动画实现视觉反
Apache Flink流处理框架 weixin_44594317 apache flink 大数据
ApacheFlink是一个分布式流处理框架和数据处理引擎，专注于以低延迟和高吞吐量处理无界和有界的数据流。它可以同时处理流式数据和批处理数据，并且提供强大的容错机制和状态管理功能。Flink常用于实时分析、复杂事件处理（CEP）、机器学习和批量数据处理等场景。1.Flink的核心概念在理解Flink的工作原理之前，先要了解它的一些核心概念：流处理(StreamProcessing)：处理数据流中
Vue 响应式渲染 - 模板语法 JSON_L 前端 #Vue vue.js 前端 javascript
Vue渐进式JavaScript框架基于Vue2的学习笔记-Vue响应式渲染-模板语法目录模板语法渲染变量（状态）绑定事件简写事件修改属性样式修改绑定图片路径动态显示和隐藏总结模板语法渲染变量（状态）在页面中直接渲染变量。示例如下：Title{{myname}}newVue({el:"#box",//elementdata:{myname:'我的名字是张三'}})绑定事件增加按钮，并对按钮绑定点击
Kylin3.3配置vncserver服务 stybxiao kylin3.3 linux
一．安装vncserver服务包rpm-ivhtigervnc-server-1.3.1-9.ky3.kb1.x86_64.rpm二．远程root用户操作步骤：1.cp/lib/systemd/system/[email protected]/etc/systemd/system/vncserver@:1.service2.在/etc/systemd/system/vncserver@:1.se
计算机网络之计算机网络协议、接口、服务等概念 DKPT #计算机网络开发语言计算机网络笔记算法 c语言
一、计算机网络协议定义：计算机网络协议是实现计算机网络中不同计算机系统之间的通信所必须遵守的通信规则的集合。这些规则规定了数据如何在网络中传递、处理的格式、同步问题等。要素：语法：数据与控制信息的结构或格式。语义：需要发出何种控制信息，完成何种动作以及做出何种响应。同步：事件实现顺序的详细说明。示例：TCP/IP协议：互联网上最常用的协议，它规定了如何在互联网上传递数据，包括IP协议（负责数据包的
Python 实现文本摘要功能热爱技术的小胡 python
互联网时代信息爆炸式增长，人们面对越来越多的信息无法一一阅读，而文本自动摘要技术可以一定程度上缓解这个问题。摘要就是一篇文章的核心部分信息，文本自动摘要技术分抽取式摘要和生成式摘要，前者是在原文中挑选一定比例的句子拼凑成一个摘要，后者更接近人为的总结式简写一篇文章。目前越来越多的研究者使用深度神经网络来研究生成式摘要技术，但是难度也挺大，效果有限。本文的方法是使用基于启发式规则的算法实现了一个抽取
使用Python实现文本自动摘要 UIEdit python 人工智能开发语言
使用Python实现文本自动摘要在互联网时代，信息量不断增加，但人类阅读速度是有限的，如何高效地阅读和获取信息成为一项重要的任务。文本自动摘要技术可以帮助我们快速获取一篇文章的核心内容，从而提高阅读效率。文本自动摘要分为抽取式摘要和生成式摘要两种方法。其中抽取式摘要是从原文中选择一定比例的句子拼凑成一个摘要，而生成式摘要是通过对原文进行解析、理解、推理等方式生成摘要。下面我们将介绍如何使用Pyth
RUP：用例驱动、以架构为中心的迭代增量开发模式 zhousenshan 软考-系统架构师架构
1RUP特点RationalUnifiedProcess(RUP)，即Rational统一过程，二维的开发模型，涉及九大工作流，是一种为了满足这些需求而生的开发模式。RUP是一个用例驱动、以架构为中心的迭代增量开发模式，可以帮助我们更好地进行软件开发用例驱动在RUP中，用例是驱动软件开发的主要力量。用例是一种以用户的视角描述系统功能的方法，通常以一组交互的形式表达，定义了系统如何响应外部事件。通过
软件体系结构——基于事件的隐式调用风格阴天快乐、、软件体系结构 Java
基于事件的隐式调用风格的基本组件是对象或过程，并分类为以下更小的组件：过程或函数。充当事件源或事件处理器的角色。连接件是事件-过程绑定。组件可以声明或广播一个或多个事件，或者向系统注册，来表明他希望响应一个或多个事件。当某些事件被触发时，向其注册的过程被隐式调用，调用的次序是不确定的。程序示例如下：【功能】：点击窗口程序使显示的文字发生改变。importjava.awt.*;importjava.
软件体系结构风格---基于事件的隐式调用 MicroLic 计算机基于事件的隐式调用软件风格
构件不直接调用一个过程，而是触发或广播一个或多个事件。系统中的其它构件中的过程在一个或多个事件中注册，当一个事件被触发，系统自动调用在这个事件中注册的所有过程，这样，一个事件的触发就导致了另一模块中的过程的调用。构件是一些模块，这些模块既可以是一些过程，又可以是一些事件的集合。过程可以用通用的方式调用，也可以在系统事件中注册一些过程，当发生这些事件时，过程被调用。1、事件驱动风格事件驱动系统的基本
【系统架构设计师】隐式调用（事件驱动）架构 Evaporator Core 软考信息系统项目管理师基础班系统架构设计师架构
隐式调用（ImplicitInvocation）架构风格，也被称为事件驱动架构（Event-DrivenArchitecture,EDA），是一种基于事件的软件设计模式。在这种架构中，组件间的交互不是通过直接的函数调用或方法调用来实现的，而是通过事件来进行。这种架构风格强调组件间的松耦合和高内聚，使得系统更加灵活和可扩展。一、隐式调用的基本概念隐式调用架构风格的核心在于事件、事件生成器、事件监听器
第20节课： jQuery基础—简化JavaScript编程的强大工具学问小小谢 HTML学习 javascript jquery 前端 html 学习交互搜索引擎
目录jQuery简介为什么使用jQuery？jQuery选择器基本选择器属性选择器伪类选择器事件处理事件绑定常见事件类型事件触发动画效果基本动画自定义动画实践：使用jQuery增强网页交互示例：创建一个带有动画效果的按钮示例：创建一个交互式的导航菜单结语在Web开发中，JavaScript是实现网页交互和动态效果的核心语言。然而，原生JavaScript的语法有时显得繁琐，为了提高开发效率，jQu
抖音直播间平台抽成多少，带货收入专注VB编程开发20年互联网大数据推荐算法
抖音直播平台的抽成比例因合作模式和主播等级等因素而有所不同。一般来说：个人主播的抖音直播分成比例是30%，即平台会抽取70%的收入作为费用，而个人主播只能获得剩余30%的收入。这个比例是针对直播间礼物收入的，也就是说，当观众在直播间赠送礼物给主播时，这些礼物会被转换成一定比例的现金收入，然后按照这个分成比例进行分配。12如果主播选择加入公会或MCN机构，那么抽成比例可能会有所不同。例如，公会
HDFS读写流程（全面深入理解） AnAn-66. hadoop hdfs 面试 hadoop
1、HDFS写流程（1）客户端通过对FileSystem.create()对象创建建文件，DistributedFileSystem会创建输出流FSDataOutputStream。（2）DistributedFileSystem通过RPC远程调用名称节点，在文件系统的命名空间中创建一个新的文件，此时该文件中还没有相应的数据块。（3）名称节会执行一些检查，比如文件是否已经存在、客户端是
Python键盘监听+多线程被嘎韭菜的编程小白键盘监听多线程 python
__author__='tjt'#binimportdatetimeimportthreadingimporttimefrompynput.keyboardimportListenerimportkb_upperevent=threading.Event()#实例化事件time_map={'start_time':0.0,'end_time':0.0,'total_time':0.0,'odd_e
知识图谱与大语言模型：构建智能问答系统 AGI大模型与大数据研究院大数据AI人工智能计算大数据人工智能语言模型 AI 大模型 LLM Java Python 架构设计 Agent RPA
1.背景介绍在当今的信息时代，数据的获取和处理已经成为了我们生活中不可或缺的一部分。然而，随着数据量的爆炸性增长，如何从海量的数据中提取有用的信息，进而为用户提供精准的服务，已经成为了一个重要的研究课题。在这个背景下，知识图谱和大语言模型应运而生，它们通过对数据的深度挖掘和智能处理，为构建智能问答系统提供了可能。2.核心概念与联系2.1知识图谱知识图谱是一种新型的数据结构，它以图的形式表示实体之间
前端el-table导出pdf 努力奋进的前端小菜鸟 javascript 前端 vue.js
1、首先来看下效果图2、使用技术：html2Canvas、JsPDF插件，mode_modules下载两个插件npm i html2Canvas JsPDF其中，html2Canvas负责把html转为图片，JsPDF负责把图片转为pdf文件3、点击按钮触发打印事件//点击按钮触发打印事件button@click='htmlToPdf(节点ID',文件名')'>print//传入打印节点，文件名,
知识图谱技术剖析 ♢.＊人工智能知识图谱大数据
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！一、引言在当今数字化信息爆炸的时代，如
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_