南有芙蕖

论文阅读：More Data, More Relations, More Context and More Openness：A Review and Outlook for RE关系抽取的回顾与展望

More Data, More Relations, More Context and More Openness：A Review and Outlook for Relation Extraction

关系抽取的回顾与展望

摘要

关系事实是人类知识的重要组成部分，隐藏在大量文本中。为了从文本中抽取这些事实，人们多年来一直在进行关系抽取（RE）。从早期的模式匹配到当前的神经网络，现有的RE方法已经取得了重大进展。但是随着Web文本的爆炸式增长和新关系的出现，人类的知识正在急剧增加，因此我们要求RE提供“更多”的知识：功能更强大的RE系统，可以可靠地利用更多数据，有效地学习更多关系，轻松处理更复杂的上下文，并灵活地推广到更多开放域。在本文中，我们回顾了现有的RE方法，分析了当前我们面临的主要挑战，为更强大的RE指明了希望的发展方向。我们希望我们的观点能够推动这一领域的发展，并激励社会做出更大的努力。

1 引言

关系事实以三元组形式表现世界知识。这些结构化事实充当人类知识的重要角色，并以显式或隐式隐藏在文本中。例如，“Steve Jobs co-founded Apple”表明了事实（Apple Inc., founded by, Steve Jobs），我们还可以从“Hamilton made its debut in New York, USA”推断出事实（USA，contains，New York）。
由于这些结构化事实可以使下游应用受益，例如知识图谱的完成（Bordes et al., 2013; Wang et al., 2014），搜索引擎（Xiong et al., 2017; Schlichtkrull et al.,2018）和问答（Bordes et al., 2014;Dong et al., 2015），人们致力于研究关系抽取（RE），旨在从纯文本中抽取关系事实。更具体地说，在识别实体提及之后（例如USA and New York），RE的主要目标是从上下文中对这些实体提及之间的关系进行分类（例如contains）。
对RE的开拓性探索在于统计方法，例如模式挖掘（Huffman,1995; Califf and Mooney, 1997），基于特征的方法（Kambhatla, 2004）和图模型（Roth and Yih, 2002）。近年来，随着深度学习的发展，神经模型已广泛应用于RE（Zeng et al., 2014; Zhang et al., 2015），并取得了较好的效果。这些RE方法弥合了非结构化文本和结构化知识之间的鸿沟，并在几种公共基准上显示了其有效性。
尽管现有的RE方法取得了成功，但大多数方法仍在简化的环境中工作。这些方法主要集中在具有大量人工注释的训练模型上，以将一句话中的两个给定实体分类为预定义关系。但是，现实世界比这种简单的设置要复杂得多：（1）收集高质量的人工注释既昂贵又耗时；（2）许多长尾关系无法提供大量的训练示例；（3）大多数事实由包含多个句子的较长上下文表示，而且（4）很难使用预定义集合来覆盖那些开放式增长的关系。因此，要为实际部署构建有效而强大的RE系统，还有一些更复杂的场景需要进一步研究。
在本文中，我们回顾了现有的RE方法（第2节）以及针对更复杂的RE场景的最新RE探索（第3节）。那些导致更好的RE能力的可行方法仍然需要进一步的努力，在这里我们将它们概括为四个方向：
（1）利用更多数据（第3.1节）。监督式RE方法严重依赖于昂贵的人工注释，而远程监督（Mintz et al.,2009）引入了更多的自动标记数据来缓解这一问题。然而，远程的方法带来了噪声示例，仅能提及实体对的单个句子，这大大削弱了提取性能。设计模式以获取高质量和高覆盖率的数据以训练RE模型的鲁棒性仍然是一个有待探索的问题。
（2）进行更有效的学习（第3.2节）。许多长尾关系仅包含一些训练示例。但是，传统的RE方法很难很好地概括人类等有限实例的关系模式。因此，开发有效的学习模式以更好地利用有限或小样本的例子是一个潜在的研究方向。
（3）处理更复杂的上下文（第3.3节）。许多关系事实是在复杂的上下文中表达的（例如，多个句子或文档），而大多数现有的RE模型都侧重于提取句子内关系。为了涵盖这些复杂的事实，在更复杂的环境中研究RE是很有价值的。
（4）面向更多开放域（第3.4节）。每天都有来自现实世界中不同领域的新关系出现，因此很难一一涵盖。但是，常规的RE框架通常设计用于预定义关系。因此，如何在开放域中自动检测未定义的关系仍然是一个公认问题。
除了介绍有希望的方向外，我们还指出了现有方法的两个主要挑战：（1）从文本或名称中学习（第4.1节）和（2）针对特殊兴趣的数据集（第4.2节）。我们希望所有这些内容可以鼓励社会进一步探索和突破，以实现更好的RE。

2 背景和现有工作

==信息抽取（IE）==旨在从非结构化文本中提取结构信息，这是自然语言处理（NLP）的重要领域。==关系抽取（RE）==作为IE中的一项重要任务，特别着重于抽取实体之间的关系。完整的关系抽取系统包括：一个命名实体识别器，用于从文本中识别命名实体（例如，people, organizations, locations）；一个实体链接器，用于将实体链接到现有知识图谱（KGs, necessary when using relation extraction for knowledge graph completion），以及一个关系分类器来确定给定上下文的实体之间的关系。
在这些步骤中，关系识别是最关键和最困难的任务，因为它需要模型来很好地理解上下文的语义。因此，RE通常专注于研究分类部分，这也称为关系分类。如图1所示，典型的RE设置是给定一个带有两个标记实体的句子，模型需要将该句子分类为一种预定义关系。

在本节中，我们将按照典型的监督设置介绍RE方法的开发，从早期的基于模式的方法、统计的方法到最新的神经模型。

2.1 模式抽取模型

开创性方法是使用句子分析工具来识别文本中的句法元素，然后根据这些元素自动构建模式规则（Soderland et al., 1995; Kim and Moldovan,1995; Huffman, 1995; Califf and Mooney, 1997）。为了抽取具有更好覆盖率和准确性的模式，以后的工作涉及更大的语料库（Carlson et al., 2010），更多模式的格式（Nakashole et al., 2012; Jiang et al., 2017）以及更有效的抽取方法（Zheng et al.,2019）。由于自动构建的模式可能会出错，因此上述大多数方法都需要由专家进行进一步检查，这是基于模式的模型的主要局限性。

2.2 统计关系抽取模型

与使用模式规则相比，统计方法具有更好的覆盖范围，且需要更少的人力。因此，对统计关系抽取（SRE）进行了广泛的研究。
一种典型的SRE方法是基于特征的方法（Kambhatla, 2004; Zhou et al., 2005;Jiang and Zhai, 2007; Nguyen et al., 2007），它为实体对及其对应的上下文设计了词汇、句法和语义特征，然后将这些特征输入到关系分类器中。
由于支持向量机（SVM）的广泛使用，已经广泛探索了核方法，该方法设计了SVM的核功能以测量关系表示和文本实例之间的相似性（Culotta and Sorensen, 2004; Bunescu and Mooney, 2005; Zhao and Grishman, 2005; Mooney and Bunescu, 2006;Zhang et al., 2006b,a; Wang, 2008）。
还有一些其他的统计方法，着重于抽取和推断隐藏在文本中的潜在信息。图解法（Roth and Yih, 2002, 2004; Sarawagi and Cohen, 2005; Yu and Lam, 2010）以有向无环图的形式抽象实体、文本和关系之间的依赖关系，然后使用推理模型来识别正确的关系。
受到其他NLP任务中成功嵌入模型的启发（Mikolov et al., 2013a,b），人们也在努力将文本编码到低维语义空间中，并从文本嵌入中抽取关系（Weston et al., 2013; Riedel et al.,2013; Gormley et al., 2015）。此外，Bordes et al. (2013),Wang et al. (2014) and Lin et al. (2015)利用KG嵌入进行RE。
尽管对SRE进行了广泛研究，但仍然面临一些挑战。基于特征和基于核的模型需要付出很多努力来设计功能或内核功能。尽管图和嵌入方法可以在无需过多人工干预的情况下预测关系，但是它们在模型能力方面仍然受到限制。有一些调查系统地介绍了SRE模型（Zelenko et al.,2003; Bach and Badaskar, 2007; Pawar et al., 2017）。在本文中，我们不会在SRE上花费太多的空间，而将更多的精力放在基于神经的模型上。

2.3 神经关系抽取模型

神经关系抽取（NRE）模型引入了神经网络以自动从文本中抽取语义特征。与SRE模型相比，NRE方法可以有效地捕获文本信息并推广到更广泛的数据范围。
NRE的研究主要集中在设计和利用各种网络体系结构来捕获文本中的关系语义，例如递归神经网络（Socher et al., 2012; Miwa and Bansal, 2016），它以递归方式学习句子的组成表示；卷积神经网络（CNNs）（Liu et al., 2013; Zeng et al., 2014; Santos et al., 2015; Nguyen and Grishman, 2015b; Zeng et al., 2015; Huang and Wang,2017）有效地建模了本地文本模式；递归神经网络（RNNs）（Zhang and Wang, 2015; Nguyen and Grishman, 2015a; Vu et al., 2016; Zhang et al., 2015）可以更好地处理较长的顺序数据；图神经网络（GNNs）（Zhang et al., 2018; Zhu et al.,2019a）构建用于推理的词/实体图；以及基于注意力的神经网络（Zhou et al., 2016; Wang et al., 2016; Xiao and Liu, 2016），利用注意力机制来汇总全局关系信息。
与SRE模型不同，NRE主要利用词嵌入和位置嵌入代替输入的手工特征。词嵌入（Turian et al., 2010; Mikolov et al.,2013b）是NLP中最常用的输入表示形式，其将词的语义编码为向量。为了在文本中捕获实体信息，引入了位置嵌入（Zeng et al., 2014）来指定词和实体之间的相对距离。除了词嵌入和位置嵌入，还有其他将语法信息集成到NRE模型中的工作。Xu et al. (2015a) 和 Xu et al. (2015b) 分别在最短的依赖路径上采用了CNNs和RNNs。Liu et al. (2015) 提出了一种基于增强依赖路径的递归神经网络。Xu et al. (2016) 和Cai et al. (2016) 利用深层RNNs来进一步利用依赖路径。此外，还有一些努力将NRE与通用模式结合起来（Verga et al., 2016; Verga and McCallum, 2016; Riedel et al., 2013）。最近，针对NRE也探索了Transformers（Vaswani et al., 2017）和预训练语言模型（Devlin et al., 2019）（Du et al., 2018; Verga et al., 2018;Wu and He, 2019; Baldini Soares et al., 2019），并取得了新技术的最新突破。
通过简要回顾上述技术，我们能够跟踪RE从模式和统计方法到神经模型的发展。比较多年来最先进的RE模型的性能（图2），我们可以看到自NRE出现以来的巨大增长，这证明了神经方法的强大功能。

3 RE的“更多”指示

尽管上述NRE模型在基准测试中取得了优异的结果，但距离解决RE问题还差很远。这些模型中的大多数都利用大量的人工注释，并且仅抽取单个句子中的预定义关系。因此，它们很难在复杂的情况下工作。实际上，已经有各种各样的工作在探索可行的方法，这些方法可以在现实世界中实现更好的RE能力。在本节中，我们将这些探索性工作总结为四个方向，并对这些方向进行回顾和展望。

3.1 利用更多数据

受监督的NRE模型缺乏大规模的高质量训练数据，因为手动标记数据既费时又费力。为了缓解这个问题，远程监督（DS）假设已用于通过将现有KG与纯文本对齐来自动标记数据（Mintz et al., 2009; Nguyen and Moschitti, 2011; Min et al., 2013）。如图3所示，对于KG中的任何实体对，提及两个实体的句子将在KG中标有它们的对应关系。通过这种启发式方案可以轻松构建大规模的训练示例。
尽管DS提供了一种利用更多数据的可行方法，但是这种自动标记机制不可避免地会伴随着错误的标记问题。原因是并非所有提及两个实体的句子都准确地表达了它们之间的关系。例如，如果（Bill Gates, founder, Microsoft）是KGs中的关系事实，我们可能会错误地用关系创建者来标记“Bill Gates retired from Microsoft”。
现有的减轻噪声问题的方法可分为三种主要方法：
（1）一些方法采用多实例学习，即将具有相同实体对的句子组合在一起，然后从中选择信息量大的实例。 Riedel et al. (2010); Hoffmann et al. (2011); Surdeanu et al. (2012) 利用图形模型来推断信息句子，而Zeng et al. (2015) 使用简单的启发式选择策略。后来，Lin et al. (2016); Zhang et al. (2017); Han et al. (2018c); Li et al. (2019); Zhu et al. (2019c); Hu et al. (2019) 设计注意力机制以突出RE的信息实例。
（2）还探索了将额外的上下文信息用于去噪DS数据的方法，例如将KG用作外部信息来指导实例选择（Ji et al., 2017; Han et al., 2018b;Zhang et al., 2019a; Qu et al., 2019），并采用多语言语料库来实现信息的一致性和互补性（Verga et al., 2016; Linet al., 2017; Wang et al., 2018）。
（3）许多方法倾向于利用复杂的机制和训练策略来增强远程监督的NRE模型。 Vu et al. (2016) ；Beltagy et al. (2019) 结合了不同的架构和训练策略来构建混合框架。Liu et al. (2017) 通过在训练期间更改未确认的标签来合并软标签方案。此外，强化学习（Feng et al., 2018; Zeng et al., 2018）和对抗训练（Wu et al., 2017; Wang et al., 2018; Han et al., 2018a）也已在DS中采用。
研究人员已经达成共识，即利用更多数据是建立更强大的RE模型的潜在方法，但仍然存在一些值得探讨的未解决问题：
（1）现有的DS方法着重于对自动标记的实例进行去噪，因此遵循它当然是有意义的这个研究方向。此外，当前的DS方案仍与（Mintz et al., 2009）中的原始DS方案相似，后者仅涵盖了在同一句子中提到实体对的情况。为了获得更好的覆盖范围和更少的噪声，探索更好的DS方案来自动标记数据也很有价值。
（2）受最近采用预训练语言模型（Zhang et al., 2019b; Wu and He, 2019; Baldini Soares et al., 2019）和主动学习RE（Zheng et al., 2019）的启发利用大型未标记数据以及KGs的知识在循环中引入人类专家的无监督或半监督学习也很有希望。
除了解决现有方法和未来方向外，我们还提出了一个新的DS数据集来推进这一领域，该数据将在论文发表后发布。 DS中使用最多的基准，即NYT-10（Riedel et al., 2010），其关系数量少、关系域有限、长尾关系性能极高。为了减轻这些弊端，我们利用Wikipedia的Wikidata（Vrandeci ˇ c and Kr ´ otzsch ¨ , 2014）以与Riedel et al. (2010) 相同的方式构建Wiki-Distant 。如表1所示，WikiDistant涵盖了更多的关系并拥有更多的实例，并且具有更合理的N / A比例。表2显示了这两个数据集上的最新模型的比较结果，表明Wiki-Distant更具挑战性，并且解决远程监管RE还有很长的路要走。

3.2 进行更有效的学习

现实世界中的关系分布是长尾的：只有公共关系才能获得足够的训练实例，而大多数关系只有非常有限关系事实和相应的句子。从图4中我们可以看到两个DS数据集上的长尾关系分布，其中许多关系甚至少于10个训练实例。这种现象要求模型可以更有效地学习长尾关系。few-shot learning是一种非常适合这种需求的学习方法，它关注的是拥有的任务，只有很少训练实例。
为了推进这一领域，Han et al. (2018d) 首先建立了一个大规模的few-shot关系抽取数据集（FewRel）。此基准采用N-way K-shot设置，其中为模型提供了N个随机采样的新关系，以及每个关系的K个训练示例。在信息有限的情况下，需要使用RE模型将查询实例分类为给定的关系（图5）。
few-shot模型的总体思想是训练实例的良好表示或从现有的大规模数据中学习快速适应的方法，然后转移到新任务上。处理few-shot学习的方法主要有两种：（1）Metric learning通过对现有数据进行语义度量来学习，并通过将其与训练示例进行比较来对查询进行分类（Koch et al., 2015; Vinyals et al., 2016; Snell et al., 2017; Baldini Soares et al., 2019）。虽然大多数metric learning模型都对句子级表示进行距离测量，但Ye and Ling (2019); Gao et al. (2019) 利用token级注意进行更细粒度的比较。（2）Meta-learning，也被称为“learning to learn”，旨在通过元训练数据的经验，掌握参数的初始化和优化方法（Ravi and Larochelle, 2017; Finn et al., 2017; Mishra et al., 2018）。
研究人员在这方面取得了很大的进展。然而，仍有许多对其应用很重要的挑战尚未讨论。Gao et al. (2019) 提出了两个值得进一步研究的问题：
（1）Few-shot domain adaptation研究few-shot模型如何跨领域转移。有人认为，在实际应用中，测试域通常缺少注释，并且可能与训练域有很大差异。因此，至关重要的一点是，要评估跨区域few-shot模型的可传递性。
（2）Few-shot none-of-the-above detection是关于检测不属于任何抽样的N个关系的查询实例。在N-way K-shot设置中，假定所有查询都表达给定关系之一。但是，实际情况是，大多数句子与我们感兴趣的关系无关。由于难以形成none-of-the-above（NOTA）的关系，传统的few-shot模型无法很好地处理此问题。因此，研究如何识别NOTA实例至关重要。
（3）除上述挑战外，还有一点很重要，那就是，现有的evaluation protocol可能会高估我们在few-shot RE方面取得的进展。与传统的RE任务不同，很少RE为每个评估集随机抽取N个关系；在这种情况下，关系的数量通常很少（5或10），并且很有可能对N个不同的关系进行采样，从而简化为非常简单的分类任务。
我们进行了两个简单的实验来显示问题（图6）：（A）我们评估了N增加时的few-shot模型，而关联数越大，性能急剧下降。考虑到实际案例中包含的关系更多，这表明现有模型仍无法应用。（B）代替随机采样N个关系，我们手动选择5个语义相似的关系，并评估它们的少量RE模型。观察到结果急剧下降也就不足为奇，这表明现有的few-shot模型可能过度适合关系之间的简单文本提示，而不是真正理解上下文的语义。有关实验的更多详细信息，请参见附录A。

3.3 处理更复杂的上下文

如图7所示，一个文档通常提到许多表现出复杂交叉句关系的实体。现有的大多数方法都集中在句子内的RE，因此不足以集体识别较长段落中表达的这些关系事实。实际上，大多数关系事实只能从诸如文档之类的复杂语境中抽取，而不是从单个句子中抽取（Yao et al., 2019），这一点不容忽视。
已经提出了一些建议来抽取多个句子之间的关系：
（1）句法方法（Wick et al., 2006; Gerber and Chai, 2010; Swampillai and Stevenson, 2011; Yoshikawa et al., 2011; Quirk and Poon,2017）依靠从各种句法结构中抽取的文本特征（例如共指消解、依存关系分析树和语篇关系）来连接文档中的句子。
（2）Zeng et al. (2017); Christopoulou et al. (2018) 构建句子间实体图，该图可以利用实体之间的multi-hop paths来推断正确的关系。
（3）Peng et al. (2017); Song et al. (2018); Zhu et al. (2019b) 使用图结构神经网络为交叉句子相关性建模以进行关系抽取，从而引入了记忆和推理能力。
为了推进这一领域，已经提出了一些文档级的RE数据集。Quirk and Poon (2017); Peng et al. (2017) 通过DS构建数据集。Li et al. (2016); Peng et al. (2017) 提出了特定领域的数据集。Yao et al. (2019) 构建了一个由众包工作注释的通用文档级RE数据集，适用于评估通用文档级RE系统。
尽管已进行了一些努力来从复杂的上下文（例如文档）中抽取关系，但是当前针对此挑战的RE模型仍然是粗糙而直接的。以下是一些值得进一步研究的方向：
（1）从复杂的上下文中抽取关系是一项艰巨的任务，需要阅读、记忆和推理才能发现多个句子中的相关事实。当前大多数RE模型在这些能力上仍然非常薄弱。
（2）除了文档之外，还需要探索更多形式的上下文，例如跨文档抽取关系事实，或基于异构数据理解关系信息。
（3）受Narasimhan et al. (2016) 的启发利用搜索引擎获取外部信息，自动搜索和分析RE的背景信息，可以帮助RE模型更广泛地识别关系事实，并适用于日常场景。

3.4 定向更多开放域

大多数RE系统在人类专家设计的预先指定的关系集中工作。但是，我们的世界经历着关系的开放式增长，不可能仅靠人类来处理所有这些新兴关系类型。因此，我们需要不依赖于预定义关系模式并且可以在开放方案中工作的RE系统。

在处理开放关系方面已经进行了一些探索：（1）开放信息抽取（Open IE），如图8所示，从文本中抽取关系短语和论元（实体）（Banko et al., 2007; Fader et al., 2011; Mausam et al., 2012; Del Corro and Gemulla, 2013; Angeli et al., 2015; Stanovsky and Dagan, 2016; Mausam, 2016; Cui et al., 2018）。开放式IE不依赖特定的关系类型，因此可以处理各种关系事实。（2）关系发现，如图9所示，旨在从无监督的数据中发现看不见的关系类型。Yao et al. (2011); Marcheggiani and Titov (2016) 提出使用生成模型并将这些关系视为潜在变量，而Shinyama and Sekine (2006); Elsahar et al. (2017); Wu et al. (2019) 将关系发现转换为聚类任务。

尽管对开放域中的关系抽取进行了广泛的研究，但仍有许多悬而未解决的研究问题尚待解决：
（1）在开放式IE中规范化关系短语和论元对于下游任务至关重要（Niklaus et al., 2018）。如果不规范，抽取的关系事实可能是多余的和不明确的。例如，Open IE可以抽取两个三元组（Barack Obama, was born in, Honolulu）和（Obama, place of birth, Honolulu），表示相同的事实。因此，标准化抽取结果将大大有利于Open IE的应用。该领域已经有一些前期工作（Galarraga et al. ´ , 2014; Vashishth et al., 2018），需要更多的努力。
（2）不适用（N / A）关系是在关系发现中几乎没有解决。在以前的工作中，通常假设该句子始终表示两个实体之间的关系（Marcheggiani and Titov, 2016）。但是，在现实世界中，句子中出现的大部分实体对没有关系，而忽略它们或使用简单的启发式方法摆脱它们可能会导致不良结果。因此，研究如何在关系发现中处理这些N / A实例将引起人们的兴趣。

4 其他挑战

在本节中，我们分析了RE模型面临的两个主要挑战，并通过实验加以解决，并显示了它们在RE系统的研发中的重要性。

4.1 从文本或名称中学习

在RE的过程中，实体名称及其上下文均提供了有用的分类信息。实体名称提供了键入信息（例如，we can easily tell JFK International Airport is an airport），并有助于缩小可能的关系范围；在训练过程中，也可以形成实体嵌入来帮助进行关系分类（例如在KG的链接预测任务中）。另一方面，通常可以从实体对周围的文本语义中抽取关系。在某些情况下，只能通过对上下文进行推理来隐式推断关系。
由于有两个信息源，研究它们各自对RE重新表现的贡献有多大是很有趣的。因此，我们为实验设计了三种不同的设置：（1）normal设置，其中名称和文本均作为输入；（2）masked-entity（ME）设置，其中实体名称被特殊token替换；（3）only-entity（OE）设置，其中仅提供两个实体的名称。
表3的结果表明，与normal设置相比，模型的ME和OE设置均遭受巨大的性能下降。此外，令人惊讶的是，在大多数情况下，仅使用实体名称会优于仅使用带有被屏蔽实体的文本。它表明：（1）实体名称和文本都为RE提供了关键信息，（2）对于现有的最新模型和基准，实体名称的贡献更大。
该观察结果与人类的直觉相反：我们主要根据文本描述对给定实体之间的关系进行分类，而模型则从其名称中学习更多。为了在理解语言如何表达关系事实方面取得真正的进步，应该进一步研究这个问题，并且需要付出更多的努力。

4.2 针对特殊兴趣的RE数据集

已经有很多数据集可以使RE研究受益：对于受监督的RE，有MUC（Grishman and Sundheim, 1996），ACE-2005（Ntroduction, 2005），SemEval-2010 Task 8（Hendrickx et al., 2009），KBP37（Zhang and Wang, 2015）和TACRED（Zhang et al., 2017）；我们有NYT10（Riedel et al., 2010），FewRel（Han et al., 2018d）和DocRED（Yao et al., 2019）分别用于远程监管、few-shot和文档级RE。
但是，几乎没有针对特殊问题的数据集。例如，跨句子的RE（如，两个不同的句子中提到了两个实体）是一个重要的问题，但是没有特定的数据集可以帮助研究人员对其进行研究。尽管现有的文档级RE数据集包含这种情况的实例，但是很难分析此特定方面的确切性能提升。通常，研究人员（1）使用手工制作的通用数据集的子集，或者（2）进行案例研究以显示其模型在特定问题上的有效性，而这些问题缺乏令人信服的定量分析。因此，为了进一步研究这些在RE的发展中具有重要意义的问题，社区有必要构建针对特殊利益的、公认的、设计良好的和细粒度的数据集。

5 结论

在本文中，我们对关系抽取模型的开发进行了全面、详细的综述，概括了四个有前途的方向，这些方向导致了功能更强大的RE系统（利用更多的数据，执行更有效的学习，处理更复杂的上下文以及定向更多的开放域）），并进一步调查现有RE模型面临的两个关键挑战。我们会彻底调查以前的RE文献，并通过统计和实验来支持我们的观点。通过本文，我们希望展示现有RE研究的进展和存在的问题，并鼓励在这一领域做出更多努力。

【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
大语言模型(LLM)量化基础知识(一) -派神- RAG NLP ChatGPT 语言模型人工智能自然语言处理
承接各类AI相关应用开发项目(包括但不限于大模型微调、RAG、AI智能体、NLP、机器学习算法、运筹优化算法、数据分析EDA等)!!!有意愿请私信!!!随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer模型（0.05B参数）2018年：GPT（0
对话云蝠智能：大模型如何让企业呼叫系统从 “成本中心” 变身 “价值枢纽”？ MARS_AI_ 人工智能自然语言处理信息与通信交互
在人工智能重塑企业服务的浪潮中，云蝠智能（南京星蝠科技有限公司旗下品牌）以深厚的技术积累和行业实践，逐步成长为国内智能外呼领域的标杆企业。其发展路径揭示了技术自主创新与场景深度结合的必然性。一、技术架构：全栈自研奠定领先基础云蝠智能的核心竞争力源于其全链路自研技术体系。该架构覆盖语音识别（ASR）、自然语言处理（NLP）、语音合成（TTS）及软交换六大层级，实现从基础设施到操作层的闭环设计。这一分
Jenkins JNLP与SSH节点连接方式对比及连接断开问题解决方案 tianyuanwo devops jenkins ssh 运维
一、JNLPvsSSH连接方式优缺点对比对比维度JNLP（JavaWebStart）SSH（SecureShell）核心原理代理节点主动连接Jenkins主节点，通过加密通道通信，支持动态资源分配。Jenkins通过SSH协议远程登录代理节点执行命令，需预先配置SSH服务。适用场景容器化环境（如Kubernetes）、需要跨平台或动态扩缩容的场景。传统物理机/虚拟机、静态节点或简单命令执行场景。安
用AI写一个自动记录手机支付记录的小插件教程python
要实现一个自动记录手机支付记录的小插件，核心是利用AI技术解析支付通知短信/通知栏消息。以下是通过训练让AI写代码实现方案：基础方案：手动输入+AI分类（无需权限）#使用Python+Tkinter（界面）+简易NLP分类importtkinterastkfromdatetimeimportdatetimeimportreclassPaymentTracker:def__init__(self):
AI 销售系统：重塑销售格局的科技利器小柔说科技人工智能科技 java
在数字化浪潮汹涌澎湃的当下，人工智能（AI）正以前所未有的速度渗透到各个行业，销售领域也不例外。AI销售系统作为一种融合了先进人工智能技术的创新工具，正逐渐成为企业提升销售效率、优化客户体验、增强市场竞争力的关键因素。一、AI销售系统的概念与核心技术AI销售系统是基于人工智能技术构建的一套综合性销售管理平台，它整合了自然语言处理（NLP）、机器学习（ML）、数据分析、预测建模等多种核心技术。通过这
【炼丹炉】Conda环境离线迁移黑白象炼丹笔记自然语言处理 pip python anaconda linux
1.背景笔者所在公司最近要在局域网内部署NLP算法模型，由于需求方对数据安全有严格要求，新服务器所在局域网不能直接访问Internet，因此需要将模型所需的运行环境离线迁移到新服务器中。2.方案2.1conda-packconda-pack是一个命令行工具，用于打包conda环境。该命令会将坏境中安装的软件包的二进制文件进行打包。注：本方法不需要下载安装包，因此，conda-pack需要指定平台和
NLP市场规模将破千千亿，哪些岗位会成为新风口？ duolapig 人工智能
近年来，自然语言处理（NLP）技术在全球范围内掀起了一场“语言革命”。从智能客服到机器翻译，从情感分析到内容生成，NLP正以惊人的速度重塑人类与机器的交互方式。艾媒咨询数据显示，2023年中国NLP市场规模已达660亿元，预计2027年将突破千亿大关。这一数字背后，不仅是技术迭代的加速，更是一场深刻的人才需求变革。在AI大模型浪潮的推动下，新的职业风口正在形成，而这场变革的核心逻辑，是技术与产业融
RNN、LSTM、GRU详解昔颜1121 人工智能 rnn python
RNN、LSTM、GRU详解在深度学习领域，序列数据（如语音识别、机器翻译、文本生成等）广泛应用于自然语言处理（NLP）、时间序列预测、语音和视频处理等任务中。针对序列数据，循环神经网络（RNN,RecurrentNeuralNetwork）及其改进版本——长短时记忆网络（LSTM,LongShort-TermMemory）和门控循环单元（GRU,GatedRecurrentUnit）成为处理时序
小白的进阶之路系列之十六----人工智能从初步到精通pytorch综合运用的讲解第九部分金沙阳人工智能 pytorch python
从零开始学习NLP在这个由三部分组成的系列中，你将构建并训练一个基本的字符级循环神经网络(RNN)来对单词进行分类。你将学习如何从零开始构建循环神经网络NLP的基本数据处理技术如何训练RNN以识别单词的语言来源。从零开始学自然语言处理：使用字符级RNN对名字进行分类我们将构建并训练一个基本的字符级循环神经网络(RNN)来对单词进行分类。展示了如何预处理数据以建模NLP。特别是，这些教程展示了如何以
使用Hugging Face的BGE模型进行文本嵌入 lirxx 人工智能 langchain
在文本嵌入领域，BGE（BeijingAcademyofArtificialIntelligenceEmbeddings）模型是开源界的佼佼者。由北京智源人工智能研究院（BAAI）开发，BGE模型以其高效的嵌入性能和开放性获得了广泛的认可。本文将通过HuggingFace平台展示如何使用BGE模型进行文本嵌入。技术背景介绍文本嵌入是将文本数据转换为可计算向量的过程，这在自然语言处理（NLP）中具有
第8章：智能菜谱生成器——语言模型如何解析烹饪秘方白嫖不白嫖深度求索-DeepSeek 语言模型人工智能自然语言处理
第8章：智能菜谱生成器——语言模型如何解析烹饪秘方从语义理解到操作执行的完整技术解密工业案例背景：法国里昂的Bocused’Or国际烹饪大赛选手手册中记载这样一道经典指令：“将酱汁熬煮至Nappé状态（即勺子划过痕迹缓慢回填）”。当传统NLP系统将其简单译为"煮浓"，新一代Transformer模型却精准解析出粘度为1500-2000cP的物性指标，并据此生成控温方案。这背后的核心技术便是基于烹饪
WebRTC 语音激活检测(VAD)算法 u013250861 Audio webrtc 算法语音识别
语音激活检测最早应用于电话传输和检测系统当中，用于通信信道的时间分配，提高传输线路的利用效率。激活检测属于语音处理系统的前端操作，在语音检测领域意义重大。但是目前的语音激活检测，尤其是检测人声开始和结束的端点始终是属于技术难点，各家公司始终处于能判断，但是不敢保证判别准确性的阶段。通常搭建机器人聊天系统主要包括以下三个方面:语音转文字(ASR/STT)语义内容(NLU/NLP)文字转语音(TTS)
Java企业技术趋势分析：AI驱动下的Spring AI、LangChain4j与RAG系统架构在未来等你 Java场景面试宝典 AI 技术编程 Java Spring
【Java企业技术趋势分析：AI驱动下的SpringAI、LangChain4j与RAG系统架构】开篇在当今快速发展的技术环境中，人工智能（AI）正在以前所未有的速度重塑企业的技术架构和业务流程。Java作为企业级开发的主流语言之一，在AI应用落地方面也迎来了新的机遇和挑战。从自然语言处理（NLP）到机器学习（ML），再到生成式AI（GenerativeAI），Java开发者正在积极拥抱这些新兴技
【资源共享】eBook分享大集合天堂的鸽子杂七杂八资源分享
文章目录eBook分享大集合服务器系统类(9)机器学习类(17)NLP算法类(19)网络类(6)程序语言类C/C++语言(8)Python语言(14)Java语言(14)PHP语言(4)C#/.NET语言(21)Web技术(12)数据库类Oracle(5)MySQL(8)SQLServer(10)大数据类(11)其他系列IT思维类(15)架构设计类(11)敏捷开发类(21)面试精华文档Java(3
预训练目标：BERT 更适配 “理解类” 任务
在NLP任务中，更倾向于用BERT而非GPT做预训练，核心原因与两者的模型设计、任务适配性、资源成本有关，具体可从以下维度拆解：一、预训练目标：BERT更适配“理解类”任务BERT的双向预训练目标：通过掩码语言模型（MLM）和下一句预测（NSP），强制模型学习上下文的双向语义依赖（比如用“[MASK]是水果”的前后文猜“苹果”），天生适合文本理解、分类、问答等任务。GPT的单向预训练目标：基于自回
PyABSA 入门指南：基于深度学习的情感分析工具包是纯一呀 DeepLearning AI NLP 深度学习人工智能 NLP
在自然语言处理（NLP）领域，情感分析（SentimentAnalysis）一直是热门任务之一。而基于方面的情感分析（Aspect-BasedSentimentAnalysis，ABSA），则是更细粒度的分析方式——不仅判断正负情绪，还识别情绪对象（方面）和具体情感极性（如好/差）。什么是PyABSA？PyABSA（PythonAspect-BasedSentimentAnalysis）是一个专为
AI智能时代SEO优化，AISEO-人工智能搜索引擎优化 weixin_ggwwsscc 人工智能搜索引擎 deepseek AI seo
AI驱动的关键词精准匹配与语义理解传统的关键词排名规则主要依赖于关键词的字面匹配，即网站内容中出现的关键词与用户搜索词完全一致或高度相似时，才有可能获得较好的排名。然而，随着AI技术在搜索引擎中的广泛应用，这一局面正在发生深刻改变。如今的搜索引擎借助自然语言处理（NLP）和机器学习算法，能够深入理解用户搜索词背后的语义和意图，实现更精准的内容匹配。AI智能时代SEO优化，AISEO-人工智能搜索引
大语言模型应用指南：多模态大语言模型 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型应用指南：多模态大语言模型作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：多模态大语言模型(MMLM),多媒体数据处理,自然语言理解,图像文本生成,应用场景探索1.背景介绍1.1问题的由来随着人工智能技术的迅速发展，特别是自然语言处理(NLP)领域的突破，大型语言模型(LargeLanguageModels,LLMs)成为研究热点。
Milvus 向量数据库详解与实践指南 JJJ@666 基础知识(人工智能AI)milvus 向量数据库图像检索推荐系统
一、Milvus核心介绍1.什么是Milvus？Milvus是一款开源、高性能、可扩展的向量数据库，专门为海量向量数据的存储、索引和检索而设计。它支持近似最近邻搜索（ANN），适用于图像检索、自然语言处理（NLP）、推荐系统、语义搜索、智能问答、多模态数据处理等AI应用场景。它能够高效处理：嵌入向量（Embeddings）特征向量（FeatureVectors）任何高维数值向量2.核心特性特性说明
【AI论文】MultiFinBen：一个用于金融大语言模型评估的多语言、多模态且具备难度感知能力的基准测试集东临碣石82 人工智能金融语言模型
摘要：近期，大型语言模型（LLMs）的进展加速了金融自然语言处理（NLP）及其应用的发展，然而现有的基准测试仍局限于单语言和单模态场景，往往过度依赖简单任务，无法反映现实世界金融交流的复杂性。我们推出了MultiFinBen，这是首个针对全球金融领域定制的多语言、多模态基准测试集，用于在特定领域任务上跨模态（文本、视觉、音频）和语言环境（单语言、双语、多语言）对大型语言模型进行评估。我们引入了两个
小白的进阶之路系列之十七----人工智能从初步到精通pytorch综合运用的讲解第十部分金沙阳人工智能 pytorch python
NLP从零开始：使用字符级RNN生成姓名这是我们“NLP从零开始”系列三部分教程中的第二部分。在第一个教程中，我们使用了RNN将姓名分类到其语言来源。这次我们将反过来，从语言生成姓名。>pythonsample.pyRussianRUSRovakovUantovShavakov>pythonsample.pyGermanGERGerrenErengRosher>pythonsample.pySpa
6月19日复盘四万二千人工智能 transformer
6月19日复盘二、分词与词向量分词和词向量是NLP的基础技术。1.分词分词是将连续的文本分割成独立的词汇单元（tokens）的过程。这些单元可以是单词、符号或子词。1.1中文特性中文句子由连续的汉字组成，没有明显的词边界：词与词之间没有分隔符英文：Ilovenaturallanguageprocessing.中文：我喜欢自然语言处理。词是最基本的语义单元。为了处理文本信息，须将连续的序列分割成有意
程序代码篇---ESP32-S3小智固件 Atticus-Orion 深度学习篇程序代码篇上位机知识篇 AI Esp32-S3 小智
Q1：ESP32-S3小智语音对话系统的整体架构是怎样的？A1：该系统采用“语音采集→唤醒词检测→ASR→NLP→TTS→语音播放”的流水线架构：硬件层：ESP32-S3芯片+麦克风阵列（如INMP441）+扬声器（如MAX98357A）。驱动层：ESP-IDF或Arduino框架提供的I2S、ADC、DAC驱动。算法层：唤醒词检测：基于MicroML（如TensorFlowLiteMicro）。
NLPIR智能语义：大数据精准挖掘是信息化发展趋势 weixin_33778544 大数据数据库人工智能
随着信息技术的高速发展、数据库管理系统的广泛应用，人们积累的数据量急剧增长，大量的信息给人们带来方便的同时，也带来了诸如：信息过量难以消化，信息真假难以辨识，信息安全难以保证，信息形式不一致难以统一处理等问题。如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。数据挖掘就是对观测到的数据集进行分析，目的是发现未知的关系和以数据拥有者可以理解并对其
从代码学习深度学习 - 情感分析及数据集 PyTorch版飞雪白鹿€ #自然语言处理深度学习 pytorch
文章目录前言1.认识数据集：aclImdb基本信息数据结构特点2.解压与读取数据2.1解压文件2.2读取评论与标签3.预处理数据集3.1词元化与构建词汇表3.2分析评论长度3.3截断与填充4.创建数据迭代器5.整合所有步骤总结前言欢迎来到“从代码学习深度学习”系列！今天，我们将深入探讨自然语言处理（NLP）中的一个核心任务：情感分析。随着互联网的普及，从产品评论、社交媒体到论坛讨论，我们每天都在产
文本表示的发展概述抱抱宝大模型自然语言处理
文本表示的目的是将人类语言的自然形式转化为计算机可以处理的形式，也就是将文本数据数字化，使计算机能够对文本进行有效的分析和处理。文本表示是NLP领域中的一项基础性和必要性工作，它直接影响甚至决定着NLP系统的质量和性能。在NLP中，文本表示涉及到将文本中的语言单位（如字、词、短语、句子等）以及它们之间的关系和结构信息转换为计算机能够理解和操作的形式，例如向量、矩阵或其他数据结构。这样的表示不仅需要
Linux根据进程id获取此进程的端口号
Linux根据进程id获取此进程的端口号：在Linux中，可以通过/proc文件系统来获取一个进程的相关信息，包括其端口号。以下是一种常见的方法，可以根据进程ID获取对应进程的端口号：1、使用netstat命令结合管道和过滤器，来查找与指定进程ID相关的网络连接。netstat-nlp|grep2、执行上面命令，结果如下，其中8501就是37这个进程的端口号3、根据端口号查找进程lsof-i:或者
深度解析 ImportError: cannot import name AdamW from transformers——从报错原理到完美解决方案 Tadas-Gao 机器学习人工智能机器学习 pytorch LLM python
为什么这个错误值得关注？在自然语言处理(NLP)领域，HuggingFace的transformers库已成为事实上的标准工具。然而，随着库的快速迭代，开发者经常会遇到ImportError:cannotimportname'AdamW'from'transformers'这个看似简单却令人头疼的错误。本文将带你深入理解这个错误的本质，提供多种解决方案，并分享版本管理的专业技巧，帮助你在AI开发中
美元反弹压制金价：基于ARIMA-GARCH模型的汇率-黄金联动效应解构金融小师妹人工智能大数据算法
摘要：本文采用LSTM-Attention混合模型进行价格序列特征提取，结合自然语言处理（NLP）构建政策不确定性指数（PUI），运用ARIMA-GARCH模型预测美元流动性溢价因子（DLP）变动。通过DSGE模型模拟贸易政策冲击传导路径，并基于Nelson-Siegel模型分解美债收益率曲线结构分析。现货黄金呈现典型的三阶段波动特征：首先在3392美元/盎司关键阻力位触发动量交易突破，随后因美元
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，