唐名威

知识图谱多跳问答推理研究进展、挑战与展望

点击上方蓝字关注我们

知识图谱多跳问答推理研究进展、挑战与展望

杜会芳¹, 王昊奋¹, 史英慧², 王萌³

1 同济大学设计创意学院，上海 200092

2 东南大学网络空间与安全学院，江苏无锡 214100

3 东南大学计算机科学与工程学院，江苏南京 211189

摘要：近年来，知识图谱问答在医疗、金融、政务等领域被广泛应用。用户不再满足于关于实体属性的单跳问答，而是更多地倾向表达复杂的多跳问答需求。为了应对上述复杂多跳问答，各种不同类型的推理方法被陆续提出。系统地介绍了基于嵌入、路径、逻辑的多跳知识问答推理的最新研究进展以及相关数据集和评测指标，并重点围绕前沿问题进行了讨论。最后总结了现有方法的不足，并展望了未来的研究方向。

关键词：知识图谱 ; 多跳问答 ; 推理

论文引用格式：

杜会芳, 王昊奋, 史英慧, 等. 知识图谱多跳问答推理研究进展、挑战与展望[J]. 大数据, 2021, 7(3):60-79.

DU H F, WANG H F, SHI Y H, et al. Progress, challenges and research trends of reasoning in multi-hop knowledge graph based question answering[J]. Big Data Research, 2021, 7(3): 60-79.

1 引言

1.1 背景介绍

随着大数据时代的来临，帮助用户在海量信息中快速找到想要的信息尤为重要。知识图谱（knowledge graph，KG）以三元组的形式结构化存储海量信息，一个三元组可以表示为h,r,e_t>，其中e_h表示头实体，e_t表示尾实体，r表示头实体与尾实体之间存在的关系。知识图谱三元组之间也存在关联关系，如上述三元组中的头实体e_h可能是另外一个三元组的尾实体。知识图谱把海量互联网信息表达成客观世界可认知的语义表示，具有强大的语义表达、存储和表达能力，在工业界和学术界得到了广泛关注和研究应用。智能问答系统旨在针对用户提出的复杂信息需求，允许用户用自然语言问句的形式提问，并为用户直接返回精准的答案。得益于知识图谱技术的快速发展，基于知识图谱的问答（knowledge graph based question answering，KGQA）技术利用其丰富的结构化语义信息，能够深入理解用户的问题，并给出准确的答案，为用户提供7×24小时的智能问答服务，在医疗、教育、金融等多个领域凸显出重要的应用价值。

传统KGQA以实体、属性等单一具体对象为主，而在实际应用场景中，用户不再满足于单跳的知识问答，如在医疗领域中的咨询问题“常见的治疗感冒药物有哪些?”。用户更多地倾向表达复杂的多跳问答推理问题，如“请问伴有中耳炎并发症的感冒能用哪种药物治疗?”。而知识图谱多跳问答（以下简称多跳知识问答）即针对包含多跳关系的问题，在知识图谱上进行多步推理，继而推断得到答案的一项任务。

1.2 多跳知识问答推理分类

相比单跳问答，多跳知识问答需要在包含大量知识的知识图谱中找到多个有关联的三元组，并建模多跳长路径，这是更加具有挑战性的任务。同时知识图谱又是不完备的，长路径中任意一个三元组的不完整都会导致找不到正确的答案，这为多跳知识问答带来了更大的挑战。为了解决没有明显答案的复杂多跳查询问题，模型需要基于知识图谱已有知识进行推理。作为多跳知识问答的关键技术支撑，推理为知识图谱智能问答更快落地实际应用发挥了重要作用。

本文总结多跳知识问答推理的最新研究方法，并将这些方法分为基于嵌入的多跳知识问答推理、基于路径的多跳知识问答推理和基于逻辑的多跳知识问答推理3类方法。其中，基于嵌入的多跳知识问答推理方法是将知识图谱元素（如实体、关系等）关联到低维连续向量空间，然后通过定义得分函数或解码器对目标查询对象进行排名来得到答案。而基于路径的多跳知识问答推理方法首先需要确定问题中的主题实体，然后在知识图谱上随机游走找到答案实体，代表性的工作有路径排序算法（path ranking approach，PRA）。关于基于逻辑的多跳知识问答推理方法，本文将重点介绍以一阶逻辑为主的热点研究方法。图1所示为基于知识图谱的多跳问答推理方法分类，接下来综述这些分类中最新方法的研究进展、基本思路和存在的挑战等。

图1 基于知识图谱的多跳问答推理方法分类

2 基于嵌入的多跳知识问答推理

基于嵌入的多跳知识问答推理方法是将问题和候选答案转化为公共向量空间中的语义向量表示来进行操作的方法，基于嵌入的具体操作方法可以分为基于语义匹配的方法、基于图神经网络的方法和基于记忆网络的方法。

（1）基于语义匹配的方法

本类方法首先计算问题和候选答案分布式表示之间的语义匹配，然后通过排序候选答案来得到最终答案。Bordes A等人将问题和知识图谱三元组用嵌入的方式表示来表达特征的语义。然而，与翻译模型TransE、TransH、TransR等关注嵌入表示的模型类似，这些方法只能回答简单问题。为了实现多跳问答推理以及应对多跳知识高效建模的挑战，很多基于语义匹配的方法被提出。Bordes A等人在原来三元组表示方法的基础上做了改进，通过对知识图谱中的问答路径和周围子图进行编码得到语义更加丰富的表示来推理得到答案。Dong L等人提出的多列卷积神经网络（multi-column convolutional neural network，MCCNN）模型进一步地利用具有更强学习能力的神经网络模型来学习答案路径、答案背景信息以及答案类型的分布式表示，并理解问题，在不使用手动特征及词库等的条件下，在问答数据集WebQuestions上取得了不错的结果。其中，答案路径是答案节点和被询问实体之间的一组关系；答案上下文指的是连接到答案路径的单跳实体和关系；答案类型是如人名、日期等的类型。Hao Y C等人认为MC-CNN模型没有充分并合理地考虑候选答案的相关信息来训练问题嵌入的表示，提出了CrossAttention机制的神经网络模型来学习知识图谱的全局信息，取得了更好的结果。但是以上几种方法只能完成浅层多跳知识问答推理，对复杂长路径多跳问题的处理能力依然不足。

Saxena A等人提出的EmbedKGQA模型通过基于知识图谱嵌入模型进行链接预测来缓解多跳问答面临的数据不完整问题，使其具有可以在复杂长路径上的多跳推理能力。EmbedKGQA模型使用C omplEx模型将知识图谱中的实体和关系嵌入复数向量空间，同时采用ComplEx的打分函数φ预测答案。具体而言，对于一个给定的问题q，首先使用RoBERTa模型编码初始向量，然后通过一个前馈神经网络将该向量表示投射到复数嵌入向量空间。问题q和其主题实体h以及知识图谱中的任一实体a可以构成三元组，其嵌入向量分别表示为q、h和a，如果a是q的目标答案实体，则将(h,q,a)视为正样本，并且使，否则将(h,q,a)视为负样本，并使，负样本可通过将正样本中的答案实体替换为知识图谱中其他非答案实体来获得。EmbedKGQA使用大量的正负样本训练数据学习问题和实体的嵌入向量表示，在推理阶段则在嵌入空间中通过打分函数选择得分最高的实体作为可能的目标答案。

He G L等人认为多跳知识问答推理算法只接收最终答案的反馈会使学习不稳定或无效，学习推理过程中的监督信号也非常重要，同时也能提升模型的可解释性。由此，He G L等人提出了一种创新的Teacher-Student模型。TeacherStudent框架最早由Hinton G等人提出，用来做知识蒸馏，其中复杂的Teacher模型的预测被视为“软标签”，一个轻量级Student模型被用于训练拟合软标签。后来，一些Teacher-Student框架的研究逐渐被应用到问答任务中来加快模型的推理速度。在He G L等人提出的模型中， Student网络的目标是找到问题的正确答案，而Teacher网络试图学习预测过程中的监督信号，以提高学生网络的推理能力。Teacher网络利用了正向和逆向双向推理产生可靠的中间监督信号来增强中间实体分布表示学习。在3个公开的数据集上证明了该模型的有效性。

基于语义匹配的方法多采用弱监督学习，减少了人工标注的工作量，同时该方法能够反映出用户问题和知识图谱知识的相似语义，为多跳推理问答的实现做了很好的基础。如何让基于语义匹配的方法学到更丰富和全面的知识图谱信息是这种方法的关键。另外，增强表示方法的可解释性也是重要的考虑因素。

（2）基于图神经网络的方法

图卷积神经网络（graph convolutional network，GCN）通过聚合知识图谱中每个实体的邻居实体来传递消息。GCN因为其在图结构上的有效性和可伸缩性而受到广泛利用，它是多跳推理方法采用的复杂图神经网络的基础，如图2所示。Schlichtkrull M等人提出关系图卷积网络（relational graph convolutional network，R-GCN），最早将图卷积神经网络用于知识图谱链接预测的研究任务，通过聚合特定关系来扩展GCN，使其适用于编码多关系图来预测多跳问题的答案。R-GCN模型整体是一个encoderdecoder架构，encoder通过图卷积神经网络将实体的邻域信息进行聚合，更新实体的表示；decoder基于更新后的实体表示，采用打分函数来预测边。然而，该模型缺乏透明度，无法为关系选择提供可解释的依据。相比R-GCN，Teru K等人提出的GraIL框架采用一种基于注意力机制的多关系图神经网络模型来解决在知识图谱上进行归纳式关系预测的问题。该注意力机制不仅和两个相邻实体以及它们之间的关系有关，也和需要被预测的目标关系有关。最终利用两个目标实体的表示、子图的表示以及预测关系的表示进行打分，将最高得分作为预测结果。归纳学习方法GraIL显式编码知识图谱中的规则以及利用的注意力机制增强了模型的可解释性。

图2 图卷积神经网络

近年来，BERT（bidirectional encoder representations from transformers）、 RoBERTa等预训练语言模型在智能问答等自然语言处理（natural language processing，NLP）任务中取得了巨大的成功。但是预训练模型的知识是隐式学习的，无法明确表示出来，因此无法提供可解释的预测。为了利用预训练模型学习到的丰富知识，并且结合知识图谱中的显式知识提高可解释性，许多预训练模型结合知识图谱的问答模型被提出，Feng Y L等人提出的多跳图关系网络（multi-hop graph relation network，MHGRN）模型就是其中一种。MHGRN模型是一种新颖的多跳图关系网络模型，它结合了基于路径的模型，具有可解释性和基于GNN模型扩展性强的优点，利用图神经网络通过在实体之间传递消息来编码结构化信息，同时为了进一步使模型具有显式建模关系路径的能力，将图分解为路径，并类似Lin B Y等人提出的知识感知型图神经网络（knowledge-aware graph network， KagNet）采用长短期记忆（long shortterm memory，LSTM）网络对限定连接长度的问题实体和答案实体的所有路径进行编码，然后通过注意力机制聚合所有路径嵌入来预测结果。

传统智能问答解决方法是单独从知识图谱或者文本中推断出答案。文本虽然是非结构化的知识，但是可以提供丰富的上下文信息，将文本与知识图谱结构化的优势结合是最新的研究热点。

GRAFT-Net（graphs of relations among facts and text network）和PullNet（pull network）将外部文本语料库和知识图谱结合起来完成多跳问答任务。GRAFT-Net将Wikipedia语料库中的文档和知识图谱中的实体建模作为节点，将实体和文档的链接关系（句子中包含此实体名词）以及知识图谱中实体之间存在的关系建模为边，构建问题子图，以执行多跳推理。具体而言，GRAFT-Net从问题出发，首先由问题主题实体链接一些种子实体，再以种子实体为起点，通过个性化页面排名（personalized pagerank，PPR）算法从它们的邻居实体中取出PPR分数最高的几个实体及相关联的边，并将它们都加入问题子图中。同时从文本语料库中检索出5个与问题高度相关的句子，并将可以链接到这些句子的实体一并加入问题子图中。最终问题子图由句子节点、实体节点以及句子和实体之间的链接关系、实体和实体之间的关系构成。GRAFT-Net将实体节点随机初始化为一个固定长度的向量，然后基于图卷积神经网络学习和更新问题子图中节点的向量表示，最后对问题子图中的实体节点进行二分类来预测出哪些是答案实体，以完成推理过程。GRAFT-Net使用启发式算法构建的问题子图规模过大，并且很多时候可能不包含答案。PullNet同样基于图卷积网络，但不同于GRAFT-Net， PullNet不要求将整个子图一步构建完成，而是迭代式学习构建的过程。PullNet迭代地构建问题子图，初始子图只包括问题及其中的实体，每一次迭代时，首先使用图卷积网络计算将子图中的实体节点加入下一个迭代过程的概率，确定所有输出概率大于设定阈值的实体，然后对每一个被选择的实体，从文本语料库检索出相关的句子集合，从知识图谱检索出相关的三元组集合，将新检索到的句子、三元组、句子中的实体以及三元组的头实体和尾实体都视为新的节点，将新节点之间的联系视为新边，用新节点和新边更新问题子图。子图构建完成后，PullNet使用与GRAFT-Net相同的方法对节点进行分类，找出最可能的答案实体。

基于图神经网络的方法在处理知识图谱数据时具有更强的表达力，能够充分考虑问题中主题实体在图谱中的相关实体和关系信息，但是依然存在实体邻居信息稀疏时语义表示效果较差的挑战。另外，随着实体和关系不断加入子图中，计算成本和内存消耗会迅速增加。尽管基于注意力机制的图神经网络能够自适应地学习邻居的重要性权重，但是依然不能完全解决此类问题。

（3）基于记忆网络的方法

传统的循环神经网络（recurrent neural network，RNN）、LSTM网络等深度学习模型使用隐藏层状态作为其记忆模块，但是这种方法产生的记忆力太短程，无法精确记住被转化为稠密向量的长路径知识。Weston J等人提出了一种可读写的外部记忆模块，联合记忆模块保存场景信息，以实现长期记忆的目标。该方法中的记忆网络包括I（input feature map）、G（generalization）、O（output feature map）、R（response）4个组件。I用来将输入转化为内部特征向量表示；G用来更新记忆，并插入记忆槽中；O根据新的输入和当前的记忆状态输出特征映射表示；R把组件O的结果转化为想要的输出形式，如文本回答。该模型是本文接下来要介绍的复杂记忆网络多跳知识问答推理方法的基础，如图3所示。

图3 记忆网络模型框架

基于Weston J等人提出的记忆网络模型，Miller A等人提出了键值记忆网络（key-value memory network，KVMemNN）模型，通过迭代更新存储键值对（key-value）的记忆槽来完成多跳推理任务。此处的key指三元组中头实体和关系的组合，value指尾实体。与Weston J等人提出的记忆网络相比，该模型能够处理结构复杂的知识图谱知识。该模型通过以下过程完成一次迭代更新：首先使用向量表示用户问题和知识图谱三元组，通过用户问题检索知识图谱得到相关子集，并作为键值记忆槽，然后计算每一个key和问题的相关程度评分，根据评分对每个value加权求和，最后用得到的value向量更新问题向量。经过以上N步迭代后，对问题向量进行分类，最终得到多跳问题的答案。KV-MemNN模型结构简单，通用性强，通过向量的迭代更新来进行隐式推理。然而，复杂问题需要进行多次迭代表示，同时需要对应构造记忆槽，容易造成内存不足以及训练时间慢等问题。基于KVMemNN模型，Xu K等人提出了一个新的用户问题表示更新机制，即在更新时不考虑问题中已经定位到的key值。该模型将问题分解为针对记忆的查询序列，基于上述更新机制，可以增强多跳复杂问题的推理能力。但是上述方法对问题和知识图谱三元组分开进行编码，忽略了两者之间的交互作用。因此，Chen Y等人提出了双向注意记忆网络模型，该模型利用注意机制捕捉问题与知识图谱信息之间的相关性，并利用此相关性增强问题的表征来提高推理答案的能力。

Das R等人在2017年提出采用记忆网络并基于通用模式在知识图谱和文本上进行多跳知识问答推理，该框架通过将结构化知识图谱和非结构化文本在一个公共嵌入空间中对齐，相比单独使用知识图谱或文本取得了更好的效果。动态记忆网络（dynamic memory network，DMN）模型和动态记忆张量网络（dynamic memory tensor network，DMTN）模型采用动态记忆网络，允许模型将注意力集中在之前迭代的输入和结果上，形成情景记忆，然后在一个层次递归序列模型中推理得到答案。两者不同的是，DMN采用门函数实现注意力机制，而DMTN采用的是神经张量网络，以实现更好的推理效果。

以上记忆网络模型都取得了不错的效果，但是模型依然具有“黑盒”特性，可解释性差。为了使多跳知识问答推理过程更加可信，一些方法在保证模型准确率的同时也尝试增强模型的可解释性。Zhou M T等人提出的解释推理网络（interpretable reasoning network， IRN）是一种新颖的具有可解释性的记忆网络推理模型，它采用可解释的逐跳推理过程来回答问题。该模型可以动态地决定输入问题的哪一部分应该在哪一跳进行分析，预测与当前解析结果相对应的关系，并利用预测的关系更新问题表示和推理过程的状态，然后驱动下一跳推理。该模型可以为推理分析和故障诊断提供可追踪和可观察的中间预测，从而允许人工操作来预测最终答案，这个过程提高了模型的透明度和可信赖度。

3 基于路径的多跳知识问答推理

为了更好地建模多跳知识，基于路径的方法受到了广泛关注。知识图谱中的结构化知识以三元组的形式存在，基于路径的多跳知识问答推理以用户问题中的主题实体为源实体，沿着知识图谱多个三元组的头实体、关系、尾实体的逐跳路径进行搜索，找到答案实体或者关系，通常包括3个阶段：处理输入问题、对知识图谱进行推理、预测答案。以下将基于路径的多跳知识问答推理方法分为基于强化学习的方法、基于查询图的方法。

（1）基于强化学习的方法

路径排序算法（path-ranking algorithm，PRA）是一种有效的大规模知识图谱推理路径学习方法。基于路径排序算法的多跳知识问答推理方法的主要思想是利用实体之间的复杂路径特征来学习随机游走器，进而推断出答案。

与PRA基于随机游走的路径查找模型不同，Xiong W H等人提出的DeepPath是一种创新的可控多跳推理方法。该方法将路径搜索转化为强化学习过程，该过程允许通过控制所找到的路径的属性来减小搜索空间。模型如图4所示，该强化学习方法包括两部分：第一部分是被建模为马尔可夫决策过程的外部环境，指定智能体和知识图谱之间的动态交互；第二部分是策略网络智能体，将状态向量映射到随机策略中。在每一步中，通过与环境的交互，智能体学习选择一个关系链接来扩展推理路径。为了更好地指导强化学习智能体学习到目标关系路径，与之前的研究相比，该方法更多地考虑了奖励的设置，在准确性、多样性和精确度3个方面采用奖励机制，监督每一跳的行动，具体方式如下。

图4 DeepPath模型

环境设置中，强化学习智能体的决策数量包括正确决策的数量以及错误决策的数量，总体数量很大。其中，错误决策序列的数量会随着路径的长度呈指数增长。鉴于此挑战，DeepPath模型添加的第一个奖励函数定义如下：

相比长路径，短路径通常能提供更多可靠的推理证据。短路径链条通过限制智能体与环境交互的长度，提升推理的效率。因此，DeepPath定义高效奖励如下：

其中，p为一个序列关系，如。

知识图谱中存在很多语义相似的实体，这导致智能体有可能寻找到具有相似语法和语义的路径，这些路径通常包含冗余信息。为了鼓励智能体找到多样化的路径，DeepPath使用当前路径和已有路径之间的余弦相似度定义一个多样化奖励函数：

其中，表示的嵌入向量，F表示已经存在的关系路径个数。

Meilicke C等人提出的AnyBRUL （reinforced anytime bottom up rule learning）方法同样利用强化学习对路径进行采样，基于采样路径构造基本规则，并将其推广为抽象规则。DeepPath和AnyBRUL都要求首先对头实体和尾实体之间的所有路径进行取样，然后利用它们来评估尾实体是否为正确的答案，因此，它无法应对找不到尾实体的情况。与DeepPath和AnyBRUL需要预先计算路径的方式不同，有些方法通过给定的头实体和查询关系利用训练模型来获得正确的答案实体。在这些模型中，Das R等人在2018年提出的MINERVA（meandering in networks of entities to reach verisimilar answer）是一个代表性模型。与DeepPath不同的是，MINERVA的状态由查询关系和部分路径的嵌入组成，在抽样过程中不需要嵌入答案实体。

强化学习模型通常采用一个0/1的硬奖励来监督抽样过程，指示抽样实体是否为正确的答案实体。Lin X V等人提出的RS（reward shaping）在最后一步采用基于正确答案实体和采样实体之间的软奖励，而不是使用0/1的硬奖励。此外，受dropout技术的启发，RS模型在训练过程中为了避免选择大量的重复路径，缓解过拟合，采用了dropout技术。Shen Y L等人提出的M-Walk引入了一种基于值的强化学习方法，并使用蒙特卡洛树搜索来克服稀疏正奖励的挑战。Chen W H等人提出的DIVA将推理任务当作一个由寻找路径和答案推理组成的统一模型，其中路径建模为隐变量，采用AEVB（autoencoding variational Bayes）对模型进行求解。

基于强化学习的方法把多跳知识问答推理任务当作序列决策过程，只需一些目标即可得到泛化能力较强的模型，无须大量的标注语料。但是在面临复杂的多跳知识推理场景时，智能体的决策能力往往不足。

（2）基于查询图的方法

基于路径排序的方法容易造成搜索空间爆炸，而基于查询图的方法是基于路径方法的扩展，与基于路径的方法生成从主题实体到答案的路径方式不同，基于查询图的方法使用图来表示问题，并围绕主题实体扩展出一个子图，基于查询图的方法比基于路径的方法更具表示能力。

早期的基于语义解析的方法将自然语言问题转换为结构化的查询（如SPARQL查询），在知识图谱上执行查询可以得到问题的答案。Reddy S等人等人充分使用了组合范畴语法（combinatory categorial grammar，CCG）的表示能力，并提出Graph Parser模型来解析问题，受此启发，Yih W T等人在2015年定义了查询图的概念，并提出了一个分阶段的查询图生成（staged query graph generation，STAGG）模型来处理知识图谱问答，查询图可以直接匹配为问题的逻辑形式，进而翻译成查询，因此语义解析问题可归结为查询图生成问题。STAGG定义了3个阶段来生成查询图：首先，使用现有的实体链接工具获取候选主题实体，并对其评分；然后，STAGG探索主题实体和答案节点之间的所有关系路径，为了限制搜索空间，它仅在下一跳的节点是一个复合类型（compound value type，CVT）节点时，探索长度为2的路径，否则只考虑长度为1的路径，使用深度卷积神经网络对所有关系路径进行打分，以判断当前选择的关系与问题的匹配程度；最后，根据启发式规则将约束节点附加到关系路径上。在这3个阶段的每个阶段，都使用对数线性模型对当前的部分查询图进行评分，并输出最佳的最终查询图来查询知识图谱。STAGG有效地使用了知识图谱中的信息来裁剪语义解析空间，从而简化了任务难度。

针对STAGG无法回答涵盖复杂约束的问题，Bao J W等人扩展了约束类型和运算符，新增了类型约束以及显式和隐式时间约束等，将多重约束问题转化为多重约束查询图（multi-constraint query graph，MulCG）来实现推理，MulCG仍然遵循STAGG的框架，但提供了更多规则，以应对复杂问题。STAGG和MulCG等方法都要求首先将问题中的候选主题实体链接到知识图谱的实体上，实体链接的质量将影响后续的推理效果。Yu M等人将知识图谱问答分为实体链接和关系检测两个关键的子任务，并提出了一个残差学习增强的分级的双向LSTM（hierarchical residual bidirectional LSTM，HRBiLSTM）用于关系检测。对于实体链接，他们观察到，在SimpleQuestions数据集上主题实体识别的Top-1准确率只有72.7%，因此在由实体链接器产生初始的候选主题实体后，又将问题文本输入HR-BiLSTM中，HR-BiLSTM对问题以及在知识图谱中与候选主题实体相关联的关系进行不同抽象级别的编码，并计算两者的相似度得分，仅保留与那些得分较高的关系相关联的候选主题实体。在确定了新的主题实体后，同样使用HR-BiLSTM选择新的关系，以逐步地生成查询。在处理问题约束时，HRBiLSTM也遵循STAGG中的惯例。

为了限制搜索空间，STAGG只能探索2跳之内的路径，无法回答涉及更多跳推理的问题。Lan Y S等人改进了STAGG方法，使其可以应对更长的关系路径，即在扩展路径的同时加入约束，而不是只在建立关系路径之后再添加约束，如此可以有效地缩减搜索空间，改进的分级查询图生成方法可以同时处理包含约束的问答和涉及多跳的问答，该方法在WebQuestionsSP（WebQSP）系列数据集上取得了优异的表现。

基于路径的多跳知识问答推理方法具有较好的可解释性。但只能处理关系型知识，在处理属性型、事实型知识时，建模复杂。

4 基于逻辑的多跳知识问答推理

基于符号逻辑规则的方法因其准确率高、可解释性强等优点，在多跳知识问答推理研究中被广泛探讨。其中，作为逻辑规则的主要方法，或结合概率逻辑方法，或结合知识嵌入方法，一阶逻辑近几年已成为研究热点。本节重点介绍基于一阶逻辑的多跳知识推理方法的思路。

结合一阶逻辑的自然性和概率逻辑模型的不确定性优点，马尔可夫逻辑网络方法已被证明在知识图推理上的有效性。然而，在大规模知识图谱上由于三元组之间的复杂结构，以上方法推理过程困难，效率较低。基于注意力机制的图神经网络擅长处理高度复杂的图问题， Vardhan V H等人提出的概率逻辑图注意力网络（probabilistic logic graph attention network，pGAT）用变分EM算法优化了由马尔可夫逻辑网络定义的所有可能三元组的联合分布。这有助于模型有效地结合一阶逻辑和图注意力网络。该推理模型的提出为多跳知识问答提供了有利的参考。

近年来，为了解决知识图谱存在的规模庞大和不完整问题，逻辑规则与知识嵌入相结合的研究受到很多关注。图查询嵌入（graph query embedding，GQE）、Query2Box以及BetaE等方法将查询表示成有向无环的计算图，计算图指明了在知识图谱上进行多跳推理以获得目标答案的步骤。这些方法将一阶逻辑运算符看作可通过训练习得的几何操作，它们都以查询包含的主题实体的嵌入向量为起点，迭代地使用几何操作生成查询的嵌入向量，然后通过在向量空间中计算实体嵌入与查询嵌入的距离来预测答案。

GQE主要关注一阶逻辑查询的一个子集，即只涉及存在量词和合取运算的查询。GQE提出了两个核心的几何运算符P （projection）和I（interp），其中P负责根据下一跳的关系r将当前生成的查询嵌入qq投射为新的查询嵌入向量，I负责聚集计算图中出边指向同一个节点的所有顶点的嵌入向量表示，以模拟逻辑合取运算。P和I由式（4）实现：

其中，和是关于关系r的可训练的参数矩阵，NNk是一个k层的前馈神经网络，Ψ是一个对称的向量函数。

GQE将查询嵌入为向量空间中的一个点。Query2Box认为复杂的一阶逻辑查询对应一个答案实体集合，但目前一个点不能有效地建模一个集合，并且在向量空间中对两个点做逻辑运算也不自然，故Query2Box将查询嵌入为向量空间中的box。box由中心点和偏移两部分组成，答案实体嵌入为一个点应包含在对应的box中，关系嵌入也表示成中心点和偏移项两部分。查询包含的实体节点的嵌入被初始化为偏移项为0的box，对于当前输入的box嵌入p和下一跳关系嵌入r，关系嵌入也表示成中心点和偏移项两部分，P操作通过在向量空间中将p和r相加产生新的box，I操作取多个box的交集作为结果，按照计算图中的运算逐步推理，即可生成查询最终的box嵌入。Query2Box还在GQE的基础上增加了析取V运算，扩充了逻辑查询的功能。GQE和Query2Box等方法将查询嵌入为闭区域，比如欧几里得空间中的一个点或一个box，而因为对闭区域取补并不能得到闭区域，所以这些方法不能支持逻辑取负运算，并且不能对不确定性进行建模。有别于Query2Box等，BetaE将实体和查询嵌入为[0,1]区间上的????分布，并为????向量定义了概率关系投射、概率交和概率取负3个概率逻辑运算符，以支持任何形式的一阶逻辑查询。对????分布的参数取倒数即实现了取负运算，即将高概率密度区域转换为低概率密度区域，反之亦然。对于概率投射，BetaE为每一种关系类型学习一个多层感知器，以将一个????向量通过下一跳的关系r匹配到另一个????向量，BetaE将概率交定义为多个????向量的带权积。同样，按照计算图中的推理次序对起始的????向量做变换，即可生成查询对应的????分布，然后在嵌入空间选择与查询嵌入概率最相近的实体集作为答案。

基于一阶逻辑查询的多跳知识问答推理方法具有严密性、自然性，且准确率高。为了模拟不确定性，一些研究将逻辑运算和概率逻辑结合，或者将逻辑运算转换为嵌入向量空间的几何操作，理论上可以进行任意跳数的推理。但这些模型都不能很好地处理复杂知识查询。

5 实验评测

对多跳知识问答推理模型在现有的数据集上进行评估可以验证模型的性能表现。目前常用的自然语言问答数据集有MetaQA、WebQuestionsSP和ComplexWebQuestions （CWQ）等，另外，链接预测领域常用的数据集（如FB15k和FB15k-237等）也被用来构造查询形式的问答，实现在知识图谱上的推理。本节将介绍这些常用的评测数据集及评测指标，并对前文所述方法在以上数据集上的表现进行了对比分析。

5.1 评测数据集

（1）MetaQA数据集

MetaQA数据集是基于WikiMovies数据集构建的多跳问答数据集，它包含超过40万个电影领域的多跳问题，这些问题有Vanilla、NTM和Audio 3个版本。Vanilla版本的MetaQA常被用于多跳知识问答推理任务，它除了包含1跳、2跳和3跳3种类型的问答数据，还包含一个知识图谱，其有约135 000个三元组、43 000个实体以及9种关系。

（2）WebQuestionsSP数据集

Yih W T等人对WebQuestions数据集改进后提出了WebQuestionsSP数据集。WebQuestions是为了解决真实问题而构造的数据集，其问题来源于谷歌建议应用程序接口（Google suggest API），答案由众包平台Amazon Mechanic Turk通过人工标注生成。WebQuestions只包含了问题的答案，没有提供问题对应的查询语句，针对此缺点，WebQSP为每个问题构造了其对应的SPARQL查询表达，并删除了一些表达有歧义以及无清晰意图或答案的问题。WebQSP包含4 737个1跳或2跳问题，问题的答案可以在Freebase知识库中找到。

（3）ComplexWebQuestions数据集

Talmor A等人基于WebQSP构建了ComplexWebQuestions数据集。首先从WebQSP中采样问题及其SPARQL查询，并自动地构造更复杂的包含组合、连接、比较级以及最高级等形式的SPARQL查询，最后由Amazon Mechanic Turk众包平台将这些SPARQL查询重组为自然语言问题，问题的答案通过在Freebase中执行SPARQL查询获得。CWQ共包含34 689个问题及其对应的答案和SPARQL查询。

（4）其他数据集

FB15k是Freebase的一个子集，也是知识图谱补全领域的一个基准数据集，由三元组构成。为了解决FB15k测试集数据泄露的问题，Toutanova K等人在FB15k的基础上构建了FB15k-237，并且移除了FB15k中反向的关系。NELL995数据集由NELL系统构建而来。

5.2 评测指标

Hits@1、F1分数、平均倒数排名（mean reciprocal rank，MRR）和平均精度均值（mean average precision，MAP）是常用来评估多跳知识问答模型效果的指标。把问答视为问题答案检索任务，Hits@1是指正确答案是最终排序的第一个的占比。F1分数是指检索到的答案的精确率和召回率的调和平均，取在所有问题上的F1分数的平均作为模型最终的F1结果。MRR指所有正确答案实体排名的倒数的均值。MAP指对所有查询的平均正确率（average precision，AP）取均值的结果。

5.3 实验结果及分析

表1列出了部分多跳知识推理方法在相同实验数据集（MetaQA、WebQSP和CWQ）上Hits@1的结果，“-”表示在原文献中对应指标的结果未给出，1-hop、2-hop和3-hop表示由源实体到目标答案实体推理时分别需要经过1跳、2跳和3跳。

由表1可以看出，在MetaQA数据集上，对于单跳问题，几个模型的Hits@1结果相近，而随着推理跳数增加，KVMemNN和GRAFT-Net两个模型的性能有了明显的下降。相较于KV-MemNN和GRAFT-Net，PullNet在3跳问题上仍然取得了不错的表现，且PullNet在3个数据集上都取得了显著的结果，充分显示了其提出的迭代构建问题子图方法的有效性以及图神经网络在基于知识图谱的多跳推理问题上的适用性。相比KV-MemNN、GRAFT-Net和PullNet， EmbedKGQA在MetaQA数据集的平均Hits@1值更高，在WebQSP数据集上也表现突出，证明了EmbedKGQA基于语义匹配的方法在解决多跳问答问题上的有效性。NSM_+h总体上优于表1中的其他所有模型，表明了使用Teacher-Student网络模型学习中间监督信号可以很好地提升推理能力。

表2列出了基于逻辑的模型（GQE、Q2B（Query2Box）、BetaE）在FB15k、FB15k-237和NELL-995 3个数据集上多跳推理的结果。

对比它们的结果可以看出，对于表2中所有数据集，Q2B在1-hop、2-hop、3-hop问题上的表现均优于GQE，证明了在理论上将查询（问题）嵌入为向量空间中的一个box而不是一个点的思想更合理，而且在实际中也能取得更好的结果。3个模型中BetaE在多跳推理任务上的平均MRR最大，显示了概率嵌入在逻辑查询领域相对于传统方法的有效性。

表3列出了部分基于强化学习的多跳知识问答方法在FB15k、FB15k-237和NELL-995 3个数据集上的结果，采用的评测指标有Hits@1和MAP，“-”表示在原文献中对应指标的结果未给出。由表3可以看出，在FB15k-237数据集上，RewardShaping的Hits@1结果比MINERVA高出了11%，这很可能因为MINERVA中的智能体在训练时会受到假负样本的影响，导致低质量的奖励，并且由于缺乏正确的动作序列用于训练，智能体可能被假搜索轨迹误导却偶然地被引向了正确答案。RewardShaping针对以上问题做了改进，使智能体探索更广泛的路径集合，以抵消对虚假路径的敏感度。但在NELL-995数据集上，RewardShaping模型的表现并不强于MINERVA，因为RewardShaping适合处理一对多的关系类型，而NELL-995数据集中的关系类型大多是一对一的。从MAP结果来看，DIVA比DeepPath效果要好，这是因为DeepPath关注于找到实体对间的路径，缺少了对实体对是正样本还是负样本的判断，导致实验结果对噪声和对抗样本敏感，而DIVA更擅长处理噪声和应对更复杂的推理场景。M-Walk使用RNN编码状态，并将蒙特卡洛搜索树与神经策略结合来应对稀疏奖励的挑战，与DIVA、DeepPath相比，取得了更好的结果。

6 结束语

近年来，国内外涌现了很多基于知识图谱的多跳问答推理方法，这些方法都取得了一定的进展，但仍然存在一些挑战。

随着KGQA技术的不断发展，智能问答越来越多地深入人们的日常生活中，为人们的生活带来便利。而在复杂的实际场景中，人们更加倾向表达更加复杂的多跳问题，这使得多跳知识智能问答成为必需，知识图谱多跳问答推理方法也得到越来越多的关注。本文基于3个主流分类，总结了近年来多跳知识问答推理的研究方法。本文中很多方法是多种方式结合的形式，而分类方法是按照具体研究方法的重点创新和贡献来划分的。比如基于逻辑的分类中，BetaE方法虽然将知识图谱实体表示为嵌入的方式，但是该方法表达的是一阶逻辑求解答案的思想，是神经网络增强符号逻辑的一种方法体现，故本文将该方法归类为基于逻辑的方法。本文也阐述了常用的公开数据集、评价指标，以及不同方法在每个数据集上的最新表现和分析。

本文阐述的方法在实际应用中依然存在瓶颈，主要面临以下3个挑战。

● 多跳知识问答建模问题：难以充分理解用户复杂多跳问题以及建模知识图谱中的多跳关系。

● 小样本学习问题：在知识资源和训练数据有限的条件下，难以有效表征知识和推理答案。

● 可解释性：深度学习在多跳知识问答任务中有卓越的表现，但是可解释性差，导致模型缺少可信度。

各类多跳知识问答推理方法的优点和不足见表4。

未来，将从以下两方面进行更深入的研究。

● 随着BERT等预训练模型的出现，多项自然语言处理任务（如智能问答的性能）被刷新纪录。随着各类基于Transformer注意力机制的预训练模型层出不穷，很多研究者看好预训练模型和知识图谱结合的方法。通过两者结合，知识图谱中的知识可以显式指导要学习的知识，进而增强BERT对背景知识或常识信息的编码能力，同时文本上下文和知识上下文的融合能够增强多跳推理中长路径的特征表示，从而提升多跳知识问答推理任务的表现性能。

● 越来越多的互联网数据以及行业数据呈现出多模态的特点，表现为对同一事物采用图谱知识、文本描述、图像、信息图表以及视频等多种模态进行表达。不久的未来将有更多关于多模态知识图谱多跳问答的研究，满足人们日益增长的理解和认知服务需求。多模态知识图谱能够提升知识的相关性和多样性，从而更完整地表达对应的图谱中的知识。通过多模态丰富的知识表示，能够进一步保障多模态知识图谱多跳问答推理的效果。

作者简介

杜会芳（1991-），女，同济大学设计创意学院博士生，主要研究方向为知识图谱、智能问答。

王昊奋（1982-），男，同济大学设计创意学院特聘研究员，中国计算机学会（CCF）理事、计算机术语审定委员会副主任、CCFTFSIGKG主席，OpenKG联合创始人，主要研究方向为知识图谱、自然语言处理、问答对话、智能内容生成。

史英慧（1998-），女，东南大学网络空间与安全学院硕士生，主要研究方向为知识图谱、多模态数据。

王萌（1989-），男，博士，东南大学计算机科学与工程学院讲师，CCF会员，东南大学“至善青年学者”支持计划获得者，主要研究方向为知识图谱、多模态数据、自然语言处理。

联系我们:

Tel:010-81055448

010-81055490

010-81055534

E-mail:[email protected]

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

转载、合作：010-81055537

大数据期刊

《大数据（Big Data Research，BDR）》双月刊是由中华人民共和国工业和信息化部主管，人民邮电出版社主办，中国计算机学会大数据专家委员会学术指导，北京信通传媒有限责任公司出版的期刊，已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊，并被评为2018年、2019年国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

关注《大数据》期刊微信公众号，获取更多内容

你可能感兴趣的:(神经网络,大数据,算法,编程语言,python)

图神经网络实战——分层自注意力网络盼小辉丶图神经网络从入门到项目实战神经网络人工智能深度学习
图神经网络实战——分层自注意力网络0.前言1.分层自注意力网络1.1模型架构1.2节点级注意力1.3语义级注意力1.4预测模块2.构建分层自注意力网络相关链接0.前言在异构图数据集上，异构图注意力网络的测试准确率为78.39%，比之同构版本有了较大提高，但我们还能进一步提高准确率。在本节中，我们将学习一种专门用于处理异构图的图神经网络架构，分层自注意力网络(hierarchicalself-att
Python 爬虫实战：舞台剧与演出信息获取西攻城狮北 python 爬虫开发语言
作为一名对文化艺术活动和数据获取感兴趣的内容创作者，我决定利用Python爬虫技术抓取舞台剧与演出信息。这对于文艺爱好者、文化活动组织者以及相关研究人员来说，是一个极具价值的探索。一、项目背景舞台剧和各类演出活动丰富了人们的精神文化生活。许多城市都有专业的演出场馆，如国家大剧院、上海大剧院等，它们会定期发布演出信息。通过爬虫技术，我们可以自动化地获取这些演出信息，方便用户查询和分析。二、技术选型在
LeetCode剑指offer题目记录4 t.y.Tang LeetCode记录 leetcode python 矩阵
leetcode刷题开始啦,每天记录几道题.目录剑指offer07.重建二叉树题目描述示例思路python改进剑指offer09.用两个栈实现队列题目描述示例思路python剑指offer10-1.斐波那契数列题目描述思路pythonC++剑指offer10-2.青蛙跳台阶问题问题描述思路C++剑指offer07.重建二叉树题目描述输入某二叉树的前序遍历和中序遍历的结果，请构建该二叉树并返回其根节
【技巧分享】开发环境配置Python、R、Stata A线上仓库 python 开发语言
自用，看心情更新~版本更新2024-03-131.0版本2024-09-25FIX:1.conda命令ADD：1.python调用r命令2.r系统配置2025-01-22更新VSCode调用Statado文件目录版本更新Python环境配置Cheatsheet基础配置可选：环境配置：conda命令包管理R环境配置基础配置R命令Python调用Method1:`rpy2`Stata环境配置基础配置P
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
python实现成语接龙 Camellia 泡泡笔记 python
first_idiom='万事如意'end_str=first_idiom[-1]new_li=[first_idiom]li=['发愤图强','笑容满面','意气风发','强颜欢笑']forindexinrange(len(li)):foriinli:ifend_str==i[0]:new_li.append(i)li.remove(i)end_str=i[-1]breakprint(new_l
数据结构——链表专项 seven——seven linux mailbox之线程邮箱数据结构链表算法
数据结构的总结1.定义一组用来保存一种或者多种特定关系的数据的集合（组织和存储数据）程序的设计：将现实中大量而复杂的问题以特定的数据类型和特定的存储结构存储在内存中，并在此基础上实现某个特定的功能的操作；程序=数据结构+算法高内聚，低耦合2.数据与数据之间的关系数据的逻辑结构：数据元素与元素之间的关系集合：关系平等线性结构：元素之间一对一的关系（表，队列。栈。。。）树型结构：元素之间一对多的关系（
Linux内核中的数据结构与算法（三）哈希链表木木0o0欧尼 Linux 链表数据结构 linux
四，哈希链表谈到链表就不得不谈Linux内核中另外一个重要的结构，哈希链表。讨论这个结构前，你需要对哈希的最基本的概念要清楚哦，由于我们已经讲过Linux内核中的普通链表的结构，这里我们对比他们的区别来了解哈希链表会直观一些。Linux链表认为双指针表头双循环链表对于HASH表来说过于浪费，因而设计了一套用于HASH表的hlist的数据结构，单指针表头双循环链表。hlish表头仅有一个指向首节点的
涛哥聊Python | borb，一个好用的 Python 库，处理 PDF 文件好帮手！双木的木 python拓展学习 python库 python 开发语言机器学习 pdf 人工智能深度学习
本文来源公众号“涛哥聊Python”，仅用于学术分享，侵权删，干货满满。原文链接：borb，一个好用的Python库！大家好，今天为大家分享一个好用的Python库-borb。Github地址：https://github.com/jorisschellekens/borbPythonBorb是一个用于处理PDF文件的Python库，它提供了丰富的功能和工具，使得PDF文件的创建、修改和解析变得更
python—计算学生成绩等级 2111339 彭传月 python
一、打开软件新建窗口输入代码#计算学生成绩等级is_continue='y'whileis_continue=='Y'oris_continue=='y':score=eval(input('请输入学生的成绩：'))ifscore>=90:print('A')elifscore>=80:print('B')elifscore>=70:print('C')elifscore>=60:print('D
CPU占用率飙升至100%：是攻击还是正常现象？群联云防护小杜安全问题汇总 ddos 安全 waf 服务器 cpu 占用被攻击
在运维和开发的日常工作中，CPU占用率突然飙升至100%往往是一个令人紧张的信号。这可能意味着服务器正在遭受攻击，但也可能是由于某些正常的、但资源密集型的任务或进程造成的。本文将探讨如何识别和应对服务器的异常CPU占用情况，并通过Python脚本示例，提供一种监控和诊断CPU占用率的方法。一、CPU占用率100%：攻击or正常？1.1攻击迹象持续性高占用：如果CPU占用率长时间保持在100%，且没
Angular中`trackBy`函数的独特性与性能优化 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在Angular项目中，优化性能是每一个开发者都需要考虑的问题。特别是在处理大数据量或动态变化的列表时，Angular的trackBy函数成为了我们手中的利器。然而，当我们面对多个列表使用相同trackBy函数时，可能会产生一些疑问：如果这些列表中的项有相同的ID，是否会影响Angular的变更检测？本文将详细探讨trackBy函数在这种情境下的表现及其带来的性能优化。trackBy函数简介tra
Python 成绩等级判定 Camellia 泡泡 python 笔记
score=int(input("请输入学生成绩:"))if90<=score<=100:grade="A"elif75<=score<=90:grade="B"elif60<=score<=75:grade="C"elifscore<60:grade="D"print("本次考试，等级为:",grade)运行结果：
【Python】PDFMiner.six：高效处理PDF文档的Python工具技术无疆 Python python pdf 开发语言 python3.11 人工智能数据挖掘机器学习
PDF是一种广泛使用的文件格式，特别适用于呈现固定布局的文档。然而，提取PDF文件中的文本和信息并不总是那么简单。幸好有许多Python库可以帮助我们，其中，PDFMiner.six是一个功能强大、专门用于PDF文档解析的库。⭕️宇宙起点什么是PDFMiner.six？主要功能安装PDFMiner.six♨️核心功能和代码示例1.提取PDF文档的纯文本2.从多个页面提取文本3.提取PDF中的表格内
25道Python练手题（附详细答案），赶紧收藏！_python题库字节全栈_rJF python 开发语言
importrandomasrdnumber=rd.randint(0,100)foriinrange(10):choice=int(input("请输入你要猜测的数字："))ifchoice>number:print("你猜大了")elifchoice0and5*x+3*y+z/3==100:count+=1print("="*60)print(f'第{count}种买法，公鸡买了{x}只，母鸡
python爱心代码高级 youyouxiong python 开发语言
在Python中，我们可以使用各种方法来绘制一个“爱心”形状。以下是一个使用turtle模块绘制爱心的高级示例。这个示例将使用更复杂的数学公式和图形操作来绘制一个更精致的爱心形状。importturtleimportmath#设置初始状态window=turtle.Screen()window.bgcolor("black")#设置背景色为黑色love=turtle.Turtle()love.sp
python画一个爱心戴子雯 python绘画 python
大家好这是我的地一篇博客，我要写一个关于python的文章我要用python写一个爱心。不说别的，先看效果效果如下：话不多说，上代码，在这之前要下载python下载这事咱们放在最后现在上代码！！！！！！！！！！！！！！importturtleastt.pensize(2)#笔大小2像素t.pencolor("red")#颜色为红色t.left
brew 安装pip_pip brew wget 安装 weixin_32612253 brew 安装pip
终端播放器安装教程从简书上看到一篇,终端实现网易云音乐的文章,并给出了一个github链接.心里有些痒痒,想看看是什么样子,于是尝试安装.安装过程中有些坎坷,记录以便以后查阅.程序实现是用Python写的.安装使用方式仅仅给了三行命令.安装$pipinstallnetease-musicbox$brewinstallmpg123使用$musicbox下载了源码后,不知道该如何安装.三行命令也是莫名
python实现绘制爱心函数（绘制过程） halo0416 python 开发语言
首先，确保已经安装了matplotlib库和numpy库。如果没有安装，可以通过pip来安装：pipinstallmatplotlibpipinstallnumpy了解心形函数公式：x(t)=y(t)=13cos⁡(t)−5cos⁡(2t)−2cos⁡(3t)−cos⁡(4t)定义函数：defheart_shape(t):x=16*np.sin(t)**3y=13*np.cos(t)-5*np.c
python 绘图（爱心） @小H python 开发语言
#-*-coding:utf-8-*-fromturtleimport*defcurvemove():foriinrange(200):right(1)forward(1)color('red','pink')begin_fill()left(140)forward(111.65)curvemove()left(120)curvemove()forward(111.65)end_fill()don
多种方法判断一个数是否为素数的实现与优化徐浪老师徐浪老师大讲堂数据结构算法
素数，又称质数，是一个在数学和计算机科学中非常重要的概念。它是大于1的自然数中，除了1和它本身，不能被其他数整除的数。本文将从最基础的方法讲解到优化算法，并提供完整的实现代码，帮助您高效地判断一个数是否为素数。一、素数的基础知识1.1素数的定义素数：一个大于1的正整数，只有两个正因子：1和它本身。例如：2、3、5、7、11等。非素数：大于1的数中，可以被除1和本身以外的数整除的数。例如：4、6、8
Mulvus向量库数据插入失败排查 Sirius Wu milvus
Mulvus是一个开源的向量数据库，要判断数据是否成功插入以及在插入失败时进行排查，可以参考以下方法：确认数据是否成功插入1.API返回结果在使用Mulvus提供的API插入数据时，API会返回相应的结果信息。以PythonSDK为例，插入数据的代码通常如下：frompymilvusimportconnections,Collection,FieldSchema,CollectionSchema,
代码随想录算法训练营DAY59｜110.字符串接龙、105.有向图的完全可达性、106. 岛屿的周长阿緑代码随想录打卡算法
110.字符串接龙fromcollectionsimportdequedeffindshortestpath(strlist,beginstr,endstr):que=deque()visited={}que.append(beginstr)visited[beginstr]=1result=0whileque:cur=que.popleft()result=visited[cur]foriinr
使用 Python 绘制爱心图形（高级版）徐浪老师徐浪老师大讲堂 python 开发语言
以下是一段使用Python绘制高级“爱心”图案的代码，结合数学公式生成精美的爱心形状，并附加一些交互式的效果，比如渐变颜色或动态展示：动态渐变爱心importnumpyasnpimportmatplotlib.pyplotaspltimportmatplotlib.animationasanimation#设置爱心的数学公式defheart_shape(t):x=16*np.sin(t)**3y=
2025计算机毕设全流程实战指南：Java/Python+协同过滤+小程序开发避坑手册启点毕设课程设计 java python 大四论文指南查重降重技巧毕业设计 spring
技术框架的选择是项目开发的关键起点，直接影响开发效率和最终成果质量。然而，许多开发者在选择技术框架时面临困难：现有知识储备不足以支撑复杂项目需求，团队经验有限，框架选择缺乏前瞻性常导致后期问题。尽管技术框架的选择过程充满挑战，但合适的框架能为项目开发和维护奠定基础，而不当的选择则可能带来持续的技术债务和开发困扰。所以，建议对项目技术框架把握不好的同学，最好是找自己的研究生学长或者老师详细的把关机技
石油储运生产 2D 可视化，组态应用赋能工业智慧发展智慧园区智慧城市 big data 人工智能大数据物联网网络
当前，国际油价低位徘徊导致各国石油化工行业投资大幅缩减，石油化工建设行业竞争环境日趋严峻，施工企业的利润空间也被不断压缩。内外交困的环境下，促使企业采取更有效的管理手段来提高效率和降低成本。石油工业大数据具有无限潜力与价值，将大数据与数据挖掘技术应用其中，不仅可以提升石油行业工业化水平，而且对其智慧化发展起到强有力的推动作用。图扑软件-构建先进2D和3D可视化所需要的一切图扑软件采用自主研发的HT
pycharm中使用anaconda部署python环境_pycharm部署配置anaconda环境教程 weixin_39796652
本篇文章小编给大家分享一下pycharm部署配置anaconda环境教程，小编觉得挺不错的，现在分享给大家供大家参考，有需要的小伙伴们可以来看看。pycharm部署anaconda环境Pycharm：python编辑器，社区版本Anaconda：开源的python发行版本(专注于数据分析的python版本)，包含大量的科学包环境基本指令(准备工作)：conda--version查看anaconda
基于NanoDet的无人机交通违规监控系统设计与实现深度学习&目标检测实战项目 NanoDet 无人机目标检测人工智能计算机视觉深度学习
1.引言随着无人机技术的发展，无人机在交通监控领域的应用逐渐增多。无人机能够提供空中视角，具有更高的视野覆盖范围，能够帮助交通管理部门实时监控交通违规行为。本博客将介绍如何使用NanoDet模型实现无人机交通违规监控系统，并结合PyQt5设计一个UI界面来实时展示检测结果。通过该系统，能够检测交通违规行为并做出实时预警，确保交通安全。本博客详细介绍了数据集的构建、模型的训练与推理、碰撞检测算法的实
python poetry添加某个git仓库的某个分支 waketzheng git
命令行不太清楚怎么弄，但可以通过编辑pyproject.toml实现实例：pypika-tortoise={git="https://github.com/henadzit/pypika-tortoise",branch="do-not-use-builder"}参考：WIPDonotcopypypikaquerybyhenadzit·PullRequest#1851·tortoise/torto
The following modules are *disabled* in configure script:_sqlite3 waketzheng python
Unabletoupgradepast3.6.9-#24byRosuav-PythonHelp-DiscussionsonPython.orgsudoaptinstalllibsqlite3-devcdPython-3.13.1./configure--enable-optimizations--enable-loadable-sqlite-extensionsmakesudomakealtins
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&