Toxic_皮

AlignNemo：一种融合同源和拓扑的局域网络对齐方法

摘要

局部网络比对是蛋白质-蛋白质相互作用网络分析的重要组成部分，可能导致进化相关复合体的识别。我们提出了一种新的算法AlignNemo，它在给定两个有机体的网络的情况下，揭示了与生物功能和相互作用拓扑相关的蛋白质子网络。所发现的保守子网络具有一般的拓扑结构，不需要对应于特定的相互作用模式，因此它们更接近于文献中提出的功能复合体模型。该算法能够通过扩展过程来处理稀疏的交互数据，该扩展过程在每一步都会探索超出与当前解决方案直接交互的蛋白质之外的网络的局部拓扑。为了评估AlignNemo的性能，我们使用统计方法和生物学知识进行了一系列基准测试。基于蛋白质复合体的参考数据集，AlignNemo在准确率和召回率方面均优于其他方法。通过将语义相似度的概念应用于基因本体论词汇表，我们证明了我们的解决方案在生物学上是合理的。有关AlignNemo的二进制文件以及有关算法和实验的补充细节，请访问：sourceforge.net/p/alignnemo。

绪论

在过去的几十年里，研究人员一直关注进化在基因组水平上的影响，即如何通过分析基因组序列来重构进化。最近，关于蛋白质-蛋白质相互作用的高通量数据的可获得性使人们能够通过比较不同物种的蛋白质相互作用图(也称为相互作用图)来观察进化变化[1-3]。该领域的目标包括识别物种间相互作用的保守模式，以及识别新的正交关系[4]。在这种情况下，已经开发了几种用于比较蛋白质-蛋白质相互作用(PPI)网络的算法，通常被称为网络比对算法。

网络比对问题有两个主要实例：全局比对通过搜索来自不同物种的一整套蛋白质和蛋白质相互作用的单一综合图谱来回答进化问题；局部比对搜索细胞机械的进化保守的构件，而忽略网络之间的总体相似性。图论中的形式主义提供了解决这两个问题的最佳框架。在这种形式下，PPI网络被表示为图(G)，图(G)的节点(V)是蛋白质，边(E)是它们之间的交互。蛋白质网络对齐问题被描述为一个图对齐问题，即在两个(成对的)或多个(多个)的图之间寻找相同或相似的子图。形式上：给定两个输入图G1~fV1，E1g和G2~FV2，E2g，G1和G2的对齐问题可以表示为寻找G1中的节点和G2中的节点之间的映射M(M：V？1？V？2，其中V？1(V1，V？2(V2))使定义在节点和边上的关联相似性函数最大化。对于全局对齐，M是网络的整组节点之间的映射。相比之下，对于局部对齐，M被定义为最相似的节点子集之间的映射集。本文针对PPI网络的局部比对问题，提出了一种在两个PPI网络中提取保守蛋白质复合体的方法。

蛋白质复合体在这里被定义为执行相似功能或参与相同生物过程的一组蛋白质。现有的检测蛋白质复合物的方法通常是基于这样的观察，即复合物对应于高度相互作用的蛋白质集合，因此他们在PPI网络中寻找稠密的子图。例如，两个版本的NetworkBLAST[5，6]都基于这样的假设，它们是从最初专注于保守路径的PathBLAST[7]演变而来的。在我们提出的方法中，我们寻找相对密集的节点组，即它们之间的交互比与网络的其余部分具有更多的交互，从而对复杂的拓扑施加不那么严格的约束。事实上，虽然拓扑是信息性，它通常被证明是不完整的，反映了对蛋白质的不统一知识[8，9]。几个假阴性的存在导致稀疏的图，甚至更稀疏的物种之间的保守相互作用集，使得只寻找稠密的子图的方法无法检测到保守的复合体。

有几种方法，如NetworkBLAST，依赖于在称为比对图的结构上搜索保守的复合体。比对图具有对应于成对的同源蛋白的节点和保守相互作用的边。为了处理丢失的信息，NetworkBLAST以及类似的方法引入了不那么严格的比对图定义，通过允许在原始PPI网络中的相应的直系蛋白质对距离小于或等于k(对于NetworkBLAST k~2)的情况下节点连接。然而，以这种方式，即使对于较小的k值，也可能向对齐图添加几个不可靠的链路，从而导致不正确的解。

表1.关于网络调整工具的概要。

Mawish方法[10]将网络对齐作为一个最大权导出子图问题，结合进化模型来评估拓扑相似性。虽然有效，但正如我们在实验中观察到的那样，这个模型可能过于严格，无法识别较小的保守结构，并且无法恢复较大的复合物。

其他算法，如Graemlin[11]及其新版本Graemlin 2.0[12]，通过允许搜索更一般的拓扑来推广以前的方法。这些方法提高了检测有意义的比对的能力，除了同源信息外，还使用了来自Inparanoid的蛋白质之间的同源关系[13]、KEGG途径注释[14]和已知的比对。然而，这些方法没有充分利用拓扑信息，因为局部比对步骤只检查每个节点的直接邻域，以贪婪的方式迭代地分组最佳邻域。

Punkee[15]在网络环境中考虑局部保守的子网络方面向前迈进了一步：在选择假设的同源序列集合之后，该方法同时探索所有相邻的蛋白质以寻找高度保守的相互作用集合。但是，所有交互都具有相同的可靠性，并且由Phunkee定义的网络环境不会超出直接交互的范围。最后，与这项工作的发展同时，一种新的方法，NetAligner[16]，设计了一个蛋白质组比对的算法框架。NetAligner引入了一种策略来识别进化保守的相互作用，这依赖于相互作用的蛋白质以比偶然预期的更接近的速度进化的原理。

虽然对可用于全局和本地网络对齐的算法的详细描述超出了本白皮书的范围，但表1中提供了有关可用工具的更广泛的概要。

我们在这里介绍一种方法，AlignNemo(对齐网络模块)，它通过为本地网络对齐提供一个通用而有效的框架来解决上述问题。AlignNemo通过不同的步骤进行操作，如图1所示。首先，它从输入网络构建加权对齐图。节点代表假定的同源蛋白质对，并与Inparanoid中一样进行评分，反映了绘制蛋白质对的置信度。相比之下，用一种新的方法对边进行加权，该方法考虑了输入网络中的本地连通性(参见方法)。然后，我们从对齐图中提取所有给定大小的连通子图，并根据节点和边上的权重对它们进行排序。排名靠前的完全连通子图将被用作对齐解的种子。最后，我们通过在每个步骤添加多个子图，以迭代的方式扩展每个种子。这使我们能够探索解决方案的网络环境，使其超越其直接邻居。在方法一节中提供了算法的正式描述。

该方法的主要贡献是：1)一种新的比对图边评分策略，它通过输入PPI网络在两个给定节点之间的路径集合来分析它们的结构，并估计它们的可靠性和局部重要性；2)一种新的迭代扩展过程，它从种子开始，在除直接交互之外的每一步探索比对图的局部拓扑。这种组合提供了一种新的方法来解释拓扑和同源性，并被证明在检测大量不同的蛋白质复合物时被证明是有效的，而不依赖于它们的大小或连接度。

在下一节中，我们展示了酿酒酵母、黑腹葡萄球菌和智人PPI网络的比对结果作为原理的证明。我们证明了我们的比对比其他方法具有更好的拓扑和生物学质量。结果的质量通过不同的方法进行评估：首先，我们通过准确率和召回率的衡量，展示了AlignNemo恢复已知蛋白质复合体的能力；然后，我们将语义相似度的概念应用于Gene Ontology词汇，证明了我们的解决方案在生物学上是合理的；最后，我们表明，即使在该方法施加的限制较少的情况下，所提取的模块也保持了高连通性。

详细讨论了具有代表性的复合体，并提供了与诸如NetworkBLAST、MAWISH和NetAligner等局部比对工具的比较，作为该软件可用和当前维护的仅有的复合体。我们选择NetworkBLAST和MaWish进行主要分析，因为它们可用于用户定义的输入数据，而我们分别比较了AlignNemo和NetAligner，因为我们根据其自己的数据和交互概率运行后者。Http://www.bioinformatics.org/alignnemo.上提供了AlignNemo以及本文中使用的适当文档和数据集

结果和讨论

在这一部分中，我们评估AlignNemo，NetworkBLAST和Maish在黑腹果蝇(果蝇)，酿酒酵母(面包师酵母)和智人(人类)的公共可用数据集上的性能。我们在相同的数据集上运行这些方法，每个算法产生一组可能重叠的解决方案或模块。模块M是包含来自两个输入网络的一组蛋白质对的比对图的子图。我们将M中来自网络G1和G2的蛋白质集分别称为MG1和MG2。

从同调和拓扑的角度对每种方法的解进行了评估和比较。首先，我们证明了AlignNemo能够以较高的精确度和召回率重现已知的蛋白质复合体。然后，我们将语义相似度的概念应用于基因本体论词汇，证明了来自不同物种的蛋白质之间的联系在生物学上是合理的。最后，我们偶然地证明了我们的解比预期的更紧密地联系在一起。在本节结束时，我们将重点介绍几个具体的案例，以突出每种方法的缺点和优点。

输入数据

黑腹葡萄球菌和酿酒酵母的蛋白质-蛋白质相互作用来源于相互作用蛋白质数据库(DIP于2011年10月27日更新)[17]。在果蝇中包括7,548个蛋白质和22969个相互作用；在酵母中包括5,053个蛋白质和22254个相互作用。用Inparanoid[13]从这两个网络中筛选出10045对可能的同源蛋白，其中酵母蛋白1,878个，果蝇蛋白1,511个。智人PPI网络来自嬉皮士数据库[18]；它包括来自17个不同来源的12113个蛋白质和78559个加权相互作用。从Gerstein实验室获得了一组假定的人和苍蝇的同源蛋白对[19]。

这些数据集集成了多个来源，并包括来自不同方法的交互，包括高通量和小规模实验。为了说明这种多样性，我们为每条边分配了可靠性分数。对于来自DIP(果蝇和酵母)的两个网络，我们采用了[20]中定义的最大似然估计程序来评估通过相同的实验程序确定的蛋白质相互作用的可靠性。该方法基于不同时间点的基因表达谱的相关性是评价PPI可靠性的良好特征：相互作用的蛋白质通常表现出很高的相关值。在应用这一方法时，我们将未知相互作用的随机蛋白质对视为真正的非相互作用蛋白质，将由小规模实验确定的相互作用视为真正相互作用的蛋白质，从这两个集合估计各自的相关系数分布。对于酵母蛋白，我们使用了SGD数据库[21]中报告的一组表达谱，并为DIP中描述的每种实验方法和它们的组合分配了置信度分数。苍蝇相互作用的分数是基于给定的实验方法在不同生物体中同样有效的假设来计算的，因此基于酵母数据的置信度分数被转移到苍蝇相互作用中。人类蛋白质相互作用网络的可靠性分数可以通过网络服务器HIPIE获得。

图1.AlignNemo概述。给定两个输入PPI网络(1)，构建对齐图，并为其节点和边(2)分配分数。然后，从对齐图(3)中提取种子，即具有大量高得分链接和节点的小的子图，并且通过添加通过可靠的链路(4)相对良好地连接到每个种子的小的子图，以贪婪的方式扩展每个种子。Doi：10.1371/Joural.pone.0038107.g001

已知络合物的检测

我们通过评估每种方法找到的模块与已知配合物的一致性来评估结果的质量。给定一个模块和一个已知的复合体，我们计算了信息检索中两个广泛使用的度量：精确度(P)和召回率(R)。精确度定义为模块中也存在于复合体中的蛋白质的百分比；召回率定义为复合体中也存在于模块中的蛋白质的百分比。为了将这些度量集成到单个分数中，我们计算F1分数函数，该函数被定义为准确率和召回率的调和平均值。从形式上讲，这些措施的定义如下：

其中Tp是真阳性的数量，即在溶液中发现的也在复合物中的蛋白质的数量。类似地，fp和fn是假阳性和假阴性的数量。F1-得分范围在[0，1]区间内，1对应于完全一致。在我们的分析中，我们从给定的算法中匹配物种Gito的所有模块MGi中的每个已知复合体，并选择F1得分最高的模块作为最佳匹配的模块。

为了评估酿酒酵母和黑腹葡萄球菌的比对结果，我们参考了CYC2008中的复合物[22]，这是一个来自小规模实验和文献挖掘的408个酵母蛋白复合物的综合目录。为了对黑腹毛虫和智人进行比对，我们参考了CORUM[23]中的复合体，这是一个包含1682个人类蛋白质复合体的数据集。我们观察到28%的CYC2008和CORUM复合物仅由2或3个蛋白质组成(CYC2008为132个蛋白质，CORUM为474个蛋白质)。这可能是有问题的，因为对于这样小的综合体来说，统计指标往往很难解释。为此，我们将我们的分析限制在至少含有4个蛋白质的复合物上，但同时我们验证了每种方法回收小复合物(2-3个蛋白质)的能力。我们考虑了一个小的复合体，如果它的至少2个蛋白质与一个比对溶液重叠，不包括超过20个节点的溶液，就可以恢复。在表2中，我们总结了四种算法的性能。在表格中，我们列出了每个算法找到的模块的数量，其中还列出了高质量模块的数量，即那些与F1得分大于0.3的已知复合体匹配的模块。AlignNemo、Mawish和NetworkBLAST获得的F1分数的总体分布通过各自的内核密度分布进行估计，如图2(A-B)所示。在图2(A-B)中，我们还分别报告了每种方法在查准率和召回率方面的性能。NetworkBLAST和AlignNemo在酵母-苍蝇比对上都表现得更好，后者的准确率和召回率总体上都更高。马维希找到的小解一般都有很高的精度。

F1分数的完整列表，以及精确度和召回率的衡量标准，都可以作为补充材料(表S1)。对于每一场比赛，我们还报告了经多次检验校正后的Fisher精确检验得出的p值。AlignNemo在恢复已知复合体方面明显优于其他方法，显示出高质量模块的最高百分比。应该注意的是，虽然Mawish对于飞人对齐的性能类似地很好，但是由该方法产生的大多数模块都具有小尺寸，具体地说，90%的模块只由2个节点组成。

物种间的蛋白质定位

在上一节中，我们展示了AlignNemo能够概括已知的蛋白质复合物，并且检测到的保守子网络通常反映了每个单一物种中的已知生物学。另一方面，不同物种间蛋白质图谱的质量有待进一步评价。我们根据功能相似性来评估所发现的映射的生物学相关性，即我们确定来自两个生物的匹配蛋白质在功能上相关的程度。

这种分析需要使用编码到本体论中的先验生物学知识。我们选择基因本体论(GO)框架及其注释来确定来自不同物种的两个蛋白质之间的功能相似性，使用语义相似性的概念[24]。在我们的分析中，我们使用GO中的生物过程(BP)和分子功能(MF)本体的注释集计算了每个解决方案的语义相似度。我们在这里仅报告BP的结果，因为这个本体更紧密地反映了蛋白质复合物作为参与特定过程的亚细胞单元的想法。表S2中报告了完整的结果。

给定两个蛋白质p1和p2及其GO(P1)和GO(P2)组，Resnik相似性度量[25]用于用GOI[GO(P1)和GOJ[GO(P2)]对每对(GOI，GOJ)进行评分。根据Resnik度量[26]，p1和p2的语义相似度被定义为围棋(P1)和围棋(P2)中的每个围棋术语的最佳匹配得分的平均值。使用工具FastSemSim[27]计算语义相似度。

我们总共测试了AlignNemo的356个解决方案，其中85%的解决方案含有5到15个蛋白质，最大的93个蛋白质；NetworkBLAST的362个解决方案，每个包括5到15个蛋白质，后者是该方法施加的限制；以及Mawish的260个解决方案，每个包括2到6个蛋白质。鉴于检测到的子网的大小存在显著差异，我们在图2(C-D)中分别针对小复合物(v7蛋白质)和大复合物(§7蛋白质)显示了这三种方法获得的结果。

对两种蛋白质网络比对的结果表明，三种算法在语义相似性方面的性能相似，而对于H.sapiens-D.Blackogaster蛋白质的比对性能更好。

表2.AlignNemo、MaWish、NetworkBLAST和NetAligner的比较。

不是的。OF S：解数；M.S：匹配解；S.C.R：回收的小复合体。每种算法找到的解的数量(No.。(S.)。分别列在第2栏和第5栏中，分别用于酵母-苍蝇和苍蝇-人的比对。与至少一个已知复合物匹配的溶液的数量在列3和列6(M.S.-匹配解决方案)中针对每个比对进行报告。尺寸§4的复合物的高质量匹配数汇总在第4栏和第7栏(F1w0：3)，而回收的小复合物(2-3个蛋白质)的数量在第5栏和第8栏(S.C.R.-回收的小复合物)。Doi：10.1371/Joural.pone.0038107.t002

守恒模的拓扑

在这里，我们分析了所得解的拓扑结构。正如在引言中所讨论的，蛋白质复合物通常由紧密相互作用的蛋白质组成。然而，最近关于PPI网络中复合物的模块性和组织的研究结果表明，它们往往由一个紧密连接的核心和一个连接强度较低的一组蛋白质定义的附着组成。后者通常存在于多个复合物中，并且允许潜在功能的多样化[28]。

根据这个模型，AlignNemo寻找相对紧密连接的蛋白质，即它们之间的相互作用比网络的其余部分更多的蛋白质，而不是对候选解决方案的拓扑施加严格和固定的限制。

我们现在想测试这一策略是否会危及我们检测密集连接核心的能力，包括我们的解决方案中不太可能是真正的蛋白质复合物的稀疏子网络。为此，我们为每个PPI网络生成1000个随机网络，保持它们的节点度分布，然后我们评估每个模块的连通性，即边数，在原始PPI网络和随机集合中。因此，对于每个物种和每个解决方案，我们估计其连通性的背景分布。我们使用Z分数来量化实际网络中观察到的连通性Ci与这样的背景分布的偏差：

其中c crand值是随机集合中这组蛋白质的平均连接性，并显示其标准偏差。

首先，我们分别测试由每个解决方案定义的两组蛋白质，每个物种一个，然后，我们将获得的两个之间的最大Z分数与每个解决方案相关联。通过这种方式，我们也解释了一个物种中相对连接较差的蛋白质，而另一个物种中相应的同源基因是密集相互作用的。从该背景分布中经验地为每个模块导出p值，并且它由在所有可能的网络上导致测试模块的Z分数更大或相等的随机网络的数量给出。有趣的是，我们发现95%的解决方案，包括人-蝇和酵母-蝇的比对，都显示出比随机网络中观察到的显著更高的连接性。

总而言之，AlignNemo在正确检测单个物种内的蛋白质复合体方面优于Mawish和NetworkBLAST，因为它们之间存在相互作用和同源关系。此外，不同物种之间的蛋白质映射在生物学上是合理的，正如同一模块中蛋白质之间的平均语义相似性所证明的那样。最后，尽管AlignNemo没有对模块拓扑施加严格的限制，探索蛋白质复合体的不太强连接的组件，但提取的子网的连接密度比预期的要高。

图2.AlignNemo、NetworkBLAST和Maish的比较。根据在S：Cerevisiae(CYC2008)和H：Sapiens(Corum)中恢复已知蛋白质复合物的情况，对这三种算法进行了评估。与已知复合体匹配的解决方案通过精确度、召回率和F1得分进行评分。获得的每种方法的分数分布被绘制在图(A)中(酵母-苍蝇比对)和图(B)中，用于人-蝇比对。面板(C)和(D)显示了来自不同物种的蛋白质之间的平均语义相似性，这些蛋白质由每种溶液绘制而成。每个解由一个半径与解的大小成正比的圆表示。每种方法的解决方案的大小差别很大，因此分别显示了小的(7个节点)和大的(§7个节点)解决方案。*百分比是指通过至少一种方法匹配的复合体集合。Doi：10.1371/Joural.pone.0038107.g002

与NetAligner的比较

NetAligner依靠一种新的算法方法，基于来自不同物种的蛋白质之间的蛋白质序列相似性，计算与保守相互作用相关的概率。给定两对假定的同源基因，NetAligner通过考虑两对同源基因之间进化距离的差异来评估它们共享保守相互作用的可能性。我们在不同的配置和输入数据下测试了NetAligner，包括工具提供的原始蛋白质组和同源性。根据我们的分析，NetAligner在使用预测可能守恒的相互作用设置以及其参考论文[16]中建议的参数时，性能最佳。NetAligner在其自己的数据集上提取更大、更可靠的比对集合。因此，我们决定比较AlignNemo和NetAligner各自在自己的数据集上运行。

当溶液与参考复合物(CYC2008和CORUM)匹配时，两种方法的执行情况相似(参见图3和表2)。AlignNemo再次显示S：Cerevisiae-D：Blackogaster排列的整体性能更好。在H：SAPINS-D：Blackogaster比对中，NetAligner找到了一组得分更高的小解决方案，但同时由一个包含463个节点的非常大的解决方案产生了几个匹配，从而导致高召回值，尽管精确度接近于零(图3)。

守恒复合体

在这一部分中，我们特别关注CYC2008和CORUM的几个复合体，以更好地剖析不同方法的性能。这里讨论的案例包括一个小的复合体，Arp2/3，以及两个相对较大的复合体，TFIID(通用转录因子)和20S蛋白酶体，它们具有不同水平的连接性。在表3中，我们报告了这些复合物的蛋白质在H：Sapiens和D：Blackogaster网络比对中被AlignNemo、NetworkBLAST和Mawish之间的至少一个正确结合和恢复的蛋白质。对于转录因子TFIID和Arp2/3复合物，AlignNemo根据F1得分和语义相似性都表现得更好。在检测20S蛋白酶体时，AlignNemo和NetworkBLAST的酵母-苍蝇比对召回率相当，但AlignNemo的准确率更高。此外，AlignNemo在人与苍蝇对齐方面显示出卓越的性能。使用GOTermFinder[29]计算了我们解决方案的显著丰富的GO类别，并在表S3中进行了报告。在这两个比对中，AlignNemo的跨物种语义相似性较高，表明生物质量有所改善，具体内容如下所述。

转录因子TFIID复合物

RNA聚合酶(I、II和III)催化核基因的转录，依赖普通转录因子识别目标启动子，特别是RNA聚合酶II依赖TFIID复合物启动转录。通用转录因子TFIID主要由TATA盒结合蛋白(TBP)和一组跨物种高度保守的TBP相关因子(TAFII)或亚基组成[30]。

AlignNemo在发现这一复合体方面优于现有的方法：它在19个节点的溶液中发现了9种TFIID蛋白质；它正确地将人类蛋白质映射成与两个生物体中同一亚单位相对应的飞行蛋白质(见表3)。Mawish的特点是只有2个节点的解决方案，也包括在我们的比对中，而NetworkBLAST返回的10个节点的解决方案与属于TFIID复合物的4个蛋白质对相匹配。

由于该复合体的高度连接性，AlignNemo和NetworkBLAST解决方案超出了CORUM中定义的TFIID复合体的范围。为了进一步验证这些溶液的质量，我们对其中的所有蛋白质进行了GO项的富集测试。我们发现在AlignNemo‘s溶液中17个飞行蛋白中的16个和19个人蛋白中的18个具有相同的GO条件，包括RNA聚合酶II启动子(PFLY~1：21E{23，phuman~8：16E{18)的转录。相比之下，NetworkBLAST的解决方案只报告了两个网络中具有共同和特定生物学作用的10个蛋白质中的4个(参见表S3)。

Arp2/3复合体由7个单位组成，在肌动蛋白细胞骨架的调控中起重要作用。它是肌动蛋白细胞骨架的主要组成部分，在大多数含有肌动蛋白细胞骨架的真核细胞中都有发现[31]。

有趣的是，在最初的PPI网络中，这些蛋白质之间的连接水平差异很大，从在人类中发现的17种相互作用到在D：Blackogaster中没有发现的相互作用。不完整的信息使这一复杂的恢复变得特别困难。事实上，只有AlignNemo能够在H：Sapiens和D：Blackogaster中鉴定到这个保守的复合体，而NetworkBLAST和Maish都没有与之重叠的任何解决方案。表3列出了在AlignNemo溶液中发现的正确检测到的同源蛋白。所有4个都标注有肌动蛋白微丝聚合功能GO项的调节(PFLY~3：07E{08和Puman~1：24E{09)。这个案例很好地指出了考虑保守路径(而不仅仅是直接交互)来补充一个网络中缺失信息的重要性。

图3.AlignNemo和NetAligner的比较。这两种算法在恢复S：Cerevisiae(CYC2008)和H：Sapiens(Corum)中的已知蛋白质复合物方面进行了评估。与已知复合体匹配的解决方案通过精确度、召回率和F1得分进行评分。Doi：10.1371/Joural.pone.0038107.g003

表3.Arp 2/3、TFIID和20S蛋白酶体复合物的最佳匹配溶液的比较。

20S蛋白酶体复合体

20S蛋白酶体是存在于几种生物体中的一种大型蛋白质复合体，特别是在这里研究的所有三种生物体中。根据CYC2008和CORUM的研究，20S蛋白酶体在酵母中由14种蛋白质组成，在人类和苍蝇中由16种蛋白质组成。络合物的拓扑结构相对密集，相互作用可靠。

对于S：Cerevisiae-D：Black ogaster网络比对，三种方法的召回值都相当；至于精确度，NetworkBLAST因为在复合体之外发现了几个蛋白质，所以得到的值要低得多。另一方面，AlignNemo在识别H：Sapiens-D：Blackogaster网络比对中的20S蛋白酶体复合体方面优于其他方法(参见表3)。事实上，它正确地选择了人类20S蛋白酶体的11个蛋白质和苍蝇的12个蛋白质，而NetworkBLAST在两个网络中只发现了4个人和5个果蝇的蛋白酶体和2个蛋白酶体。

方法

AlignNemo旨在识别不同物种的PPI网络之间保守的蛋白质模块或复合物。搜索保守模块是在比对图上执行的，由三个主要步骤组成。

首先，根据输入网络构造对齐图。比对图中的每个节点对应于一对假定的同源蛋白，来自Inparanoid的分数被用来对每个节点进行加权。根据计分策略对对准图的每条边进行加权，该计分策略结合了关于在输入网络中连接其端点的路径的数量、可靠性和局部重要性的网络上下文信息。该策略通过辅助结构(联合图)来实现，该辅助结构对该方法的整体性能至关重要。
其次，从对齐图中提取所有连通的k-子图(这里是k~4)，并根据结点和边的权重进行评分。排名靠前的全连通k-子图将被用作对齐解的种子。
第三，通过探索当前解的超出其直接邻居的局部邻域，以迭代的方式扩展每个种子。具体地说，我们定义了一个扩展过程，该过程在每个步骤添加所有通过可靠交互与当前解决方案(而不是网络的其余部分)连接更紧密的子图。

这一方法与最近关于网络中复合体的模块性和组织的研究结果一致，根据该发现，PPI网络中的复合体往往由核心部分和附件组成。核心被定义为一小群功能相似并具有高度相关的转录图谱的蛋白质。核心被连接程度较低的蛋白质所包围，这些蛋白质是限定的附着体，存在于多个复合体中，允许潜在功能的多样化[28]。这种多样化在我们的解决方案结构中得到了很好的反映。实际上，如前几节所示，我们确定了几个重叠的模块，而不是没有交集的独立子网。

对齐图

比对图GA~(VA，EA)是一个加权图，图中的节点代表成对的同源蛋白质和边守恒的相互作用。如前所述，对齐图的现有定义在两个节点之间设置边的方式上有所不同。大多数表示都利用了来自输入的有限数量的拓扑信息，因为它们几乎丢弃了几乎所有没有参与同源关联及其交互的节点。

我们的目标是构建一个尽可能多地考虑这两个网络结构的比对图。我们设计了一种新的比对图边评分策略，该策略综合了原始网络中存在的拓扑信息，即两个节点之间长度小于等于2的路径的数量、可靠性和重要性。通过引入一种称为并图的辅助结构，该策略得到了最好的描述和实现。比对图的构建和评分包括三个步骤：(I)将所有输入的网络数据合并到并图中，(Ii)对并图进行处理以生成原始的比对图，最后(Iii)对原始的比对图进行一些剪枝操作，以去除噪声，提高整体计算速度。

并集图

联合图的目的是在不丢失信息的情况下将所有输入数据合并到单个图中。给定两个加权网络G1~(V1，E1)和G2~(V2，E2)，以及G1和G2的节点之间的一组同源关联H~(u，v)，u[V1，v[V2fg]，并图U(G1，G2，H)包含两种类型的节点：(I)表示由H列出的同源蛋白质对的复合节点，以及(Ii)表示不具有同源的两个输入网络的蛋白质的简单节点。包含在输入网络之一中的任何边通过在所有对应节点对之间添加边来表示在并图中，所述对应节点可以是简单的，也可以是复合的。正式地：

定义1.并图U(G1，G2，H)~(VU，Eu)是具有如下结构的图：

假设E1和E2的每个边e用可靠性分数w(E)标记，并且每个关联k[H用可靠性分数w(K)标记。则U(G1，G2，H)中的边(i，j)被分配由输入网络中的对应边的分数给出的分数w(i，j)；唯一的例外是当i和j都在VC中时，即，它们是合成节点，并且在两个输入网络中都有对应的边，在这种情况下，w(i，j)是两个原始边的分数之和。

图4给出了一个联合图的结构示例。

图4.联合图的示例。联合图既包括表示来自两个物种的同源蛋白对的复合节点(浅蓝色节点)，也包括表示在另一个网络中没有同源的蛋白质的简单节点(红色和绿色节点)。类似地，复合交互(黑边)和仅存在于一个物种中的交互(红边和绿边)都出现在并集图中。

原始对齐图

对齐图GA~(VA，EA)可以看作是联合图的一个简化版本，在联合图中，如果两个结点之间至少有一条长度小于等于2的路径，则只保留合成结点，并由一条边连接两个结点。长度为2的路径的中间节点可以是简单的，也可以是复合的。对齐图定义中最重要的部分包括边评分策略，该策略通过考虑连接并图中满足特定标准的两个节点的所有路径来总结并图的局部拓扑。这一策略是基于这样的假设，即通过大量路径连接的同源蛋白很可能在功能上是相关的。因此，两个节点之间的每条路径都提供了它们相关性的附加证据。

在并图中考虑距离不大于2的节点对的选择似乎是合理的。一方面，仅考虑直接连接的节点对不适合于对进化中的远距离物种进行比对，并且对原始PPI网络中的缺失交互不具有健壮性。另一方面，我们的实验表明，在距离大于2的节点对之间添加边会显著增加对齐图的边数，而不会在结果质量方面提供任何好处。必须注意，联合图中长度为2的一些路径是虚假的，即它们不对应于输入网络中的路径。这样的路径在我们的分析中被忽略了。

长度为2的路径(以下称为间接路径)由于原始PPI网络中缺少交互而起主要作用。然而，并不是所有的间接路径都具有相同的意义。具体地说，间接途径可能通过高度或松散相互作用的蛋白质。如果节点在并图内高度交互，则两个节点通过它通信的概率很高。此外，组成不同路径的边可以具有不同的置信度分数，并且可以表示保守或非保守的交互。

为了将所有这些观察结果考虑在内，我们设计了一个基于贾卡德指数的新分数[32]。对齐图中的每条边EA~(a，b)基于连接a和b的长度为2的路径的数目进行评分。GA的两个节点a和b之间的边的最终分数由两项之和给出：直接贡献S1和间接贡献S2。直接贡献被评估为联合图(如果存在)中连接a和b的直接路径(a，b)的分数除以将a或b连接到联合图中的任何其他复合节点的所有直接路径的分数之和的比率。类似地，间接贡献被评估为联合图中连接a和b的长度为2的路径的分数除以将a或b连接到联合图中的任何其他合成节点的所有长度为2的路径的分数之和。形式上，我们将连接两个复合节点的路径集合定义为它们的扩展局部交互体，并导出如下分数：

定义2-扩展局部互动(ELI)评分。设w(a，b)表示并图中连接节点a和b的边的分数(w(a，b)~0，如果(a，b)=[ea)，且w(Pab)~w(a，i1)z…zw(ik{1，b)是连接a和b的长度为k的路径的分数)，则如果Ek(A)是连接a到距离为k的邻居的路径的集合，并且w(Ek(A))是与

这种计分策略的力量依赖于它再次考虑对齐节点的局部邻域的能力：虽然像NetworkBLAST或Maish这样的方法允许间隙或失配来连接对齐图中距离为2的保守蛋白质，但我们考虑到连接保守蛋白质对的整个路径集及其可靠性。

图4中给出了一个示例，其中为简单起见，我们假设每个实心黑色边缘具有分数1，并且仅存在于第一或第二网络中的每个边缘分别具有分数0.5和0.2。考虑标记为a和b的节点。连接a和b的直接路径的得分为w(a，b)~1。节点a有3个通过守恒边连接的复合节点，有1个通过非守恒边连接的复合节点。节点B具有通过守恒边连接的3个复合节点，以及通过未配对的边连接的0个复合节点。因此，直接路径的贡献是：

A和b评分之间有3条间接路径，分别为(0：2z0：2)~0：4、(0：5z0：5)~1、(0：2z1)~1：2，节点a有6条间接路径连接到其他组合节点，总分为7.6。节点B有7条间接路径将其连接到其他复合节点，总分为8.2。因此，i和j之间的间接路径的贡献为

修剪并集图

由上述构造产生的对准图趋向于非常密集，其边分数分布在很大范围的值上。因此，在对准过程的下一步骤中，为了简化对齐图并降低计算成本，必须去除可靠性较低的边。查看边缘分数的分布时，会出现两个有趣的事实：

很少有边的得分明显高于其他边。
边分数在对齐图的不同区域之间差别很大，并且受拓扑特征(例如相互作用密度)的影响。因此，基于全局阈值修剪边可能不合适。

根据这两个观察结果，我们设计了一种剪枝策略，一次处理与同一节点关联的所有边，并且只保留局部高得分的边。使用了一个简单但有效的规则：

对于每个节点x[GA，设Eli(x，y？)~Maxy[N(X)(Eli(x，y))]。对于给定的常数t，所有边(x，y)，y[N(X)，得分为Eli(x，y)vtELi(x，y？)。都被删除了。

该修剪策略可通过改变阈值t来调整，从而允许创建更密集或更稀疏的网络。在我们的试验中，我们使用了t~0：5。修剪阈值t在0.3到0.7的范围内进行了测试，得到了相似的结果。这是意料之中的，因为入射到同一节点的高得分和低得分边之间的距离是尖锐的，如图5所示。另一方面，不修剪低得分边(t=0)会引入大量的虚假边。实际上，此过程的应用大大减少了对齐图的边数。

处理多个同源基因。同源关联通常是多对多的，与许多假定的同源基因相关的蛋白质将在比对图中显示为多个节点。当这些蛋白质被多次包含在同一溶液中时，这就变得至关重要，从而降低了最终图谱的准确性。

我们提出了一种策略，利用网络的拓扑结构来校正连接多个同源关联的节点的边的权重。假设y1，y2，？？，yk，yi~(u，vi)，是GA的节点，对应于同一节点u[V1，其中k个节点V1，？，V2的多个关联。此外，假设y1，y2，？？，yk都与对齐图中的节点x相邻。我们希望在这些可能冲突的关联中识别最可能对应于与x的真实交互的关联。我们根据边(x，y1)、(x，y2)、：：、(x，yk)的得分S(x，yi)对边进行排序，并用r(x，yi)表示边(x，yi)在排序列表中的等级。然后，我们通过将每个分数除以其排名来更正它：

此修正降低了边的权重，得分最高的边不受影响。如上所述，我们在修剪边缘之前应用了此过程。我们观察到在解的质量和计算成本方面都有了显着的改进。为简单起见，在手稿的其余部分，我们将把这个修正后的分数称为Eli。

表4报告了针对S：Cerevisiae-D：Blackogaster和H：Sapiens-D：Blackogaster网络比对产生的比对图的统计数据。

表4.并集图和对齐图大小的统计数据

对于对齐图，考虑两种情况：当由于多个正交(如在我们的实验中)而存在对分配给边的权重的校正时，以及当不应用该校正时。

种子生成

种子由固定大小为k的比对图的一个小的子图组成，即k-子图。首先，从遗传算法中提取所有的k-子图，允许节点和边的任意重叠，然后选择不重叠的得分最高的子图作为种子，其余的只用于迭代扩展。我们在所有的实验中都设置了k~4。

枚举具有任意重叠的所有k个子图可能是耗时的，因为即使从稀疏网络中也可能提取大量的小的子图。为了优化提取过程，我们实现了一个简单的启发式算法，以避免对同一实例进行多次计数，从而使每个子图只被找到一次。确切地说，我们首先对图O：va？n的节点施加任意顺序，然后通过迭代地查看图中距离u小于k的节点NK(U)来提取包含节点u的所有子图，使得对于每个v[NK(U)，O(V)Wo(U)。

我们基于每个k-子图组件(即节点和边)的单独分数来给每个k-子图分配分数。确切地说，给定对齐图GA的一个子图g，并分别用VA(G)和EA(G)表示该子图g的节点和边集，我们定义：

其中，w(K)表示两个相关蛋白质是同源的置信度，S(i，j)是如上定义的比对图中的边(i，j)的分数。

图5.关联到节点的边根据它们的得分进行排序。曲线上绘制的值是与节点关联的相同等级的边的分数在对齐图的所有节点上的平均值。为了具有可比较的值分布，我们选择至少有100条边的并集图上的所有节点。黑色曲线对应于具有1578个节点的人-蝇比对图，而红色曲线对应于具有9325个节点的酵母-苍蝇比对图。与对齐的网络无关，分数呈指数级递减，使得修剪步骤既重要又有效。

发现模块

一旦所有的k-子图都被提取和评分，算法就会根据它们的得分对它们进行排序，并选择得分最高的一个作为种子。该算法从种子开始，迭代地扩展候选解。该算法由若干扩展步骤组成。在每个扩展步骤中，与模块相邻的所有k-子图(即与其共享至少一个节点)被认为是扩展的候选。将满足特定要求的所有k-子图添加到模块，从而在每个步骤将一个或多个k-子图添加到当前模块。

选择要添加到模块中的k-子图是该方法的一个关键点，我们需要在这里提供一些定义。在下面，我们用IE(V)表示关联在节点v上的图GA的边集，用IEG(V)表示关联在节点v上的子图g的边集。最后，对于T的子集S，我们用T\S表示T的不在S中的元素的子集。给定当前模M、候选子图g和对齐图N~GA\Fm的剩余部分gg，关联在节点v[g]上的边集可以根据其被分成子集。正式地：

首先，我们定义了一个与模紧密相连的k-子图，如果

紧连通子图始终添加到模块中。如果连接到模块的链路比连接到网络其余部分的链路更可靠，则连接松散连接的子图。

使用上面介绍的符号，对于给定的k-子图g，我们定义：

将g连接到模的边的权重之和，以及将g连接到网络的其余部分的边的权重的和。如果满足以下条件，则将g添加到模块中：

在扩展阶段结束时，所有接受的k-子图立即被添加到模块。重复这一过程，直到不能再添加更多的k-子图，因此我们不会对可获得的复合体的大小设置上限。另一方面，我们要求我们的解决方案至少有5个节点，种子的大小(4个节点)和至少要完成一个扩展步骤的要求施加了限制。值得注意的是，通过k-子图而不是一次一个节点来扩展模块不仅对方法的良好性能至关重要，而且也是考虑蛋白质与其直接邻居之间的多重依赖的关键。

你可能感兴趣的:(复杂网络)

网安学习NO.12
下一代防火墙（Next-GenerationFirewall，简称NGFW）是在传统防火墙基础上发展而来的新一代网络安全防护设备，其核心目标是解决传统防火墙在复杂网络环境（如云计算、移动办公、加密流量激增等）中“防护维度不足、威胁识别滞后、功能单一”等痛点，通过融合多元安全能力，实现对网络流量更精准、更智能、更全面的管控与防御。一、下一代防火墙与传统防火墙的核心差异传统防火墙主要依赖“端口-协议”
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
国际刑事法院ICC遭遇复杂网络攻击
攻击事件概况国际刑事法院（ICC，InternationalCriminalCourt）正在调查一起上周发现并成功遏制的复杂网络攻击事件。2025年6月30日，该机构正式宣布遭受了具有针对性的高级网络攻击，其防御系统及时发现并控制了事态发展。国际刑事法院在声明中表示："上周晚些时候，国际刑事法院检测到一起新型、复杂且具有针对性的网络安全事件，目前该事件已得到控制。这是近年来国际刑事法院遭遇的第二起
【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(4)Pytorch实战 IT古董人工智能课程深度学习神经网络 pytorch
第三章:神经网络原理详解与Pytorch入门第二部分：深度学习框架PyTorch入门第四节：Pytorch模型构建内容：如何搭建复杂网络以及如何修改模型与保存一、构建复杂神经网络结构在PyTorch中，构建复杂模型通常通过继承nn.Module类，分模块组织层与前向传播逻辑。示例：自定义一个卷积神经网络（CNN）importtorch.nnasnnimporttorch.nn.functional
HCIE数通认证难不难？通过率如何？
揭秘华为顶级网络专家门槛风浪越大，鱼越贵——HCIE数通正是ICT领域那尾“金枪鱼”一、HCIE数通：华为认证体系的“金字塔尖”1.作为华为认证最高级别，HCIE-Datacom专为培养数据通信领域专家设计2.能力要求，掌握大中型复杂网络的规划、部署、运维及优化能力，支持云、存储、语音等融合业务3.技术深度，覆盖VXLAN、EVPN、SRv6、堆叠/集群等前沿技术，新增智简园区（iMasterNC
python网络仿真模拟_复杂网络仿真工具networkX的环境搭建（Windows环境）
写这篇文章的目的是希望没有编程经验的小白也能够跟着文章的指示搭建自己的networkx环境，所以写得很初步很详细，会编程的人也不妨一看，可以避开一些我已经绕过的弯路我的PC环境是windows764位操作系统1.安装python,networkX属于python的一个模块，所以要先安装python；python可以去官网下载(官网上有不同版本的python，根据自己的PC环境下载)我下载的是文件p
【AI大模型】神经网络反向传播：核心原理与完整实现我爱一条柴ya 学习AI记录人工智能神经网络深度学习 ai AI编程
一、反向传播的本质与意义反向传播（Backpropagation）是神经网络训练的核心算法，通过链式法则高效计算损失函数对网络参数的梯度，实现神经网络的优化学习。它的出现解决了神经网络训练中的关键瓶颈，使深度学习成为可能。为什么需要反向传播？参数规模爆炸：现代神经网络有数百万至数十亿参数手动计算不可行：复杂网络梯度计算量指数级增长高效优化需求：梯度下降算法需要精确的梯度计算二、前向传播与反向传播对
人工神经网络：单层神经网络(感知器)
一、神经网络介绍1、生物学起源与基本概念(1)生物神经网络启发人类大脑由约860亿个神经元组成，这些神经元通过突触相互连接，形成复杂网络。当外界刺激传入时，神经元会传递电信号并释放化学物质（神经递质），从而实现信息处理。人工神经网络正是模仿这一机制，通过数学模型构建“人工神经元”和“连接权重”。(2)人工神经网络的定义：由大量人工神经元（节点）相互连接构成的计算系统，通过调整节点间的连接权重来学习
游戏开发中，为什么在长连接服务器和客户端之间需要加入心跳机制？晚夜微雨问海棠呀服务器智能路由器网络
在游戏开发中，长连接服务器与客户端之间加入心跳机制（HeartbeatMechanism）是保障网络通信稳定性、可靠性的关键设计，其核心目的是解决长连接在复杂网络环境下的“假活”问题。以下从技术原理、实际需求、应用场景三个维度展开分析：一、核心技术原因：应对网络环境的不确定性检测连接真实状态长连接（如TCP）在物理断开（如客户端断网、路由器重启）时，服务器无法立即感知。心跳机制通过定时发送轻量级数
MATLAB复杂网络工具箱--Brain Connectivity Toolbox (BCT)函数简介 nice_evil 机器学习
BrainConnectivityToolbox是一个MATLAB工具箱,可以对结构和功能脑组织数据集进行复杂网络(图)分析.网址1:http://www.nitrc.org/projects/bct网址2:http://www.brain-connectivity-toolbox.net/【网络的统计描述和结构】assortativity_bin:二元网络(binarynetwork,即无权网络
复杂网络——图的可视化工具Gephi的使用附详细操作过程三月的一天复杂网络数学建模解题技巧 Gephi 复杂网络网络可视化拓扑图
一、Gephi介绍用简单的话介绍，Gephi就是一款将图或者网络进行可视化的工具。如下面的图所示，是我用Gephi绘制的网络结构图，图中节点用蓝色的实心圆表示，节点之间的连线表示边。边的颜色越深表示两个节点的作用频次或者权值越大。节点越大，表示节点的度值越大。有了这么一个简单的认识，你应该对Gephi有了一个初步的了解了。下面开始用Gephi进行实际的操作吧。Gephi下载链接：https://g
【复杂网络分析与可视化】——通过CSV文件导入Gephi进行社交网络可视化 Lingxw_w 复杂网络建模分析专栏网络 python 图论数学建模
目录一、Gephi介绍二、导入CSV文件构建网络三、图片输出一、Gephi介绍Gephi具有强大的网络分析功能，可以进行各种网络度量，如度中心性、接近中心性、介数中心性等。它还支持社区检测算法，可以帮助用户发现网络中的群组和社区结构。此外，Gephi还提供了一组布局算法，用于在可视化时自动调整网络结构的位置，以便更好地展示网络的特征。Gephi的可视化功能非常强大，可以将网络结构以图形方式呈现出来
一款适合程序员的流程图/思维导图利器 qq_21478261 #Python可视化 python 运维思维导图图论机器学习
首发地址：程序员必备流程图/思维导图利器本文介绍graphviz在Python中的接口。graphviz是在复杂网络、生物信息学、软件工程、数据库和网页设计、机器学习等领域使用广泛的图（Graph）可视化利器。graphviz支持Linux、Windows、Mac、Solaris等多个系统，拥有多种编程语言的API(perl、python、ruby、C#等)。graphviz功能先看看graphv
VNA PNA ENA的区别 Mytripod 仪表仪器其他
VNA、PNA和ENA都是用于射频和微波测试的仪器,它们之间的主要区别如下:VNA(VectorNetworkAnalyzer)即向量网络分析仪,是一种用于测试复杂网络参数如传输系数、反射系数等的测试设备。它可以测量网络的幅度响应和相位响应。PNA(PerformanceNetworkAnalyzer)即性能网络分析仪,是一种增强型的VNA,不仅可以测量网络参数,还可以进行其他测量如功率、harm
【通用智能体】Intelligent Internet Agent （II-Agent）：面向复杂网络任务的智能体系统深度解析白熊188 通用智能体文本大模型网络人工智能深度学习算法
IntelligentInternetAgent（II-Agent）：面向复杂网络任务的智能体系统深度解析一、系统架构与设计哲学1.1核心架构设计1.2技术创新点1.2.1动态任务分配机制1.2.2网络状态感知模块二、系统架构解析2.1完整工作流程2.2性能指标对比三、实战部署指南3.1环境配置3.2基础任务执行3.3高级配置参数四、典型问题解决方案4.1网络拓扑发现失败4.2资源竞争问题4.3策
防火墙技术深度解析与网络安全实践 DarthP 防火墙技术网络安全无状态防火墙有状态防火墙应用防火墙
背景简介随着网络技术的飞速发展，网络安全问题日益凸显。防火墙作为网络的第一道防线，其重要性不言而喻。本文将深入探讨防火墙技术的细节，帮助读者更好地理解如何通过这些技术保护我们的网络环境。无状态防火墙的应用与局限无状态防火墙通过匹配数据包的IP地址、端口号等信息来决定是否允许数据包通过。尽管设置简单、易于管理，但它们无法理解和跟踪数据流的状态，导致在某些复杂网络协议（如FTP）的处理上存在局限性。文
深入解析网络相关概念发非人非网络 php 开发语言
网络的发展及体系结构网络的发展经历了从简单的计算机连接到如今全球化复杂网络的过程。早期以ARPANET为代表，奠定了分组交换网络的基础。随着时间推移，网络规模不断扩大，各种网络技术层出不穷。网络体系结构采用分层模型，如OSI七层模型（物理层、数据链路层、网络层、传输层、会话层、表示层、应用层）和TCP/IP四层模型（网络接口层、网际层、传输层、应用层）。分层的好处在于将复杂的网络功能分解，每一层专
Python知识图谱框架翱翔-蓝天 python 知识图谱开发语言
Python中用于构建知识图谱的框架和库有很多，它们各自有不同的特点和功能，适用于不同的应用场景。以下是一些常用的框架：1.NetworkX功能：NetworkX是一个用于创建、操作和研究复杂网络的Python库。它可以用于构建知识图谱，处理节点和边的关系。优点：灵活且易于使用，支持多种图的操作和分析。适用场景：小型到中型知识图谱，关系图谱分析。官方文档：NetworkX2.RDFLib功能：RD
系统架构-通信系统架构设计夏旭泽系统架构系统架构
通信网络系统架构局域网单一机构所拥有的专用计算机网络局域网从早期只提供二层交换功能的简单网络发展到现在，还提供三层路由功能的复杂网络局域网的典型架构风格：单核心架构：由一台核心二层或三层交换设备充当网络的核心设备，通过这个设备连接广域网之间的互连路由设备，接入广域网双核心架构：指核心交换设备通常采用三层以上的两台核心交换机环形架构：多台核心交换设备连接成双RPR动态弹性分组环，构建网络的核心。核心
面向网络安全的开源大模型-Foundation-Sec-8B 云上笛暮 AI for Security 人工智能安全
1.Foundation-Sec-8B整体介绍Foundation-Sec-8B是一个专注于网络安全领域的大型语言模型(LLM)，由思科的基础人工智能团队(FoundationAI)开发。它基于Llama3.1-8B架构构建，并通过在一个精心策划和整理的网络安全专业语料库上进行持续预训练而得到增强。该模型旨在解决LLM在网络安全领域应用有限的问题，这些问题源于缺乏专业训练数据和表示复杂网络安全知识
量子退火驱动的图粗化预处理与特征选择加速体系百态老人量子计算
一、图粗化与特征选择的量子计算范式转换图粗化（GraphCoarsening）作为处理大规模复杂网络的核心预处理技术，通过节点聚类、边收缩等操作将原始图简化为粗粒度拓扑结构，以降低后续计算复杂度。传统基于经典算法的粗化方法（如代数多重网格、谱聚类）在动态特征保持与多尺度关联性建模方面存在瓶颈，而量子退火机（如D-WaveAdvantage™）凭借量子隧穿效应和并行能量面搜索能力，为解决该问题提供了
Mininet--nodelib.py源码解析漫谈网络 Linux 系统攻略 mininet sdn LinuxBridge NAT brctl iptables 源码解析
整体构架概述1.Whatisit？本代码是Mininet网络仿真框架的扩展模块，包含LinuxBridge和NAT两类节点。LinuxBridge提供基于Linux网桥的交换机功能，支持生成树协议（STP），用于构建冗余网络拓扑并防止环路；NAT实现网络地址转换，使Mininet子网能够安全访问外部网络。其目的是通过封装底层系统命令（如brctl、iptables），简化复杂网络功能的配置流程，提
SSL证书进阶指南：多域名通配符证书的核心价值与应用安全
在数字化转型浪潮中，多域名通配符SSL证书正成为企业网络安全建设的战略级工具。这种创新型的数字证书融合了多域名管理和通配符技术的双重优势，为复杂网络架构提供了一站式加密解决方案。一、核心技术特性该证书通过单次部署即可实现跨域加密保护，支持以下典型应用场景：多主域覆盖：如企业官网，业务平台及客户门户全子域适配：自动保护各主域下属的无限级子域名混合型架构：兼容新旧域名系统，支持未来新增域名的灵活扩展↓
DAY07：【pytorch】模型构建 CHO2022 #pytorch 人工智能 python
一、引言在机器学习的训练流程中，模型构建是核心环节之一。从传统机器学习的线性模型到深度学习的神经网络，模型的复杂度呈指数级增长。PyTorch作为主流深度学习框架，通过nn.Module类提供了统一的模型构建接口，使得复杂网络结构的定义与管理变得高效且规范。二、三要素2.1网络层构建深度学习模型的基础是各类网络层，常见类型包括：卷积层：nn.Conv2d(in_channels,out_chann
复杂网络建模（四）坝坝头伯爵概率论 python 机器学习
规则（Regular）网络(a)©(d)(e)四个网络的集聚系数均为0，（b）的集聚系数为1；完全网络的直径为1，一维环状网络的直径为节点N的一半，二维晶格的直径为L。ER随机网络的生产算法随机网络的两种生成方式：（1）G（N，L）模型N个节点通过L条随机放置的链彼此连接，简称GNL。（2）G（N,p）模型N个节点中，每对节点之间以概率p彼此相连,简称GNP。ER随机网络的结构特性1）期望连边数随
数学建模在大数据与数据挖掘、复杂网络与系统建模方面的应用人工智能_SYBH 数据挖掘大数据人工智能数学建模 matlab
数学建模在大数据与数据挖掘、复杂网络与系统建模方面的应用越来越广泛。本文将分别介绍这两个方面的数学建模方法，并且以一个基于酒店评论数据的情感分析和一个社交网络分析的案例来演示如何使用数学建模进行大数据分析和复杂网络建模。一、大数据与数据挖掘随着互联网和物联网技术的发展，数据的规模和复杂程度越来越大。大数据和数据挖掘成为了处理和分析这些海量数据的重要方法。在数学建模中，大数据和数据挖掘可以用来预测未
《复杂网络建模》课程project dc199706 #硕士课程 CS-1级课程project
《复杂网络建模》课程projectA.前言B.project内容C.实验过程a.数据来源b.数据结构点(node)边(edge)网络(network)c.特点d.测试C.结束与反思D.一个印象深刻的BUGE.完整代码和数据A.前言昨天晚上顺利考完张海军老师《复杂网络建模》的finalexam，这门课算是彻底结束了。于是想把跟这门课有关的东西整理一下（但其实从时间线的角度来说，这部分这部分内容不该属
DeepSeek大模型：全能解析与高效实践智能计算研究中心其他
内容概要DeepSeek大模型作为人工智能领域的前沿成果，以混合专家架构（MixtureofExperts）为核心技术框架，依托670亿参数的复杂网络设计，实现了多模态任务的深度融合。其技术特征可归纳为三大维度：首先，通过多语言能力与视觉语言理解技术的协同优化，模型可同时处理文本、图像及跨语言场景下的复杂任务；其次，DeepSeekProver、DeepSeekCoder等专项模块的构建，将学术研
复杂网络分析_NetworkX 12abxd 算法模板 python jupyter 信息可视化数据分析图
一：NetworkX简介NetworkX库是一个用于创建、操作复杂网络的结构、动态和功能的Python库。在经济网络中，它可以帮助分析各种经济实体（如公司、个人、国家）之间的相互关系和互动模式。以下是一些NetworkX在经济网络分析中的实际应用：金融市场网络分析：分析股票、债券或其他金融资产之间的相关性，识别市场中的关键节点和连接，以及检测市场风险传递的路径。供应链网络优化：通过构建供应链网络图
HCIA动态路由 Girrzy 网络
1.动态路由与静态路由的区别静态路由的缺点：1.配置量大2.不能基于拓扑的变化进行实时更新动态路由的优点：1.通常不受网络规模的限制。2.可以根据网络的变化自行完成收敛。3.复杂网络环境下配置量小。动态路由的缺点：额外占用硬件资源安全风险选路错误的风险2.动态路由的分类1.基于AS进行分类----IGP内部网关协议----EGP外部网关协议1.AS：自制系统AS:自制系统标准编号0-65535其中
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi