丸丸丸子w

蛋白质折叠

文章目录

4. GNNs for Protein folding
- Chemical Structures as Graphs
- Protein Structure Prediction
- - Methods for Protein Structure Prediction
  - Old method: fragment assembly
  - New Strategy
  - - Co-evolution Analysis
  - Towards An End-to-End Workflow
- AlphaFold2 architecture
- - 补充：跟李沐精读论文
- 补充：钟博子韬同学的报告
- - Multimer模型对输入进行改进
  - 预测结果

4. GNNs for Protein folding

Chemical Structures as Graphs

化学结构作为图：化学分子的结构可以看作是图，其中原子被看作是顶点，化学键被看作是边。这种视角为化学分子的计算和分析提供了强大的工具，特别是在计算化学和药物设计等领域。
分子的结构相似性：分子的结构相似性是通过比较两个或更多分子的化学结构来度量的。这种相似性通常是通过比较分子图的特性，如原子类型，化学键类型，原子间的连接关系等来确定的。
图论与化学：图论是数学的一个分支，主要研究图的属性和结构。在化学中，图论被广泛应用于分子结构的描述和分析。通过将分子视为图，可以使用图论的概念和技术来解决许多化学问题，比如判断两个分子是否同构，预测分子的化学反应性等。
Weisfeiler-Lehman测试： Weisfeiler-Lehman (WL) 测试是一种用于确定两个图是否同构的算法。同构的图在结构上是相同的，即使顶点的标签或排列顺序不同。WL测试通过一种迭代的过程来对图的顶点进行重新标记，如果两个图在经过足够多次迭代后得到的标记相同，那么这两个图就被认为是同构的。在化学中，WL测试可以被用来比较分子的结构，从而帮助化学家识别结构相似的分子。

简单解释一下，我们看第一排：

第一张图蓝色的，所有节点一样
我们把有两个邻居的节点标为绿色，有三个邻居的节点标为黄色，我们就得到了第二张图
然后，我们把有两个黄色邻居的节点标为紫色，把有二绿一黄邻居的节点标为橙色，把有一绿一黄邻居的节点标为灰色
最后我们统计这个分子图的节点就是一紫二灰二橙。
我们发现下面这个分子图虽然长的跟上面这个不一样，但是通过这样简单计算出来也是一紫二灰二橙。我们就认为是同构的。

这段内容概述了利用图神经网络进行药物研发的两个主要技术：虚拟筛选/分子属性预测和新药设计。

虚拟筛选/分子属性预测：虚拟筛选是一种计算技术，用于在大规模化合物库中识别可能的药物候选物。在这个过程中，图神经网络被用于学习分子的低维度表示，这些表示可以用于预测分子的属性，如溶解度、毒性等。这项技术已经在多项研究中得到应用，包括Duvenaud等人（2015），Kearnes等人（2016）和Jin等人（2018）的研究。

新药设计：新药设计，也被称为"de novo"药物设计，是一个利用计算工具来设计新的潜在药物的过程。在这个过程中，图神经网络被用于生成新的分子结构。这项技术已经在多项研究中得到应用，包括Olivecrona等人（2018），Gomez-bombarelli等人（2018），Jin等人（2018）和Popova等人（2018）的研究

Protein Structure Prediction

三维的蛋白质结构由一维的氨基酸序列折叠而成，这个问题已经被研究了几十年。

蛋白质结构预测是一种用于确定蛋白质的三维结构的方法，通常是通过其氨基酸序列。理解蛋白质的三维结构是非常重要的，因为它可以帮助我们理解蛋白质的功能，并在药物设计中找到可能的药物靶点。

蛋白质折叠通常涉及如下几个主要的结构元素：

α-螺旋（Alpha-helices）: α-螺旋是蛋白质的一种常见二级结构，由于胺基和羧基之间的氢键作用，氨基酸链在空间中旋转形成螺旋状。
β-折叠（Beta-sheets）: β-折叠是蛋白质的另一种常见二级结构，由两个或更多的平行或反平行的β链通过氢键连接在一起形成。

蛋白质结构预测在计算生物学中是一个重要且具有挑战性的问题。许多不同的技术和方法已经被开发出来解决这个问题，包括模板匹配、同源建模，以及更先进的方法，如深度学习。深度学习的方法，例如AlphaFold，已经在CASB (Critical Assessment of protein Structure Prediction)竞赛中取得了显著的成果，显示出其在预测蛋白质结构方面的潜力。

Methods for Protein Structure Prediction

模板依赖建模和模板自由建模是两种常用的蛋白质结构预测方法。

模板依赖建模(Template-based modeling, TBM)：这种方法依赖于已解决的蛋白质结构数据库（如PDB）中的已知蛋白质结构，将其作为模板。如果一个新的蛋白质序列与已知结构的蛋白质序列高度相似（同源），那么就可以使用这个已知的结构作为模板，预测新的蛋白质的结构。然而，对于一些没有相似模板的蛋白质，例如某些膜蛋白，此方法可能效果不佳。
模板自由建模(Template-free modeling, also known as ab-initio or de novo modeling)：这种方法不依赖于已知的蛋白质结构模板，而是通过理论模型和计算方法预测蛋白质的结构。例如，这可能包括对蛋白质的物理和化学性质的模拟，如力学模型和电磁模型，或者使用蒙特卡洛方法进行随机搜索。然而，这种方法的计算复杂性通常较高，且预测准确性可能不如模板依赖建模。

最近，深度学习方法（如AlphaFold）已经在蛋白质结构预测中显示出很大的潜力，这种方法既可以利用已知的蛋白质结构信息（如果可用），也可以从头开始预测蛋白质的结构，从而结合了模板依赖和模板自由建模的优点

Old method: fragment assembly

以前使用超级计算机去模拟，需要很大的算力而且成功率很低

Fragment assembly是一种传统的蛋白质结构预测方法，具体过程如下：

1. 目标序列：首先，我们有一个需要预测结构的蛋白质目标序列。

2. 片段库 (Fragment Library)：通过从已知结构的蛋白质中提取短序列片段来创建一个片段库。这些片段的长度通常为3到9个氨基酸。

3. Profile-Profile Alignment：然后，将目标序列的氨基酸剖面与库中的每个片段剖面进行对比。

4. 蒙特卡洛片段装配 (Monte Carlo Fragment Assembly)：通过蒙特卡洛方法从片段库中随机选取片段，并将它们拼接在一起以构建蛋白质的初步模型。通过重复这个过程，产生大量的蛋白质模型。

5. 基于知识的势能 (Knowledge-based potentials)：使用基于统计的得分函数（如Rosetta的得分函数）来评估和排列这些模型，选取得分最高的模型作为最佳模型。

6. 基于物理的原子精修 (Physics-based atomic refinement)：最后，基于物理的能量最小化过程对选定的模型进行精修，包括优化氨基酸侧链位置和小幅度调整蛋白质的主链。

这种方法的一个主要问题是计算效率较低，且准确度受到已知结构片段库的限制。

New Strategy

这个新策略包含了以下步骤：

多序列比对(Multiple Sequence Alignment)：多序列比对是一种基于序列比对的方法，它用于确定一组蛋白质序列或者核酸序列之间的相似性。通过比对多个序列，我们可以找出共享的进化保守区域，即那些在进化过程中保持不变的区域。这些保守区域通常对于蛋白质的功能和结构至关重要。
共演化分析(Co-evolution Analysis)：这是一种寻找蛋白质内部氨基酸间联系的方法，即某个氨基酸位置的变化可能会引起另一个氨基酸位置的变化。这种共演化信息可用于预测蛋白质的三维结构，因为在蛋白质中，共演化的氨基酸对往往在空间中靠近。
深度神经网络预测相互作用矩阵：输入的数据包括上述的多序列比对和共演化分析结果，以及其他可能的蛋白质序列信息。这个深度神经网络的目标是预测一个相互作用矩阵，其中每个元素表示蛋白质序列中两个氨基酸在空间中的相互作用强度。
深度神经网络预测局部结构：类似地，也可以使用深度神经网络预测蛋白质的局部结构信息，比如二级结构（alpha螺旋，beta折叠等）和每个氨基酸的位置。
最小化分子力场(Minimization Molecular Force field)：在获取预测的相互作用矩阵（二维）和局部结构信息（线性）后，可以使用分子模拟方法（如力场最小化或分子动力学模拟）来生成蛋白质的三维结构。这一步的目标是找到一个蛋白质结构，该结构最好地满足预测的相互作用和局部结构信息。

这个策略提供了一种有效的方法来预测蛋白质结构，与传统的方法相比，它更多地利用了深度学习和序列演化信息，因此通常可以得到更准确的预测结果。

Co-evolution Analysis

蛋白质的结构和功能严重依赖于其氨基酸的排列顺序和化学性质。如果一个氨基酸突变，使得其边链增大，这可能会干扰蛋白质的结构或者影响其功能，因为这可能会使其与邻近氨基酸的相互作用发生改变。

但是，如果另一个邻近的氨基酸同时发生突变，使其变小，这就可能可以平衡边链的大小变化，保持蛋白质的稳定性。这种情况下，两个氨基酸就会表现出共演化的特性，即它们的变化是协调的。

这种共演化现象可以帮助我们理解蛋白质的三维结构和功能，因为共演化的氨基酸对通常在三维结构中紧密接触，共同参与形成蛋白质的活性位点或者结构域。因此，通过分析多个蛋白质序列的共演化模式，我们可以预测蛋白质的结构或者功能位点。

共演化的概念可能比较抽象，我们通过一个简单的例子来理解它。

假设我们有一种具有三个氨基酸的极简单的生物体。这三个氨基酸排列在一条链上，形成了一种蛋白质。我们将这三个氨基酸分别命名为A，B，C。

在一种理想的环境下，这三个氨基酸的理想形态分别为大，中，小。也就是说，最好的蛋白质形式是大的A，中的B，小的C。这种组合能让生物体达到最好的适应环境的效果。

然而，生物体在演化过程中会发生突变，氨基酸可能会改变形态。比如，A可能突变为中型，或者B突变为大型。

现在，如果A突变为中型，那么与A相邻的B就会面临压力，因为它现在与A一样大了。为了维持蛋白质的最优形态，B可能也会随之突变为小型。这样，A和B就通过共同适应环境压力而发生了共演化。

如果我们只看一个生物体，可能很难观察到这种共演化的现象。但如果我们观察很多具有相似蛋白质的生物体，我们就可以看到某些氨基酸位置上的突变是有关联的。例如，我们可能会观察到，每当A变为中型时，B也往往变为小型。

这就是共演化的基本概念。在实际的生物体和蛋白质中，情况会复杂得多，因为一个蛋白质可能由数百或数千个氨基酸组成，每个氨基酸可能以20种不同的形式出现。但即使在这种复杂的环境中，我们仍然可以通过统计分析发现共演化的模式，从而预测蛋白质的结构或功能。

这里是对多序列比对（MSA，Multiple Sequence Alignment）的共演化分析的介绍。共演化分析在生物信息学中被广泛应用，尤其是在蛋白质结构预测和功能位点预测等领域。

这里的图形模型（也被称为图模型或马尔可夫随机场，MRF）是用来建模MSA的。它将氨基酸序列中的每个位置看作一个随机变量，并假定两个位置之间的关系可以由一个权重函数来描述。

对于给定的氨基酸序列S，其生成概率 $P (S)$ 可以由这个图模型来计算，其中 $φ (x)$ 表示序列中某个位置的单点概率，而 $w(x_i, x_j)$ 表示序列中两个位置的相关性或协变性。

这个模型的参数 $φ$ 和 $w$ 可以通过最大似然法或伪似然法进行估计。这种方法的一个特例是高斯图形模型，它假定随机变量服从多元正态分布。

总的来说，这个方法的目标是通过分析蛋白质序列的共演化模式，来预测蛋白质的结构或功能位点。

在蛋白质结构预测中，通常需要收集并利用一些蛋白质的特征和标签。这些特征和标签可以帮助我们理解蛋白质的性质并预测其未来的行为。

序列特征（Sequential Features）: 这是指蛋白质序列中的信息，如保守性分布（conservation profile）和预测的局部结构（predicted local structure）。保守性是指某个位点的氨基酸在不同物种或不同蛋白质家族中的变异程度。预测的局部结构是指蛋白质中每个氨基酸可能形成的二级结构类型（如α-螺旋，β-折叠）。
配对特征（Pairwise Features）: 这是指基于两个氨基酸之间关系的特征，包括相互信息（mutual information），直接共演化（direct co-evolution），接触势（contact potential）等。相互信息和共演化是量化两个位点氨基酸变化依赖性的方法，接触势则是根据氨基酸类型预测它们之间可能发生物理接触的概率。
标签（Labels）: 这是我们想要预测的目标，例如氨基酸间的距离。这个距离通常被分为几个区间，比如小于8埃，8-15埃，大于15埃。值得注意的是，这种标签分布通常是不平衡的，因为相距较远的氨基酸对（大于15埃）和相距较近的氨基酸对（小于8埃）在蛋白质中的数量通常要多于中间距离的氨基酸对。

在收集了这些特征和标签后，我们就可以使用一些机器学习或深度学习的方法来训练一个模型，该模型可以从这些特征中学习并预测蛋白质的结构或者行为。

Towards An End-to-End Workflow

"Towards An End-to-End Workflow"工作流程引入了一个额外的步骤，即"Templates"步骤。

Templates步骤通常涉及到使用已知的蛋白质结构作为模板，这些模板在某种程度上与目标蛋白质的序列相似。这些模板可以提供额外的结构信息，有助于提高预测的准确性。这种方法尤其对于那些能找到良好模板的蛋白质序列特别有用。

在这个工作流程中，模板不仅被用于初始化预测，还被用于训练深度神经网络。这意味着，网络不仅从多序列比对和共演化分析中学习信息，而且还从模板中学习结构信息。这种结合使用数据驱动和知识驱动方法的策略有可能提高预测的准确性和鲁棒性。

需要注意的是，模板引导的预测可能对模板的质量和与目标序列的相似度高度敏感，而且不适用于那些无法找到合适模板的蛋白质。此外，这种方法可能需要更复杂的训练步骤和更多的计算资源。

AlphaFold2 architecture

补充两篇文献：
蛋白质界的 ChatGPT：AlphaFold1

AlphaFold2成功秘诀：注意力机制取代卷积网络，预测准确性提升超30%

AlphaFold2是一种革新性的蛋白质结构预测方法，由DeepMind公司开发。它在2020年的蛋白质结构预测竞赛（CASP14）中表现出色，标志着蛋白质折叠问题的一个重大突破。

这种方法是端到端的，这意味着它接受一系列氨基酸（即蛋白质序列）作为输入，并输出预测的蛋白质三维结构。这与许多早期的方法不同，这些方法通常需要一系列中间步骤和手动调整。

在AlphaFold2的架构中，首先执行多序列比对，并搜索模板。然后，这些信息被喂入一个类似于Transformer的深度网络中。这个网络包括多个模块，如Evotransformer模块和Structure模块，这些模块通过大量的注意力机制和残差连接来处理序列和模板信息。

网络的输出是一个三维表示，描述了每个氨基酸在空间中的预期位置。这个表示随后被用来重构蛋白质的三维结构。

AlphaFold2的一大创新是引入了模板和多序列比对信息，这些信息通过一个强大的Transformer-like网络进行处理。这允许网络学习复杂的序列-结构关系，并提高预测的准确性。

然而，虽然AlphaFold2取得了显著的成就，但仍有一些挑战。例如，对大蛋白质的预测，以及对蛋白质动态和蛋白质-蛋白质相互作用的预测，仍然是困难的问题。

图神经网络的关键就是学习各个残基之间的关系，完成某些三维结构中每个残基的嵌入，预测最后的三维结构

在蛋白质结构预测的情况下，GNN可以被用来模拟蛋白质折叠的过程，其中节点代表氨基酸，边代表氨基酸之间的相互作用。GNN可以捕获蛋白质的局部和全局结构特征，以及氨基酸之间的复杂相互作用。

例如，可以使用GNN来预测氨基酸之间的距离，这是蛋白质三维结构预测的一个关键步骤。GNN可以通过在蛋白质图中传播信息，来捕获氨基酸之间的长距离依赖性。

补充：跟李沐精读论文

李沐老师b站:AlphaFold 2 论文精读【论文精读】

三个部分，第一个部分是抽取特征，第二个是encode，第三个是decode

对于第一部分，总共是以下几种输入
- 直接导入该序列
- MSA：在基因库中搜索，找相似蛋白质序列，然后形成一个MSA（Multi sequence alignment），也叫做多序列比对。（MSA的作用是为了提取出一个蛋白质序列在多物种中的共进化信息）
- 氨基酸之间的关系，我们知道蛋白质能卷起来，就是氨基酸之间的关系，所以有一个输入的数据，是存储该蛋白质序列中，氨基酸之间的关系的（这里不是氨基酸间的空间距离，因为我们还不知道，是一些其他方面的特征）
- 最后还有一些额外特征：在结构数据库里搜，因为我们已经知道一些蛋白质的结构，然后在其中搜索得到氨基酸之间的空间距离之类的信息，得到很多模版
- 所以抽取特征主要得到两大类特征：第一类是不同序列之间的特征，第二类是氨基酸之间的特征。这两类特征再拼上一些别的东西，就可以输入编码器了

对于第二部分，是输入两个三维的张量
- MSA：大小为(s,r,c)
  - s表示有s个蛋白质，第1个是我们要预测的人类的蛋白质，后面s-1个是从数据库中匹配来的蛋白质。
  - r表示蛋白质中有r个氨基酸（多序列比对的结果，会用_补齐空缺，最后的结果应该是同长的）
  - c表示每个氨基酸表示成长为c的向量（对于image就是每个像素的通道数，对于句子来说就是每个词的嵌入长度）
- Pair氨基酸对：大小为(r,r,c)
  - r,r就是氨基酸个数,c就是用长为c的向量来表示一个氨基酸的特征
然后将两个输入进Evoformer（可以看做transformer的变种）
- 与transformer有两个不一样的地方：1.不再是一个序列的关系（比如句子），现在是一个二维之间的关系（不同蛋白质序列、同一氨基酸位点）2. 输入的是两个不同的张量，我们要融合起来
- 其他大部分就一样了。猜到可能用了transformer蛋白质3D结构也是氨基酸相互之间关系造成的，而且序列位置近的和序列位置远的都可能起重要作用，有attention 的味道了

然后我们得到了编码器的输出，包括要预测的人类氨基酸的所有的特征表示，还有氨基酸之间的相关信息。根据相关信息来预测每一个氨基酸的位置，最后得到我们的输出

这里还有一个回收机制，将编码器和解码器的输出，又拿回去做了编码器的输入。有点像RNN，可以看做变成了一个四倍更深的一个网络，达到更好的进度。

一些不同：每次复制的权重还是基于前面的，还有做回收的时候梯度是不反传的

暂停来自视频23:05，编码器和解码器的内部结构以后再来补充

编码器
- MSA按行和按列进行信息上的融合、氨基酸对的信息，相互融合学习
- Evoformer 块包含许多新颖的基于注意力和非基于注意力的组件。 Evoformer 模块的关键创新是在 MSA 内交换信息的新机制和允许直接推理空间和进化关系的配对表示。
解码器
- 输入氨基酸对的信息，氨基酸序列的信息、不断调整的主干的旋转和偏移信息
两个格外的技术
- Noisy Student Self-Distillation
- 一种半监督学习策略，主要用于深度学习模型的训练过程中，以提升模型的表现。这种技术的名字来源于其运作机制，其中涉及到两个关键的角色： “teacher”（教师）和 “noisy student”（带有噪声的学生）。
  
  以下是这种技术的一种通俗的解释：
  1. 教师模型训练: 在开始阶段，我们训练一个称为"教师"的模型。这个模型使用标记的数据进行训练，即我们知道输入数据和正确答案的配对数据。
  2. 生成带噪声的学生: 在教师模型被训练好之后，我们复制一份教师模型作为"学生"。不同的是，我们会在这个学生模型的训练过程中加入一些"噪声"，比如数据扩充（例如图片旋转，翻转等）或者添加dropout等。
  3. 学生学习: 这个带噪声的学生模型会同时学习标记的数据和未标记的数据。对于未标记的数据，我们让教师模型预测标签，学生模型根据这个预测的标签来学习。
  4. 学生变教师: 当学生模型训练好后，它其实通常会比原来的教师模型更强大，因为它学习了更多的数据。所以我们可以用这个学生模型来替代原来的教师模型。
  5. 迭代过程: 这个过程可以重复进行，每次用新的学生模型替代教师模型，并且生成新的学生模型来学习。这就是为什么这个过程被称为"自我蒸馏"的原因，因为模型在不断地学习自己的知识。

因为要加到氨基酸对里面每列表示的是一个氨基酸选择两列就是两个氨基酸的信息

摘录了一些小伙伴的b站评论：

问：首先是一个不成熟的小建议：我觉得李老师在做AI for science这类论文的解读时，要是能够对这个science任务做个简要介绍就更好了。比如这个任务是要从什么已知条件得到什么未知结果，以及目前非AI方向是用哪一些方法来完成这个任务。这应该能有助于我们更好地理解作者在这篇文章中某些做法的意图。这是我这几天找的资料整理的，生信的小伙伴们看看有没有什么问题：

蛋白质的三级结构是由一级结构决定的，每种蛋白质都有自己特定的氨基酸排列顺序，从而构成其固有的独特的三级结构。蛋白三维结构预测就是指输入一段蛋白序列（一级结构），输出蛋白所有原子的三维空间坐标。当前对蛋白质三位结构进行预测的方法，除了文中提到的Cryo-SEM，还有通过同源蛋白质的同源建模方法。具体步骤如下：首先选择最佳模板3D结构后进行序列比对，第一次的序列比对通常使用BLOcks替换矩阵执行。第二次序列比对（也称为比对校正）用于构建骨干三维结构。然后对无模板区域或者相似性比较低的区域进行loop建模，最高精度可达12~13个残基。接着是侧链重建，通过依赖主链的旋转体库进行构象搜索。接下来应该通过各种质量评估工具对结构进行改进和验证。我想在本文中输入的MSA，正是对应模版的蛋白质序列，而template也就是这些模版蛋白质序列对应的结构信息。

答1:MSA和template并不一样，MSA的序列远比template里面的序列多的多。MSA建模的思想是来自共进化分析，也就是只通过MSA完全不要序列理论上也能得到3D结构；template建模就是您说的同源建模的思想。但是AF里面保证精度的核心是MSA

答2:MSA 是在seq databse里搜索和查询目标相似的序列来提取共进化信息，也就是在序列层面上获取一些残基之间的接触关系来指导最终的结构预测，template 基于序列直接搜索同源结构，获取的是模板结构在三维空间中残基之间的相对位置信息。MSA 的适用性要更广于template，主要原因在于蛋白质序列的数据库规模要远大于解出结构的蛋白质构成的结构数据库。

补充：钟博子韬同学的报告

交大这位同学关于alphaflod的报告更加面向生物背景

背景
- 实验方法：低通量、高精准度。计算方法：高通量、低精准度
- 海量的序列信息，少量的结构信息。需要高精度高通量发现蛋白质结构的方法
预测蛋白质的contact map理论基础
- contact map可以是一条蛋白质序列中，两两氨基酸之间的距离的map。也可以是小于某个阈值，看作两个氨基酸是contact的
- 预测contact map可以更方便的迁移使用一些cv里的网络模型。比直接预测3d坐标简单

通过共进化信息，比如两个在序列上比较远的氨基酸位点，却表现出共进化现象，说明这两个位点在3d空间中可能距离更近

对于alphafold2来说，其主要特点
- 是一个端到端的架构，输入序列，输出是结构，不是contact map
- 1d（MSA）和2d（氨基酸之间的信息，类似contact map），二者在训练中使用Attention更新，不断交换信息
- 通过Structure Module，3D Equivariant （等变），可以直接输出三维结构

精彩之处
1. 模型输入——更强大的MSA和Templates
2. 使用Recycling进行多轮迭代训练和测试
3. 基于Attention提取进化信息：按行/列提取MSA的相关性、氨基酸之间关系的信息提取，MSA和pair之间的信息交互
4. 氨基上的N、中心碳原子和羧基上的碳原子，构成一个三角形，称为Residue Gas。这个三角形的形状不太会变，而绝对坐标会变。输入的是，（encoder输出的）目标蛋白序列、学习到的contact map以及初始骨架。通过IPA模块不断更新，让结构表示能成为3d坐标。最后补上侧链
6. alphafold会给出自己预测的这个结构的置信度
回顾

AlphaFold的优点总结和补充
- 基于recycling的迭代优化。这一点在很多领域己经得到过应用，比如计算机视觉中的姿态估计 (post estimation)
- 广泛应用的Attention架构。将二维的表横着做Attention、再竖着做Attention，对于图可以在局部做Attention，不断精化了Embedding过程；Structure module中也继续用到了Attention
- 实现了端到端(end-to-end)架构。完整建立了用于蛋白质结构预测的端到端架构，让模型能够在提升准确度的同时，融合结构的优化步骤。
- 半监督学习拓展训练集(Self Distillation)。用带标签的数据先训练一遍，再用无标签的数据预测一遍形成新的数据集，然后再混合继续训练。这种方法曾经在Google Brain的nois student使用过，在这里再次得到了应用
蛋白质结构预测的本质：
- 从共进化信息推断蛋白质结构的contact
- 共进化信息并不是物理的作用关系
AlphaFold通过单体的共进化信息，来预测结构之间的信息（三级结构），这套理论还不能迁移到复合物的预测中（四级结构）

Multimer模型对输入进行改进

所以后来的工作方向是要预测复合物的结构

预测结果

精确度的显著提高
Recycling的必要性：有的蛋白很快就能够折叠，有的蛋白很慢
- 多轮迭代优化有一定的必要性，较为复杂的蛋白可能在优化流程最后
  (4轮优化）才能折叠到正确的结构
MSA深度和模板的选择
- msa做的够好的话，没有模版区别不大
- 如果msa做的很差，一般也找不到模版，除非做实验，这个也要改代码，以后可能会优化
- 不要对alphafold做模版，超过30的msa在bfd中很好找
评价指标

例子

你可能感兴趣的:(生物信息,人工智能)

骗子太猖獗了，打着摩根士丹利何晓斌名义带股民进入虚假宝丰能源节能减排碳交易市场，大量股民被骗真相曝光墨守成法
为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”是真的吗？为什么不能提现呢？其实都是骗子给你的一串数字而已！这些新平台打着“低风险”、“高收益”、“慈善公益投票”等噱头先让投资人尝到甜头再通过恶意操作将投资人
Foldseek快速蛋白质结构比对
1.下载和安装Foldseek如果只是单个蛋白质结构的序列比对，我们只需要用Foldseek的网站服务https://search.foldseek.com/search上传我们的蛋白质结构并选择想要进行比对的数据库即可，这里不做重点讲解。做生物信息学研究，我们难免需要批量对多个目标蛋白进行大规模结构比对，这需要我们下载安装本地版软件。Foldseek有Linux和MacOS二个版本的本地软件（这
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
黄仁勋链博会演讲实录：脱掉皮衣，穿上唐装，中文开场
黄仁勋一度尝试用中文开场，他说，“我在美国长大，学到了很多汉语。”他表示，像DeepSeek、阿里巴巴、MiniMax、百度，他们开发的产品都是世界级的，推动了全球人工智能的发展。中国的开源AI是全球进步的催化剂，以至于全世界各个行业都有机会加入到AI革命当中。7月16日，黄仁勋身着唐装出席了第三届链博会，在此之前，他身着标志性皮衣出席多个场合活动。在此之前，英伟达官宣获得H20芯片对华的出口许可
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
【大模型】结构化提示词：让AI高效完成复杂任务的“编程语言” JosieBook AI/大数据/云计算人工智能
文章目录前言：提示词一、不同提示词写作方法对比进阶技巧对比表实战组合策略二、三板斧：精准撰写提示词的黄金法则角色设定：为AI精准定位任务描述：明确行动指南输出要求：规范成果呈现三、魔法棒：零基础也能用的“AI需求翻译机”四、结构化：把提示词写成“可插拔的乐高”五、分治法：把“庞然大物”拆成可并行的小任务前言：提示词在人工智能时代，提示词（Prompt）已成为连接人类意图与AI能力的核心媒介。优质的
人工智能视频分析系统人员离岗报警设计方案 liuhu21 人工智能云计算运维
一、方案概述近几年安防监控技术不断的进步，特别是在人工智能推出之后。安防监控系统结合人工智能算法做到了许多以前无法做到的事情。就比如我们今天要说的离岗检测报警监控系统。以前我们只能通过人工值守监控室的方式，通过人的判断去观看现场人员在岗情况。如今有了离岗检测监控系统，系统可以自动监测现场人员是否在岗、离岗时间以及离岗人数等等。这样，大大减少了监控室值班人员的工作量，同时相较人工监管提升了工作效率。
AI新纪元：2025年深度学习技术突破与行业应用全景像素笔记杂谈人工智能深度学习 ai 自动驾驶工业数字化转型未来趋势技术创新
2025年，人工智能技术迎来爆发式增长，大模型、生成式AI和多模态技术持续突破，人形机器人量产元年正式开启，自动驾驶商业化进程加速，工业数字化转型全面铺开。这些进展不仅重塑了技术边界，更在多个行业创造了实际价值，推动AI从实验室走向产业化。本文将深入剖析2025年深度学习与AI领域的核心技术突破、行业应用案例及未来发展趋势，为技术从业者提供全面视角。一、深度学习核心技术突破：大模型、生成式AI与多
三篇AAAI顶级论文带你一键搞懂多模态！
关注gongzhonghao【计算机sci论文精选】！拿捏更多顶会顶刊发文资讯随着人工智能技术的飞速发展，多模态学习逐渐成为研究热点。多模态技术能够整合文本、图像、语音等多种模态的信息，为人工智能的应用带来了更丰富的语义理解和更强大的交互能力。此外，多模态技术在视频和语言任务中的应用也取得了显著进展。这些技术不仅提升了模型的性能，还为人工智能在更多领域的应用提供了新的可能性。今天小图给大家精选3篇
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
计算机视觉产品推荐,个性化推荐:人工智能中的计算机视觉、NLP自然语言处理和个性化推荐系统哪个前景更好一些？...
这个问题直接回答的话可能还是有着很强的个人观点，所以不如先向你介绍一些这几个领域目前的研究现状和应用情况(不再具体介绍其中原理)你自己可以斟酌一下哪方面更适合自己个性化推荐。一．所谓计算机视觉，是指使用计算机及相关设备对生物视觉的一种模拟个性化推荐。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样[1]。现在人工智能的计算机视觉主要研究
AI如何塑造下一代网络安全防御体系 weishi122 web安全人工智能网络人工智能网络安全威胁检测行为分析漏洞挖掘
AI如何塑造下一代网络安全防御体系随着网络威胁日益复杂化，传统安全措施已难以应对。人工智能(AI)正通过创新解决方案重塑网络安全格局。本文将探讨AI如何推动网络安全革命，并分析实施过程中的关键挑战。日益严峻的威胁形势到2025年，网络犯罪预计将造成全球10.5万亿美元损失。传统防御手段已无法应对快速演变的威胁，这正是AI发挥关键作用的领域。人工智能：新一代数字卫士AI能实时分析海量数据，在威胁发生
【国内超大型智能算力中心建设白皮书 2024】 AI大模型 lose and dream 人工智能开源 git 开源软件 github gitlab 开放原子
文末有福利！智算中心建设通过领先的体系架构设计，以算力基建化为主体、以算法基建化为引领、以服务智件化为依托，以设施绿色化为支撑，从基建、硬件、软件、算法、服务等全环节开展关键技术落地与应用。一、体系架构（一）总体架构图8智算中心总体架构智能算力中心建设白皮书，重点围绕基础、支撑、功能和目标四大部分，创新性地提出了智算中心总体架构。其中，基础部分是支撑智算中心建设与应用的先进人工智能理论和计算架构；
高并发解决方案：SpringBoot+Redis分布式缓存实战 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人高并发解决方案：SpringBoot
SpringBoot缓存技术全解析：Redis+Caffeine二级缓存架构 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot缓存技术全解析：
米信使股票群诈骗真相！郑洪盛国浩盟国一带一路项目就是资金盘不要被骗了！不成功不收费
讲述:郑洪盛国浩盟国慈善投票被骗无法出金真相！套路太深教你该如何避！！骗子引诱人上当方式很简单：先给你一点甜头尝尝，一开始入金能正常提现，也能赚一点，但当投入更多钱时，你发现你的运气开始变差了。所以，荐股类骗局最大的迷惑性是：给受害人一种假象，你是投资亏损的，而不是被骗的！广大市民对此要提高警惕，如果是还没有投资，千万不要抱有侥幸心理，一定要及时远离！一定不要打草惊蛇低碳项目数字体育，人工智能ai
实现大语言模型与应用的无缝对接 meslog 技术分享语言模型 microsoft 人工智能
在当今人工智能快速发展的时代，大语言模型（LLMs）已经成为众多应用的核心驱动力。然而，如何让这些强大的模型与各种数据源和工具进行有效集成，仍然是一个挑战。ModelContextProtocol（MCP）正是为解决这一问题而设计的开放协议，它标准化了应用程序如何向大语言模型提供上下文信息。本文将介绍MCP的基本概念，并通过C#SDK展示如何实现客户端和服务器端的交互。什么是MCP？ModelCo
解决引入TransXNet模块后显存爆炸问题的全面指南 pk_xz123456 算法大数据 python 机器人数据挖掘深度学习
解决引入TransXNet模块后显存爆炸问题的全面指南前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。1.问题背景与现状分析1.1MF-PSN和TransXNet项目概述MF-PSN（Multi-FeaturePyramidStereoNetwork）是一个基于金字塔特征的多特征立体匹配网络，它通过构建多层次的特征金字塔来处理不同尺度的立体匹配问题
人工智能时代下的数据新职业：新兴工作岗位版图研究司南锤 economics 人工智能
目录摘要第一章：AI驱动的数据价值链重构1.1从“沉睡金矿”到“流动的血液”：数据作为核心经济资产的激活1.2知识的新经济学：零边际成本革命1.3AI作为新的“操作系统”：重塑产业竞争格局第二章：基石层：数据准备与质量保障中的角色2.1数据标注与标签领导力：数据标注经理/主管2.2“地面真实”的守护者：AI数据质量专家第三章：技术核心层：构建AI与机器学习全生命周期的工程角色3.1AI生产线架构师
【机器学习】探索未来科技的前沿：人工智能、机器学习与大模型 AIGC零基础入门小白 AI大模型大模型教程人工智能机器学习科技 AI大模型 AIGC AI教程大模型教程
文章目录引言一、人工智能：从概念到现实1.1人工智能的定义1.2人工智能的发展历史1.3人工智能的分类1.4人工智能的应用二、机器学习：人工智能的核心技术2.1机器学习的定义2.2机器学习的分类2.3机器学习的实现原理2.4机器学习的应用2.5机器学习的示例代码2.6解释代码三、大模型：推动AI前沿发展的关键技术3.1大模型的定义3.2大模型的发展历程3.3深度学习与神经网络3.4大模型的优势与挑
现代人工智能综合分类：大模型时代的架构、模态与生态系统司南锤 economics 人工智能分类数据挖掘
目录引言：人工智能的第四次浪潮与新分类的必要性第一节：大型模型范式的基础支柱1.1规模化假说：算力、数据与算法的三位一体1.2“涌现能力”之谜：当“更多”变为“不同”1.3自监督学习（SSL）革命第二节：大型模型的技术分类学2.1Transformer：现代人工智能的架构基石2.2架构分化：一种功能性分类2.3提升效率与规模：专家混合模型（MoE）2.4超越Transformer：下一代架构的探索
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
21、子图同构问题的深度解析 metal 子图同构图论算法
子图同构问题的深度解析1.子图同构问题概述子图同构问题是图论中的一个核心问题，广泛应用于社交网络分析、生物信息学、模式识别等领域。该问题的定义是：给定两个图，一个是较大的主图（HostGraph），另一个是较小的模式图（PatternGraph），判断主图中是否存在一个子图与模式图同构。简单来说，就是要找到主图中与模式图结构完全一致的子图。子图同构问题的难度在于它是一个NP完全问题，意味着在最坏情
Sequential Thinking：AI深度思考的新范式及其与CoT、ReAct的对比分析码字的字节人工智能 Sequential CoT ReAct
引言：AI深度思考的演进与SequentialThinking的崛起在人工智能技术快速发展的今天，AI模型的思考能力正经历着从简单应答到深度推理的革命性转变。这一演进过程不仅反映了技术本身的进步，更体现了人类对机器智能认知边界的持续探索。早期的大语言模型虽然能够生成流畅的文本，但在处理复杂问题时往往表现出"浅思考"的局限性——答案可能看似合理，却缺乏严谨的推理过程和系统性考量。例如，2022年的一
算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录推荐算法系统系列二算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南更多技术内容总结推荐算法系统系列二算
【DL经典回顾】激活函数大汇总（四）（Softmax & Softplus附代码和详细公式）夺命猪头 python 机器学习人工智能神经网络 numpy
激活函数大汇总（四）（Softmax&Softplus附代码和详细公式）更多激活函数见激活函数大汇总列表一、引言欢迎来到我们深入探索神经网络核心组成部分——激活函数的系列博客。在人工智能的世界里，激活函数扮演着不可或缺的角色，它们决定着神经元的输出，并且影响着网络的学习能力与表现力。鉴于激活函数的重要性和多样性，我们将通过几篇文章的形式，本篇详细介绍两种激活函数，旨在帮助读者深入了解各种激活函数的
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
Spring AI 概述与功能简介 drebander AI 编程 spring 人工智能 java
SpringAI是一个由Spring团队开发的开源框架，旨在为人工智能（AI）和机器学习（ML）提供一个成熟且高效的开发平台。它将Spring生态系统的设计理念应用于AI开发，尤其强调模块化、可移植性以及简洁的集成。SpringAI提供了丰富的功能，涵盖从AI模型的调用到与数据库的集成等多个方面，帮助开发者构建和管理AI驱动的应用程序。1.SpringAI背景SpringAI的背景源于Spring
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR