追梦Hocking

利用AlphaMissense准确预测蛋白质组范围内的错义变体效应

Editor’s summary

蛋白质中单个氨基酸的变化有时影响不大，但通常会导致蛋白质折叠、活性或稳定性方面的问题。只有一小部分变体进行了实验研究，但有大量的生物序列数据适合用作机器学习方法的训练数据。程等人开发了AlphaMissense，这是一种基于蛋白质结构预测工具AlphaFold2的深度学习模型（见Marsh和Teichmann的观点）。该模型基于人口频率数据进行训练，并使用序列和预测的结构上下文，所有这些都有助于其性能。作者使用未包含在训练中的临床数据库，对照相关方法评估了该模型，并证明其与变异效应的多重分析一致。人类蛋白质组中所有单氨基酸取代的预测都是作为一种社区资源提供的。

个人补充知识：蛋白质与氨基酸的关系：

蛋白质是由氨基酸组成的。氨基酸是组成蛋白质的基本结构单位。蛋白质当中含有必须氨基酸和非必需氨基酸。无论是蛋白质还是氨基酸都属于人体所需要的营养成分。在患者出现有蛋白质与氨基酸缺乏的情况下，容易出现有营养不良所引起的各种疾病的病情发生，从而会对患者的身体健康造成严重的损害，尤其是在患者出现有低蛋白血症的病情发作时，患者会呈现有极度虚弱的状态，需要及时进行治疗以免病情加重。

DNA是绝大多数生物的遗传物质，以DNA为模板利用四种核糖核昔酸为原料经过转录形成RNA，以RNA为模板利用20种氨基酸为原料料经过翻译形成蛋白质，蛋白质是生命活动的承担者

DNA是脱氧核糖核酸，RNA是核糖核酸，蛋白质是由氨基酸经脱水缩合而成组成的。DNA是绝大多数生物的遗传物质，以DNA为模板经过转录形成RNA，以RNA为模板经过翻译形成蛋白质。

INTRODUCTION

基因组测序揭示了人类群体中广泛的遗传变异。错义变体Missense variants是改变蛋白质氨基酸序列的遗传变体。致病性错义变体破坏蛋白质功能并降低生物体适应性，而良性错义变体的作用有限。

RATIONALE基本原理

对这些变体进行分类是人类遗传学中一个重要的持续挑战。在观察到的400多万个错义变体中，估计只有2%在临床上被归类为致病性或良性，而其中绝大多数具有未知的临床意义。这限制了罕见病的诊断，以及针对潜在遗传原因的临床治疗的开发或应用。机器学习方法可以通过利用生物数据中的模式来预测未标记变体的致病性，从而缩小变体解释的差距。具体来说，AlphaFold可以从蛋白质序列中准确预测蛋白质结构，可以作为预测变体对蛋白质致病性的基础。

RESULTS

我们开发了AlphaMissense，以利用多个方面的进展：（i）无监督蛋白质语言建模，以学习基于序列上下文的氨基酸分布；（ii）通过使用源自AlphaFold的系统来结合结构上下文；以及（iii）对来自群体频率数据的弱标签进行微调，从而避免来自人类策划的注释的偏差。AlphaMissense在临床注释、新发疾病变体和实验测定基准中实现了最先进的错义致病性预测，而无需对这些数据进行明确的训练。作为社区的资源，我们提供了一个预测人类蛋白质组中所有可能的单个氨基酸取代的数据库。我们使用ClinVar数据集上产生90%准确度的截止值，将32%的错义变体归类为可能的致病性变体，57%的错义变种归类为良性变体，从而为大多数人类错义变体提供了可靠的预测。

我们展示了如何利用这些资源来加速多个领域的研究。分子生物学家可以将该数据库作为设计和解释探测人类蛋白质组中饱和氨基酸取代的实验的起点。人类遗传学家可以将基因水平的AlphaMissense预测与基于群体队列的方法相结合，以量化基因的功能意义，尤其是对于较短的人类基因，基于队列的方法缺乏统计能力。最后，临床医生在优先考虑罕见病诊断的从头变异时，可以从自信分类的致病性变异的覆盖率的提高中受益，AlphaMissense预测可以为使用罕见、可能有害变异注释的复杂性状遗传学研究提供信息。

CONCLUSION

AlphaMisense预测可能阐明变体对蛋白质功能的分子影响，有助于识别致病性错义突变pathogenic missense mutations 和以前未知的致病基因，并提高罕见遗传病的诊断率。AlphaMissense还将促进从结构预测模型中进一步开发专门的蛋白质变体效应预测因子。

AlphaMissense致病性预测。

AlphaMisense将错义变体作为输入，并预测其致病性。我们对人类和灵长类动物变异种群频率数据进行了微调，并校准了已知疾病变异的置信度。AlphaMisense预测错义变体致病的可能性，并将其分类为可能良性benign、可能致病pathogenic或不确定uncertain。我们为社区提供了所有可能的人类错义变体的预测。

Abstract

在人类基因组中观察到的绝大多数错义变体具有未知的临床意义。我们提出了AlphaMisense，这是AlphaFold的一种改编，对人类和灵长类动物的变体群体频率数据库进行了微调，以预测错义变体的致病性。通过将结构背景和进化守恒相结合，我们的模型在广泛的遗传和实验基准上取得了最先进的结果，而无需对这些数据进行明确的训练。基因的平均致病性得分也可以预测其细胞重要性，能够识别现有统计方法检测能力不足的短必需基因。作为社区的一种资源，我们提供了一个预测所有可能的人类单氨基酸取代的数据库，并将89%的错义变体分类为可能的良性或可能的致病性。

基因组测序揭示了人类群体中广泛的遗传变异（1-3）。错义变体Missense variants是改变蛋白质氨基酸序列的遗传变体。致病性错义变体严重破坏蛋白质功能并降低生物体适应性，而良性错义变体的作用有限。在观察到的400多万个错义变体中，估计只有2%在临床上被归类为致病性或良性。对意义未知的剩余变体进行分类是人类遗传学中一项重要的持续挑战（3）。缺乏准确的错义变体功能预测限制了罕见病的诊断率，以及针对潜在遗传原因的临床治疗的开发或应用。尽管变异效应的多重分析（MAVE）系统地测量了蛋白质变异效应（4），并可以准确预测变异的临床结果（5），但由于MAVE实验所需的成本和劳动力，对变异致病性的全蛋白质组调查仍然不完整（6）。

机器学习方法可以通过利用生物学数据中的模式来预测未标记变体的致病性，从而缩小变体解释的差距。机器学习方法遵循四大策略。第一类方法直接在人类策划的变体数据库上进行训练（7-10），从而利用先验知识来告知未标记变体的状态。这种策略将继承人类策展人和以前的计算机预测者的偏见，并且它们很容易在训练和测试之间泄露数据（11）。

为了克服这种循环性，第二类方法使用不依赖于人类分类的弱标签进行训练（12，13）。在训练数据中，“良性”变异被定义为在人类或其他灵长类物种中经常观察到的变异。“致病性”类别近似于人类中未观察到的假设变体。这种方法代表了一个有希望的方向，以减轻潜在的人类管理偏见。然而，由于训练数据包含许多虚假标签，因此此类模型需要对更可靠的标签进行评估，以评估其真实性能。

第三类方法避免直接对变体注释进行训练，而是使用无监督方法，以氨基酸序列上下文为条件，对给定序列位置的氨基酸分布进行建模（14-16）。最近，从蛋白质序列中学习氨基酸之间的高阶依赖性的深度学习模型，如自动编码器或语言模型，已经获得了强大的性能（17-19）。在这样的模型中，致病性被解释为参考序列和替代序列之间预测的对数似然性的差异。尽管这些模型有效地捕捉了自然进化序列的分布，但它们缺乏AlphaFold（AF）对蛋白质结构的最先进理解（20，21）。

第四种策略是利用蛋白质结构来推断致病性，因为改变的氨基酸的结构背景提供了解释其对蛋白质影响的关键信息。对预测蛋白质结构的初步探索显示了希望（22，23），预测蛋白质结构有助于对遗传进化约束的估计（24）。尽管该策略改进了遗传约束量化，但直接使用该方法进行致病性预测在ClinVar变体上仅显示出中等性能（24），这可能是因为在当前人类序列数据库中观察到的遗传多样性较低。

AF最近已经表明，使用蛋白质序列作为输入可以大规模预测高度准确的蛋白质结构（21，25）。这样的蛋白质结构模型可以作为理解蛋白质生物学的其他方面的基础，例如变体致病性。尽管AF在很大程度上对输入序列变异不敏感，并且不能准确预测点突变后的结构变化（26），但我们假设AF对多序列比对（MSAs）和蛋白质结构的内在理解为直接预测错义变体致病性的模型提供了有价值的起点。

在这里，我们提出了AlphaMissense，它结合了现有策略的以下元素：（i）对来自群体频率数据的弱标签进行训练，通过不使用人类注释来避免循环性；（ii）结合无监督蛋白质语言建模任务来学习以序列上下文为条件的氨基酸分布；以及（iii）通过使用源自AF的系统来结合结构上下文。我们在临床注释、新发疾病变异和实验MAVE基准方面实现了最先进的预测，而没有根据这些数据明确训练我们的模型。我们预测并表征了人类蛋白质组中所有单个氨基酸取代的致病性，并将这些预测提供给社区。

AlphaMissense: Fine-tuning AlphaFold for variant effect prediction

AlphaMissense：微调AlphaFold以进行变体效果预测

AlphaMissense将氨基酸序列作为输入，并预测序列中给定位置上所有可能的单个氨基酸变化的致病性。AlphaMissense利用了AF的两个关键功能：其高度准确的蛋白质结构模型和从相关序列中学习进化约束的能力（21）。因此，AlphaMissense的实现与AF的实现非常相似，但在架构上略有差异（图1和图S1；参见补充材料中的方法）。值得注意的是，AlphaMissense并不预测突变氨基酸序列的结构变化，而是以标量值预测致病性。

Fig. 1. Overview of AlphaMissense.

（A） AlphaMissense架构。模型输入由参考蛋白质序列[裁剪为长度（L）=256个残基]、从训练集中为相同序列采样的一组变体（最多N=50个变体）和多序列比对（MSAs，最多Nall=2048）组成。一次对一个变体进行推理（N=1）。参考序列在MSA的第二行中重复，所有采样的变体位置都被屏蔽（见方法）。如在AlphaFold中一样，该模型从参考序列（嵌入大小Kpair）构建对表示（即，编码关于残基之间双向相互作用的信息），并从掩蔽的MSA（嵌入大小Kmsa）构建MSA表示。MSA和对表示由一堆Evoformer层进行处理，并进行回收。最后，该模型预测了参考序列的结构和致病性评分 � � � 对于变体，其从掩蔽残差预测头导出为残差a相对于位置i处的参考残差之间的对数似然差（参见方法）。（B）致病性评分被微调为良性变异（在人类或灵长类动物群体中观察到或频繁的错义变异）或致病性变异（未观察到的人类错义变体）的二元分类。我们根据良性变异的次要等位基因频率（MAF）将其划分为簇，并在损失函数中引入权重，以减少罕见变异的贡献。对于良性组中观察到的每个变体，我们从致病组中抽取一个错义变体，并将其分配给与良性变体相同的损失权重（见方法）。（C）我们在一组不同的基准数据集上评估了AlphaMisense，包括ClinVar中的注释错义变体（30）、新发疾病变体（54）和ProteinGym中收集的MAVE数据（19）。

AlphaMissense分两个阶段进行训练。在第一阶段，像AF一样训练网络，以通过预测MSA中随机位置掩蔽的氨基酸的身份来执行单链结构预测（AF预训练）以及蛋白质语言建模。我们对AF进行了一些小的结构修改，并增加了蛋白质语言建模的损失，同时仍然实现了与AF相当的结构预测性能（见方法）。在预训练之后，通过计算参考和替代氨基酸概率之间的对数似然比，掩蔽语言建模头已经可以用于变体效应预测，如在MSA Transformer（27）和进化尺度建模[ESM（28）]中所做的那样。

在第二阶段（图1A），该模型在人类蛋白质上进行了微调，并为MSA第二行中的变体序列定义了额外的变体致病性分类目标（图第1A段）。对于训练集，我们将良性标签分配给在人类和灵长类动物群体中经常观察到的变体，将致病性标签分配给人类和灵长目动物群体中不存在的变体，就像在PrimateAI中所做的那样（12）（图1B；见方法）。一旦模型开始在验证集上过度拟合，我们就停止训练模型（2526个ClinVar变体，每个基因的致病性和良性变体数量相等；见方法）。

我们的训练集本质上是有噪声的，因为许多未观察到的变体可能是良性的，但与单独预训练相比，它提供了足够的学习信号来提高变体致病性得分。为了提高训练集的质量和大小，我们通过使用初步的AlphaMissense模型来过滤未观察到的预测可能是良性的变体，从而采用自蒸馏。然后使用这个过滤的训练集重复微调阶段（参见方法）。进一步的创新包括自定义分类损失函数、在训练期间对多个变体进行采样、改进变体的匹配采样以及在向预训练的参数值进行微调期间的权重衰减（见下文的方法和消融研究部分）。

Improved pathogenicity classification across multiple clinical benchmarks跨多个临床基准改进致病性分类

临床数据库收集导致人类疾病的错义变体。这些数据库可用于确定致病性预测模型的基准，但这些数据包含人类偏见，可能会歪曲临床相关变异的真实分布（见补充材料中的补充说明）。在这些数据库上训练的模型（例如ClinVar）继承了这些偏差，并且往往无法推广到其他基准（11，29）。我们避免直接对临床策划的标签进行培训，以缓解此类问题，并能够对各种基准进行忠实评估，包括ClinVar中注释错义变体的测试集（30）、罕见发育障碍患者和对照组的新变体（12）、ProteinGym中的MAVE基准（19），以及本研究中策划的其他MAVE基准（图1C；见方法）。

我们首先在ClinVar错义变体上评估了我们的模型。在平衡了每个基因的致病性和良性变异的数量后，AlphaMissense在18924个ClinVar测试变异上实现了0.940的受试者-算子曲线下面积（auROC），而变异效应进化模型（EVE；P=0.001，bootstrap）实现了0.911的auROC，该模型是第二好的模型，没有直接在ClinVar上训练（17）（图2A）。AlphaMissense也优于直接在ClinVar上训练的模型，尽管这些模型表现出数据泄露和标签循环性（图2A；见补充注释）（11，17，29）。此外，我们观察到AlphaMissense能够在高度进化约束的区域内区分致病性和良性ClinVar变体（31），并且它在这项任务上优于最佳竞争模型（ESM1b，P=0.001，bootstrap）（图S2A）。这一结果表明，该模型不仅依赖于识别受约束的领域，而且捕捉到了这些领域内个体变体效果的差异。我们的模型性能在不同的AlphaFold置信水平上是一致的（图S2B）。然而，我们注意到来自预测为无序的残基的变体的性能降低（图S2C）。

Fig. 2. Performance of AlphaMissense on clinically curated classification benchmarks.

图2。AlphaMissense在临床策划的分类基准上的表现。

基准是根据受试者-操作员曲线（auROC）下的面积进行评估的。误差条显示1000个引导重采样的95%置信区间（见方法）。一些手动选择的方法是彩色的，以说明不同基准上的相对位置。（A） ClinVar变体（来自999种蛋白质的9462种致病性变体和9462种良性变体）的分类性能平衡了每个基因的阳性和阴性变体的数量。灰色显示的方法直接在ClinVar上进行训练。他们的一些训练变体包含在这个测试集中，因此他们的性能可能被高估了。误差条显示1000个引导重采样的95%置信区间（见方法）。（B） ClinVar测试集上每个基因的平均auROC。共考虑了612种蛋白质，其中至少有五种良性和五种致病性ClinVar测试变体。（C） AlphaMissense和其他预测因素在区分DDD队列患者和健康对照中的新变异方面的比较（12）。共考虑了来自215个DDD相关基因的353个患者变体和57个对照变体。我们排除了EVE，因为它在该数据集中的变体覆盖率较低（227/410个变体）。（D） AlphaMissense分数在类平衡的ClinVar验证集上进行校准（见方法）。该图显示了校准曲线，该曲线绘制了在ClinVar测试集（82872个变体）上计算的每个垃圾箱的致病性变体分数的平均分数。误差条表示从1000个自举重采样计算的95%置信区间。直方图显示了致病性（红色）和良性（蓝色）变异之间的得分分布。（E）不同目标精度水平下已解决（明确）错义变体的分数。精确性被定义为在致病性和良性分类预测中真实预测的分数。用ClinVar测试集变体从EVE评分的蛋白质中计算解析的组分（全部为黑线），然后过滤为每个标记至少有3、5或10个变体的蛋白质（浅色线）。（F）从ACMG临床可操作基因中选择的示例蛋白质（32）。蛋白质名称写为“[HUGO符号]/[Uniprot登录ID]”。（左图）用点表示的错义变体与AlphaMissense（AM）致病性评分（y轴）和氨基酸位置（x轴）相对应。预测为可能致病的变异以红色显示，预测为可能良性的变异以蓝色显示，不明确的变异以灰色显示。如果变体在ClinVar中包含临床标签，则将其绘制为实心圆。对于长度超过1400个氨基酸的蛋白质，显示了前1400个氨基酸。（右图）显示了所选区域的AlphaFold蛋白质结构预测。预测结构中的每个残基根据该残基的平均AlphaMissense致病性得分（每个残基19个可能的氨基酸变化中）进行着色。另请参见图S3A。（G）与（F）相同，但从MAVE社区优先考虑的基因中选择的例子用于进一步研究（33）。另请参见图S3B。崩溃在查看器中打开

变异的临床评估通常集中在特定的疾病相关基因上，区分这些基因中的良性和致病性变异是预测模型的一项重要的临床相关任务。为了了解AlphaMissense模型在这项任务中的表现，我们分析了ClinVar测试集中至少有五种致病性和五种良性变异的612个基因。对于这些基因，我们计算了基因水平的auROC，它捕捉了模型在对单个基因中的变异进行分类方面的表现。当以这种方式进行评估时，AlphaMissense优于不直接在ClinVar上训练的次优方法EVE（17），平均基因水平auROC为0.950对0.921（P=0.001，自举）（图2B）。

我们进一步评估了AlphaMissense在两组重要蛋白质上的性能。第一组包括由美国医学遗传学学院（ACMG）优先考虑的临床可操作基因编码的蛋白质（32），该学院建议将这些基因的临床外显子组和基因组测序作为临床的次要发现返回，因为它们具有明确的疾病表型和高度渗透性突变。对于具有足够ClinVar标记和两种方法评分的34个ACMG基因，26个基因（77%）使用AlphaMissense致病性预测比EVE有所改善（图S3A）。第二组是基于临床相关性和实验易处理性，社区为未来MAVE研究优先考虑的蛋白质（33）。对于两种方法中具有足够ClinVar标记和评分的20个基因，使用AlphaMissense致病性预测，发现16个基因（80%）相对于EVE有改善（图S3B）。

最后，我们在解码发育障碍（DDD）基准上评估了AlphaMissense，其中AlphaMissSense实现了0.809的auROC，与PrimateAI持平（auROC=0.797，P=0.31，bootstrap）（12）（图2C）。我们还评估了我们的模型对癌症热点的分类，其中AlphaMissense实现了0.907的auROC，而下一个最佳模型VARITY（P=0.001，bootstrap）（9）（图S2D）。总体而言，AlphaMissense在所有策划的临床基准中都实现了最先进的性能，而之前报道的其他模型在这些基准中的排名都不高。

Calibrated AlphaMissense predictions expand the number of confidently classified variants relative to other methods相对于其他方法，校准的AlphaMissense预测扩大了自信分类变体的数量

在建立了AlphaMissense在临床基准上的最先进性能后，我们接下来生成并分析了整个蛋白质组的预测。我们使用AlphaMissense预测了19233种典型人类蛋白质中所有2.16亿个可能的单个氨基酸变化的致病性，导致7100万个错义变体预测使人类蛋白质组饱和（见方法）。

预测分数的实际使用需要对照临床策划的致病性和良性变异的金标准集进行仔细校准。我们使用来自ClinVar的2526个变体的平衡验证集（见方法），使用单变量逻辑回归模型校准我们的预测。这种方法产生校准的分数，如ClinVar测试集所示（图2D；见方法）。校准的AlphaMissense评分（范围在0到1之间）可以解释为变体具有临床致病性的近似概率。我们注意到，由于大多数预测接近0或1，0.2至0.8之间的分数校准可能不太准确。

接下来，我们使用校准的预测分数将变体分为三个离散类别，类似于ACMG术语（32，34）：可能致病、可能良性和不明确[选择临界值，以便分类为可能致病或可能良性的变体具有根据ClinVar估计的90%的预期精度，如（17）所述]（图S4A）。由于具有更高的预测性能，与最近性能良好的无监督模型EVE相比，我们可以自信地以90%的精度分类的ClinVar测试变体的比例增加了25.8个百分点（从67.1%增加到92.9%）。（17）（图2E和图S4B）。这种方法在蛋白质组范围内提供了一个具有自信预测的变体数量的重大扩展。

Overall properties and examples of AlphaMissense predictions

AlphaMissense预测的总体性质和示例

为了了解预测的总体性质，我们将其与有效序列比对次数（Neff评分）、遗传约束和预测的蛋白质紊乱进行了比较（图S4，C至F）。具有较低有效比对序列数并因此具有较低保守性水平的残留物往往具有较低的预测致病性（图S4C）。当观察聚集蛋白水平的结果时，这种关系不那么明显（图S4D），这表明AlphaMissense捕获了蛋白质内的结构域保守性，而不是整个蛋白质水平的进化保守性。类似地，位于进化受限基因中的变体被系统地预测为与不受约束基因中的变种相比更具致病性（图S4E）。位于结构化区域的变体可能会改变蛋白质稳定性（35，36），与位于紊乱区域的变体相比，其致病性得分更高（图S4F；用AlphaFold预测蛋白质紊乱）。这与最近的观察结果一致，即已知的致病变体更有可能存在于热稳定蛋白中（37）。

为了进一步了解AlphaMissense学习的氨基酸取代的特性，我们计算了所有人类蛋白质中每个氨基酸取代的平均预测致病性（图S4G）。正如预期的那样，芳香族氨基酸或半胱氨酸的突变更有可能是致病性的，因为它们在维持蛋白质结构方面发挥着作用。预测的取代分数是不对称的，如先前报道的（38），并且与BLOSUM62（39）取代矩阵总体[相关系数（r）=-0.61；图S4H]和每个参考氨基酸相关（图S4I）。总之，这些结果表明，该模型使用MSA中存在的结构信息和进化信息来做出与已知生物学一致的预测。

我们将致病性预测与ClinVar标签一起可视化（图2，F和G，左图）和AF预测的蛋白质结构（图2、F和G、右图）。可以观察到这些特定蛋白质的总体趋势。例如，结构紊乱的区域与良性预测和良性临床注释一致，与整个蛋白质组的结果一致（图S4F）。在特定情况下，根据蛋白质功能，致病性预测是有意义的。例如，我们预测ACVRL1的跨膜结构域（氨基酸119至141）比代表酶或蛋白质-蛋白质相互作用位点的球形结构域更能耐受突变（图2F）。

AlphaMissense achieves state-of-the-art agreement with multiplexed assays of variant effect

AlphaMissense通过变异效应的多重分析实现了最先进的一致性

MAVE实验通过在细胞中表达蛋白质变体并使用生长或荧光读数测量活性，生成变体效应的“主动”图谱（40）。由于MAVE实验密集地覆盖（并且经常饱和）感兴趣的蛋白质，它们提供了关于蛋白质区域的有价值的信息，否则会被稀疏的临床管理所遗漏，尽管MAVE数据的直接临床效用取决于测定读数和实验质量（41）。

为了评估AlphaMissense和MAVE研究之间的一致性，我们根据MAVE数据的两个来源对预测进行了基准测试：ProteinGym中收集的72种蛋白质的150万个变体（19）和由20种最近发表的蛋白质组成的额外基准集（见方法）。相对于其他方法，AlphaMissense与MAVE数据的一致性最强（ProteinGym上的平均Spearman相关性：0.514；附加MAVE基准：0.450；图3，A至C）。当仅限于所有方法评分的25种人类蛋白质的氨基酸变体时，AlphaMissense仍然是13种方法中ProteinGym评分最高的方法（平均Spearman相关性：0.474；图3B）。与次优模型相比，AlphaMissense在两个基准中改进了对大多数蛋白质的预测[62/72，相对于ProteinGym中的预测突变效应的全球突出模型（GEMME）（16），60/72相对于ProteinGym中的EVE，13/20相对于附加MAVE基准中的ESM1v]（图S5，A和B）。

图3。AlphaMissense通过变异效应的多重分析实现了最先进的一致性。（A） MAVE基准测试的性能。ProteinGym（19）是一个包含MAVE数据的72种蛋白质的集合。显示了每个模型的预测和ProteinGym MAVE数据之间的每个蛋白质Spearman相关性的分布，平均值显示为一个点（在小提琴图上方的数字上）。（B）通过所有方法评分的ProteinGym变体子集（608175个变体，25种人类蛋白质）的性能比较。点表示每种方法中蛋白质之间的平均斯皮尔曼相关性，也在每个小提琴图上方用数字表示。（C）我们策划了一个额外的20种人类蛋白质的基准数据集，这些蛋白质未包含在ProteinGym中。显示了预测和额外MAVE数据之间的每蛋白质Spearman相关性的分布。（D） SHOC2的前200个氨基酸上的氨基酸取代的观察和预测效果的热图。（上图）通过MAVE测定依赖于SHOC2的癌症细胞的细胞生长，观察到致病性（43）。分数是来自实验测定的百分位标准化测量值。分数接近零（蓝色）的变体保留SHOC2功能，而分数接近一（红色）的变体失去SHOC2功能。（中间和底部热图）AlphaMissense（AM）和EVE致病性评分。这两个分数都在0到1之间，分数越高，致病性越强。没有预测的变体颜色为灰色（请参见EVE热图）。热图上方显示了域级注释（Annot.），包括RVxF和富含亮氨酸重复序列（LRR）区域。还显示了残基水平注释[如来自蛋白质数据库（PDB）ID 7UPI的（43）中计算的]，表示表面、核心和蛋白质-蛋白质相互作用残基。（E） SHOC2（蓝色和红色）与MRAS（黄色）和PP1C（金色）复合物的实验衍生结构[PDB ID 7UPI（43）]。每个位置的平均AlphaMissense致病性得分显示在SHOC2结构中，蓝色对应良性，红色对应致病性。（插图）接触PP1C的SHOC2的RVxF结合区以及接触MRAS和PP1C的LRR区的特写。（F） GCK（蓝色和红色）的实验推导结构[PDB ID 3F9M（55）]。每个位置的平均AlphaMissense致病性得分显示在GCK结构中，蓝色对应良性，红色对应致病性。还显示了活性位点配体（黄色）和变构抑制剂（绿色）。（插图）与配体（如D205，催化位点）接触的残基和与变构抑制剂结合的残基（如T65I）的特写。（G）葡萄糖激酶突变体（56）对AlphaMissense致病性的相对活性指数的比较。在logx轴上，得分为1表示相当于野生型的体外活动，得分低于1表示活动较少，得分高于1表示多动。Spearman相关性显示在面板的左下方。每个点代表不同的蛋白质变体，根据AlphaMissense分类阈值进行着色。该形状表示临床标签（45）。虚线显示了体外测量与AlphaMissense致病性之间的线性拟合。引起高胰岛素血症性低血糖（HH）的T65I被标记。MODY，年轻人的成熟期糖尿病。

我们将观察到的MAVE数据和可用的模型预测与实验解析的蛋白质结构和疾病相关蛋白质的结构域注释进行了比较。SHOC2蛋白与MRAS和PP1C形成复合物，以激活癌症中的Ras-MAPK（促分裂原活化蛋白激酶）信号通路（42）。AlphaMissense致病性与MAVE数据相关，MAVE数据测量SHOC2变体对Ras-活化的癌症细胞适应性的影响（43）（斯皮尔曼相关性：0.47），优于ESM1v、ESM1b和EVE（斯皮尔曼相关：分别为0.41、0.40和0.32；图S5B）。

我们研究了AlphaMissense是否能更好地捕捉SHOC2内特定结构域驱动的致病性，这将通过每个氨基酸位置的平均致病性来反映。每个位置的AlphaMissense平均致病性与每个位置的MAVE平均值非常一致（位置Spearman相关性：0.64），优于ESM1b、ESM1v和EVE（位置Speadman相关性：分别为0.56、0.55和0.48；图S5C）。根据MAVE测定，在SHOC2的前80个氨基酸中，位置63至74是致病性的（图3D）。该区域在结构上显示通过RVxF基序结合PP1C（43）（图3E）。AlphaMissense是唯一能够正确预测该功能重要区域突变致病作用的模型（图3D和图S5D）。此外，在第80位之后，MAVE数据和AlphaMissense预测的致病性大约每23个氨基酸达到一个峰值（图3D），对应于大约每隔23个氨基酸接触MRAS和PP1C的20个富含亮氨酸的重复结构域（图第3、D和E段）。总体而言，直接接触MRAS或PP1C的残基得分为高致病性（中位AlphaMissense致病性：分别为0.98和0.96），几乎与核心疏水性残基一样高（中位alphaMissenses致病性：0.99），并且高于不形成蛋白质-蛋白质接触的表面残基（中位lphaMisense致病力：0.51；图S5E）。

接下来，我们试图确定20种可能的氨基酸中每一种的平均取代效应是否更好地反映在我们的模型中，这是由它们的化学性质驱动的。对于SHOC2，与其他模型相比，AlphaMissense与测量的每个氨基酸的平均取代效应最为一致（图S5C）。总的来说，当在ProteinGym中的所有蛋白质和额外的MAVE基准中以这种方式计算时，AlphaMissense在氨基酸取代和位置度量方面显示出最高的平均性能，表明结构域水平致病性预测和氨基酸特性的改善都是模型性能的基础（ProteinGym上的平均位置Spearman相关性：0.54；ProteinGy姆上的平均取代Spearman相关：0.545；图S5F）。

另一个实例蛋白质是人葡萄糖传感器GCK。降低GCK活性的变体可导致年轻人成熟期糖尿病（MODY）（44）。AlphaMissense致病性与MAVE数据相关，MAVE数据测量在葡萄糖存在下表达人GCK变体的营养缺陷型酵母菌株的适应性（45）（Spearman相关性：0.53），优于ESM1v、EVE和ESM1b（Spearmman相关性：分别为0.49、0.48和0.45；图S5B）。GCK主要起催化葡萄糖的作用；催化残基Asp205（D205）是平均AlphaMissense致病性排名最高的残基（0.999），与配体直接接触的其他残基也具有类似的致病性（图3F）。在携带GCK错义变体的患者中，AlphaMisense致病性与空腹血糖下降有关（Spearman相关性：−0.49）（45）。AlphaMissense致病性与36种临床变体的体外GCK活性测量结果呈对数线性关系（Spearman相关性：−0.65；图3G），达不到MAVE数据估计的实验准确性（Spearmman相关性：0.75），但比其他预测方法更接近（ESM1v:0.61；ESM1b:0.50；EVE:−0.50；图S5G）。根据AlphaMissense的高致病性变体表现出较低数量级的GCK活性，这与大多数临床证实的致病性GCK变体是活性降低的MODY变体的事实一致。另一方面，少数过度活跃的致病性变体[聚集在变构位点附近，例如Thr65→Ile（T65I）]（图3F和图S5H）可引起高胰岛素血症性低血糖（44）。AlphaMissense通常将这些分类为模糊或良性（图3G）。

Ablating components of AlphaMissense reveals key drivers of performance

你可能感兴趣的:(人工智能,生物信息学)

基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
探秘阿里云Tair KVCache：大模型推理的加速引擎云资源服务商阿里云云计算人工智能
一、引言近年来，人工智能领域发展迅猛，大语言模型（LLM）不断取得突破，其应用场景也日益广泛。从智能客服到内容生成，从智能写作到智能翻译，大语言模型正在深刻地改变着我们的生活和工作方式。随着模型规模的不断扩大和推理需求的日益增长，大模型推理过程中的显存瓶颈问题逐渐凸显，成为制约其发展和应用的关键因素。在大模型推理中，KVCache技术作为一种优化手段，通过缓存历史Token的Key/Value向量
AI正在偷偷取代这10种职业，你的工作安全吗？
近年来，人工智能（AI）的飞速发展正在悄然改变我们的工作方式。从自动化客服到AI生成内容，许多传统职业正面临被取代的风险。虽然AI带来了更高的效率和便利，但也让不少人开始担忧：我的工作会被AI抢走吗？今天，我们就来盘点10种最容易被AI取代的职业，并探讨如何在这个AI时代保持竞争力。1.客服代表取代指数：★★★★★AI驱动的聊天机器人（如ChatGPT、GoogleBard）已经能够处理大部分基础
直播预告！探讨生成模型中的极简概念擦除青稞社区. 青稞Talk 人工智能图像处理
主页：http://qingkeai.online/原文：https://mp.weixin.qq.com/s/yc4whKbnVY8ho1w7rgFVGg6月16日20:00，青稞Talk第55期，新加坡国立大学博士生张扬，将直播分享《生成模型中的极简概念擦除》。分享嘉宾张扬，慕尼黑工业大学计算机专业硕士，新加坡国立大学人工智能专业博士。曾于牛津大学进行学术访问，并在微软亚洲研究院及美国运通新加
【DeepSeek实战】3、Ollama实战指南：LobeChat+多网关架构打造高可用大模型集群无心水 Ollama实战指南 LobeChat实战 DeepSeek实战 DeepSeek全栈应用开发 AI入门大模型 CSDN技术干货
一、企业级大模型集群架构全景解析在人工智能落地应用的过程中，大模型服务的高可用性、成本控制和灵活扩展能力成为企业关注的核心痛点。本方案通过LobeChat前端、AI网关层和Ollama模型集群的三层架构设计，实现了无需复杂运维即可部署的生产级大模型服务体系。该架构不仅支持负载均衡、故障转移和模型热切换等企业级特性。还通过量化技术将硬件成本降低60%以上，为中小企业提供了与商业云服务相当的性能体验。
生成式人工智能实战 | 深度卷积生成对抗网络（Deep Convolutional Generative Adversarial Network, DCGAN）盼小辉丶生成式人工智能实战150讲人工智能生成对抗网络神经网络
生成式人工智能实战|深度卷积生成对抗网络0.前言1.模型与数据集分析1.1模型分析1.2数据集介绍2.构建DCGAN生成人脸图像2.1数据处理2.2模型构建2.3模型训练0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)是基于生成对抗网络(ConvolutionalGenerativeAdversarialNet
2024年AI 智能助手（大模型）产品市场分析｜商派徐礼昭｜商派软件市场负责人人工智能
一、引言人工智能的浪潮不断向前推进，智能助手作为其中的重要应用，已经逐渐渗透到我们生活的各个方面。它们以其便捷性和个性化的特点，改变了我们与世界的互动方式。本报告将对AI智能助手进行全面的行业分析，包括行业概况、主要玩家、用户数据、发展要素以及未来趋势等方面，并通过具体案例分享，帮助读者深入了解这一领域的现状和未来发展潜力。二、行业概览（一）智能助手的定义和发展阶段智能助手是利用人工智能技术为用户
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
转行要趁早！网络安全行业人才缺口大，企业招聘需求正旺！
网络安全行业具有人才缺口大、岗位选择多、薪资待遇好、学历要求不高等优势，对于想要转行的人员来说，是一个非常不错的选择。人才缺口大网络安全攻防技术手段日新月异，特别是现在人工智能技术飞速发展，网络安全形势复杂严峻，人才重要性凸显。教育部《网络安全人才实战能力白皮书》数据显示，到2027年，我国网络安全人员缺口将达327万。近期发布的《2024年网络安全产业人才发展报告》中提到，沿用ISC2的人才缺口
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
【Html实现“心形日出”（附效果+源代码）】| JavaScript面试题：解释一下异步编程中的回调函数、Promise和Async/Await的概念。它们有什么区别？追光者♂ html5 css3 心形日出前端特效 JS面试题 Promise Async/Await
风会带走你曾经存在过的证明。——虞姬作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！
python做生物信息学分析_Python从零开始第五章生物信息学①提取差异基因吴敬欣 python做生物信息学分析
目前来说，做生物信息学的人越来越多，但是我觉得目前而言做生信的主要有三类人：老本行是做实验的，做生信可能是为了辅助研究或者是为了发paper(有非常多的临床生选择趟生信这波水)主要是做生信的，主要涵盖高通量测序数据分析，组学数据分析等等，专门从事生物学数据分析的这群人，其大部分也是本科生物狗作为强大的生力军，以调包写R，python为主。那么这群人就要熟悉看各种包的tutorial以及如何进行常规
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
用Python实现生信分析——序列搜索和比对工具详解写代码的M教授生信分析 python
1.什么是序列搜索和比对工具？序列搜索和比对工具在生物信息学中用于在大型序列数据库中搜索与查询序列相似的序列，并进行比对分析。这些工具可以帮助研究人员识别与目标序列相关的已知序列，从而推测其功能、结构和进化关系。常见的序列搜索和比对工具包括：BLAST（BasicLocalAlignmentSearchTool）：最常用的序列搜索工具，能够快速找到与查询序列相似的序列。FASTA：另一个常用的序列
青少年编程与数学 01-012 通用应用软件简介 15 人工智能助手明月看潮生编程与数学第01阶段青少年编程人工智能应用软件编程与数学
青少年编程与数学01-012通用应用软件简介15人工智能助手一、什么是人工智能助手二、人工智能助手的产生和发展（一）早期探索阶段（二）技术突破阶段（三）广泛应用阶段三、人工智能助手的主要功能（一）信息查询（二）日程管理（三）设备控制（四）知识问答四、人工智能助手的商业模式（一）广告收入（二）增值服务（三）数据服务（四）硬件销售五、DeepSeek（一）基本情况（二）技术水平（三）产品功能（四）市场
虚拟空间中的AI协作与任务 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 AI人工智能与大数据大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
虚拟空间与AI概述在当今信息化和数字化的时代，虚拟空间（VirtualSpace）已成为人们生活和工作的重要一部分。虚拟空间是一种通过计算机技术构建的虚拟环境，它能够模拟和增强现实世界中的各种交互和体验。而人工智能（AI）作为计算机科学的一个分支，通过模拟人类的认知能力来实现自动化和智能化的决策。虚拟空间与AI的结合，不仅为人类带来了全新的交互方式，也为各行业的发展注入了强大的动力。虚拟空间的定义
AI Agent: AI的下一个风口智能体在元宇宙里的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIAgent:AI的下一个风口智能体在元宇宙里的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AIAgent,元宇宙,虚拟角色,智能交互,人工智能,虚拟世界,智能体架构,交互式应用1.背景介绍1.1问题的由来随着虚拟现实(VR)、增强现实(AR)和区块链技术的不断发展，元宇宙(Metaverse)的概念逐渐兴起。元宇宙是一个由虚拟世界
攻击者利用热门AI发动黑帽SEO攻击，通过污染搜索结果传播窃密木马 FreeBuf- 人工智能
伪装成AI主题网站的恶意页面|图片来源：ZscalerZscaler威胁实验室研究人员发现一起精心策划的恶意软件攻击活动，攻击者利用ChatGPT和LumaAI等人工智能(AI)工具的热度，通过黑帽SEO（搜索引擎优化）技术劫持搜索引擎结果，诱导用户落入恶意软件陷阱。Zscaler警告称："这些攻击背后的威胁行为者正在利用ChatGPT和LumaAI等AI工具的热度。"这些欺诈活动至少从2025年
Python/Java/Php/C#/Go/C/C++这几个主力语言，谁到底真的不行 dotNET跨平台 java c#开发语言
1.前言阿里最近又进行了史诗级的大裁员，IT行业肉眼可见的持续性衰退与没落。当潮水退却，才能看出谁在裸泳。作为当今计算机编程界的几大主力语言，谁才真正的裸泳者呢？2.描述1.Python:Python作为一款解释性的动态语言，它很早就诞生了。它的第一个发行版1991年出世，比Java还要早四年。可惜命运不济，一直没有大的作为。到了2014年人工智能的风口悄然兴起，Python一路高歌猛进。到了20
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，