哇塞qwq

Pssp-mvirt: 基于多视图深度学习架构的肽二级结构预测

摘要

介绍

方法和材料

数据

初始数据集集合

训练和测试数据集

建议的 pssp-mvirt 的架构

多视点特征融合模块

功能视图1-顺序信息嵌入

功能视图2-进化信息嵌入

功能视图3-隐藏状态信息嵌入

多视点特征融合策略

高隐含特征提取模块

基于新填充技术的CNN局部特征提取

基于 bgru 的全局特征提取

门控复发单位

附加限制机制

特征表达能力增强模块

多头注意机构

预测模块

绩效指标

实验环境

结果和讨论

与现有二级结构预测方法的比较

多肽二级结构预测的长度偏好研究

确定模型的最优网络体系结构

我们的多视角特征融合策略的影响

个案研究

网站

结论

摘要

肽二级结构的预测对揭示肽的作用机制具有重要意义，具有潜在的应用前景。本文提出了一种基于多视点信息、限制和迁移学习的多视点深度学习方法——肽二级结构预测法。为了充分利用鉴别信息，提出了一种多视点融合策略，分别从序列信息、进化信息和隐藏状态信息等多个视点整合不同的信息，生成统一的特征空间。此外，我们构建了一个混合网络结构的卷积神经网络和双向门控循环单元提取全局和局部特征的多肽。此外，我们利用迁移学习有效地缓解了训练样本(具有实验验证结构的多肽)的缺乏。独立测试的比较结果表明，我们提出的方法明显优于最先进的方法。特别是，我们的方法在分段级别表现出更好的性能，这表明我们的模型在捕获局部区分性信息方面有很强的能力。实例研究还表明，我们的 pssp-mvirt 在预测新的肽二级结构方面取得了良好的效果。重要的是，我们建立了一个 web 服务器来实现这个建议的方法，目前可以通过 http://server.malab.cn/pssp- mvirt 访问这个方法。我们希望它能成为研究人员感兴趣的有用工具，促进我们的方法的广泛应用。

介绍

肽具有高特异性、高耐受性、高渗透性、副作用少、生产成本低、易于制造和修饰等优点，近年来已成为治疗各种疾病的潜在治疗分子[1]。多肽的生物学功能与其结构密切相关。因此，了解生物活性肽的结构不仅有助于进一步了解肽的功能，而且还可以指导设计具有所需功能的肽[2]。二级结构是指蛋白质大分子的三维局部片段，这些片段是在氨基酸残基连接成一个序列之后，在蛋白质折叠成三级结构之前形成的。二级结构包括沿着骨架的氢键，使长链折叠成局部形状，主要是螺旋(h)、股(e)和线圈(c)[3]。随后，在预测肽的三级结构之前，一个重要的步骤是确定肽的二级结构，这可以提供关于结合特性和骨架的信息，有助于三级结构的预测。

在过去的几年里，已经提出了几种基于机器学习的预测蛋白质二级结构的计算方法。例如，Jones[4]设计了一个两阶段神经网络，其进化特征来源于特定位置记分矩阵(PSSM)，这是一种包含足够进化保守信息的轮廓。周和特罗扬斯卡亚[5]提出了一种新的基于监督生成随机网络的方法，该方法从条件分布中学习马尔可夫链，并将其应用于蛋白质结构预测。后来，王等人又提出了自己的观点。[6]提出了一种深度卷积神经场模型，该模型不仅可以探索复杂的序列-结构关系，而且可以探索相邻属性之间的相互依赖关系。特别是，与以往的其他方法不同，它可以在没有紧密同源关系或几乎没有进化信息的情况下为蛋白质提供更准确的二级结构预测。类似地，Li和Yu[7]提出了扩散卷积递归神经网络(DCRNN)，这是一种端到端的深度神经网络，它注重利用全局特征和局部特征，并利用多任务学习来同时预测二级结构和氨基酸溶剂可及性。为了捕捉与蛋白质一起的长距离依赖，Heffernan等人。[8]设计了一种具有长短期记忆机制的双向递归神经网络Spider3，旨在提取全局特征。他们证明，Spider3的性能优于其他以前的方法。Busia和Jaitly[9]提出了NextStep条件深卷积神经网络(CNN)，它通过使用一种新的链式预测方法对现有技术进行了改进。神经网络将二级结构预测框定为下一步预测问题。最近，方等人。[10]开发了一个深度起始内部网络(即Deep3I)，该网络集成了各种信息，如氨基酸的物理化学性质，以及来自PSI-BLAST轮廓(PSSM)的进化信息，以训练预测模型。Deep3I能够有效地处理每个残基之间的局部和全球相互作用，从而做出准确的预测。除了上面介绍的方法外，还有其他优秀的蛋白质二级结构预测方法，如PSIPRED[11]、JPRED[12]、RaptorX[13]、PHD[14]、PROTEUS2∗[15]等。

然而，上述方法都是专门为蛋白质二级结构预测而设计的，蛋白质和多肽的二级结构有很多不同之处。一方面，以往的研究已经证明，通过比较多肽和蛋白质的二级结构组成，对于蛋白质和多肽中一些相同的残基片段，它们的二级结构是不同的[2]。另一方面，缺乏准确的肽二级结构也限制了对肽功能的预测，如抗癌活性[16]，这严重依赖于序列信息。因此，通过整合额外的二级结构信息来期望改进是合理的。为了解决这个问题，Singh et al.。[2]首次提出了一种基于随机森林的方法PEP2D，该方法利用序列信息和进化信息来预测多肽的二级结构，并通过利用二级结构信息进行了大量的改进。综上所述，多肽的二级结构预测对于下游结构或功能的预测具有重要意义。

在这项研究中，我们提出了一种新的深度学习神经网络，称为基于多视图信息的肽二级结构预测，约束和转移学习(PSSP-MVIRT)，它是专门为肽二级结构预测设计的。提出的PSSP-MVIRT的新颖性可以归结为以下三个方面。首先，为了充分利用判别性信息，我们采用了多视角融合策略，分别从序列信息、进化信息和隐藏状态信息等多个角度对信息进行融合。其次，为了提取多肽的全局和局部特征，我们使用了CNN[28]和双向门控递归单元(BGRU)的混合网络结构。特别是，我们引入了一种额外的约束机制，可以捕获高潜在特征表示，提高表示能力。第三，由于缺乏具有实验验证结构的训练样本，本文首先利用迁移学习在大规模蛋白质数据集上训练我们的模型，然后对模型进行微调以进行肽二级结构预测。在基准数据集上的大量对比实验表明，我们提出的方法在独立测试上的性能明显优于最先进的方法。更重要的是，通过对比分析，我们的方法能够捕捉到更多的多肽的局部信息特征，这可以有效地帮助提高预测性能。

方法和材料

数据

初始数据集集合

在这项研究中，我们使用了相同的基准数据集，即Scratch-1D，这是几个研究中通常用于绩效评估的数据集[17]。该数据集由5772个蛋白质数据的一级结构和相应的二级结构组成，具有三种结构状态(H、E和C)。在Scratch-1D中，蛋白质结构是通过X射线晶体学得出的至少2.5埃的分辨率，没有断链，少于5个未知氨基酸，长度至少30个残基。值得注意的是，数据集中的序列一致性被降低到25%，以避免性能评估的偏差。然而，我们发现有一些蛋白质含有用符号X表示的非自然残基。去除这些多肽后，我们的数据集中保留了4542个蛋白质和多肽序列。

训练和测试数据集

由于我们的任务是预测肽的二级结构，其样本通常小于100个残基长度，数据集中长度大于100个残基长度的蛋白质序列被分割为100个残基长度，而不是使用全长的蛋白质序列。通过这样做，我们总共得到了9262个分段蛋白质子序列。这样做的原因是为了更好地捕捉短肽样序列的特征，以获得更好的性能。所有分段蛋白质子序列用于预训练初始的基于深度学习的预测模型，肽序列用于模型的微调以生成任务特定的模型。对于肽模型训练阶段，我们从1285个肽序列中随机选取1028个作为训练数据集，其中 h、 e 和 c 三个结构状态的数目分别为38749、18020和32910(表1)。其余257个肽序列(h 为7450，e 为4199，c 为6957)作为我们的测试集，用于模型性能评价。每个肽的序列长度在30到100个残基之间，这些残基用三态二级结构标记。三态二级结构和氨基酸测序的统计数据见图1 a 和 c，其中每种颜色在每个 fasta 文件中的长度分别表示螺旋(h)、链(e)或线圈(c)的数量。图1b 显示了数据集中每个状态的指定序列对应的肽序列的数量。在这项工作中使用的数据集的详细信息可以在表1中看到。图1还说明了数据集的统计。

表1. 这项工作中使用的数据集的摘要

图1。肽数据集统计。(a)每个残基肽序列中每个二级结构的数目 x; (b)相应的残基肽序列数目 x 与特定的羟乙基胆碱酯酶含量相关; (c)每个无残基肽序列中每个二级结构的数目 x; (d)相应的无残基肽序列数目 x 与特定的羟乙基胆碱酯酶含量相关。

建议的 pssp-mvirt 的架构

图2说明了所建议的神经网络的结构，即 pssp-mvirt。该方法包括四个主要模块: (1)多视点特征嵌入、(2)特征提取、(3)特征表示能力增强和(4)预测模块。预测过程描述如下。在模块(1)中，给定一个氨基酸测序，它首先被编码成三个特征度量，分别代表序列信息、进化信息和隐藏状态信息。然后，为了学习一个统一的特征嵌入，我们使用基于多视图融合策略的余弦距离来衡量两个嵌入特征的相似程度。在模块(2)中，为了进一步挖掘更多的鉴别信息，我们使用了 cnn 和 bgru 的混合神经网络，捕捉局部特征和全局特征。在模块(3)中，我们使用了广泛使用的自然语言处理技术——Transformer Encode[18] ，以增强从最后一步得到的特征表示。最后，在模块(4)中，结果特征被输入到我们的模型中，以预测肽属于哪个结构状态: c，h 或 e 的每个位置，下面详细介绍了这四个模块

图2.PSSP-MVIRT的体系结构。(A)用4种特征表示方法对多肽进行编码，以探索不同的序列信息，然后通过级联(B)CNN和填充技术提取局部特征和并行BGRU在分段水平提取局部-全局特征来整合特征矩阵；(C)通过多头注意机制增强所得到的特征；(D)通过训练良好的模型预测多肽的二级结构，并利用专门用于二级结构可视化的工具PyMol进行可视化。

多视点特征融合模块

在这一部分中，我们介绍了如何将我们的原始多肽序列预处理成数字特征表示，这些特征表示可以用机器学习算法进行训练。下面，我们首先从进化信息、序列信息、隐藏状态信息和相似性信息四个特征视图来介绍嵌入方法。其次，为了生成统一的特征空间，我们采用了多视角的特征融合和学习策略。

功能视图1-顺序信息嵌入

这里的顺序信息由word2vec[19]从索引列表中生成。与一热编码序列信息相比，它可以学习具有潜在语义的高质量残基向量，并防止零冗余表达。

功能视图2-进化信息嵌入

PSSM是一个m∗n矩阵，其中m是每个蛋白质序列的长度，n是标准残基的数目。PSSM分数通常显示为正整数或负整数。通过这种方式，我们可以计算出序列中特定位置的20个氨基酸的特定位置分数。得分较低的氨基酸有很大的趋势进化为得分较高的氨基酸，保持稳定状态。在这项研究中，每个肽序列的PSSM是通过使用默认参数对SwissProt数据库[21](版本于2020年9月5日更新)进行三次位置特定迭代基本局部比对搜索工具(PSI-BLAST)+[20]来生成的。

功能视图3-隐藏状态信息嵌入

隐马尔可夫模型(HMM)是随机模型的一种。该方法被广泛应用于蛋白质二级结构的预测。在多肽二级结构预测中，通过隐马尔可夫模型学习H(螺旋)、E(链)和C(螺旋)等结构，并将这些隐马尔可夫模型应用于二级结构未知的新的肽序列。来自HMM的概率的输出被用于预测序列的二级结构[22]。在本研究中，显性序列是多肽序列，隐藏状态是它们的二级结构。我们在研究中使用的HMM配置文件是从HMMER3.0[23]生成的

多视点特征融合策略

通过融合上述三个特征视图的信息，我们使用余弦相似度来生成统一的特征表示空间。给定具有n个序列的基准数据集{P，E}，其中P表示PSSM，E表示嵌入的顺序信息。对于每个给定肽，其特征可以表示为矩阵X，如下所示：

为了简化积分过程，将矩阵1范数替换为无穷范数，如下所示。此外，我们还集成了一些补充信息，它由两部分组成：(1)由PSSM信息和嵌入序列信息产生的相似性信息；(2)由HMM信息和嵌入序列信息产生的相似性信息。隐马尔可夫模型(HMM)和嵌入序列信息的统一特征表示空间的生成过程同上。

其中？p？∞是矩阵P的无穷范数，？h？∞是矩阵H的无穷范数。最后，HMM、PSSM和两个统一的特征表示空间连接成一个m×w矩阵作为高潜在输入特征，其中m是肽长度的长度，w是HMM、PSSM和两个补充信息的宽度之和。

高隐含特征提取模块

对于高潜在特征提取，我们采用了CNN和BGRU的混合神经网络，其中CNN用于提取局部特征，而BGRU用于提取全局特征。

基于新填充技术的CNN局部特征提取

在这里，我们利用CNN来学习和提取局部特征。每个卷积神经元只处理其感受野的数据。因此，本文使用CNN来提取多肽特征表示中的局部信息。值得注意的是，在每个二维卷积层之前使用了支持信息中讨论的填充技术(循环填充和反射填充)，如图3所示。通过使用填充技术，我们可以有效地解决肽链的边界信息提取问题，提高了对每个肽链末端的预测性能。在补充材料中介绍了填充技术的更多细节。

图3.特征提取模块中的局部特征提取部分。

基于 bgru 的全局特征提取

通过附加约束，将全局特征提取分为两部分。在第一个全局特征提取部分，使用完全连接的层作为过渡层局部特征提取部分和全局特征提取部分之间的关系。然后，bgru 接收到一个更有效的特征矩阵，进一步提取远程依赖关系。在第二个全局特征提取部分，将完全连通层插入到BGRU层的后面，如图2所示。本文还探讨了将多肽分成多个子序列作为 bgrus 的输入是否具有更好的性能，并将其命名为并行 bgru，其结构见图4。在“我们模型的最佳网络结构的确定”一节中讨论了不同级别的并行 bgru 结构的对比实验。

图4，并行 bgru 的架构

门控复发单位

Gru [24]在解决标准递归神经网络的消失梯度问题(rnn)方面有很好的表现。Gru 允许每个循环单元自适应地捕获不同时间尺度的依赖性，如图5所示。对于每个单元来说，使用 grus 来记忆在一系列长时间的时间步骤中输入流中存在的特定特性是更容易的。

其中 zt 被定义为一个更新门，控制前一个时间的状态信息进入当前状态的程度; rt 被定义为一个复位门，它控制如何复位许多信息被写入候选激活∼ ht 从以前的状态。

附加限制机制

在模型中引入了附加约束机制。如图6所示，当肽序列的二级结构相同时，如果它接收到不同的肽序列，则它在神经网络的中间应该具有相似的表示。为此，在全局特征提取部分之间插入了附加的约束机制。附加限制由用于重塑瞬变状态的完全连接的层组成。它接收第一全局特征提取部分的输出作为输入特征。在完全连接层之后，使用二级结构标签和完全连接层的输出，通过均方误差作为成本函数来计算额外的损耗，如图7所示。

图6.神经网络中间的特征表示与预测结果之间的关系示例。

图7.PSSP-MVIRT中的附加限制机制

特征表达能力增强模块

该部分主要由the six-stacked eight-head Transformer Encoder[18]组成。特征提取部分的输出被接收为嵌入的输入，这可能是一种比单词嵌入更有效的表示方式。它通过将这些向量馈送到自注意力层，然后馈入前馈神经网络来处理高层特征，最后将输出发送到下一个变压器编码块。经过变压器编码器的处理后，得到两个完全相连的层，这两个层接收注意特征并输出二级结构标签。

多头注意机构

“注意”的概念最近在神经网络训练中得到了广泛的应用，特别是在翻译和对齐单词方面，这类似于肽的二级结构预测，因为它可以灵活地捕捉全局和局部依赖。在模型设计中，我们尽可能紧跟原有的变压器编码器部分，作为主要的特征增强部分。

结果表明，将查询、关键字和值分别线性投影到DK、DK和DV维度的线性投影次数h次，优于使用dModel维关键字、值和查询的单一注意函数。每个变压器编码块都包括一个按比例扩展的点积关注层和带有剩余连接机制的完全连接。整体的多头注意机制如下

是其中Q表示查询矩阵；K表示关键字矩阵；V表示值矩阵；WQ、WK、WV分别表示训练权重矩阵。

预测模块

为了训练一个稳健的预测模型，我们构造了一个新的损失函数，它由以下两个代价函数组成：(1)均方误差中约束函数和(2)加权均方误差损失函数，如下所示。为了平衡这两个成本函数，使用平衡系数γ来计算优化器的最终成本，如下所示：

其中MSE是均方误差的首字母缩写，m定义为附加限制部分的输出，l定义为一热编码器编码的二级结构标签，y定义为特征提取模块的输出，w定义为加权编码标签，状态E的权重为1.25，其余为1，m为样本数，n为无零填充的多肽样本长度。

绩效指标

在这项研究中，PSSP-MVIRT的性能通过每个结构状态Acci(AccH，ACCE，ACCC)的预测精度，所有状态即Acc的预测精度，每个结构状态的精度和片段重叠度量[26](SOV)来衡量。这些指标的计算方法如下：

其中i是任意二级结构元素(螺旋、片状或卷曲)；Ai是每个状态中正确预测残基的总数；Aii是状态i中正确预测残基的数量；αi是状态i在整个测试集中的比例；S1和S2是与实际和预测的二级结构相对应的片段；len(S1)对应于定义片段S1的残基的数量；minOv(S1，S2)对应于重叠的S1和S2片段的长度；max ov(S1，S2)是其中任何一个片段在状态I具有残基的S1和S2片段的最大重叠；δ(S1，S2)计算如下

实验环境

为了获得更好的性能和加快网络的训练速度，在PSSP-MVIRT中采用了批归一化和丢弃技术。在除附加限制部分之外的每一层之间插入忽略速率p为0.25的丢弃层。对于批量归一化，它被插入在(1)输入和特征融合部分，(2)特征融合部分和局部特征提取部分，(3)局部特征提取部分和第一全局特征提取部分，(4)第一全局特征提取部分和第二全局特征提取部分，以及(5)第一全局特征提取部分和附加约束部分之间。它被认为具有通过增加控制层输入的均值和方差的网络层来减少内部协变量变化的能力[27]。

当涉及到附加成本函数时，二级结构标签由一热编码器编码，平衡系数γ被设置为0.1.。在PSSP-MVIRT神经网络中，所有卷积层、BGRU层和部分全连通层均采用修正线性单元(RELU)激活函数。在附加限制部分中，在最终完全连接层之前使用激活函数Sigmoid，并且在第二全局特征提取部分中，在最终完全连接层之前使用激活函数Softmax。

我们的深度学习模型共有31744430个参数，通过ADAM算法进行全局训练，学习速率l=1e−4，以最小化代价函数损失(最终)。训练epoch设置为250，在97表现最好(附图S4)。所有的训练和测试过程都是基于NVIDIA Titan RTX GPU执行的，并使用基于PyTorch的PYTHON实现。

结果和讨论

与现有二级结构预测方法的比较

为了评估我们提出的PSSP-MIRVT的有效性，我们在相同的独立测试集上将其与现有流行的蛋白质二级结构预测方法如PHD[16]和Jpred[14]进行了比较。值得注意的是，对于我们的预测方法，我们训练了三个不同的加权模型，以不同的结构状态权重来避免数据不平衡的问题。评价结果如表2所示。在五个模型中，我们的PSSP-MIRVT的不同加权预测模型表现良好，其中E状态权重为1.25的模型性能最好，分别为ACC 78.50%、AccH 90.16%、ACCE 56.84%、ACCC 68.47%和SOV 75.81%。我们观察到我们的多肽专一性方法明显优于蛋白质设计的方法，特别是在多肽二级预测中的SOV，这表明为蛋白质二级结构预测而设计的方法不能充分捕捉了短肽序列的区分性信息，证明了针对多肽设计的PSSP-MIRVT的必要性。与PHD相比，我们的模型在几乎所有指标上都优于PHD，在ACC、AccH、ACCE和SOV方面分别获得了2.19、9.28、6.26和17.92%的性能提升。与Jpred相比，我们的模型在几乎所有指标上都比Jpred高0.45、10.92、4.30和15.19%的ACC、AccH、ACCE和SOV。可以看出，与Jpred和PHD具有较好的ACC但较差的AccH和ACCE不同，我们的模型不仅获得了具有竞争力的ACC、ACCE和ACCC，而且达到了相当好的AccH，比现有方法高出10%以上，证明了PSSP-MIRVT在处理标签不平衡困难方面的优势。此外，我们使用SOV，这是在细分市场级别提供测量的另一个重要指标，来评估方法的整体性能。如表2所示，我们的PSSP-MIRVT在SOV上可以获得非常出色的性能，比以前的方法超过15%。我们推测，特征融合后的卷积层使我们的模型能够更好地捕捉多肽局部区域的信息。因此，它在多肽片段水平上表现出比现有方法更好的性能。值得注意的是，我们的方法是一种端到端的深度学习方法，只需从序列中学习和提取特征并进行预测，而不像传统的基于机器学习的方法那样进行任何专业的特征工程。综上所述，我们的模型(E-State权重为1.25)在预测多肽二级结构方面比Jpred和PHD更有效，尤其是对AccH和Sov。

多肽二级结构预测的长度偏好研究

为了进一步研究我们的模型是否对肽二级结构预测具有长度偏好，我们将测试集分为四个不同长度间隔的子集：[30，35)，[35，40)、[40，45]和(45，50]个残基。四个子集的详细情况可在补充表S2中找到。PSSP-MIRVT在四个测试子集上进行评估，结果显示在补充表S1中。图8描述了我们的方法在[30，35)，[35，40)，[40，45]比(45，50)区间的性能更好，最高的ACC分别为75.10，78.93和81.58%，SOV分别为64.58，78.30和77.53%。相比之下，我们在[30，35]的ACC和SOV分别领先1.41%和8.31%，在(35，40]的ACC和SOV领先3.3和22.52%，在(40，45)的ACC和SOV领先1.26%和20.80%。有趣的是，我们发现随着多肽长度的增加，性能呈现出明显的下降趋势(图8)，这表明我们的方法可以达到预测较短多肽的最佳性能。这表明，我们的模型在预测长度小于30个残基的多肽方面具有优势，而现有的方法并不擅长。此外，我们还在不同长度区间的三个子集上对现有的其他方法进行了评估，结果显示在补充表S2中。不幸的是，在我们的模型中没有观察到明显的趋势。

确定模型的最优网络体系结构

为了确定模型的最优网络结构并获得最佳性能，我们对模型的两个主要超参数进行了优化，其中一个是卷积层数，另一个是所提出的BGRU的段数。对于最佳卷积层数的确定，我们分析了从1到4的不同层数。结果如附图S5A所示。结果表明，我们的模型达到了最大值，当层数达到3时，ACC值为78.50%，ACCH值为90.16%，ACCE值为56.84%，ACCC值为68.47%。具体地说，与单层卷积层相比，具有三层卷积层的模型的ACC和SOV分别提高了0.93和1.07%，表明我们可以用三层卷积来捕捉最充分的信息。一个或两个卷积层性能较差的原因可能是缺乏局部特征信息提取，而四个2D卷积层性能较差的原因可能是训练参数过多，导致过拟合。

同样，为了优化所提出的并行 bgru 体系结构，我们调查了不同的段数，范围从1到4，并在补充图 s5b 中说明了结果。值得注意的是，如果片段数设置为1，它就是没有任何片段的原始肽。正如预期的那样，在段数等于1的情况下，我们取得了最好的性能，因为分割会导致全局信息的丢失。具体来说，最佳ACC和SOV分别为78.50% 和75.81% ，分别比第二最佳结构模型高0.94% 和2.59% 。此外，我们的1、2、3段模型表现良好，证明在肽段水平上提取的特征可能是一种新的探索方法。然而，如果多肽被分割成太多的子序列，比如4个或更多的片段，如图 s5b 所示，性能会显著下降，其潜在原因可能是局部结构模式被打破。此外，我们还研究了我们的模型的学习率的影响。详细的结果可以在补充材料中找到。

我们的多视角特征融合策略的影响

为了分析多视点特征融合策略的影响，我们将融合后的特征分别与PSSM Profile、HMM Profile和word2vec中提取的三个独立特征进行了比较。为了简化讨论，将这三个特征分别表示为PSSM、HMM和word2vec。不同特征的结果如表3所示。在三个单独的特征中，PSSM的表现优于其他两个特征，表明进化信息对于预测肽的二级结构更有效。该模型融合了PSSM特征、HMM特征和多肽序列嵌入的多视点学习策略，与单个特征相比性能最好，说明不同的信息是相辅相成的，有效地提高了预测性能。为了更直观地理解特征，我们还进一步可视化了不同特征表示的特征空间分布，如图9所示。如图9所示，我们提出的多视图特征融合策略可以创建更好的特征空间，其中不同的结构状态被更清晰地分离，这进一步证明了多视图特征融合策略对提高特征表示能力是有效的。

表3.具有不同输入要素的模型的结果

图9.不同输入特征的主成分分析和t-SNE可视化：(A-D)分别表示PSSM、HMM、Word2vec和特征融合的PCA可视化结果；(E-H)分别表示PSSM、HMM、Word2vec和特征融合的t-SNE可视化结果。

个案研究

为了直观地比较我们的方法和现有方法的性能，我们随机选择了两个具有蛋白质数据库标识(PDB ID)的肽链-4jtm和1zt3，对这两个肽执行不同的二级结构预测方法。我们在图10中说明了预测结果，在图10中，我们分别给出了我们的方法PhD和Jpred的已知实验结构和预测结构。二级结构被映射到三级结构中，其中红色区域表示螺旋(H)，黄色区域表示链(E)，绿色区域表示线圈(C)。结果表明，与其他方法相比，用该方法预测的结构与实验结果更接近。特别是，我们的方法在局部连续序列区域上的性能比其他方法更好，进一步证实了我们的模型能够捕捉到更具区分性的局部区域信息。为此，我们可以得出结论，我们的方法比现有的方法更好。

图10。二级结构的可视化映射到三级结构为我们的方法和现有的方法，包括 phd 和 jpred。

网站

开发了一个用户友好的网络服务器，使读者能够更好地预测肽二级结构使用我们的最佳模型(e-state weighted 1.25)。该服务器使用 html、 javascript 和 java 作为前端开发，并安装在 ubuntu 企业 linux 服务器环境中。服务器采用最优序列作为输入，以文本格式显示二级结构。此外，我们的服务器可以进行一次多序列处理，如图11所示。此外，我们的代码和数据集可以在 mvirt https://github.com/massyzs/pssp- 免费下载。到目前为止，可以通过 http://server 访问 pssp-mvirt 服务器。Malab.cn/pssp- mvirt.

结论

在本研究中，我们发展了一种端到端的基于深度学习的肽二级结构预测方法—— pssp-mvirt。基准测试比较表明，我们的预测模型明显优于现有的方法，特别是在 acch 和 sov 上。此外，我们还研究了我们的模型在肽二级结构预测中的长度偏好性，并证明我们的模型在预测短肽时表现出更好的性能。此外，我们发现我们提出的多视点特征融合学习策略可以提高特征表示能力，从而提高预测性能。Pssp-mvirt 服务器可以为研究团体提供一种提高该方法性能的潜在途径。

你可能感兴趣的:(深度学习,pytorch,人工智能,生物学)

Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
PyTorch核心基础知识点 niuTaylor 编程区 pytorch 人工智能 python
PyTorch核心基础知识点，结合最新特性与工业级实践，按优先级和逻辑关系分层解析：▍核心基石：张量编程（TensorProgramming）1.张量创建（8种生产级初始化）#设备自动选择（2024最佳实践）device="cuda"iftorch.cuda.is_available()else"mps"iftorch.backends.mps.is_available()else"cpu"#关键
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
Linux部署模型报错OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_mod dkgee linux pytorch 运维
报错内容：OSError:Errornofilenamedpytorch_model.bin,tf_model.h5,model.ckpt.indexorflax_model.msgpackfoundindirectory主要原因是transformer版本不对，需要升级pipinstall--upgradehuggingface_hubpipinstalltransformers[torch]其
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
模型优化驱动产业应用创新智能计算研究中心其他
内容概要当前模型优化技术的迭代正沿着多维路径快速演进，其核心驱动力在于突破算法性能与产业需求间的适配瓶颈。以自适应学习机制与迁移学习框架为基础的优化策略，显著提升了模型在跨场景应用中的泛化能力，而超参数自动调优技术则通过PyTorch、TensorFlow等主流框架的接口标准化，降低了复杂模型的开发门槛。在部署层面，边缘计算与联邦学习的协同应用不仅缩短了金融预测、医疗影像分析等场景的响应延迟，更通
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
基于roop/insightface将视频中包含指定人脸的视频片段提取并合并成新视频阆遤 python roop pytorch insightface
利用insightface.app.FaceAnalysis提最一个视频中包含指定人脸的视频片段，并将其合并成一个新视频，使用“buffalo_l”模型，模型需安装在代码当前目录下的.\models中。需要roop或其他支持pytorch、insightface、moviepy的环境。pytorch安装请见我其他文章。#cython:language_level=3str#-*-coding:ut
关于pytorch3d的安装诚威_lol_中大努力中人工智能 pytorch 人工智能 python
更新1：2025_2_04今天发现，原来的pytorch3d不见了，在我的aaa1环境中。重新安装，我发现最好用的还是去github下载最新的pytorch3d的zip，unzip之后，进去pipinstall-e.然后安装成功！1、参考文章1：windows安装PyTorch3D详细指南-哔哩哔哩(bilibili.com)这篇文章巨好2、参考文章2：pytorch3d/INSTALL.mdat
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
英伟达常用GPU参数速查表，含B300..... Ai17316391579 深度学习服务器人工智能机器学习服务器电脑计算机视觉深度学习神经网络
英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域kyfwq001#5090##4090##英伟达“新核弹”B200发布##英伟达##英伟达B300##GPU##服务器##显卡##英伟达H800/A800芯片将禁售#
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl