2020-09-15

Journal Club - 2020.9.15

Bioinformatics - 2020, Volume 36, Issue 12-14

1

可获得的基因组数据的指数级增长有望在未来十年达到100万个基因组的全测序。改进和发展分析这些基因组并揭示其效用的方法在许多领域都具有重大意义,如比较和功能基因组学、进化和生物信息学。系统发育分析是一种建立的方法,用于预测蛋白质之间的功能相互作用的基础上,相似性的进化模式跨物种。共同发挥作用的蛋白质(即产生复合物,在相同的路径上相互作用,或提高对环境生态位的适应)往往在整个生命树中显示协调进化。标准化系统发育图谱(NPP)方法考虑了蛋白质跨物种的微小变化,以确定蛋白质的协同进化。尽管这种方法取得了成功,但仍然不清楚在预测功能交互时协同进化的最佳使用需要什么参数集。此外,是否应由通路进化或功能来指导参数选择,目前尚不清楚。希伯莱大学的Yuval Tabach团队发表文章Optimization of co-evolution analysis through phylogenetic profiling reveals pathway-specific signals,创建了一个可靠和可用的NPP建设管道。他们从1028个基因组中分别使用NPP和不同的值组合,探索参数选择对功能交互作用预测的影响。他们确定了几个参数集,以优化性能的途径与某些生物学注释。这项工作揭示了选择正确的参数以优化基于生物学背景的函数预测的重要性。

2


由代表参考基因组序列的k-mer分布推导出的无对齐随机模型在DNA序列分类中有着悠久的历史。特别是,马尔可夫模型的变体以前已经被广泛使用。高阶马尔可夫模型被谨慎地使用,也许是有节制地使用,主要是因为缺乏足够的训练数据和计算能力。测序技术和计算的进步使高阶模型的预测能力得以利用。北德克萨斯大学的David J Burks, Rajeev K Azad发表文章Higher-order Markov models for metagenomic sequence classification,他们重新访问了高阶马尔可夫模型,并评估了它们在分类宏基因组序列方面的性能。结果表明,高阶模型(HOMs等)在对元基因组片段进行分类时,在所有分类级别上都优于其他模型,在片段大小增加到250 nt时,在较低级别上均优于其他模型。HOMs也被发现比被广泛用于元基因组序列分类的局部比对更准确。一个用c++编写的新的软件实现比现有的Markovian元基因组分类器执行分类更快,因此可以作为一个独立的分类器使用,或者与现有的分类分类器结合使用,以便对元基因组序列进行更有鲁棒性的分类。

3

肽具有广泛的生理功能和简单的结构,在治疗和诊断方面具有广阔的应用前景。因此,识别治疗性肽并研究其性质是至关重要的。基于机器学习的预测器作为一种廉价、快速的方法,在治疗性肽鉴定中由于其在海量数据处理方面的优势而显示出其优势。但目前为止,还没有报道治疗性肽预测器可以同时进行高质量的一般性预测和信息性理化性质(IPPs)鉴定。

成都电子科技大学的Yu P Zhang, Quan Zou发表文章PPTPP: a novel therapeutic peptide prediction method using physicochemical property encoding and adaptive feature representation learning,在这项工作中,他们提出了基于物理化学性质的治疗性肽预测(PPTPP),一种基于森林的随机预测方法来解决这一问题。提出了一种新的特征编码和学习方案,用于生成和排序与物理化学性质相关的特征。该方法不仅能够预测多种治疗性肽,而且与已有的预测因子具有很高的可比性,还能够识别肽的信息性IPP。本研究的结果不仅说明了其工作能力的可靠性,而且显示了其在研究其他治疗性肽方面的潜力。

4

参考质量基因组的从头组装在过去是非常艰苦的工作。为了解决这个问题,最近的研究表明,Hi-C(High-throughput/resolution chromosome conformation capture)可能是一个强大的和具有成本效益的方式。事实上,目前最先进的方法如3D-DNA在被广泛用于定位染色体中的重叠群。然而,由于较短的重叠群与相邻重叠群的接触较少,因此减少重叠群定位误差仍具有挑战性。这些定位误差降低了比较基因组学中基因预测、读序列比对和同步块估计的准确性。东京大学的Ryo Nakabayashi, Shinichi Morishita发表文章HiC-Hiker: a probabilistic model to determine contig orientation in chromosome-length scaffolds with Hi-C,提出了一种名为HiC-Hiker的新算法,该算法具有坚实的概率理论基础,严格地建立跨重叠群的Hi-C接触的模型,并通过维特比算法有效地推导出最可能的方向。他们为比较HiC-Hiker和3D-DNA,使用从短读生成的人类和蠕虫基因组重叠群,以评估它们的性能,并观察到重叠群定位错误率从4.3% (3D-DNA)显著降低到1.7% (HiC-Hiker)。而且该算法可以考虑远端重叠群之间的远程信息,精确地估计重叠群之间的高读接触概率,这对判断重叠群的顺序也有帮助。

5

解抗体如何特异性地与抗原相互作用,有助于更好地设计药物和疫苗,并对自然免疫有深入了解。实验结构表征可以详细描述抗体与抗原相互作用的基本事实,但需要计算方法来有效地进行大规模研究。达特茅斯大学的Srivamshi Pittala, Chris Bailey-Kellogg发表文章Learning context-aware structural representations to predict antigen and antibody binding interfaces,为了提高预测的准确性,以及提供一种方法来获得对这些相互作用的新的生物学见解,作者开发了一个统一的基于深度学习的框架来预测抗体和抗原的结合界面。该框架利用了抗体-抗原相互作用的三个关键方面来学习预测结构表示,他们的结果表明,这个单一框架在预测抗体和抗原的结合界面方面达到了最先进的性能,而且它的三个方面的每一个都进一步提高了性能,并进一步表明,注意层(attention layer)不仅提高了表现,而且提供了一个生物学上可解释的互动模式的视角。

6

分子对接是一种应用广泛的大规模虚拟筛选小分子配体与其靶蛋白相互作用的技术。然而,由于氨基酸残基、金属离子和配体之间的三向相互作用增加了复杂性,对接方法对金属蛋白的效果往往很差。这是一个严重的问题,因为锌蛋白仅占蛋白质数据库中所有可用蛋白质结构的10%。格里菲斯大学的Ruibo Wu团队发表文章GM-DockZn: a geometry matching-based docking algorithm for zinc proteins,他们开发了GM-DockZn,专门用于配体与锌蛋白的对接。与现有的专门针对锌蛋白开发的对接方法不同,GM-DockZn直接使用围绕七个已发现的配位基的理想锌配位位的几何网格对配体构象进行检测,这些配位基是在对已知锌蛋白与单个配位体的复合研究中发现的。与几种最先进的技术相比,GM-DockZn在采样前50名和前10名预测中具有正确配位原子和数字的接近本机姿态的性能最好。这不仅适用于非冗余的锌蛋白数据集,而且适用于同一锌蛋白的不同配体和锌配位系统的同源集。相似的,GM-DockZn在近位姿采样中也表现出了与apo结构对接和同一蛋白不同配体复杂结构交叉对接的优异性能。结合GM-DockZn进行构象采样,结合GOLD进行排序,在前5位和前1位中最接近原生位姿的采样成功率最高。提出的基于几何的取样技术将有助于配体与其他金属蛋白的对接。与几种最先进的技术相比,GM-DockZn在采样前50名和前10名预测中具有正确配位原子和数字的接近本机姿态的性能最好。这不仅适用于非冗余的锌蛋白数据集,而且适用于同一锌蛋白的不同配体和锌配位系统的同源集。

7

矩阵因子分解是分析转录组数据中协同调控模式的重要方法,可以揭示肿瘤信号扰动状态和亚型分类。然而,目前的矩阵分解方法并不能提供清晰的双光泽结构。此外,这些算法都是基于线性组合的假设,这可能不足以捕获协同调节模式。匹兹堡大学的Songjian Lu团队发表文章BEM: Mining Coregulation Patterns in Transcriptomics via Boolean Matrix Factorization,提出了一种基于期望最大化的布尔矩阵分解算法。BEM更符合转录共调控的分子机制,可扩展到超过1亿个数据点的矩阵。综合实验表明,边界元法在重构误差方面优于其他BMF方法。实际应用表明,BEM适用于各种转录组数据,包括大容量RNA-seq、单细胞RNA-seq和空间转录组数据集。给予适当的二值化,BEM能够提取与疾病亚型、细胞类型或空间解剖一致的共调控模式。

8

单细胞RNA测序技术为分析单个细胞的转录组谱提供了一种新的手段。然而,这项技术很容易受到一种叫做“丢失效应”的噪声的影响,这种噪声会导致转录组分布的零膨胀,降低结果的可靠性。因此,在深入分析单细胞RNA测序数据之前,需要仔细处理。仁川大学的Hyundoo Jeong和简和丹邓肯神经学研究所的Zhandong Liu合作发表文章PRIME: a probabilistic imputation method to reduce dropout effects in single-cell RNA sequencing,描述了一种新的归责方法,减少丢失效应在单细胞测序。我们构建一个细胞对应网络,并根据同一类型细胞的局部子网络的转录组谱调整基因表达估计。全面评估这个方法,称为'(减少丢失概率归责效果表达谱的单细胞测序),合成和八个真实单细胞测序数据集和验证,它提高了可视化和聚类分析的准确性和质量可以发现隐藏在噪声基因表达模式。

9

HiChIP是一个询问3D染色质组织的强大工具。目前使用HiChIP数据分析染色质循环机制的工具需要识别环锚才能正常工作。然而,目前从HiChIP数据中发现这些锚点的方法并不令人满意,要么错误发现率很高,要么对序列深度依赖很大。此外,这些工具不允许对不同样本的峰值进行定量比较,无法充分利用HiChIP数据集提供的信息。美国中央大学生物科学学院的Chenfu Shi等人发表文章HiChIP-Peaks: a HiChIP peak calling algorithm,开发了一种基于以再结扎位点为中心的HiChIP数据表示的新工具,以从HiChIP数据集识别峰值,随后可用于其他工具的循环发现。这增加了这些工具的可靠性,并在排序深度降低时提高了召回率。他们还提供了一种方法来计数读取映射到样品的峰,这可以用于使用HiChIP数据的差异峰分析。

10


多序列比对(MSA)是计算生物学中一个重要而具有挑战性的问题。大多数现有方法只能在可接受的时间内提供短长度的多次对齐。然而,当研究人员在多次比对中面对基因组的大小时,这个过程需要巨大的处理空间/时间。因此,使用能够快速、准确地对基因组大小进行排序的方法,特别是对非常长的排序分析,有着很大的影响。伊斯兰自由大学的Parvinnia Elham等人发表文章FAME: fast and memory efficient multiple sequences alignment tool through compatible chain of roots,作者提出了一种有效的方法,即名望法,将序列与它们有共同区域的位置进行垂直划分;然后按连续顺序排列。然后,将这些公共区域相互移动,并使用任何现有的MSA工具对它们之间的子序列进行对齐。结果表明,与独立的MSA工具相比,名望和MSA方法以及部署最小化器的组合能够在个人计算机上执行,并能以更高的对和(SP)分数对长序列进行精细排列。随着选择长度较长的基因组数据集,组合方法的SP评分逐渐提高。方法的计算计算复杂度以一种结合名望和MSA工具的方式支持结果,使得数据集上的执行速度至少快四倍。

你可能感兴趣的:(2020-09-15)