宏病毒组(四)|病毒注释软件介绍

宏病毒组直接以样本中所有病毒的遗传物质为研究对象,快速鉴定样本中所有的病毒组成。测序数据的组装及病毒的分类注释直接影响项目分析结果的准确性。在上篇推文中小编给大家详细介绍了组装软件——Megahit超详细安装及应用教程,接下来给大家介绍2款常见的病毒分类注释软件。

1.PhaGCN2软件

PhaGCN2可以在科水平上快速对病毒序列进行分类,并支持网络图来可视化结果文件。软件链接:https://github.com/KennthShang/PhaGCN2.0。其特点是:

(1)使用prodigal在整个病毒领域下构建参考数据库

为了建立更快捷、更方便用户的数据库构建管道,应用Prodigal基于最新的ICTV2021数据库进行了蛋白翻译(最新的ICTV2021包含10550个病毒)。使用DOV (Dataset of Oyster Virome)中的8760个病毒序列(length>8000bp)作为测试序列,将使用Prodigal构建的数据库的PhaGCN2与原始PhaGCN数据库进行比较,结果显示98.46%的预测结果是一致的。用户可以通过训练PhaGCN2中的病毒分类数据库的功能,将分类与ICTV批准的分类进行对齐。

(2)使用网络图来识别离群点,将离群节点分配给family_like

PhaGCN2能够自动识别新的科,从而消除了常用监督学习模型中对固定标签集的限制。PhaGCN2也可以输出病毒簇集群网络,方便用户对不同病毒科和病毒科成员之间的关系有直观的了解。除了将科与科之间的关系可视化,使用网络拓扑来识别可能的新科,这些新科由与ICTV节点弱连接的子图组成。首先,识别离群点——没有连接到ICTV中的任何病毒的测试病毒(节点)(图1,红点)。通常这些异常值来自新的科,但由于监督学习算法的设计限制,它们被分配到family_like。

图1 引入“family_like“前后的网络图对比 

PhaGCN2也存在不足,如对于那些没有相似度或相似度很低的“暗物质”序列,进行从头病毒分类可能是一项不可能的任务。首先,无法评估预测的准确性;其次,没有任何同源物,很难描述它们基因组的结构或功能;无论确定了多少个序列,它们仍然是“暗物质”。

另外由于PhaGCN2不能预测输入序列是属于病毒还是宿主细胞,应用PhaGCN2之前,应先使用病毒识别工具(如DIAMOND、Virsorter2等)去除非病毒序列。

2.vConTACT2

vConTACT v.2.0是一个基于网络的应用程序,利用全基因组共享基因进行病毒分类,它集成了基于距离的层次分类和所分类预测的置信度评分。软件链接:https://bitbucket.org/MAVERICLab/vcontact2/wiki/Home。

vConTACT(v.1.0)的目标是自动将病毒基因组分配到已建立的或新的分类单元中,并评估与ICTV分类一致性(图2)。然而,在目前的ICTV原核病毒分类中,属级以上的分类零星的用于亚科和目,因此该应用特别强调病毒在属水平分类。

在一个基于网络的基因组分类学中(图2a),相关基因组作为一组节点出现,通过病毒簇多边强烈相关性连接。在v.1.0版本中,约75%的病毒簇与已建立的ICTV属相对应,但存在约25%不一致。病毒簇的不一致可能由于抽样不足导致的聚类基因组没有近缘属,或者多个具有相同基因的ICTV属的不正确重叠,亦或者多个ICTV属错误的分配到一个结构化的病毒簇(图2b)。

为了解决这些问题,vConTACT v.2.0使用了一种新的聚类算法,为分级分类建立基于置信度评分和距离的分类分离单元,并使用一个大规模病毒宏基因组数据集对可扩展性和稳定性进行优化和评估。总体来说,在形成马尔科夫算法聚类蛋白集成群后,优化了蛋白簇,建立了自动化的两步过程,接着使用ClusterONE(CL1)来定义病毒簇,使用层次聚类对网络中有问题的区域进行细分(图2a)。

图2 病毒基因组分类可视化网络图

利用vConTACT v.2.0,可获得与NCBI中病毒参考序列物种信息几乎一样的分类结果(高达96%准确率);对存在于病毒RefSeq中1346个先前未分类的病毒进行分类,其中820种自动生成高可信度的属水平分类。应用vConTACT v.2.0分析了15280个全球海洋病毒基因组片段,并且这些数据中31%可以进行物种分类。

你可能感兴趣的:(宏病毒组(四)|病毒注释软件介绍)