Front Microbiol | 广东药科原丽红/水科院南海所姜敬哲-RNA病毒最新分类标准的讨论...

基于2020年ICTV报告

再认识RNA病毒的分类标准

A discussion of RNA virus taxonomy based on the 2020 International Committee on Taxonomy of Viruses report

Front Microbiol | 广东药科原丽红/水科院南海所姜敬哲-RNA病毒最新分类标准的讨论..._第1张图片

Article, 2022-10-14, Frontiers in Microbiology, [IF 6.064]

第一作者:袁文广

通讯作者:原丽红、姜敬哲

主要单位:广东药科大学、中国水产科学研究院南海水产研究所

DOI: https://doi.org/10.3389/fmicb.2022.960465

合作作者:Guang-Feng Liu(刘广锋)、Ying-Hui Shi(史莹慧)、Ke-Ming Xie(谢科明)

原文链接:https://www.frontiersin.org/articles/10.3389/fmicb.2022.960465/full

摘要 -

相较于DNA病毒,RNA病毒突变率更高,而当前对RNA病毒研究大部分还局限于病原性RNA病毒,对自然环境中的普遍存在的RNA病毒研究很少。国际病毒分类委员会(ICTV)是病毒学家为了让病毒分类更加标准化而成立的一个组织。为了更好理解ICTV的分类标准,以及总结不同RNA病毒家族成员在基因组水平上的特征、规律,本研究针对2020年ICTV报告中收录的3529条RNA病毒基因组进行了再分析,从RNA病毒基因组的长度、宿主、GC含量、预测的ORFs数、序列相似性等5个维度对当前病毒分类的标准进行了整体评估。发现:虽然宿主类型对病毒基因组长度、GC含量等具有显著影响,但同科(Family)尤其是同属(Genus)内的病毒成员在基因组长度方面具有极高一致性,98.28%的RNA病毒属内基因组长度差异性小于10%,基因组中预测的ORFs数量也显示出与基因组长度有着较强的相关性。对于分节段病毒来说,属内基因组节段数目与节段长度也有类似的一致性。本研究还进一步提出,由于RNA病毒基因组的高度变异性,当前RNA病毒分类应该着重依赖蛋白序列相似性,而非核酸序列相似性。

- 引言 -

RNA病毒(逆转录ssRNA病毒除外)突变迅速,其突变率平均比DNA病毒高出2~3个数量级,比真核细胞生物高出6个数量级。即便是采用逆转录(Reverse Transcription,RT)方式复制的RNA病毒的突变率也比DNA病毒高出1个数量级。RNA病毒的高突变速率无疑增加了对它们进行研究和分类的难度。为了更好地了解最新的ICTV分类标准以及不同RNA病毒家族的特点和规律,我们使用5个广泛使用的指标(长度、宿主、GC含量、预测的ORF数量和序列相似度)分析了2020年ICTV报告中包括的3529种RNA病毒。我们的研究将为理解ICTV分类标准和区分不同病毒家族成员在基因组水平上的特征提供了不同的视角。

- 结果 -

① 基因组长度、GC含量在不同宿主间的差异性

我们统计了2249条RNA病毒基因组的长度,并将其与宿主相关联。经过条件筛选后,最终依据宿主类型不同划分出了六个大类,分别是:真菌、植物、脊椎动物、无脊椎动物、同时感染脊椎+无脊椎动物、同时感染植物+无脊椎动物。如图1A所示,不同宿主分组间的病毒基因组大小表现出显著差异。值得一提的是,同时感染脊椎和无脊椎动物的类群更为集中地分布在12,000bp左右的区段,预示着基因组大小对于这类跨宿主传播的病毒可能具有重要的意义。另外,可以看到动物相关病毒类群(脊椎动物、无脊椎动物、同时感染脊椎+无脊椎动物、同时感染植物+无脊椎动物)相关病毒的基因组大小的平均值要显著大于其它两种宿主类型(植物和真菌)。

由于病毒感染宿主需要调动宿主细胞机能进行复制、增殖,因此病毒基因组的GC含量很大程度也反映了其宿主基因组的GC含量。我们进一步统计了各病毒基因组序列的GC含量,比较了其与宿主的关系,发现与基因组大小相似,不同宿主间的病毒基因组的GC含量也表现出了普遍的显著差异(图1B)。基因重组与自然选择导致了真菌的高GC含量,而真菌病毒的GC含量平均值也显著远高于其它类群(图1B)。

Front Microbiol | 广东药科原丽红/水科院南海所姜敬哲-RNA病毒最新分类标准的讨论..._第2张图片

图1:宿主类型与病毒基因组长度、GC含量关系的箱线图。A图纵坐标为病毒基因组长度(nt),B图纵坐标为病毒基因组的GC含量。从左至右宿主类型依次为真菌、植物、植物+无脊椎动物、无脊椎动物、脊椎+无脊椎动物、脊椎动物。*=p ≤0.1,****= P ≤0.0001。

② 基因组长度在不同分类层级间的差异性

为了可视化病毒基因组的大小与ICTV病毒类群之间的关系,我们统计了2035个具有全长基因组记录的RNA病毒基因组长度,并将其在目、科及属水平上进行归纳、排列。如图2(蓝色)所示,可以看到同一科内病毒基因组长度表现出了较好的一致性。尤其是属内病毒基因组长度,除35个病毒基因组长度属内差异超过20%以外,其余绝大部分(98.28%)的差异性都小于10%(附表2)。我们以同样的方式分析了病毒ORF数量的规律。如图2(绿色)所示,各属内的ORFs数量相对一致。上述结果意味着病毒基因组的长度和ORF数量可以作为RNA病毒属水平分类的一个重要依据

Front Microbiol | 广东药科原丽红/水科院南海所姜敬哲-RNA病毒最新分类标准的讨论..._第3张图片

图2:病毒基因组长度和预测的ORF数在属(Genus)、科(Family)及目(Order)水平上排列的折线图。左纵轴是病毒基因组的长度(蓝色),右纵轴是预测的ORF数量(绿色),横坐标表示按照属、科、目排列的病毒基因组,下面的色块从上至下一次对应属、科及目,每一个不同的色块代表不同的属、科或者目。

③ 分节段与不分节段基因组的比较

我们将RNA病毒中的分节段病毒(共585)拆分成了单个节段,并将其与多节段、不分节段病毒一同统计了基因组长度。如图3所示,多节段病毒的特定单个节段(Single-segmented,红色)有较为明显的两个长度峰值,而多节段病毒各节段加和总长度(Multiple-segmented,蓝色)和不分节段(Nonegmented,绿色)病毒基因组的长度具有比较显著的单一峰值,其中多节段病毒各节段加和的基因组长度要显著高于不分节段基因组(附图1)。这说明,RNA病毒采用分节段的方式能够更好的兼容RNA基因组的不稳定性及基因组长度间的矛盾。进一步分析发现(附表3),同属内的多节段病毒在节段数量跟长度上存在着较高的一致性。如Furovirus和Mammarenavirus的所有病毒都是由一个长度约为7500bp的片段和另一个长度约为3700bp的片段组成。Bromoviridae的所有病毒都由一个长度约为3500bp的片段和另外两个长度约为2800bp的片段组成。也正是由于这种同属间的一致性,单节段分组(Single-segment)在3,000 bp与8,000 bp位置出现了2个峰值(图3)。

Front Microbiol | 广东药科原丽红/水科院南海所姜敬哲-RNA病毒最新分类标准的讨论..._第4张图片

图3:分节段与不分节段病毒基因组大小分布的频率密度图。三者的总概率密度均为100%。Single-Segmented代表多节段病毒的每个节段的长度,Multiple-segmented代表多节段病毒的全部节段加起来的总长度(即基因组全长),Nonsegmented代表不分节段的病毒基因组长度。

④ 核酸及蛋白水平的相似性分析

我们进一步对全部正RNA病毒界(Orthornavirae)与副RNA病毒界(Pararnavirae)的基因组序列进行了核酸水平(k-mer)和蛋白水平(tblastx)的相似性的两两比较。如图4所示,两个病毒界中,蛋白水平的相似性均表现出了非常明显的聚类效果。这说明同一科或属内的病毒在蛋白序列上具有更高的相似性,而核酸水平并未表现出明显聚类效果。由此可见,鉴于RNA病毒基因组序列的高度变异性,RNA病毒的分类更应以蛋白水平的相似性为主。

Front Microbiol | 广东药科原丽红/水科院南海所姜敬哲-RNA病毒最新分类标准的讨论..._第5张图片

图4 正RNA病毒界(上)和副RNA病毒界(下)病毒基因组在蛋白(tblastx)与核酸(k-mer)水平的相似性矩阵。图中橙色越深,代表相似性越高。左边不同颜色代表不同的科(Family)的分类,右边不同颜色代表不同的目(Order)的分类。

- 讨论 -

在Duffy等人对RNA病毒研究中,阐述了由突变主导的RNA病毒的进化过程。因为较长的基因组会导致更大的突变负担,在不发生突变崩溃的前提下获得大为改进的聚合酶(即具有某些修复功能的酶)所需的额外遗传物质是极其困难的,所以RNA病毒拥有高突变率的同时也给RNA病毒基因组设置了长度上限(冠状病毒除外)。由本研究结果看,RNA病毒基因组的长度,无论对分节段还是不分节段病毒来说,都表现出极强的规律性。这意味在进行未知RNA病毒分类时,长度可作为RNA病毒类群的最基本的特征,应该成为RNA病毒分类的重要参考因素。

本研究证实了现行ICTV的分类标准是基于蛋白相似性的、而非基因组相似性的分类原则。鉴于RNA病毒基因组的高度变异性,利用更为保守的蛋白序列做RNA病毒的鉴定更为合理。这也是为什么目前大部分分类软件,比如vConTACT2、CAT、PhaGCN2、甚至系统发育树的构建多是依据蛋白序列来进行的,而依据核酸进行分类的工具,如Kraken2,则更多局限于已知病毒序列的鉴定。

当前ICTV主要的分类工作高度依赖于手工的比对和进化树构建。但是随着现在越来越多的、海量病毒序列的发现,现行方法已无法适用于大批量的未知病毒分类与鉴定。ICTV迫切的需要新的工具来对病毒进行批量的、自动化的、尤其是针对未知病毒的准确分类。然而,新分类模型或分类工具的开发,如PhaGCN2——一个基于图卷积神经网络的半监督机器学习模型的病毒分类算法——或许是一个可行的发展方向。

参考文献:

Yuan, W.-G., Liu, G.-F., Shi, Y.-H., Xie, K.-M., Jiang, J.-Z., and Yuan, L.-H. (2022). A discussion of RNA virus taxonomy based on the 2020 International Committee on Taxonomy of Viruses report. Front Microbiol 13. doi: 10.3389/fmicb.2022.960465.

- 通讯作者 -

Front Microbiol | 广东药科原丽红/水科院南海所姜敬哲-RNA病毒最新分类标准的讨论..._第6张图片

广东药科大学

原丽红

博士、教授、研究生导师

原丽红,博士、广东药科大学教授、研究生导师。主要从事“多组学技术解析生物功能基因进化、环境适应和传播扩散机制;生物活性物质体外合成与利用”相关研究。2008年毕业于中国科学院研究生院,获理学博士学位;曾任伦敦大学和布里斯托大学访问学者(2008)、中国科学院南海海洋研究所博士后(2010-2012)、悉尼大学访问学者(2013-2014)、渥太华大学访问学者(2016)。2010年获“中国科学院王宽诚博士后工作奖”,2012年入选“广州市珠江科技新星”,2014年晋升为研究员。发表学术论文50余篇,其中SCI/EI论文29篇(第一和通讯18篇);以第一发明人获得授权发明专利9件(美国发明专利2件、日本发明专利1件、中国发明专利6件);培养博士和硕士研究生5人。

Front Microbiol | 广东药科原丽红/水科院南海所姜敬哲-RNA病毒最新分类标准的讨论..._第7张图片

中国水产科学研究院

姜敬哲

博士,研究员

姜敬哲,博士,研究员,中国水产科学研究院“贝类病害与生态防控创新团队”首席专家(PI),广东省环境功能基因芯片工程技术研究中心主任,广东省“特支计划”科技创新青年拔尖人才(2014),研究方向包括:(1)创新、升级病毒(组)学研究方法和工具,发现、鉴定新型海洋病毒和潜在疫病病原;(2)运用微生物生态学、分子诊断和培养组学等研究理论和方法,进行病害预警、养殖健康调控、噬菌体制剂等方面的应用开发。主持包括国家自然科学基金等各类项目总经费超过1000万元,在Microbiome、Plos Pathogens、Briefs in Bioinformatics、Aquaculture等期刊发表学术论文50余篇,获国家发明专利授权十余项,成果转化2项,获得海南省科技进步一等奖1项、广东省科技进步二等奖1项。

猜你喜欢

iMeta简介 高引文章 高颜值绘图imageGP 网络分析iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树 必备技能:提问 搜索  Endnote

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

点击阅读原文

你可能感兴趣的:(Front Microbiol | 广东药科原丽红/水科院南海所姜敬哲-RNA病毒最新分类标准的讨论...)