武汉肺炎追踪一:新型冠状病毒的时间生物信息学分析(2020年1月23日)

什么是时间生物信息学?如果你看到这个标题有些费解的话,那么小编想说:其实,我也是。因为这个词是小编自创的。

为什么要自创?此前,小编本来拟好了其他的主题,但一场突如其来新型冠状病毒疫情,让作为生物信息学从业者的小编觉得应该从自己的专业角度出发,写一个推送。鉴于目前已有不少推送对事件进行了生物信息学的报道和分析,甚至有论文刊出,小编在此选择一个有所不同的方向谈一谈:从时间角度对武汉肺炎病毒进行的生物信息学分析。

为什么要做时间上的分析?因为它能帮助我们了解或推断病毒爆发的时间、传播的速度、甚至传播途径等等一系列有价值的信息。

具体怎么做?简单地说,就是时间=变异程度/变异速度。实际的运算当然是远复杂过这个“公式”,但最基本的道理差不多。1月19日,来自英国爱丁堡大学的著名分子进化领域专家Andrew Rambaut教授采用自己首先开发的、大名鼎鼎的分子进化软件BEAST【1】,对这些病毒的最初祖先(the most recent common ancestor简称 TMRCA)的起源时间进行了推算(mcmc-based bayesian inference)【2】。软件的输入内容主要就是测序的病毒DNA序列的比对和一个假定的进化速率。Rambaut当时采用的是来自我国的最先发布的10个和泰国的2个基因组,在此向及时共享数据的科研工作者致以敬意!


武汉肺炎追踪一:新型冠状病毒的时间生物信息学分析(2020年1月23日)_第1张图片

图1一些已知的冠状病毒的进化速度【2】

结果怎样?由于进化速率的不确定,Rambaut教授基于过往SARS和其他冠状病毒的进化速度数据,选取了两个速率,分别是1x10-3和0.5x10-3单位是突变次数/年/位点。若按照前者计算,最近共同祖先(TMRCA的出现时间是去年11月初至12月中旬(95% interval,下同),如果依照后者计算,是去年9月中到12月中。


图2 Rambaut的计算结果

同样地,来自华盛顿大学西雅图(University of Washington, Seattle)的Trevor Bedford和瑞士巴塞尔大学(University of Basel)的Richard Neher也对新型冠状肺炎病毒的共同祖先的出现时间做出了计算,他们的结果发布在病原菌基因组开源数据平台Nextstrain上(an open-source project to harness the scientific and public health potential of pathogen genome data)。其结论与Rambaut的结论相似。

武汉肺炎追踪一:新型冠状病毒的时间生物信息学分析(2020年1月23日)_第2张图片

3 Bedford和Neher基于24个新型冠状病毒基因组的计算结果【3】

细心的读者可能会注意到,一点区别在于Bedford和Neher计算得到的病毒最近共同祖先(TMRCA)起源时间略晚一些(图2)。小编猜测这个不同是由于Bedford和Neher采用星状树进行时间的计算所致。采用星状树的理由在于其(图3左)代表了一个病毒“爆发”的过程,可能比二分树(图3右)更接近病毒“爆发”的情况(Here, we use this star-like structure along with a Poisson distribution of mutations through time to estimate the time of the most recent common ancestor of sequenced viruses)。

武汉肺炎追踪一:新型冠状病毒的时间生物信息学分析(2020年1月23日)_第3张图片

星状树与二分树(维基)

小编在网上搜索到,最早的一例武汉肺炎病例来自19年12月8日【4】。按照这一结果,可以看出,就诊日期与上述的大部分计算结果接近,暨与肺炎病毒TMRCA的出现时间大体吻合(下面称为“吻合起源模型”)。这看上去比较好理解,我们暂时放在一边,先看另一个看上去可能性较低的情况。

这一可能性较低的情况如图3中的蓝色曲线所示(代表病毒变异速度较低的情形)。如此,肺炎病毒的TMRCA的起源时间被推测到去年11月中旬(95% interval大致为10月中旬到12月1日),早于新闻所报道的日期(12月8日【4】),故而称为“早起源模型”。支持这一模型的另一个依据在于,如果目前测序的基因组不够有代表性和随机性,可设想,未来更多病毒基因组被测序应发现更多DNA变异,进而导致病毒TMRCA的实际出现时间比目前计算的要早。不过,也有一个重要的反对该观点的理由:目前几个病毒基因组的差异和测序错误的概率相差不多,如确是测序错误导致的DNA序列差异,那么病毒祖先的实际起源时间应该迟于计算时间。

不论如何,在“早起源模型”的框架内,是否可以认为首位病人在感染数星期后才确诊呢?小编认为,并非如此。有一种看起来更可能的解释:该病毒存在一个动物宿主,且在该动物宿主中存在一定的多样性,这样的话其最初的传播可能是通过多次的动物到人的途径。如图5所示,尽管这些病毒的TMRCA可以追溯至10月,但是可能在接下来的几个月时间内发生多次动物到人的“迁徙”。一个相似的例子是前几年肆虐的中东呼吸综合征病毒(MERS)【5】。在通过骆驼感染人后,MERS的传染力就会下降,继而较少进行人到人的传播。而该病毒可以多次由骆驼传播到人中,因此受MERS威胁的地区主要是沙特阿拉伯(韩国是个例外)。


武汉肺炎追踪一:新型冠状病毒的时间生物信息学分析(2020年1月23日)_第4张图片

图5 “早起源”模型示意图。病毒由动物宿主起源后,发生了多次动物(黑色)->人(绿色)的传播。


现在让我们回到第一种情况,也就是该病毒的TMRCA的出现时间和首例患者的报道时间吻合的“吻合起源模型”。基于目前的结果(图2,3),这一模型在小编看来似乎更可能的。那么,这暗示着下面的情形:该病毒先通过某种动物传给人,接下来出现了多次的人传人的情况。当然,在“吻合起源模型”下也有一种可能性是有多次动物到人的传播,若如此,武汉肺炎病毒在该动物内的多样性应该较低,比如说少部分这种动物刚从外地带入(这一点在Rambaut博文里写的很清楚【2】)。

再扯远一点,关于这种动物是什么,现在还是很大的未知数。有人通过密码子偏好分析预示是蛇【6】,不过该论点也立即遭到了反驳【7】。我们也不能排除蝙蝠,尽管作为SARS天然宿主的它更大概率只是先传给果子狸再通过后者感染到人【8,9】,也尽管它在武汉郊外也许冬眠(因为市场里是另一番景象)。

本文浅尝辄止地谈了一下关于这次武汉病毒的进化时间的粗浅分析,小编并非专业人士,错误在所难免,在此抛砖引玉。最后,祝大家新春愉快!新的一年身体健康!


引文

1. Rambaut, Andrew. "Estimating the rate of molecular evolution: incorporating non-contemporaneous sequences into maximum likelihood phylogenies." Bioinformatics 16.4 (2000): 395-399.

2. Rambaut, Andrew. “Preliminary phylogenetic analysis of 11 nCoV2019 genomes, 2020-01-19” http://virological.org/t/preliminary-phylogenetic-analysis-of-11-ncov2019-genomes-2020-01-19/329/1

3. https://nextstrain.org/ncov last accessed at EST 0:00 Jan 23 2019

4.专家解读不明原因的病毒性肺炎最新通报. wjw.hubei.gov.cn.湖北省卫生健康委员会. 2020-01-12.(原始内容存档于2020-01-20)

5. Killerby, M. E., Biggs, H. M., Midgley, C. M., Gerber, S. I., & Watson, J. T. (2020). Middle East Respiratory Syndrome Coronavirus Transmission. Emerging Infectious Diseases26(2), 191-198.

6. Ji W, et al (2020) Homologous recombination within the spike glycoprotein of the newly identified coronavirus may boost cross‐species transmission from snake to human. Journal of medical virology. https://doi.org/10.1002/jmv.2568

7. 商周(2020)质疑:蛇是武汉新型病毒的中间宿主吗?知识分子

8. Li, Wendong, et al. "Bats are natural reservoirs of SARS-like coronaviruses." Science 310.5748 (2005): 676-679.

9. 石正丽(2018)这些野生动物的病毒怎么就到了人类社会?一席


注:

最后说两句题外话。就在这篇推送刚刚完成之际,中科院武汉病毒所的石正丽团队及同事在bioRxiv上以预印本(preprint)形式报道了关于这次肺炎病毒基因组序列、进化分析、以及最重要的,可能的侵染机制。疫情的发展,变幻莫测。对科研工作来说,也许传统的同行评议(peer review)的文章发表模式因常常费尽周折的审稿过程,已很难跟得上变化的形式。因此,小编也希望业界人士可以多考虑一下预印本——其灵活、自由及迅速反馈的特点,恰是传统同行评议所不具备的。


武汉肺炎追踪一:新型冠状病毒的时间生物信息学分析(2020年1月23日)_第5张图片

作者原创,原载于生信人公众号

武汉肺炎追踪一:新型冠状病毒的时间生物信息学分析(2020年1月23日)_第6张图片

你可能感兴趣的:(武汉肺炎追踪一:新型冠状病毒的时间生物信息学分析(2020年1月23日))