追鲨鲸魂——三篇文章共解地球上吨位最大鱼类基因组

原创: montreal生信人2018-11-19

鲸鲨,是人类已知最大的现存鱼类动物。记录到的最大尺寸为12米长,21.5吨重(数据来自维基)。分类上讲,其属于鱼总纲下面的软骨鱼纲,而我们日常生活中见到的大多数与都来自硬骨鱼纲。目前,鲸鲨的数量目前正不断下降,也因此成功跻身《世界自然保护联盟濒危物种红色名录》,成为其中为数不多的鲨鱼物种。

Whale shark (Rhincodontypus) from St. Helena (Photo credit: Alistair Dove. Rights free use permitted)

头堡

来自美国亚特兰大的乔治亚水族馆(Georgia Aquarium)的Tan课题组于2017年7月在BMC Genomics杂志上发表了第一个鲸鲨基因组(Read et al.,2017)。本文是标准的两头身文章:background + methods甚至比results+ discussion还长。

作者采用Illumina+454的方法进行测序。最终拿到的contig和scaffold各100万,得到的结果有些惊人:scaffold N505304 bpcontig N505425 bp

这么低的N50在当今基因组测序中确实十分罕见:这哪里是基因组拼接啊?简直就是把基因组剪成了碎片啊。

不过尽管如此,作者们还是进行了部分分析工作。比如,文中拣出单拷贝蛋白(single-copy protein)建了鱼类进化树。当然,这些分类信息在这篇文章之前早就知道了,所以新意不大。这里借这个图顺便再说一下鱼类的分类。如下图所示,图中最上端是外类群(outgroup)七鳃鳗(lamprey)。在分类学上,鱼类分为两大类,分别是软骨鱼(Chondrichthyes;Cartilaginous fish)和硬骨鱼(Osteichthyes;teleost fish)。当时,甚至是现在,绝大多数鱼类基因组都是硬骨鱼。图中,蓝色为鲸鲨。以鲸鲨为分界线,下方全为硬骨鱼。鲸鲨上方紧邻的为象鲨(elephant shark),象鲨的基因组于2014年被来自新加坡国立大学和美国圣路易斯华盛顿大学的联合团队破译,象鲨也是首个完成全基因组测序的鲨鱼(Venkatesh etal., 2014)。虽然名中带“鲨”,象鲨属于软骨鱼纲中的全头亚纲(Holocephali),而其他大多鲨鱼及鳐鱼(skate)、鬼蝠魟等属于软骨鱼中的另一个纲——板鳃亚纲(Elasmobranchii)。分类上的特殊地位,也是鲸鲨基因组测序的一大价值所在。

原文图5

当然了,乔治亚水族馆的科学家们显然对自己完成的鲸鲨基因组拼接质量是十分了解的。作者们在文中写道:The rather low N50 compared to other recentvertebrate genome projects suggests that the assembly could benefit from moremate-pair and long read sequences。既然意识到了这一点,作者们随即利用三代测序开展了对鲸鲨基因组的测序。截止小编发稿为止,乔治亚水族馆基于三代测序的鲸鲨基因组文章尚未见刊。不过,其数据已上传到NCBI,猜测整个工作应该还在紧锣密鼓的进行当中(这部分内容,后文还会提及)。

虽然乔治亚水族馆团队在17年发布的鲸鲨基因组质量不咋地,但或许是由于鲸鲨本身的重要性,文章自发表后短短一年时间便砍下谷歌学术21次引用的出色数据,该文也使得乔治亚水族馆团队抢占了鲸鲨基因组研究的“乔”头堡。

三个基因组

今年10月8日,来自日本理化学研究所(RIKEN)的Shigehiro Kuraku(工乐树洋)课题组在Nature新晋子刊Nature Ecology & Evolution上公布了鲸鲨基因组的升级版(Hara et al.,2018)。

BY THE WAY:与本文作者所在的生命科技研究中心不同,著名学术丑闻缔造者小宝方晴子之前的单位是RIKEN的发生与再生科学综合研究中心。大名鼎鼎的RIKEN研究范围覆盖理化生计算机工程学等学科,规模庞大,除本部和光市外,在筑波、神户、横滨等多个城市都设有分部。

请注意,此次伴随鲸鲨基因组发表的还有另外两种鲨鱼的基因组,分别是斑竹鲨(bamboo shark;下图左)和云纹猫鲨(cloudy catshark;下图右)。

按照本文通讯作者工乐树洋的自述(Kuraku, 2018),他们早在2013年就开始对斑竹鲨和云纹猫鲨的基因组展开测序。2017年七月,乔治亚水族馆的文章出炉。于是,RIKEN的研究团队希望加入鲸鲨基因组作为对其文章的辅助。好的比较基因组学(comparative genomics)研究需要高质量的基因组拼接做基础。似乎也是因为意识到乔治亚水族馆鲸鲨基因组拼接质量较低的问题,作者们决定从网上下载了原始数据进行独立拼接。显然,如果用同乔治亚水族馆相同的办法,得到的鲸鲨基因组仍然会是“碎片”。为此,作者们表示,他们对Platanus进行了改写,使其得到大幅提升,当然具体细节在补充材料里好像并未交代。利用升级版的Platanus软件(组装相关详见此前推文),RIKEN团队得到了一个升级版的鲸鲨基因组,和乔治亚水族馆团队发表在BMCGenomics杂志上的基因组组装结果对比发现,组装水平得到巨大进步(见下图)!前面提到了乔治亚水族馆在利用Illumia+454的方法进行测序后,已经开始利用三代测序希望提升基因组组装质量。那么RIKEN版基因组同乔治亚水族馆的三代测序结果相比如何呢?有些令人吃惊:RIKEN还是胜出了!再强调一下,RIKEN团队用的完全是乔治亚水族馆之前Illumina+454的读段,并未用任何自己的数据(当然这里可能的原因有很多,小编也不好轻易下结论)。

来自figshare:https://figshare.com/articles/Whale_shark_genome_assembly_comparison/6819398

由左至右:乔治亚水族馆2017年发表的鲸鲨基因组(二代测序)、乔治亚水族馆三代测序读段组装的鲸鲨基因组、RIKEN团队利用乔治亚水族馆二代测序数据组装的改进版鲸鲨基因组(红色)

RIKEN团队得到的斑竹鲨、云纹猫鲨和鲸鲨三个鲨鱼基因组测序和组装的基本数据如下:

原文附表3

拿到三个高质量基因组后,RIKEN团队开始了一系列比较基因组学分析。他们首先构建物种进化树(species phylogeny),这一点同乔治亚水族馆团队没啥两样。所不同的是,RIKEN团队发现鲨鱼所在的软骨鱼纲的所有分支(黄色阴影)似乎比其他脊椎动物(灰色阴影)要短(下图a)。这意味着其进化速度可能比较慢(这一点在象鲨基因组文章里已有报道(Venkatesh etal., 2014))。作者们进一步分析,发现软骨鱼的同义核苷酸替换速率较低,并据此认为可能是低突变速率所致(下图e)。此外,作者发现基因组大小同基因组内含子大小的中位数呈正相关(作者表示考虑了进化上的亲疏关系,进行了phylogenetically independent contrasts分析)。

原文图1

到这里,RIKEN团队这篇三鲨基因组的前半部分可以说是说完了。本文结果部分还剩下多个section,但归结起来都是围绕一点展开的,就是脊椎动物的祖先有哪些基因。这是由于科学家之前对脊椎动物祖先基因组的认识大多来自于四足类动物(哺乳动物+鸟类+爬行动物+两栖动物)以及鱼类中的硬骨鱼纲。这三种鲨鱼所在的软骨鱼纲板鳃亚纲的特殊进化地位(属于basal lineage),其基因组的破译为了解脊椎动物祖先和进化提供了很好的资源。

作者首先将矛头对准了非编码区(non coding region)。作者对人基因组中的CNE(conserved noncodingelements)的同源序列在各种脊椎动物中做了找寻,发现相对属于硬骨鱼的斑马鱼(zebrafish)来说,人的CNE在软骨鱼中有更多的homolog,暗示脊椎动物祖先中的CNE可能在软骨鱼中保存更好(下图a),也从侧面表明软骨鱼进化速度确实比较慢。

原文图2

接着,作者们对Hox基因家族进行了研究。Hox(同源异型框)基因因在胚胎发育上扮演重要角色而声名大噪。其在脊椎动物中一般是分为A-D四个基因簇(gene cluster,这四个基因簇本身也是paralog的关系),而每一个基因簇还有许多paralog。此前有文章报道板鳃亚纲(包括本文所讲的三种鲨鱼)中不具有Hox C。然而,作者们通过对基因组及转录组的分析表示他们还是找到了潜在可能的同源物,且系统发育分析显示这些Hox C的可能的同源物发生了加速进化现象,暗示其现在的功能可能与祖先状态时以及其他的几个paralog有较大差异。此外,作者还利用ChIP-seq对斑竹鲨的Hox基因簇的CTCF结合位点进行了分析,发现斑竹鲨的结合位点的分布与羊膜动物(amniotes)更为接近(下图b),而与作为脊椎动物外类群的鳗鱼有一定差异,该发现揭示了CTCF-dependentconformational相关的发育调控机制在脊椎动物中的早期进化过程。

原文图3Elasmobranch Hox genes and clusters.

作者继续追问,是不是有一种可能,就是有一些脊椎动物先祖的基因在软骨鱼中得到很好的保留而在其他脊椎动物中却丢失呢?为探究这一问题,作者们接下来对板鳃亚纲中特有的基因进行了分析。作者共找寻到304个这样的基因。其中比较有趣的一个基因是Fox,此前被报道同胚胎发育有关。系统发育分析表明该基因确实很可能存在于脊椎动物的祖先并已有三个paralogs,但再后来的演化中被一些动物丢掉了(下图a)。作者还对Fox家族的三个paralog在胚胎中的表达进行了分析(下图d-f),并发现表达范围越窄的paralog在进化中丢失的可能性越大。

原文图4

接着,作者们针对肠-脑轴线(gut–brain axis)有关的参与中枢神经系统、激素调节和稳态的基因在鲨鱼中的踪迹进行找寻。整体上说,几乎所有在哺乳动物中已知的下丘脑-垂体(hypothalamo–pituitary)及胃肠系统中相关的荷尔蒙及其受体的直系同源基因(ortholog)在鲨鱼基因组中都有发现,个别基因发现有duplication现象(下图),表明控制肠-脑腺轴(gut–brain axis)的主要遗传调控原件在脊椎动物的祖先已经基本搭建完毕。

原文图5

最后,RIKEN团队的科学家们对脊椎动物中非重要的感觉和神经元有关的基因的起源进行了追溯。作者发现多个视蛋白(opsin)在板鳃亚纲中全部或个别物种缺失,唯一一个在四种软骨鱼中(本文报道的三种板鳃亚纲鲨鱼和此前测序的属于全头亚纲的象鲨)权不存在的是RHO基因,也就是大名鼎鼎的视紫红质(rhodopsin)。作者还对视紫红质的感光性进行了光谱分析(spectroscopic analysis ),并发现其和不同鲨鱼的生境(这里主要是水深,因为水深和能感受到的光紧密关联)有关(下图右半部分)。

原文图6

到这里,RIKEN团队的文章终告段落,而其正文以及补充材料里还有大量内容。由于篇幅所限这里只挑选小编认为比较精彩的部分给大家呈现出来。总结一下,通过对三个大型鲨鱼的大基因组测序(3.8–6.7 Gbp),作者们对脊椎动物、鱼类和软骨鱼的基因组进化进行了非常细致的分析,特别是对脊椎动物祖先的性状和脊椎动物早期进化提出了有许多新的见解。有些遗憾的是,对于鲸鲨的体积这一鲸鲨最为引人注目的话题,本文基本没有什么新的东西。

值得一提的是,17年上半年,也就是RIKEN团队的鲨鱼基因组课题完成的过程中,工乐树洋教授前往乔治亚水族馆和乔治亚水族馆的鲸鲨基因组团队进行了访问,虽然双方并未即刻就鲸鲨基因组测序开展合作,但就未来该领域的方向进行了愉快的讨论(Kuraku, 2018)。

再多说一句,本篇文章信息量巨大,补充材料达156页。也许有些读者会认为太啰嗦了,但作者们显然有太多的话想同大家倾诉:

此外,为找寻某些感兴趣的基因在其他软骨鱼中的同源基因(homolog),RIKEN团队还对狭纹虎鲨(Heterodontus zebra)与斑瓮鳐(Okamejei kenojei)的转录组进行了测序,文章发表在Nature旗下的Scientific Data杂志(Onimaru et al.,2018; Tanegashima et al., 2018),并作为associated content在原文的页面可以看到。

对这三鲨鱼基因组的秘密意犹未尽?如果你参加2019年1月12日到16日在加州圣地亚哥市(San Diego)举行的Plant & Animal Genome Conference(其实该会议每年都于几乎同一时间在这个毗邻墨西哥的海滨城市举办),请不要错过同工乐树洋老师及其团队成员面对面交流的机会。

大块头的秘密

原本写到这里已经准备截稿了。然而,10月14号,来自美国哈佛大学、韩国蔚山科技大学等科研机构的研究人员组成的韩美联军在bioRxiv上发布了第三个鲸鲨基因组(Park et al.,2018)!小编不得不赶快对这第三篇鲸鲨基因组文章和相关文献展开阅读,并对本文重新布局。为简明起见,下文用哈佛大学团队代替第三篇鲸鲨基因组文章的作者团队。

尽管是第三篇,本文却未引用或提及前两篇鲸鲨基因组的文章。其实RIKEN团队的由于时间太紧未被引用确属正常,但乔治亚水族馆团队的鲸鲨基因组也没有被提及似乎有些奇怪——本文除了其中一位通讯作者的名字叫乔治之外,看不出和乔治亚水族馆有任何联系。

BY THE WAY:这位通讯作者就是著名遗传学家乔治·丘奇(George Church)教授,基因编辑领域领军人物张峰正是在他的实验室里完成了postdoc的研究工作。

有趣的是,虽然与乔治亚水族馆以及RIKEN的两个课题组看不出有什么交集,但大家好像彼此之间似乎有某种默契。哈佛大学团队这篇文章的侧重点终于放在了鲸鲨最引人瞩目的话题——大块头。

在这篇文章里,哈佛大学团队的科学家们同样对鲸鲨展开了测序,采用的方法是Illumina TruSeq长读段,结果如下:

虽然该篇预印本以鲸鲨为切入点,但实际上全文围绕着动物的吨位、生理特征与基因组特征的关联展开。作者对包括鲸鲨在内的81个动物+面包酵母(Saccharomyces cerevisiae;说实话小编有些困惑为何把经典模式生物面包酵母囊括进来)进行了大规模分析。也许你会有疑问:既如此,是否把鲸鲨算进来对结果有啥影响吗?搞一个鲸鲨基因组进来好像有不伦不类、充数据之感?想必作者也是考虑到了这一点,在文章的introduction里给出了理由。作者们表示,传统上认为,动物的重量同生存环境的温度成负相关,也就是说小个子多喜温润之所,大块头常居苦寒之地。然而,鲸鲨似乎是一个特例,因为其多在温暖的海水中出现。不过,近年来GPS卫星定位可以在中等水深和深水区等温度较低的海水中捕捉到鲸鲨的踪影。有学者认为鲸鲨的大块头对于鲸鲨到寒冷海水的适应有保温功效。哈佛大学团队的作者们认为,鲸鲨这些有趣的特点使其在本文所探讨的问题的研究中有特殊价值。

哈佛大学的团队对所有选定的生物的多个特征进行了分析和总结,结果见下图。主要的生理学指标包括体重(body mass),寿命(lifespan),基础代谢速率(basal metabolic rate;BMR)等。基因组特征有GC含量、基因长度、外显子/内含子长度、基因组大小、密码子适应指数(codon adaption index,CAI;衡量密码子偏倚和基因表达强度的一个参照,在转录组横行的当下使用频降低了许多)。

原文图1. 横轴为物种名。纵轴从上至下:five genomic contexts(A-E),golden path length (F), the maximum lifespan (G), body weight (H),maximum lifespan controlled by weight0.25 (I), body temperature (optimaltemperature for cold-blooded animal) (J), basal metabolic rate (K), and basalmetabolic rate adjusted by weight (L).

然后,作者重点分析了动物的生理学特征和基因组特征的相关性。作者们发现,基因长度、内含子相对长度(relative intron length)以及基因组大小都同体重还有寿命有moderate statistical correlation(下图C-E)。内含子相对长度同基因组大小呈强烈正相关,不过,鲸鲨是一个很扎眼的outlier(下图B;浅蓝色为鲸鲨)。这里还有好多分析,感兴趣的同学欢迎读原文。这里还想提醒大家下,其中不少发现在此前也有报道了。

原文figure 2.Scaling relationships between genomic andphysiologic properties across 82 species. 小编认为,似乎作者可以做得更严谨一些,考虑物种之间的进化关系对于correlation的影响。这一点用bayestraits或R里的phytools、geiger、ape等包应该可以搞定吧(小编也不清楚希望了解的同学补充)。

作者接着把关注点放在了鲸鲨上,发现鲸鲨的内含子的相对长度(relativeintron length;对每一个基因,relative intron length =intron length / CDS length)比其他动物都要长。通过进一步研究,作者发现可能是因为两种转座子(transposon)的扩张导致的,分别是CR1-like LINES和Penelope-like elements。尤其是前者,在鲸鲨基因组中共占有176Mb!88%的鲸鲨基因含有至少一个CR1-like转座子,它们中的39%在内含子中发现。此外,超过一半的基因包含LINE1。尽管此前研究表明CR1-like LINE转座元件在鸟类和爬行类中十分富集(Suh et al.,2015),但是像鲸鲨基因组如此高含量的大概还是首次报道。

作者还分析了鲸鲨基因组内扩大和缩小的基因家族。这里作者很聪明,尽管鲸鲨基因组叫其他鱼类更大但哈佛大学团队也对family size缩小的基因家族进行了寻找。有趣的是,他们发现编码组蛋白(histone)的基因在鲸鲨基因组中有所减少,尤其是同染色体的高级结构有关的H1,作者猜想可能影响到鲸鲨内含子的长度。作者还发现了13个family size显著增加的家族及其功能。

对于哈佛团队的文章,RIKEN团队的负责人工乐树洋老师也在推特上给予了回复,工乐树洋队认为该工作的关注点非常有趣,但也表示与哈佛团队不同,RIKEN团队对intron长度body size相关性有不一致的结果。

结语

三个基因组,五篇文章,多所院校,几十位作者,给大家呈现了精彩纷呈的追鲨鲸魂!有观点的交锋,有激烈的竞争,还有不同的视角,不论如何,one clear common conclusion is that shark genomicsis rising(工乐树洋教授语)!

引文

HaraY, Yamaguchi K, Onimaru K, Kadota M, Koyanagi M, Keeley SD, Tatsumi K, TanakaK, Motone F, Kageyama Y, Nozu R, Adachi N, Nishimura O, Nakagawa R, TanegashimaC, Kiyatake I, Matsumoto R, Murakumo K, Nishida K, Terakita A, Kuratani S, SatoK, Hyodo S, Kuraku S. 2018.Shark genomes provide insightsinto elasmobranch evolution and the origin of vertebrates.Nature Ecology & Evolution2(11):1761-1771.

Kuraku S 2018.Decoding shark genomes - why did we choose those species?

Onimaru K, Tatsumi K, Shibagaki K,Kuraku S. 2018.Data Descriptor: A de novotranscriptome assembly of the zebra bullhead shark, Heterodontus zebra.Scientific Data5.

Park SG, Luria V, Weber JA, Jeon S, KimH-M, Jeon Y, Bhak Y, Jun J, Kim SW, Hong WH, Lee S, Cho YS, Karger A, Cain JW,Manica A, Kim S, Kim J-H, Edwards JS, Bhak J, Church GM. 2018.The whale shark genome reveals how genomic and physiological properties scalewith body size.bioRxiv.

Read TD, Petit RA, Joseph SJ, Alam T,Weil MR, Ahmad M, Bhimani R, Vuong JS, Haase CP, Webb DH, Tan M, Dove ADM.2017.draft sequencing and assembly of thegenome of the world's largest fish, the whale shark: Rhincodon typus smith 1828(vol 18, 532, 2017).Bmc Genomics18.

Suh A, Churakov G, Ramakodi MP, PlattRN, Jurka J, Kojima KK, Caballero J, Smit AF, Vliet KA, Hoffmann FG, Brosius J,Green RE, Braun EL, Ray DA, Schmitz J. 2015.Multiple Lineages of Ancient CR1 Retroposons Shaped the Early Genome Evolutionof Amniotes.Genome Biology and Evolution7(1): 205-217.

Tanegashima C, Nishimura O, Motone F,Tatsumi K, Kadota M, Kuraku S. 2018.Embryonictranscriptome sequencing of the ocellate spot skate Okamejei kenojei.Scientific Data5.

Venkatesh B, Lee AP, Ravi V, Maurya AK,Lian MM, Swann JB, Ohta Y, Flajnik MF, Sutoh Y, Kasahara M, Hoon S, Gangu V,Roy SW, Irimia M, Korzh V, Kondrychyn I, Lim ZW, Tay BH, Tohari S, Kong KW, HoSF, Lorente-Galdos B, Quilez J, Marques-Bonet T, Raney BJ, Ingham PW, Tay A,Hillier LW, Minx P, Boehm T, Wilson RK, Brenner S, Warren WC. 2014.Elephant shark genome provides unique insights into gnathostome evolution.Nature505(7482): 174-179.

本文为作者原创,原载于生信人微信公众号

你可能感兴趣的:(追鲨鲸魂——三篇文章共解地球上吨位最大鱼类基因组)