基因组文章 | 蝾螈《Nature》2018

蝾螈可以再生四肢、心脏、脊椎等等组织,是研究发育,再生等等的重要材料,但由于其基因组庞大(是人类基因组的10倍)和含有大量的重复序列对其基因组解析带来了困难。近期在中国和欧洲各实验室的合作下,完成了D/D蝾螈基因组的测序和组装,下面让我们一起来探索其神秘。

一、摘 要

蝾螈是一类重要的研究发育、再生和进化的四足类动物模型,其中墨西哥蝾螈(Ambystoma mexicanum)是研究分子机制的代表性蝾螈。本研究中通过长读长的三代测序、优化比对和新的基因组组装方式MARVEL对32G的蝾螈基因组进行了测序和组装。对基因组分析发现内含子和基因间区存在扩增,这种扩增很大程度上是因为存在大量长末端重复的反转录转座子。内含子的大小在发育相关基因中是受到限制的,并且物种特异性的基因影响肢体的再生。蝾螈基因组并不包含发育所必须的基因Pax3而含有同源基因Pax7,Pax7突变后的蝾螈与Pax3,Pax7缺失的小鼠存在相似的表形。蝾螈基因组的获得为发育和进化的研究提供了丰富的生物资源。

二、测序分析

  • 基因组DNA:liver and spleen of an individual three year old adult D/D male
  • 三代测序:PacBio RSII, fragment length cutoff between 10 kb and 20 kb,110 Mio PacBio reads resulting in 1 Tbp raw data
  • 组装:MARVEL assembler https://github.com/schloi/MARVEL
  • 校正(二代测序):76 bp, 100 bp or 125 bp strand-specific paired-end sequencing on Illumina HiSeq 2500 or Illumina HiSeq 2000, respectively. 524,974,802 paired-end (2x250 bp) Illumina reads(seven-fold coverage of the genome). The reads were mapped to the PacBio genome assembly by Bowtie2.
  • Mapping: Saphyr System (Bionano) Bionano Solve 2.1 software
  • 数据:https://genome.axolotl-omics.org NCBI BioProject database with accession numbers PRJNA378970 (genome data)

三、结 果

1. 基因组测序组装

image

选取D/D品系(易于活体成像)进行基因组测序,基因组的组装参照fig1.b,采用PacBio三代长读长测序(读长达到57Kb(fig1c), 蝾螈最长的重复序列是34Kb),使用MARVEL进行组装,采用二代测序数据进行基因组矫正,contig组装采用Bionano(N50 contig 长度216kb,fig1.d),最终得到的N50 scaffold 长度3Mb

组装的完整性评估,首先分析了non-exonic ultraconserved elements (UCEs),98.5%的在脊椎动物和蝾螈中保守。另外为了评价完整性,研究还对22个组织的转录组进行了测序,85%的转录本能够比对到基因组上。同时通过全面的转录组数据集,对蝾螈基因组基因进行注释得到23251个编码基因。

2. 蝾螈基因组存在大量的长末端重复反转录转座子

image

Contig中有65.6%,18.6Gb的重复序列,其中主要为LTR retroelement classes 和endogenous retroviruses(Fig2.a,b),并且包含超过10Kb的元件(Fig2.c)。重复序列的替换数目用来估计LTR retroelement的相对进化年限,通过分析发现蝾螈基因组经历了长周期的转座子活性,随后是最近的并且明显持续的扩张爆发(Fig2.d)

image

另外,蝾螈基因组的内含子长度要远大于人,小鼠和青蛙的;并且在内含子的扩增上,发育相关基因中的内含子扩增是受限的,而在人等其他物种中,发育与非发育相关基因中内含子的大小并无明显不同(Fig3.a)。Fig3.b具体展现了典型基因AGR2的事例。

3.HoxA基因簇分析和受限的内含子大小

image.png

HoxA基因在肢体的近远轴(proximal-to-distal)发育中发挥重要作用,并且在断肢再生过程中会被重新活化。本研究中美西钝口螈的HoxA基因位点在单个contig上,含有明显的重复区域,比人类和蛙类的该基因大3.5倍,可能是由于该基因簇中在HoxA3和HoxA4之间存在一段170kb的扩张。

4.蝾螈基因组缺少PAX3

通过基因注释和基因家族分析,在美西钝口螈中鉴定出了Pax4 缺失(其它两栖动物和脊椎动物也缺失Pax4),和Pax3 缺失(然而所有其它已知的脊椎动物都含有Pax3)。为了进一步验证美西钝口螈中Pax3 的缺失,研究人员
1). 在基因组测序以及转录组测序的原始数据未发现Pax3的序列,
2). 检查了Pax3 基因区域的邻近基因和高保守非外显子元件(non-exonic elements, CNEs)

发现在小鼠的Pax3 附近的基因Sgpp2、Epha4以及CNEs也同样存在于美西钝口螈中,但未找到Pax3 或者任何与Pax3 相关的CNEs(Fig.7)。这些证据说明,美西钝口螈丢失了Pax3 及与之相关的顺式作用元件。

image

经典的发育信号分子家族的分析,在蝾螈中,hedgehog和Wnt是存在的(Extended Data Figure 2.a,b)。但是PAX蛋白中,蝾螈基因组缺少PAX4含有PAX10,缺少PAX3含有PAX7 (Extended Data Figure 2.c)。

美西钝口螈中,四足动物Pax7 和Pax3位点的保守基因和CNEs分析

在蝾螈基因组中Sgpp2和Epha4(这两个基因在小鼠中存在于Pax3的两侧)存在,但是并没有Pax3,而且pax3相关的非内含子元件(CNEs)也不存在(Fig3.d)。

5.Pax7具有与Pax3类似的功能

在其它脊椎动物中,Pax3 和Pax7 都对肌肉、神经管和神经鞘等组织的发育起重要作用,尽管它们有一部分功能类似,但两者中任何一个的缺失都会导致很明显的表型变化(小鼠)。然而美西钝口螈缺失了其它四足动物都有的Pax3 基因后,由Pax7 承担起了类似的基因功能。为了更深入地研究美西钝口螈中Pax7的功能,研究人员利用TALEN和CRISPR-mediated基因编辑,形成不同的Pax7突变(Fig.8 a)。在子代中进行表型分析(Fig.8b-h)并以PCR和蛋白检验做验证。

在其他脊椎动物中,Pax7和Pax3在肌肉、神经管和神经嵴来源的组织发育中发挥重要的作用,在蝾螈中Pax3缺失,Pax7是不是具有类似的功能。文章采用TALEN和CRISPR技术(Fig4.a)对Pax7进行突变来进行研究。


美西钝口螈Pax7 突变体与小鼠Pax3−/−Pax7−/−突变体有类似的表型

Pax7突变缺失后,早期(17,20天)肌肉量上并没有体现不同,之后会影响蝾螈的直立姿态和延迟生长。6月大的蝾螈身体延伸出现问题(Fig4.b),体壁肌肉明显减少(Fig4.c);3月大的蝾螈肢体(前肢)肌肉减少(Fig4.d);前额骨发育缺陷(Fig4.e,小鼠Pax7缺失影响面部骨骼发育,面部骨骼是神经嵴的衍生物);黄色素细胞(Fig4.f)和眼睛虹彩细胞(金色素)减少(Fig4.g,斑马鱼Pax7突变黄色素细胞和虹彩细胞消失);神经管闭合出现问题(Fig4.h)。此外,像躯干肌肉(Extended Data Figure 4)和尾部肌肉(Extended Data Figure 4)同样受到影响,而非肌肉组织,如TU-J1和MBP的表达不受影响(Extended Data Figure 7.b,c)。

参考文献

Sergej Nowoshilow, Siegfried Schloissnig, Ji-Feng Fei , et al. The axolotl genome and the evolution of key tissue formation regulators.Nature.2018

其他

To merge sets of predictions, identified features overlapping one another >=80% were merged using BEDOPS 2.4.2060. Additionally, features containing or overlapping other features <80% (potentially indicative of nested repetitive elements) were discarded, as were those within 100 bp of the start or end of assembled scaffolds. To ensure the accuracy of predictions and to better exclude nested elements, all predicted regions were translated in all 6 frames and scanned using hmmsearch (HMMER 3.1b2)61 for protease (‘RVP’ PF00077.15), reverse transcriptase (‘RVT_1’ PF00078.22), RNase H (‘RNase_H’ PF00075.19), and integrase (‘rve’ PF00665.21), and with the equivalent HMMs retrieved from GyDB 2.062. Individually for each scan, predicted regions with more than one hit were removed and a final list of regions compiled that contained at least one hit from any HMM

https://www.sohu.com/a/220669145_100021904
https://www.cyagen.com/cn/zh-cn/community/frontier/information-20180202-1.html
https://baijiahao.baidu.com/s?id=1623654647928473675&wfr=spider&for=pc
https://baijiahao.baidu.com/s?id=1623871706080923712&wfr=spider&for=pc
http://www.cbcgdf.org/NewsShow/4854/8460.html
https://baijiahao.baidu.com/s?id=1653853678257654183&wfr=spider&for=pc
https://ibook.antpedia.com/x/316367.html
https://www.cnbeta.com/articles/science/812595.htm
https://www.cnjiyin.com/yichuanjiyin/20190107_4338.html

你可能感兴趣的:(基因组文章 | 蝾螈《Nature》2018)