新年伊始,Nature Genetics公布了由美国Maryland大学科研人员对肩突硬蜱基因组进行测序组装的最新研究结果,这是第三版的肩突硬蜱基因组了,而上一次是2015年发表在Nature Communication上,我之前也对文章进行了解读,时隔8年科研人员接着对肩突硬蜱的基因组工作进一步完善,发表在了更高水平的杂志上,学习一下。
研究背景:
蜱虫大约起源于~225百万年前,大多数蜱虫在地理上受到特定宿主-寄生虫关系的限制,而硬蜱是一种高度进化的蜱虫种类,寄生在不同的寄主范围内,传播一系列流行病原体,并具有广泛的地理分布。与其密切相关的蜱虫种类,比如肩突硬蜱(黑脚蜱),篦子硬蜱和全沟硬蜱,广泛分布于北美、欧洲、北非和亚洲。肩突硬蜱或相关蜱类是许多影响人类的病毒、细菌和真核病原体的有效载体,包括莱姆病。尽管越来越多的人认识到硬蜱是多种严重疾病的传播媒介,但它们的分子生物学和携带病原体的载体能力许多方面仍然未知,缺乏高质量的参考基因组进一步阻碍了其研究。
肩突硬蜱基因组携带有13对常染色体加上性染色体XX或者XY,大小约~2.26Gb(雌蜱),X染色体最大,Y染色体最小[1,2]。之前公布了两个版本的肩突硬蜱基因组。其中一个(Wikel strain)来自三个地区种群的肩突硬蜱经过杂交和近亲繁殖12代后,通过ABI平台进行的Sanger测序,平均深度为3.8X。另一个版本通过对肩突硬蜱细胞系ISE6进行测序,采用了三代的PacBio测序平台的CLR模式,产生了一个更为完整的基因组,减少了88倍的的contigs数目,contig的N50长度增加了278倍。研究人员对肩突硬蜱的基因组进一步进行了提高,并发现了成千的新的蛋白编码基因和不同的RNA类型。
主要结果
肩突硬蜱基因组高精度测序
为了进一步提高基因组的连续性、准确性和完整性,研究人员从单一雌蜱中分离高分子量(high-molecular weight,HMW) DNA,并结合PacBio的low input (LI)和ultra-low input (ULI) DNA文库(Fig.1a)通过SMRT平台测序。从单一雌蜱中提取出3096 ng的HMW DNA, 研究人员构建了四个HMW DNA文库(Sup Fig.1b,c),最终产生了~41-fold的PacBio的HiFi数据,包括40.2Gb的LI 数据(n=4.6 × 106 reads, median read length 8.2 kb) 和 56.0 Gb of ULI 数据 (n = 5.3 × 106 reads, median read length 10.1 kb)(Sup Fig.1d和Sup Table1)。LI文库使用native DNA模板进行测序,在读取长度和产量有限的情况下,显示了在整个基因组中均匀的覆盖率,而通过PCR扩增的ULI文库具有更好的产量和更长的读取长度,但在具有高AT或GC偏倚的基因组区域覆盖率较低(Sup Fig.1d)。通过结合这两种类型文库,我们能够在一个个体中对两种单倍型进行测序,而不是像为了获得足够的基因组所必需的那样,从多个个体中提取DNA构建文库。此外,使用Illumina平台从SMRT-seq测序的同一蜱虫中进行150bp短读长测序,产生112 Gb的数据,基因组覆盖率约为49倍。
Fig.1肩突硬蜱基因组组装。a 单只蜱虫基因组组装和测序计划流程图。左边,gDNA质检的“胶图”和FEMTOpluse系统的质检图。中间,总RNA的“胶图”和Tape station系统的质检图。右边,Hi-C文库及测序(4只雌蜱)。b,不同版本基因组质量评估关键参数比较。c, Assembly tree maps with contigs scaled by length and scaffolds color coded。d. Hi-C组装得到的14条染色体的scaffolds。c, Assembly tree maps with contigs scaled by length and scaffolds color coded。e, 12个Illumina 的RNAseq 数据集比对到 VB49 Wikel, NCBI ISE6 和当前基因组。
质量提高的基因组
研究人员分别通过比较三款HiFi基因组组装工具(hifiasm, hicanu v.2.0 和 IPA v.1.3.1)结果,hifiasm组装结果基因组连续性、完整性最好(Sup Table2)。
研究人员为了获得染色体水平的高质量的单倍型基因组,使用purge dups去除了重复的单倍型,最终获得的contig set比之前组装的两个版本基因组具有更高的完整性(Table1),去重后的contig序列大小为
2.23Gb(accession no. GCA_016920785.2),BUSCO完整性值C值为96.3%。使用Proximo Hi-C,将>50kb的Contig连接成scaffold,得到了14个染色体的scaffolds序列,接近总长度2.23Gb的90%序列,scaffold N50 为132 Mb,BUSCO completeness of 98.8% (Fig. 1b-d,Sup Fig. 1e)。从公共数据库下载了12个高质量的Illumina的RNA-seq数据集比对到VB49 Wikel, NCBI ISE6和新组装基因组上。除了4个来自细胞的转录组数据集外,8个来自蜱组织的数据集在新组装的基因上比对结果做好(Fig. 1e)。
Table 1 | 肩突硬蜱基因组特征总结
通过结合RNA-seq提高基因组注释质量
为进一步提高基因组注释质量,对单一蜱虫进行了Isoform sequencing(Iso-Seq),从Iso-Seq数据确定了142057个高质量异构体和假定的蛋白质编码序列,主要是完整的开放阅读框(ORFs) (Fig.2a)。基因组注释使用了NCBI的RefSeq注释流程,共释放了三个版本: 101(发布日期2021年3月22日;HiFi contig assembly),102(4月1日2021; HiFi contig assembly + Iso-Seq data)和103(2021年7月7日; HiFi contig + Iso-Seq data, supported by Hi-C scaffold assembly),三个版本的基因组注释质量逐渐提高(Fig.2b),最终基因组注释文件为NCBI 103。
研究人员对转座元件(TEs)进一步分析,基因组约69%的区域被RepeatModeler鉴定为重复序列,产生了4,527个假定一致的序列。Dfam和RepBase搜索产生了81个已知元件,合并不同结果并去重后最终产生3,921个转座元件(Sup Table3)。Overall, ~46%的散在重复序列被标记为unknown, 其中可能的长散在核元件(LINES),长末端重复序列(LTRs),DNA转座子和短散在元件序列分别占~12%,~9.6%,~8.8%和~1.3% (Fig. 2c),并在不同染色体上占比接近(Fig. 2d)。
研究人员比较了当前基因组(NCBI 103)和之前两个版本基因组VB49 Wikel和NCBI ISE6注释特征及基因数目(Table 1),当前版本基因组注释质量在多个方面得到了提升(Fig. 2e),得到了更多的基因数目,
NCBI 103 (32,419), NCBI ISE6 (30,436) ,VB49 Wikel (23,342)。更多新的mRNA类型,更多非编码RNA数目。(t)RNA 和 long noncoding (lnc)RNA 数目比NCBI ISE6少了约14%,small nuclear (sn)RNA比VB49 Wikel少了约20%。Iso-Seq分析能够在注释时提供转录起始位点,转录结束位点,5’-UTRs, 3’-UTRs和 splicing patterns (Fig. 2f 和 Sup Fig. 2a,b), 提高了gene models (Fig. 2g 和 SupFig. 2c)。
Fig. 2 | Annotation and analyses of I. scapularis genome. a, ORFs in the Iso-Seq data。b, 100 (ISE6), 101, 102 and 103注释结果中基因比较。c,DNA重复序列和转座元件分析. d, 14条染色体scaffolds序列组成比较。e, I. scapularis gene基因注释在VB49 Wikel、ISE6和 current 103 release)中结果,箭头和三角分别表示不同注释类别的增加或减少。f, Example of a gene (LOC8023763) with alternative transcription start sites。g, Example of a gene (LOC8026453) that is split or merged in different genome annotations with alternative transcription start sites。h. NCBI ISE6及 VB49 Wikel和当前版本基因组都注释到的免疫基因在不同染色体上的分布。
代表性基因的注释和结构变化
研究人员发现了多个well-known基因家族发生了扩张,比如一些免疫通路基因和化学感受受体基因,并对免疫基因数目和之前NCBI ISE6及 VB49 Wikel基因组进行了比较,并借助HiC数据,将这些免疫基因定位到不同染色体上(Fig. 2h)。
研究人员进一步对肠道和唾液腺特异性基因和之前的注释结果进行比较,也发现了较多的变化(Sup Table 6、7),并且许多先前确定为疫苗候选的蜱抗原,或涉及蜱-宿主-病原体相互作用的蜱抗原注释结果发生了较多变化(Sup Table8)。
通过Hi-C数据获得了14条染色体的scaffolds序列(Fig.3a),其中13条为常染色体,一条为X染色体。Hox聚集到CS1上(Sup Fig. 1e),其中包括大多数苍蝇的Hox基因的同源物;在果蝇(Drosophila spp)中,这些在3R染色体中分裂为两个簇(antp和bithorax) (触角基因和双胸基因),间隔约9.6 Mb(Fig. 3b)。新组装结果还发现了防御素和防御素样基因产物的显著扩展,包括27个注释的防御素,它们分布在两个基因簇中,在CS5相距约7.6 Mb (Sup Table 10 和 Fig. 3c, upper panel)。
同样,谷胱甘肽s -转移酶(GST)家族在CS1中也有大量扩增(Fig. 3c, lower panel, and Sup Table 11)。此外,由于表观遗传调控因子对蜱虫的生活方式可能至关重要,研究人员研究了蜱虫基因组中一组具有代表性的表观遗传基因簇,如the trithorax group (TrxG) and polycomb group (PcG)蛋白,并将主要的TrxG和PcG基因比对回不同版本的基因组上(Fig. 3d)。
Fig. 3 | 组装到染色体水平的scaffolds和基因分析
代表性TrxG 基因分析及其功能
为了评估改进的基因组如何促进对硬蜱属成员生物学特征理解,特别是在发育、嗜血和持续携带病原体的特征,研究人员分析了在果蝇中研究较多的三个主要的TrxG基因(ash2,Set1和NSD2)。TrxG基因中只有ash2在吸血阶段表达升高(Fig.4a),然后使用RNAi技术敲低ash2基因或者其它TrxG基因(Fig.4b, Extended Data Fig. 1d)能够影响蜱虫饱血的时间但不影响饱血后重量(Fig. 4c,Extended Data Fig. 1e-g),进一步影响了蜱虫的蜕皮能力(Fig. 4d, Extended Data Fig.1h)。
研究人员确定了Ash2的两种isoforms(Fig.4e, Extended Data Fig.2b),使用抗重组Ash2抗体的Western blotting分析在整个蜱虫裂解液中识别出约55 kDa的天然蛋白(Fig. 4f)。共聚焦免疫荧光显示,该蛋白可在蜱的肠道和唾液腺中检测到,定位在细胞核内(Fig. 4g)。对ash2沉默蜱的组织学分析显示肠道组织的改变(Fig. 4h)。喂食8小时后检测ash2缺陷蜱的肠道细胞增殖活性也受到损害(Fig. 4i),包括肠道中组蛋白修饰事件减少。
Fig. 4 |蜱虫吸血阶段早期肠道中的development需要Ash2基因。
提高的立克次体基因组
研究人员从HiFi序列中重新组装了Rickettsia sp的基因组,长度为1.78Mb, 平均 coverage 为 77× (Fig. 5a),并使用NCBI Prokaryotic Genome Annotation流程进行注释,得到了2,055个基因和472个假基因(Fig.5b)。研究人员使用蛋白编码基因和16S 构建系统发育树(Fig.5c)证明其组装的基因组质量可靠并和其它基因组进行了比较(Fig. 5d);)。结合HiC数据研究人员试着对 Rickettsia sp染色体序列进行划分(Fig. 5e, left), 尽管分辨率较低,但还是发现Rickettsia sp基因组中存在多个互作关联区域(Fig. 5e, right)。
Fig. 5 | 立克次体基因组组装和注释
肩突硬蜱遗传差异
为了评估当前基因组作为基因分型和评估遗传变异的有效性,研究人员接下来对从不同流行地区收集的野生肩突硬蜱进行了限制性内切位点相关测序(RAD-seq)分析。通过主成分判别分析(DAPC)对种群结构的分析表明,不同地区肩突硬蜱在遗传上是多样化的,而俄克拉荷马州立大学实验室饲养的种群与来自同一地区的野生捕获种群聚集在一起(Fig. 6a,b 和 Sup Table 15)。然后构建了野生蜱虫的snp图谱并估算了不同地区的肩突硬蜱遗传聚类(Fig. 6c-d)。
Fig. 6 | Variations in tick population genetic structures as assessed by RADseq。
高分辨率蛋白质组图谱
研究人员通过纳米液相色谱-串联质谱分析法(nano-LC–MS/MS)对肩突硬蜱进行了蛋白组测序,确定了4,927个蛋白质种类,许多基因在不同喂养状态和生命阶段中存在差异表达(Fig. 7a-c)。
Fig. 7 | Whole-body proteome analysis of I. scapularis over the course of feeding and adult development.
总结:
研究人员从肩突硬蜱的单一雌蜱中提取高分子量的DNA并通过pacBio的SMRT平台进行了HiFi测序,进而对肩突硬蜱基因组进行了重新组装,该种测序策略避免了多只蜱虫混样带来的DNA异质性对组装的影响,尽管在组装的完整性、准确性上相比之前有了大幅度的提高,但相比于现在的HiFi序列组装的基因组,N50值太低了(连续性不够),但丝毫不影响作者在NG上发表文章。
在基因组后续的分析中,作者没有在重复之前的也常见的比较基因组学工作,而是专注于和之前的肩突硬蜱基因组组装和注释质量进行比较,证实自己的基因组在组装和注释质量是可靠的。并选取了几个关键基因进行了定位及RNAi实验证实其可靠性及基因功能。
肩突硬蜱遗传异质性分析中,研究人员选择了RAD-seq测序分析并比较了不同染色体上SNP分布特征及不同地区的遗传关系,我比较疑惑的是为什么没有选择重测序,推断可能是为了节约成本。最后,研究人员进行蛋白质组测序并结合转录组数据观察不同阶段肩突硬蜱的一些基因表达变化。
补充学习:
low input (LI)和ultra-low input (ULI) DNA文库:低起始量文库和超低起始量文库,其中ULI要经过PCR扩张,用以增加DNA量。
FEMTO Pluse系统可以分离 165 kb 以内的高分子量 DNA,还可以检测起始量浓度低至 50 fg/µL 的核酸,是低浓度样品中长读长 NGS 文库 QC、gDNA、小 RNA 或 cfDNA 分析的理想选择。
TapeStation 系统是用于 DNA 和RNA 样品质量控制 (QC) 的自动化电泳解决方案。TapeStation系统是一个一体化平台,包括用于分析样品分子大小、数量和完整性的仪器、数据处理软件、试剂以及 Screen Tape 胶条。该系统提供高精准度的分析评估,非常适合于新一代测序(NGS) 或生物样本库工作流程,可实现从低到高的各种样品通量。
Hox基因(英语:Hox genes)全名同源基因(英语:homeotic genes)或同源异型基因。是生物体中一类专门调控生物形体的基因,一旦这些基因发生突变,就会使身体的一部分变形。其作用机制,主要是调控其他有关于细胞分裂、纺锤体方向,以及硬毛、附肢等部位发育的基因。Hox基因属于同源异型盒(homeobox)家族的其中一员,在大多数Hox基因中,会含有一段约180个核苷酸的同源异型盒,可以转录出含有约60个氨基酸序列,称为同源蛋白质区段(homeodomain)
RAD(Restriction-site-associated DNA sequencing)即与限制性核酸内切酶识别位点相关的DNA序列。RAD-seq技术于2008年由Baird提出。传统RAD方法是对基因组DNA进行单酶切,加接头后对酶切片段超声波随机打断后建库测序,因此单酶切RAD测序得到的带酶切位点的read1是对齐的,而read2是参差不齐的。
参考学习文章:
1.Geraci, N. S., Spencer Johnston, J., Paul Robinson, J., Wikel, S. K.
& Hill, C. A. Variation in genome size of argasid and ixodid ticks.
Insect Biochem. Mol. Biol. 37, 399–408 (2007)
2.Gulia-Nuss, M. et al. Genomic insights into the Ixodes scapularis
tick vector of Lyme disease. Nat. Commun. 7, 10507 (2016).
本文使用 文章同步助手 同步