文献分享:从原始数据开始一步一步分析ATAC-seq

最近在编写全新的ATAC-seq流程,看到一个非常好的文献《From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis》文献堪称是目前最全的ATAC-seq的pipeline教程,对比了很多软件,并给出了结论。笔者总结了一些关键点出来供大家共同学习

摘要

ATAC-seq广泛用于研究染色质生物学的研究,但是该实验得的相关分析工具还没有很好的总结。本文主要讨论ATAC-seq数据分析的主要步骤,包括质控和比对,peak calling和高级分析(peak差异分析和注释,motif富集,footprint分析,以及核小体定位分析)。作者还综述了利用多组学数据重建转录调控网络的过程,并进一步指出每个步骤当前面临的挑战。最后,阐述了未来单细胞ATAC-seq的潜力,和开发ATAC-seq特定分析工具以获得有生物学意义的深入理解的必要性。

前言

哺乳动物的DNA通过三个主要的层次尺度进行高度浓缩:第一层次是核小体,然后包装到染色质,再通向第三层次——染色体。染色质可以在转录活跃的常染色质和不活跃的异染色质之间进行动态切换。DNA压缩的三个尺度及其相互作用共同造就了基因的表达调控。
最近的基因调控研究集中在表观遗传学上。高通量测序技术的进步给我们提供了各种破译表观遗传学图谱的方法。其中包括测定染色质可及性的转座可接近的染色质测序(ATAC-seq),DNA酶I高敏位点测序(DNase-seq)和甲醛辅助隔离调控元件测序(FAIRE-seq);其测量转录因子(TF)结合和组蛋白修饰的染色质免疫沉淀测序(ChIP-seq);检测核小体定位和占位的微球菌核酸酶测序(MNase-seq)。自2013年发明以来,ATAC-seq在各种染色质可及性的检测方法中特别受欢迎。经过整理的ATAC-seq数据集和出版物呈指数增长,表明其在广泛的生物学问题中的价值,例如如描绘哺乳动物健康组织和细胞类型中的增强子图谱,研究正常造血和白血病之间的可及性变化,以及精神分裂症患者和癌症基因组图谱(TCGA)泛癌队列中的染色质状态。ATAC-seq利用Tn5转座酶,切割开放的染色质,留下9 bp的交错缺口,并将高通量测序接头连接到这些区域。在此过程中,切口被修复,留下了9-bp的重复序列。然后进行双端测序以使这些开放区域有更高的非重复比对率。
尽管ATAC-seq简单优秀,具有较好的重复性和信噪比,但它存在一个主要的障碍——专门为ATAC-seq数据开发的生物信息学分析工具很少。虽然ChIP-seq和DNase-seq中使用的分析工具也可以应用于ATAC-seq,但是这是基于它们数据特征相似的假设,然而此假设尚未得到系统地评估。

分析流程

质控

作者经过对比认为:在质控阶段,各种read过滤工具在有效去除低质量和污染接头序列的性能方面通常表现差不多。

比对

过滤后,可以再次执行FastQC,以检查接头和低质量碱基是否已成功移除。然后将过滤的read比对到参考基因组。BWA-MEM和Bowtie2对于短的双端read存储效率高且快速。两个比对工具的软限位策略允许在read的两端有突出碱基,这可以进一步提高unique mapping rate。作者建议,unique mapping rate达到80%以上时认为ATAC-seq实验成功。对于哺乳动物物种,基于经验和计算估计,建议染色质开放区域检测和差异分析至少需要5000万mapped read,TF footprinting至少需要2亿。

比对后质控

  1. 比对后,ATAC-seq可以和大多数DNA测序数据一样,可以使用Picard和SAMtools去duplicated。
  2. 去线粒体基因组
  3. 去ENCODE列入黑名单的区域,这些区域通常具有非常高的read覆盖度
  4. ATACseqQC进行评估:成功的ATAC-seq实验应生成片段大小分布图,其具有递减的和周期性的峰,对应于无核小体区域(NFR)(<100 bp)和单核、双核和三核小体(〜200, 400,600碱基对)。NFR的片段应该在基因的转录起始位点(TSS)周围富集,而核小体结合区域的片段应该在TSS处被形成低谷,TSS周围的侧翼区域会稍微富集。
  5. 对于正链和负链,read应分别偏移 +4 bp和 -5 bp,以便实现TF足迹和基序的碱基对解析相关分析,因为Tn5转座酶对缺口进行DNA修复产生了9 bp重复。
    作者建议流程:FastQC➔trimmomatic➔BWA-MEM➔ATACseqQC

peak calling

MACS2是ENCODE ATAC-seq的流程中的默认call peaks工具。然而,专门针对ATAC-seq开发的call peak工具只有HMMRATAC。其他都是ChIP-seq和DNase-seq中的工具。与ChIP-seq不同,ATAC-seq通常没有input control(Tn5转座酶随机切割没有蛋白结合的DNA),因为获得与样本相同覆盖率的input control测序成本较高。因此,需要input control的call peak工具对于ATAC-seq是不切实际的。此外,来自ATAC-seq的双端片段的直接堆积代表了无核小体区(NFR)和核小体结合区。开放染色质区可以通过NFR的短片段堆叠来检测,或使用一个移位延伸的方法,尝试对通过延伸尺寸来平滑化的切割事件进行计数。
HMMRATAC是ATAC-seq独有的call peak工具。它采用三态半监督隐马尔可夫模型(HMM),分别将基因组分割为信号强度高的开放染色质区域,信号强度适中的核小体区域和信号强度低的背景区域。尽管HMMRATAC在计算上更加密集,但其性能优于MACS2和F-seq,并同时提供核小体位置信息。
综上,作者建议使用积极维护的工具(例如MACS2和HOMER)进行call peak。但是如果计算资源足够,HMMRATAC不失为ATAC-seq进行call peak最佳选择。

这里插一嘴,这个HMMRATAC确实比较耗费资源,占用内存巨大。通常ATAC-seq的bam文件达到5个G左右,使用HMMRATAC在48核CPU运算下大概需要一个晚上,内存在默认参数下至少需要250G。如果使用conda安装的HMMRATAC请手动在配置文件中调整Xmax,使用jar的用户则需要去指定Xmax不然基本都会出现内存溢出。

Peak差异分析

当前,尚未专门开发用于ATAC-seq数据分析的差分峰分析工具。一种简单的方法是找到候选区域(共有峰或分箱的基因组),进行归一化,对这些区域中的片段进行计数,并与其他条件进行统计学比较。作者建议csaw的edgeR进行差异分析。

Peak注释

获得峰集后,峰的注释可将染色质的可及性与基因调控联系起来。通常,峰会被注释到最接近的基因或调控元件。HOMER,ChIPseeker和ChIPpeakAnno被广泛用于将peak注释到最接近或重叠的基因、外显子、内含子、启动子、5'非翻译区(UTR),3'UTR和其他基因组特征。

Motif

尽管峰注释提供了功能解释,但它不能直接解释潜在的机制。开放染色质可以通过TF的影响转录,即TF通过识别并结合到DNA上的特定序列来促进转录。该序列称为基序(motif),结合位置称为TF结合位点(TFBS)。作者建议使用的数据库为:JASPAR,软件为HOMER、Bioconductor软件包TFBSTools和MEME。

Footprint

揭示TF调控的另一种方法是使用footprint。ATAC-seq中的足迹是指活性TF与DNA结合并阻止Tn5在结合位点切割的图式。作者认为HINT-ATAC是进行足迹分析的最佳软件,因为它具有ATAC-seq特异性的偏好校正。
核小体定位
核小体由组蛋白八聚体和大约147bpDNA组成,通过改变染色质开放性来影响TF结合。作者认为HMMRATAC和NucleoATAC是用于ATAC-seq核小体检测的两个有用且特异性的工具。

最后:如果想了解更多和生信或者精品咖啡有关的内容欢迎关注我的微信公众号:生信咖啡,更多精彩等你发现!

你可能感兴趣的:(文献分享:从原始数据开始一步一步分析ATAC-seq)