1 背景介绍
在人类细胞中,长达2米的DNA被压缩在5微米的细胞核中。细胞通过DNA在周围的组蛋白进行分层折叠的方式形成核小体,然后核小体压缩行程染色质。这个分层压缩的机制将不活跃的基因组区域封存,并将生物学活性区域保留在转录机制中,包括启动子,增强子以及其他的调控因子。在物理压缩的基础上,衍生出一套操控表观遗传的密码,包括DNA甲基化、核小体定位、组蛋白组成和修饰以及转录因子、染色质重构和非编码RNA。表观遗传学机制通过控制染色质的组成、压缩以及核蛋白的结构来管理细胞的表现型。
ATAC-seq(Assay for Transposase Accessible Chromatin with high-throughput sequencing)通过极度活跃的Tn5转座酶对可及性增强区剪切,同时将剪切位点和高通量测序的转接头进行链接。然后通过一定的方法对高通量测序的数据集进行生物信息学分析。
但是bulk ATAC-seq无法识别样本中某个细胞亚群的染色质状态,为了研究异质群体中的开放染色质,需要将ATAC-seq精确到单细胞水平。2015年,Greenleaf 实验室和Shendure实验室几乎在同一时间分别在《自然》和《科学》杂志上发表了他们关于ATAC-seq在单细胞领域的应用。
自此一些自制的方法和技术的改进开始出现,其中10X Genomics和BioRad两家公司提供了进行单细胞scATAC检测的特定设备和试剂。
这里,我们将会基于10X Genomics的方案进行后续对于scATAC-seq的研究。
2 ATAC-seq术语入门:
fragment在ATAC-seq的实验中是一个很重要的概念,它指的是通过Tn5转座酶对DNA分子进行酶切,然后经由双端测序得到的序列。基于Tn5的插入偏移量来推断fragment起始和终止的单碱基位置。根据之前的报道,Tn5转座酶与DNA耦合成同源二聚体,两个Tn5转座酶之间有9bp的DNA序列。因此,每个Tn5二聚体结合事件都会导致两个insertion的诞生,并且两者之间间隔9bp。所以,真实的“开放”位点的中心位于Tn5二聚体的正中间,而不是每个Tn5 insertion的位置。为了表明这一点,ArchR对每一个insertion引入一个偏移量,即正链的insertion事件+4pb,负链的instertion事件-5bp。因此,在ArchR软件中,“fragment”是指一个储存着染色体、偏移量校正过的染色体起始位置、偏移量校正过的染色体终止位置和与每一个测序得到的fragment相对应的唯一细胞barcode ID等信息的table或者genomic ranges对象。同理,“insertions”是指偏移量矫正过的开放性中心位置的碱基的位置。
3 上游 CellRanger-atac细胞计数分析
CellRanger-atac是10X Genomics官方开发的一款分析软件,用于对10X scATAC数据进行分析。其中包括mkfastq、count、aggr和reanalyze4个模块,分别用来进行fastq文件的制作、细胞计数与分析、数据整合以及重分析等内容。
mkfastq模块生成的数据包含4个文件:
-rw-r--r-- 1 yangyupeng research 142291345 May 23 2019 atac_pbmc_500_nextgem_S1_L001_I1_001.fastq.gz
-rw-r--r-- 1 yangyupeng research 534722058 May 23 2019 atac_pbmc_500_nextgem_S1_L001_R1_001.fastq.gz
-rw-r--r-- 1 yangyupeng research 293893750 May 23 2019 atac_pbmc_500_nextgem_S1_L001_R2_001.fastq.gz
-rw-r--r-- 1 yangyupeng research 531397588 May 23 2019 atac_pbmc_500_nextgem_S1_L001_R3_001.fastq.gz
-rw-r--r-- 1 yangyupeng research 142683281 May 23 2019 atac_pbmc_500_nextgem_S1_L002_I1_001.fastq.gz
-rw-r--r-- 1 yangyupeng research 535094456 May 23 2019 atac_pbmc_500_nextgem_S1_L002_R1_001.fastq.gz
-rw-r--r-- 1 yangyupeng research 293635305 May 23 2019 atac_pbmc_500_nextgem_S1_L002_R2_001.fastq.gz
-rw-r--r-- 1 yangyupeng research 530537382 May 23 2019 atac_pbmc_500_nextgem_S1_L002_R3_001.fastq.gz
R1、R2、R3和I1分别储存有read1、barcode、read2和index的信息。
使用count模块进行细胞计数和分析,会得到如下的结果文件:
drwxr-xr-x 6 yangyupeng research 4 Mar 24 15:39 analysis
-rw-r--r-- 1 yangyupeng research 98741609 Mar 24 15:39 cloupe.cloupe
drwxr-xr-x 2 yangyupeng research 3 Mar 24 15:39 filtered_peak_bc_matrix
-rw-r--r-- 1 yangyupeng research 7729733 Mar 24 15:39 filtered_peak_bc_matrix.h5
drwxr-xr-x 2 yangyupeng research 3 Mar 24 15:39 filtered_tf_bc_matrix
-rw-r--r-- 1 yangyupeng research 468852 Mar 24 15:40 filtered_tf_bc_matrix.h5
-rw-r--r-- 1 yangyupeng research 105588773 Mar 24 15:39 fragments.tsv.gz
-rw-r--r-- 1 yangyupeng research 870802 Mar 24 15:39 fragments.tsv.gz.tbi
-rw-r--r-- 1 yangyupeng research 2173719 Mar 24 15:39 peak_annotation.tsv
-rw-r--r-- 1 yangyupeng research 1142625 Mar 24 15:39 peaks.bed
-rw-r--r-- 1 yangyupeng research 2912261728 Mar 24 15:39 possorted_bam.bam
-rw-r--r-- 1 yangyupeng research 4216136 Mar 24 15:39 possorted_bam.bam.bai
drwxr-xr-x 2 yangyupeng research 3 Mar 24 15:39 raw_peak_bc_matrix
-rw-r--r-- 1 yangyupeng research 12377086 Mar 24 15:39 raw_peak_bc_matrix.h5
-rw-r--r-- 1 yangyupeng research 14393663 Mar 24 15:39 singlecell.csv
-rw-r--r-- 1 yangyupeng research 1132 Mar 24 15:40 summary.csv
-rw-r--r-- 1 yangyupeng research 6157 Mar 24 15:39 summary.json
-rw-r--r-- 1 yangyupeng research 23928396 Mar 24 15:39 test.rds
-rw-r--r-- 1 yangyupeng research 1842305 Mar 24 15:39 web_summary.html
File Name | Description |
---|---|
analysis | 分析产生模块产生的分析结果 |
cloupe.cloupe | Loupe Browser的输入文件 |
filtered_peak_bc_matrix | 过滤后的peak barcode矩阵 |
filtered_peak_bc_matrix.h5 | 过滤后的peak barcode的hdf5格式矩阵 |
filtered_tf_bc_matrix | 过滤后的转录因子barcode矩阵 |
filtered_tf_bc_matrix.h5 | 过滤后的转录因子barcode的hdf5格式矩阵 |
fragments.tsv.gz | barcode和比对上的片段文件 |
peak_annotation.tsv | peak注释文件 |
peaks.bed | 所有被鉴定出的peak的位置文件 |
possorted_bam.bam | 位置排序的bam文件 |
raw_peak_bc_matrix | 原始的peak barcode矩阵 |
raw_peak_bc_matrix.h5 | 原始的peak barcode的hdf5格式矩阵 |
singlecell.csv | 每个片段的条形码计数矩阵 |
summary.csv | 数据指标总结文件,csv格式 |
summary.json | 数据指标总结文件,json格式 |
test.rds | seurat对象储存文件 |
web_summary.html | HTML文件,数据指标总结和分析结果展示 |
4 下游分析:
可以用于分析scATAC的软件有很多,但是每个软件的功能却不尽相同。很多时候需要使用多款软件才能对数据进行一个比较全面的分析,但是各个软件的使用的数据格式有差别,导致数据的转换成为难点。基于此,我们这里选用了功能最为齐全的ArchR作为我们分析是使用的主软件基于cellranger-atac的结果进行下游的分析,下表列出了13款软件的功能对比。
Tool | ChromVAR | SCRAT | scABC | Cicero | Scasat | cisTopic | snapATAC | epiScanpy | Destin | SCALE | scATAC-pro | Signac | ArchR |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Platform | R | R/Web | R | R | Python/R | R | Python/R | Python | R | Python | Python/R | R | R |
Feature Matrix | TF motifs, k-mer | Selectable feature | Peak | TSS | Peak | Peak | Bin, peak | Peak | Peak | Peak | Peak | Peak | Bin, peak |
Preprocessing | O | O | O | O | O | O | O | O | O | O | O | O | O |
Clustering | O | O | O | O | O | O | O | O | O | O | O | O | O |
DAR | X | O | X | O | O | X | O | X | O | O | O | O | O |
Motif/k-mer | O | X | O (ChromVAR) | X | X | X | O (ChromVAR, Homer) | X | X | O (ChromVAR) | O (ChromVAR) | O (ChromVAR) | O (ChromVAR), TF footprinting |
Gene activity | X | X | X | O | X | O | O | X | X | X | O | O | O |
Co-accessibility | X | X | X | O | X | X | X | X | X | X | O (Cicero) | X | O |
Trajectory | X | X | X | O | X | X | X | X | X | X | X | X | O |
Pathway | X | X | X | X | O (GREAT) | O | O (GREAT) | X | X | X | O (GREAT) | X | X |
Enrichment analysis | X | X | X | X | X | O | X | X | O | X | X | X | O |
scRNA integration | X | X | X | X | X | X | O (Seurat) | X | X | X | X | O (Seurat) | O (Seurat) |
Reference | [3] | [4] | [5] | [6] | [7] | [8] | [9] | [10] | [11] | [12] | [13] | [14] | [15] |
4.1 ArchR软件包
ArchR(single-cell Analysis of Regulatory Chromatin in R)是一个用于分析scATAC-seq数据的功能全面的R软件包。它可以分析多个来源的单细胞ATAC数据,比如:10X Genomics系统、Bio-Rad droplest scATAC-seq系统、single-cell combinatorial indexing和Fluidigm C1系统。这款软件的提供了用户在分析scATAC数据时比较关心的分析内容,比如:marker基因的鉴定、转录因子足迹分析、交互排序轨迹可视化、与scRNA-seq数据整合分析以及细胞轨迹分析等。
另外,ArchR加入了双细胞识别功能。双细胞是由于在一个油包水中混入了2个细胞导致的,会给我们的数据分析带来一定的麻烦,可能会引入错误的cluster或者细胞类型之间的联系。所以ArchR加入了双细胞的识别和过滤功能,以此来提高我们数据的准确性。
相比于其他分析软件,ArchR通过优化数据结构降低了内存的消耗,并且使用并行策略提高了运行速度。需要注意的是,ArchR的并行策略是基于Unix系统提出的,目前的没有针对windows的并行优化,即在windows系统上运行ArchR只能进行单线程分析。所以,在进行大型数据分析的时候,还是需要在unix服务器上进行的。
ArchR的分析基础是Arrow文件。每个Arrow文件都储存着单个样本的所有信息。在创建Arrow文件以及以及进行附加分析的时候,ArchR会实时编辑和更新Arrow文件,在其中添加相关信息层,并且将Arrow文件输出到磁盘空间中,以此来减少对内存的依赖,降低分析时的硬件要求。实际上Arrow就是一个存放在磁盘上的一个HDF5格式的文件。ArchR使用ArchR对象来和Arrow文件关联到单个分析框架下,然后通过直接或间接的方式读取和编辑Arrow文件,从而保证了R能够高效的访问它们。ArchR对象时存放在R内存中的,但是由于大量信息储存在Arrow文件中,该对象所需内存大大减少。
参考文献:
[1] Buenrostro JD, Wu B, Chang HY, Greenleaf WJ. ATAC-seq: A Method for Assaying Chromatin Accessibility Genome-Wide. Curr Protoc Mol Biol. 2015;109:21.29.1-21.29.9. Published 2015 Jan 5. doi:10.1002/0471142727.mb2129s109
[2] Baek S, Lee I. Single-cell ATAC sequencing analysis: From data preprocessing to hypothesis generation. Comput Struct Biotechnol J. 2020 Jun 12;18:1429-1439. doi: 10.1016/j.csbj.2020.06.012. PMID: 32637041; PMCID: PMC7327298.
[3] Schep, A., Wu, B., Buenrostro, J. et al. chromVAR: inferring transcription-factor-associated accessibility from single-cell epigenomic data. Nat Methods 14, 975–978 (2017). https://doi.org/10.1038/nmeth.4401
[4] Zhicheng Ji, Weiqiang Zhou, Hongkai Ji, Single-cell regulome data analysis by SCRAT, Bioinformatics, Volume 33, Issue 18, 15 September 2017, Pages 2930–2932, https://doi.org/10.1093/bioinformatics/btx315
[5] Zamanighomi, M., Lin, Z., Daley, T. et al. Unsupervised clustering and epigenetic classification of single cells. Nat Commun 9, 2410 (2018). https://doi.org/10.1038/s41467-018-04629-3
[6] Pliner HA, Packer JS, McFaline-Figueroa JL, Cusanovich DA, Daza RM, Aghamirzaie D, Srivatsan S, Qiu X, Jackson D, Minkina A, et al. Cicero Predicts cis-Regulatory DNA Interactions from Single-Cell Chromatin Accessibility Data. Mol Cell 2018;71:858–71 e8.
[7] Syed Murtuza Baker, Connor Rogerson, Andrew Hayes, Andrew D Sharrocks, Magnus Rattray, Classifying cells with Scasat, a single-cell ATAC-seq analysis tool, Nucleic Acids Research, Volume 47, Issue 2, 25 January 2019, Page e10, https://doi.org/10.1093/nar/gky950
[8] Bravo González-Blas, C., Minnoye, L., Papasokrati, D. et al. cisTopic: cis-regulatory topic modeling on single-cell ATAC-seq data. Nat Methods 16, 397–400 (2019). https://doi.org/10.1038/s41592-019-0367-1
[9] Fang R, Preissl S, Hou X, Lucero J, Wang X, Motamedi A, Shiau AK, Mukamel EA, Zhang Y, Behrens MM, et al. Fast and Accurate Clustering of Single Cell Epigenomes Reveals Cis-Regulatory Elements in Rare Cell Types. bioRxiv 2019:615179.
[10] Danese A, Richter ML, Fischer DS, Theis FJ, Colomé-Tatché M. EpiScanpy: integrated single-cell epigenomic analysis. bioRxiv 2019:648097.
[11] Eugene Urrutia, Li Chen, Haibo Zhou, Yuchao Jiang, Destin: toolkit for single-cell analysis of chromatin accessibility, Bioinformatics, Volume 35, Issue 19, 1 October 2019, Pages 3818–3820, https://doi.org/10.1093/bioinformatics/btz141
[12] Xiong, L., Xu, K., Tian, K. et al. SCALE method for single-cell ATAC-seq analysis via latent feature extraction. Nat Commun 10, 4576 (2019). https://doi.org/10.1038/s41467-019-12630-7
[13] Yu, W., Uzun, Y., Zhu, Q. et al. scATAC-pro: a comprehensive workbench for single-cell chromatin accessibility sequencing data. Genome Biol 21, 94 (2020). https://doi.org/10.1186/s13059-020-02008-0
[14] Stuart T, Butler A, Hoffman P, Hafemeister C, Papalexi E, Mauck WM, 3rd, Hao Y, Stoeckius M, Smibert P, Satija R. Comprehensive Integration of Single-Cell Data. Cell 2019;177:1888–02 e21.
[15] Granja JM, Corces MR, Pierce SE, Bagdatli ST, Choudhry H, Chang H, Greenleaf W. ArchR: An integrative and scalable software package for single-cell chromatin accessibility analysis. bioRxiv 2020:04.28.066498.