ATAC-seq经典之作

论文标题：Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA-binding proteins and nucleosome position

表观测序领域大牛William J Greenleaf和Howard Y Chang的经典之作，引用上千次的ATAC经典原文

概述

通过加上adaptor的转座酶Tn5在原生染色质上的转座，实现快速、灵敏的表观基因组分析。ATAC-Seq应用一个很简单的两步法建库，细胞数可低至500个细胞（500–50,000 cells）。作者应用该技术发现了几类DNA结合蛋白：严格回避核小体的、勉强允许和核小体共定位的、倾向于和核小体共定位的。

高通量的表观测序技术，包括分别测定染色质可及性、核小体定位、转录因子mapping等。但先前的技术的明显缺陷是都需要几百万起始量的细胞，而且涉及较复杂的耗时的样本制备、建库过程，并不能探究到核小体定位、染色质可及性、TFmapping之间的相互作用。这些局限性带来了三个主要的缺陷：

掩盖了细胞群体之间的异质性
细胞经常要经历体外培养扩增过程以获得足够的细胞量，然而体外培养本身就不能完全模拟体内条件，因此添加了无关的可能造成染色质状态改变的因素
对input的要求限制了在有限临床样本中的应用，因此没法达到个性化表观组学研究的程度。

本文作者利用ATAC-seq，成功鉴定了开放染色质区，核小体结合和无核小体的调控区，并用"footprinting"方法在B细胞系中推断出了DNA结合蛋白的location。

Results

ATAc-seq probes chromatin accessibility with transposomes

该技术最大的创新性就在于应用了Tn5转座酶的特性：该酶可以在体外与接头序列孵育，然后形成的复合物可以同时片段化DNA并给DNA片段加上接头。因为转座子本身有在体内整合进活性DNA调控元件的能力，所以作者推测在真核细胞核中Tn5可以把自己整合进开放染色质。ATAC-seq建库简单只需两步：转座+PCR，相比DNase-seq和FAIRE-seq的流程简单且回避了额外加接头纯化、解交联的损失。

prep.jpg

数据的表现，与DNase-seq和FAIRE-seq进行比较：

performance.jpg

不仅不同技术的可重复性好，不同批次ATAC-seq实验之间相关性也很高。另外作者还检验了不同细胞数的ROC曲线以及peaks recovery rate。

而且Tn5几乎是没有序列结合偏好性的：也就是在基因组上的insertion没有序列偏好

Tn5_preference.jpg

上图横坐标表示reads的碱基位置，其中0表示reads的起始位置，虚线是Tn5二聚体的对称轴。

disclose nucleosome positions

接下来就是最经典的ATAC片段分布规律性了，呈现出核小体周期性（200bp），峰值对应200bp的整数倍。

nucleosome_periodicity.jpg

图b展示的是class-specific enrichments：不同染色质状态（转录区、启动子区等）对应的片段分布各有其特点，比如promoter区的片段大小明显地分布在200-750bp，而CTCF则集中在小片段。因此可以通过ATAC-seq获得的差异片段分布来反映染色质不同states的accessibility fingerprint。

这些differential fragmentation patterns也和先验的知识一致：CTCF结合区总是富集小片段，而转录起始位点Tss则与周期性的单核小体、双核小体、三核小体长度片段有关。转录区和启动子侧翼区与多核小体大片段有关（说明这些区域的可及性相对Tss弱一些）

至于上面的注释是怎么实现的，一方面是参考了以前的注释数据和模型：https://academic.oup.com/nar/article/41/2/827/1071531，一方面，作者应该是做片段长度分别进行了分选，分别做了注释。

另外作者发现转录抑制的、异染色质区域对应于多核小体大片段，而不会在短片段中出现，这也和这些区域的特性一致。

These data suggest that ATAC-seq reveals differentially accessible forms of chromatin, which have been long hypothesized to exist in vivo

接下来作者进一步探索了核小体定位与开放染色质的关系。作者将片段长度分成几个区间，每个区间代表一个group的reads（分别来自open chromatin、span 1, 2 or 3 putative nucleosomes），拟合曲线在一个核小体以下为指数分布函数，多核小体则用混合高斯分布拟合。

nuleosome_positioning.jpg

Reads below 100 bp were considered nucleosome free, reads between 180 and 247 bp were considered to be mononucleosomes, reads between 315 and 473 bp were considered to be dinucleosomes, and reads between 558 and 615 bp were considered to be trinucleosomes

作者应用一种算法实现了从reads的长度分布推断核小体位置（以nucleosome-free的reads作为背景（低权值，effective negative weighting），其他multinucleosome reads根据跨核小体数目进行加权，因为多核小体片段相对少，增加这部分的权值以展示nucleosome signal）：

nucleosome_track.jpg

从上图中我们可以看出，结合ENCODE的CAGE数据（mRNA cap mapping)，发现在两个tss之间有一个单核小体峰。和MNase相比较ATAC-seq明显在调控区分辨核小体的表现更好。

对所有活性tss的信号取平均，可以发现tss集中在nucleosome-free区，而其侧翼序列则对应nucleosome signal:

tss_enrich.jpg

不过ATAC检测的更多的还是nucleosome-free区域，所以二核小体、三核小体。。。的信号随之下降，这和MNase表现相反：

In contrast, MNase-seq nucleosome signal increased at larger distances from the TSS, likely owing to overdigestion of more accessible nucleosomes

比较上图d发现，相比远端调控序列(distal elements)，tss主要富集NFR(nucleosome-free)而前者更多的是nucleosome-rich

nucleosome-TF spacing

这里作者利用了ChIP-seq的TF footprint数据，比较了其不同TF的binding pattern和来自ATAC-seq的核小体分布数据，并对TF的binding pattern按照距离最近的二分核小体（dyad，核小体的一半）的距离进行层次聚类：

TF_nucleosome_pattern.jpg

可以按照与核小体的关系把TF分成四类：

严格远离核小体，与最近的核小体平均距离180bp的TF，包括C-FOS, NFYA and IRF3
“依偎”在核小体边缘的，包括CTCF 、cohesin-complex subunits RAD21 and SMC3
从nucleosome-avoiding到nucleosome-overlapping之间过渡的系列TF，这部分占比最大
倾向于和核小体DNA复合物重叠在一起的，比如染色质重塑因子 CHD1 and SIN3A 以及RNA polymerase II，后者在核小体边界富集

factor occupancy

‘footprint’的意思就是DNA结合蛋白结合在DNA上的区域会受到保护不被Tn5转座。所以这种区域在ATAC-seq中经常是一个中间空缺的双峰，而在ChIP-seq中是中心的单峰，以CTCF为例：

footprint.jpg

Discussion

As ATAC-seq is compatible with FACS, it may enable studies on carefully sorted and rare subpopulations from primary tissues. We expect that ATAC-seq can also be applied to study select cellular subpopulations at different points during development and aging and during the progression of human diseases, including cancer, autoimmunity and neuropsychiatric disorders.

正如正文开头概述里提到的，ATAC-seq实现了 factor occupancy, nucleosome positions in regulatory sites, and chromatin accessibility genome wide的整合分析，而且大大减少了对细胞起始量的要求，这将使得该项技术能够应用到更为广泛的生物学研究中。

参考文献

Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA-binding proteins and nucleosome position：https://www.nature.com/articles/nmeth.2688#Sec9