单细胞ATAC-seq原理介绍与报告解读


单细胞测序方法和原理系列:

  • 1. 单细胞转录组建库原理:SMART、TargetAmp和10X genomics
  • 2. DNA文库构建和Illumina测序化学原理
  • 3. 单细胞免疫组库:TCR基因重排原理和TCR测序建库方法

1. 与scATAC-seq有关的基本概念

ATAC-seq:是Assay for Transposase-Accessible Chromatin with high throughput sequencing的首字母缩写。ATAC-seq是一种捕获染色质可及性(染色质开放性)的测序方法。
scATAC-seq:是single cell ATAC-seq,也就是单细胞的染色质转座酶可及性的高通量分析。
染色质可及性:人的DNA链全部展开大约有2m,需要折叠为染色质结构才可以存储到放到细胞核中。染色质的基本结构单位是核小体(由组蛋白组成),核小体再折叠最终形成高度压缩的染色质结构。一般真核生物是这种方式来存储遗传信息。这个过程像我们将文件压缩为zip或者rar的压缩包,减少它的占用空间。高度折叠的染色质结构在复制和转录时需要暴露出DNA序列,这段暴露的区域就是染色质开发区域,这个区域可以供转录因子和其他调控元件结合,所以它与转录调控是密切相关的。这种致密的核小体结构被破坏后,启动子、增强子、绝缘子、沉默子等顺式调控元件和反式作用因子可以接近的特性,叫染色质的可及性,也叫染色质开放性(chromatin accessibility ),这段区域叫开放染色质(open chromatin)。这个过程类似于我们要查看刚刚压缩包里的文件,我们需要解压后才能查看到文件里的内容。开放染色质的研究方法除了ATAC-seq,还有DNase-Seq,FAIRE-seq,MNase-seq 等。ATAC-Seq由于其所需样本少,建库快,重复性更高,是目前研究开放染色质的主流技术方法。

2. 原理

ATAC-seq原理:
利用转座酶Tn5可结合开放染色质的性质,使用Tn5酶捕获DNA序列,进而上机测序。
转座酶会携带特定的已知序列,然后将这些序列插入到开放的染色质区域中,最后将带有转座酶标记过的序列上机测序,通过软件计算,就能获得基因组哪些地方是开放的。

ATAC-seq技术限制:
1. Tn5通过插入剪断DNA 并将测序接头连接到剪断的两个DNA 片段的末端,因此对于一个DNA 片段而言,其两端的接头连接是随机的,这便导致同一片段两端的接头有50%的概率是同一接头。而只有连接不同接头的片段才可用于富集扩增及测序,因此,有一半的片段无法利用;
2. 大量剪断的DNA 由于片段过大,无法进行PCR富集;
3. Tn5 的活性受反应溶液的组成及反应条件影响,仍然需要优化以便提高剪切效果;
4. ATAC-seq在植物细胞中存在以下难点:细胞壁的存在,叶绿体、线粒体等细胞器的污染,缺少稳定遗传的细胞系;

scATAC-seq要解决的问题:
1. 通过转座酶对染色质的哪些位置的DNA进行切割,来分析紧密缠绕的染色质在哪些位置有松开
2. 染色质松开的地方,一般也是转录因子容易接近染色质DNA的地方,也就是转录行为更多地发生的地方
3. 哪些基因被转录,决定了一个细胞执行哪些基因功能,和这个细胞有哪些特征。

3. 实验方法

scATAC的实验过程分为以下几步:
1. 把目标组织样本解离成多个单细胞
2. 分散好的单细胞用10X的仪器处理,变成许多细胞、凝胶微珠和酶的混合液滴。这些微滴是油包水的乳浊液。
3. 带了DNA接头的转座酶和染色质中的DNA进行接触,染色质中缠绕的比较松的地方,DNA会裸露出来,裸露的DNA就容易和转座酶发生转座反应。

  • 凝胶微珠
    凝胶微珠上连着许多跟DNA标签链,一个微珠上的所有标签链的序列是一样的。标签链上的序列分为3段,P5这一段是将来能够与illumina测序芯片相结合、直接作用于测序的序列。10X barcode这一段序列,是针对这个微珠的序列,不同的微珠在这段序列是不一样的。也就是说这段序列是这个微珠的身份证号码,是唯一序列。将来高通量测序之后,可以通过这段序列把一个测序read回溯到原来的微珠。Read 1N是和转座酶连接的接头的互补序列。
  • 把转座酶产生的片段转化成测序文库

转座酶与染色质DNA反应后,一方面会把DNA片段从染色质上切割下来,成为单独的小的DNA片段

同时会把转座酶上连的DNA接头连到DNA片段上。

凝胶微珠上连着DNA标签链的Read1N序列会与DNA片段上的接头序列互补,退火粘上。

在聚合酶的作用下,DNA片段就会延伸出10X Barcode序列和P5序列。

接着对这些DNA片段进行建库操作,就会得到能够适配illumina测序仪的测序文库。而且这些测序文库中都带了10X Barcode序列,在后面的生物信息分析中,每个read都可以通过10X Barcode序列回溯到原来特定的微珠。

3. CellRanger ATAC数据解读

做完测序后,就可以用cellranger ATAC软件进行分析。

3.1 开放区域鉴定

分析的第一步是做开放区域鉴定,也叫Cell Peak。就是把reads比对到参考基因组上之后,找出Fragments富集的地方。Fragments是指测序测到一个片段,也就是高通量测序中一对reads框出一段序列叫做一个fragment。哪个地方的Fragment数量多,就是peak。也就是图中显示的一个一个的尖峰。

在分析过程中,要去掉线粒体上的位置。一方面线粒体是没有组蛋白包裹的,是裸露的,很容易与转座酶起反应,另一方面线粒体的拷贝数比染色体DNA的拷贝数高许多,这也导致了线粒体上的Fragment数很高。所以分析过程中要去掉线粒体的Fragment。

3.2 对Cells和Non-cells的Fragments进行区分。

因为ATAC测序得到的Fragment很散,会对后面的分析形成很大的噪音。为了减少噪音,就要对哪些Fragment是可以算成是一个barcode内的,或者说一个细胞内的,另外哪些不能算成一个细胞内的,进行区分。区分的标准是一个barcode中含有多少个peak。

Barcode-Peaks图形

横轴是排列的一个一个的barcode,按照一个barcode中含有的peak数从左到右按降序进行排列。纵轴是一个barcode里含的peak数。

上图在200个peak的高度,曲线被一截为二。左上黄色是cells,也就是说这些barcode都聚合了较多的peak,对接下来的分析有意义,被作为细胞进行保留。右下蓝色是Non-cells,这些barcode聚合的peak较少,对接下来的分析没有意义,被舍弃。

区分理想与糟糕的Barcode-Peaks图形

左边是理想的图形,它的特点是Cells和Non-cells之间的曲线,斜率很陡。右边是糟糕的图形,它的特点是Cells和Non-cells之间的曲线,斜率很缓。

注意:上图中的轴的数值都是log值,而不是线性值。因此左图有几千个barcode可以归为有效的cells,而右图只有不到100个barcodes可以归为有效的cells。

Barcode所包含的Fragments数与Barcodes关系图

横轴是一个barcode中所含的fragment数,纵轴是有多少这样的barcodes。黄色是有效的,被认为是cells的barcode,蓝色是被舍弃的barcode。

可以看到有大量散在的fragment分散在大量的barcode中,比如只有一条fragment的barcode超过了10万个,这也说明了为什么要对barcode进行区分,因为散的,没几条fragment的barcode事实上占了相当大一部分,也就是图中蓝色的那一大片不能产生有效信息的fragment和barcode需要被去除掉。

区分理想与糟糕的Barcode-Peaks图形

左边是理想的图形,它的特点是Cells和Non-cells之间的两个区块有明显的分开。右边是糟糕的图形,它的特点是Cells和Non-cells之间有很大程度的重叠,而且cells的占比明显要小。

分类图:从另一个角度说明cells和non-cells的区别

横轴是一个barcode中有多少个fragment,纵轴是这个barcode中的fragment有多少比例是落在peak上的。

蓝色的点都位于右上方,也就是既要有足够的fragment,又要fragment有足够比例的落在peak上,这个barcode才能归类为cells。
区分理想与糟糕的分类图

3.3 对barcodes进行聚类

挑出了好的barcode之后,就会对这些barcodes进行降维和聚类。降维的方法是LSI方法(Latent Semantic Indexing,隐语义索引)。LSI降维后进行umap和tsne降维(输入的是lsi矩阵)。

scATACseq数据的稀疏性决定了它不能做PCA降维。因为稀疏性导致所有的0位置上的细胞间高度相似,所以需要使用分层降维方法。具体参考:ArchR降维分析

区分理想与糟糕的聚类结果

3.4 片段的长度分布

理想的片段长度分布图比较明显的特点是在略小于200bp处有一个峰,这个峰对应于转座酶一般会得到的片段长度。图中还可以看到每隔约10.5个bp就有一个小齿,这个小齿是对应于DNA螺旋转一周的间距。右图是糟糕的片段长度分布,它没有明显的峰,这也说明它失去了染色质的结构。

3.5 在转录起始位点(TSS)附近的富集
图中横轴上‘0’所标示的是转录起始位置,纵轴是片段的富集程度

左图中,曲线的最高峰在转录起始位置偏上游约几十个BP的样子,因为转录因子就是从这里开始结合到DNA上,开始进行转录的,所以这里有一个尖峰是符合我们的预期的。而右图的纵坐标对应到最高峰是大约在2,说明右图的富集程度远远不如左图。

4. 生物信息分析报告解读

4.1 把细胞聚类成簇(根据每个细胞中的peak)
4.2 簇与簇之间的相关性
左图是簇与簇之间的相似性比较,右图是把簇与簇之间的差距用两个主成分进行二维展开来进行演示,更加直观。
4.3 对簇进行GO分析
GO柱状富集分析
GO树状富集分析
GO散点图
显著性排前20的GO条目连带基因的网络图
4.4 对簇进行KEGG富集分析
结果展示与GO类似
4.5 DisGenNet与疾病关联性的分析

DisGenNet是一个人类基因与疾病关系的数据库

结果展示与GO类似
4.6 Trajectory拟时轨迹分析
4.7 Co-accessibility共可接触性图

共可接触性是指两个peak往往在同一个细胞中出现,图中一段拱形练到两个peak,拱形的颜色越偏红,则被连接到的两个peak共性越强。


5. 小结

scATAC-seq可以提供丰富的染色质开放性信息

参考:
1. 【陈巍学基因】scATAC-seq实验方法与报告解读
2. 入门ATAC-seq,你需要知道什么?⚠️
3. 一文读懂染色质可及性及ATAC-seq

你可能感兴趣的:(单细胞ATAC-seq原理介绍与报告解读)