背景知识
真核生物的 DNA 并不是裸露的,而是会与组蛋白结合。DNA 缠绕在组蛋白上,形成串珠式结构,珠是组蛋白,线是DNA。这样的结构进一步折叠,并在其它蛋白的辅助下形成染色质。
染色质,染色体
在细胞周期的不同时期,DNA的浓缩程度不同,间期表现为染色质具有转录活性,而中期染色体是转录惰性。细胞主要处于分裂间期,所以DNA大部分时间都是染色质而不是染色体,只不过大家喜欢用染色体泛指染色质和染色体。间期染色体其实并非随机地弥漫在细胞核中,不同的染色体占据相对独立的空间,染色体在细胞核所占的空间称之为染色体领地(chromosome territory, CT)。研究发现,贫基因(gene-poor)的染色体领域一般倾向于靠近核膜,而富含基因(gene-rich)的染色体领地通常位于细胞核内部。这也反应了人类社会的情况,富人处于核心区,穷人在边缘地带(xuzhougeng)。
核小体
核小体是真核细胞染色质的基本结构单位,由DNA和组蛋白构成。每个核小体由146bp(147?)的DNA缠绕在八聚体的组蛋白上形成,两个核小体之间通过一段连接DNA相连,DNA与组蛋白的结合可以发生动态变化。两个核小体之间通过一段连接DNA相连。缠绕在组蛋白上的DNA不易被核酸酶消化,也不易与其它蛋白结合,这些DNA通常处于表达抑制的状态。
组蛋白:histone,通常含有H1,H2A,H2B,H3,H4等5种成分,其中H1与H3极度富含赖氨酸(lysine),H1不保守,其他组蛋白的基因非常保守。除H1外,其他4种组蛋白均分别以二聚体(共八聚体)相结合,形成核小体核心。DNA便缠绕在核小体的核心上。而H1则与核小体间的DNA结合。
染色质开放区,染色质的可及性
DNA内切酶可以对染色质进行切割,这些切割位点称为DNA超敏感位点。没有核小体结合的DNA区域容易被核酸酶切割,DNA超敏感位点就位于这个区域,这些位点的分布往往具有一定的规律性——切割后的DNA片段都在100-200bp左右。这些DNA片段就称为染色质开放区或者开放染色质(accessible chromatin regions,ACRs)。(开放染色质区没有核小体结合)
开放染色质区通常包含的功能元件有启动子、增强子,沉默子、绝缘子等。调控蛋白(如转录因子)过来结合,可以影响细胞内基因复制以及调控基因的转录活性。DNA的这种被结合的特性称为染色质的可及性(chromatin accessibility)。
这篇【NP | 2019】根据ACRs距离最近基因的距离将ACRs分为三种类型:genic (gACRs; overlapping a gene), proximal (pACRs; within 2 kb of a gene) or distal (dACRs; >2 kb from a gene),分别是跨越基因的,近端的,远端的染色质开放区。
ATAC-seq
ATAC-seq(Assay for Transposase-Accessible Chromatin with highthroughput sequencing)
科学家们设计了实验方法,利用 Tn5 酶可以进入细胞核并切割暴露的 DNA,并且 Tn5 酶在切割的同时可以在 DNA 的两端连上已知 DNA 序列标签,利用已知 DNA 序列的标签进行 PCR 扩增后测序,就可以识别出染色质开放区域,从而捕获调控序列的信息。
主要实验流程
详:
1 提取细胞核:对于组织样品而言,首先是要提取细胞核,提取完成后,利用细胞计数仪计数,并取5万个细胞核备用;而对于细胞样品而言,就不需要提取细胞核这一步了,而是将梯度降温保存的细胞在 37℃ 下复苏、洗涤后,利用细胞计数仪计数,取5万个细胞备用。
2 Tn5 转座酶切割:将携带部分接头的 Tn5 转座酶和5万个细胞核(或细胞)进行孵育。Tn5 转座酶可以进入并切割染色质开放区域,同时将部分接头连到 DNA 的两端。
3 提取 DNA:从染色质开放区域切割下来,并连有部分接头的 DNA 序列已经游离在细胞核外了,直接用过柱法将 DNA 纯化出来即可。
4 PCR 扩增:根据 Tn5 转座酶带入的部分接头序列,设计 PCR 扩增引物,然后进行 PCR 扩增就可以将目的片段富集出来,同时完成文库的构建。
5 片段筛选:利用 XP 磁珠不同用量,筛选到我们需要的片段大小。
6 上机测序:使用 illumina 平台进行测序,推荐的测序数据量为 15G 左右。
简:
① 收集细胞或组织,制备细胞悬液;
② 加入含NP40的裂解液,裂解细胞膜,获得细胞核;
③ 加入Tn5转座酶,对处于开放状态的DNA进行酶切;
④ 回收酶切下来的DNA片段,进行二代高通量测序。
技术特点
ATAC-seq 技术有两大特点:一是转座酶更容易对开放的染色质区域进行切割,二是转座酶可以同时对切割下来的DNA片段的两端添加测序接头。因此,回收切割下来的DNA片段后可以直接上机测序,获得在特定时空下全基因组的活性调控序列。后续对这些序列进行分析,挖掘这些开放位点的潜在结合转录因子,结合基因表达水平数据,发现关键的转录因子。
各类技术对比:
ChIP-seq:检测目标蛋白所结合的DNA序列,一次实验获得一个蛋白结合的序列信息。
DNase-seq:使用DNaseI切割开放状态的DNA序列,对获得的片段进行文库构建和测序,该技术对细胞起始量的要求较高(106-107),实验耗时也较长。
MNase-seq:使用限制性外切酶(微球菌核酸酶)消化开放状态的DNA,获得被核小体包裹或者被转录因子等蛋白结合的区域,与DNaseI获得的序列相反。用内切核糖酶--微球菌核酸酶(micrococcal nuclease, MNase, MN酶)处理染色质可以得到单个核小体。
FAIRE-seq:使用甲醛对染色质中的DNA与蛋白进行交联固定,超声波打断后通过酚氯仿抽提获得开放状态的DNA,实验过程更复杂且耗时更长。
ATAC-seq:使用Tn5转座酶在切割DNA时同时添加测序接头,经过PCR扩增即可获得测序文库,相比DNase-seq更为简单,需要的细胞也更少(500或50000),一天即可完成。经过一次ATAC-seq,可以获得某特定时空下所有开放的染色质区域,不仅仅只局限于分析某一个转录因子的结合位点。
ATAC-seq主要作用
① 获得在特定时空下基因组中所有处于开放状态的序列,分析调控元件
② 分析染色质开放区域的motif,获得潜在的与其结合的转录因子等调控蛋白
③ 样本间差异开放区比较分析,结合转录组差异表达数据,揭示调控网络机制
ATAC-Seq能从全基因组范围内推测可能的转录因子,还能通过比较不同时间的染色质开放区域解答发育问题。
分析ATAC-Seq从本质上来看和分析ChIP-Seq没啥区别,都是peak-calling,也就是从比对得到BAM文件中找出reads覆盖区,也就是peaks峰。peaks: 峰。用来表示染色质的开放程度,因为是测序的reads落在了染色质的开放区,堆叠后被可视化的一种丰度的体现。找到了peak,并不意味着我们找到转录因子了,因为ATAC-Seq只是找到了全基因组范围的开放区域,而这些开放区域的产生未必是转录因子引起,所以还需要一些预测性工作如homer寻找motif等。
转录因子结合位点 transcription factor binding site,TFBS:转录因子调节基因表达时,与基因模板链结合的区域。一般应该分布在基因前端(但:人21和22号染色体上,只有22%的转录因子结合位点分布在蛋白编码基因的5'端)
Peak Calling,MACS2
Peak calling,用于识别ChIP,ATAC测序实验产生的数据比对到基因组中的reads富集的区域。
MACS:一种常用的识别转录因子结合位点的工具,叫做ChIP-seq模型分析(Model-based Analysis of ChIP-seq,MACS)
对于ATAC-seq,ChIP-seq实验,我们可以从比对文件中观察到,以结合位点为中心,read密度在+/-链上的分布不对称。所选片段的5 '端将在正链和负链上形成group。然后用统计方法评估这些group的分布,并与背景(输入或模拟IP样本)进行比较,以确定富集位点是否可能是一个真正的结合位点。有各种工具可用于peak calling,而MACS2是最常用的程序之一。原理详情见生信技能树MACS原理。
Peaks motif 富集分析 —— homer
转录因子通过识别并结合到 DNA 上的特定序列来促进特定基因的转录,而这种结合受染色质状态的影响。多数转录因子喜欢结合在染色质开放的区域。因此,可以通过鉴定染色质开放区域并结合 motif 和基因表达等信息,建立转录因子-靶基因互作网络。
所以 motif(也可称为转录因子结合位点)就成了鉴定转录因子结合的一个间接的指标。但是,我们一般不会直接用全部的peak去富集转录因子。例如,2016年,有研究者利用不同发育时期的番茄果实的转录组数据和染色质可及性数据解析了果实发育相关的关键转录调控因子(Identification of Regulatory DNA Elements Using Genome-wide Mapping of DNase I Hypersensitive Sites during Tomato Fruit Development,他们使用的是DNaseI-seq,和ATAC-seq类似的技术)。研究者首先对不同发育时期的RNA-seq数据进行聚类,获得了时期特定性表达基因。接着,他们基于一个假设“具有相同表达模式的基因或许参与同样的生物学过程,并且被相似的转录因子所调控”。因此,他们接着对这些不同时期特定转录基因的转录起始位点附近的特异性开放区进行motif富集分析,发现MYB12特异性调控番茄果实发育的20 DAP时期,而RIN特异性调控番茄果实发育的成熟时期(Break Stage, 作者定义为果皮颜色部分变红)(徐寅生)。
HOMER软件进行motif富集分析。首先基于已知的一些转录因子的 motif 可以计算每个motif 在peak里的频率,接着和随机的背景进行比较,采用超几何检验方法,对每个motif 计算一个p值,然后得到q值。
HOMER 是一个常用的motif分析软件。它通过比较两个序列集,并使用ZOOPS scoring和超几何分布(或者负二项分布)进行motif的富集分析。它主要用于ChIP-seq和promoter分析,但也可以用于核酸序列的motif分析问题。HOMER软件可以进行多种类型的motif分析,如 promoter motif analysis ,基因组位置motif分析(ChIP-seq分析中的motif分析),利用自定义的fasta文件进行motif分析,RNA序列的motif分析(分析CLIP-seq数据中的RNA binding elements)
HOMER进行motif分析时,需要两个数据集:感兴趣的目标序列,如ATAC-seq分析中的peak文件;背景序列,如ATAC-seq分析中的物种全基因组序列。
ATAC-seq实战分析
优秀大佬总结的教程,受益匪浅,感谢
生信 | ATAC-Seq基础分析+高级分析+多组学分析 Bioinfo鱼
ATAC-seq分析实操生信技能树健明教程 热衷组培的二货潜
ATAC-seq实战教程:从SRA数据下载到高分辨率论文主图绘制 徐寅生
IDR评估FRiP评估及查看peaks在全基因组上的分布 生信技能树
声明:本篇多为资料整理总结,仅用于自学记录,侵删,谢谢各位大佬。参考:
https://www.jianshu.com/p/b272c846ef28 xuzhougeng
https://mp.weixin.qq.com/s/s9zcMvGd6fGbkdzSVdi2-Q
https://mp.weixin.qq.com/s/AuA-ADlHaADkPPwzF_oQhA
https://www.jianshu.com/p/9aa719faa4b5 Bioinfo鱼
https://wemp.app/posts/d32f7273-8aa6-46c4-abca-8637b7404096
https://hbctraining.github.io/Intro-to-ChIPseq/lessons/05_peak_calling_macs.html
https://mp.weixin.qq.com/s/XoydYyDG9KJvK3PhevlAFg#tocbar--51452e 徐寅生
https://www.jianshu.com/p/9a31f5f01e7b#tocbar--17ap0ds 鹿无为