ATAC-seq数据分析流程

Outline

  • 0. ATAC-seq原理
    • 0.1 染色体结构
    • 0.2 原理
    • 0.3 结果
    • 0.4 意义
  • 1. ATAC-seq数据分析流程
    • 1.1 上游分析
      • (1)序列质控和比对
      • (2)序列筛选
      • (3)Shifting reads
      • (4)Peaking calling
      • (5)峰文件bw的生成
      • (6)组间标准化
      • (7)上游处理后文件:bed、bw
    • 1.2 数据质控
    • 1.3 下游分析
      • (1)TSS等位点的peak plot展示
      • (2)Motif 分析
      • (3)Peak对应的基因注释
      • (4)Peak对应的区域注释
      • (5)对Peak的操作
    • 1.4 进阶分析
      • (1)peak分类
      • (2)PCA
      • (3)选定特定基因对应的区域画图
    • Reference:

0. ATAC-seq原理

0.1 染色体结构

0.2 原理

ATAC-seq通过Tn5转座酶来富集开放染色质区域的DNA序列,经PCR扩增后进行NGS测序。

0.3 结果

  1. ATAC的插入片段揭示了核小体的位置
  2. ATAC文库中,位于两个相邻核小体之间的序列,称之为nucleosome-free fragments, 简称NRF。这部分序列的peak可以用来表征TSS的位置
  3. ATAC在全基因组范围内捕获开放染色质区域的序列,可以识别细胞内正发挥调控功能的转录因子。

0.4 意义

1. ATAC-seq数据分析流程

ATAC-seq数据分析流程_第1张图片

1.1 上游分析

(1)序列质控和比对

  1. fastqc
  2. trim_golare
  3. bowtie2
    mapping时要加上参数 --very-sensitive -X 2000
    

(2)序列筛选

  1. 去除线粒体基因和叶绿体基因
    因为这些基因上没有组蛋白结合,不在研究范围内,而其存在会影响整体的分布
    
  2. 去除Encode上规定的blacklist区域
    这些区域是已公布的信号异常区域,需要去除
    
  3. 去重
    ?? reads去重梳理
    1. 去除PCR重复和光学重复
    2. 步骤
    	1. 标记重复的reads
    	    - MarkDuplicates
    	2. 去除重复的reads
    	    - bedtools 
    	    - samtools 	
    
  4. 去除X、Y染色体区域
    不研究性别的可以去除
    

(3)Shifting reads

  1. 原理
    Tn5酶是以二聚体的形式结合到染色体上的,其跨度为9bp,需要回补这9bp的碱基差
    
  2. 步骤
    - 正义链——正向移动4bp
      反义链——反向移动5bp
    - alignmentSieve软件
    - tips:不做reads shift对单碱基分辨率高的分析有影响,如TF motif footprinting
    

(4)Peaking calling

  1. 原理
    Tn5在染色体上的结合为一个概率性的事件,需要利用统计检测来判断一个位置的reads是否足够成为一个peak
    
  2. 步骤
    - 软件:macs 
    -  设置peak标准
    	- p-value
    	- 建模方式
    	- -nomodel --shift -75 --extsize 150 
    

(5)峰文件bw的生成

(6)组间标准化

  1. 单个样本自身ATAC信号标准化
    在并不是bam to bw 时,单个样本将自身ATAC信号进行RPKM标准化
    
  2. 多个样本时,组间标准化
    - haystack中的haystack_hotspots
    	- 输入bw文件
    

(7)上游处理后文件:bed、bw

  1. Bed文件
    - 作用:
    	- call peak 过后的峰位置文件
    	- 定义特定的峰区域
    - 每行信息:
    	- chrom、chromStart、chromEnd 	
    	- 添加额外9列
    -  macs 进行call peak后的peak文件
    	- narrowPeak:就是峰的bed格式文件
    	- summit_bed: 峰的中心点
    - ??bed文件格式 	
    
  2. bw文件
    - 作用:
    	- 方便可视化peak
    		- 因为上游处理完的bam文件通常比较大,不方便快速展示,一般会将其转化为bw(bigwig)
    		  或者wig文件,其中bigwig文件的显示性能较wig文件快,故bw更常用
    	  - 相较于bed文件,bw文件不只提供了peak的位置,还有peak的高低 	
    

1.2 数据质控

指标

  1. 比对率
    通常要求在95%以上,但80%也是可以接受的
    
  2. 插入片段长度统计
    - 插入片段长度是评估实验好坏的指标
    - 统计出的插入片段长度应该符合实验预期的长度
    
  3. FRiP(Fraction of reads in peaks)
    - peaks中的reads与总reads的比例。
    	- 即文库中结合位点片段占背景reads的比例,可理解为'信噪比'
    	- 也是样本富集效果的评价指标,可在一定程度上反应富集效果
    	- 通常要求大于0.3,大于0.2也可以接受 	
    
  4. 库的复杂度
    - 与reads结合的独特性有关
    - 参数
    	- NRF > 0.9
    	- PBC1 > 0.9
    	- PBC2 > 3 	
    
  5. 重复性鉴定
    1. bam文件的重复性
      deeptools 的 plotCorrelation
      
    2. peak的重复性
      IDR
      

1.3 下游分析

下游分析就是围绕bed和bw文件展开的

(1)TSS等位点的peak plot展示

  1. 想看的peak区域(bed文件)+ 特定样本(bw文件)
    deeptools包中的两个命令
    	  1. 构建矩阵:```computeMatrix```
    	  2. 展示:```plotHeatmap/plotProfile```
    

(2)Motif 分析

  1. 软件:homer中的findMotifsGenome.pl
    tips: 在输入前需将narrowPeak转变为特定格式的tmp文件再读入
    

(3)Peak对应的基因注释

  1. 将bed文件输入Great网站
     tips:
     1)bed文件需要加一列名字列,给每个peak一个名字
     2)注意关注的peak对应的基因范围,看远端peak的话,TSS上游5kb,下游1kb
    

(4)Peak对应的区域注释

  1. 软件:homer中的annotatePeaks.pl
  2. 输入目的区域的bed文件

(5)对Peak的操作

  1. 选取特定区域:bedtools——对peak取交集、并集等

1.4 进阶分析

(1)peak分类

  1. 按照两组样本之间的差异peak分类
    - bam to count思路
    	- bedtools multicov + DESeq2 
    
  2. 将peak进行promoter及enhancer分类

(2)PCA

主成分分析主要看样本分布的情况
  1. deeptools里面的plotPCA
  2. 将bam转换成count,再用DESeq2做

(3)选定特定基因对应的区域画图

1. 先将基因分好类
	- 组别在三者及以上时 ,采用差异基因的两两组合或者差异peak的两两组合,来实现peak的独特分类方式
2. 再找基因对应的peak区(Great来进行反向查看)
3. 画出对应peak的热图,以观察其有无ATAC信号不同的分布特点

Reference:

  1. ATAC-seq汇总

你可能感兴趣的:(测序,其他)