ChIP-Seq/ATAC-Seq/DNAse-Seq的一站式质量控制和分析流程

这两天在总结标题中三种组学方法的分析流程，看到了ENCODE在去年公开的分析流程，感觉像捡到了宝贝一样。一个分析流程是针对ChIP-Seq的，包括转录因子和组蛋白修饰，链接在这里。另一个分析流程是针对ATAC-Seq或者DNAse-Seq的，链接在这里。

之所以说是宝贝，是因为这两个pipeline都提供了一体化的质量控制以及分析流程。开发实验室是我现在所在系的Anshul Kundaje。这两个pipeline也都是我现在老板做的ENCODE的产物。所做的，就是提供原始的fastq，或者中间的bam/sam文件，就可以得到整个分析结果，包括质量控制，以及mapping，peak calling等。

一般拿到一个ChIP-Seq或者ATAC-Seq的数据，首先需要做的就是分析这个数据的质量如何。下面我总结了在质量控制这一步需要做哪些分析，或者说做什么样的分析可以帮助自己确定这个数据的质量如何。

fastqc
fastqc提供了原始测序得到数据的质量分析控制。有基本的比如每一个base pair的测序质量如何。

也有进阶的比如分析library complexity。具体的文档可以看这里：https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

关于library complexity，得多说两句，一般好的ChIP-Seq或者ATAC-Seq样本的library complexity值都会高（大于0.5）。如果值太低的话，说明PCR amplification bias就会大，那么整个后续的peak calling结果就会不好，比如说会得到很少的peaks。更加详细的资料，可以参考这里。

mappability
这个很直观，就是看用软件回帖后（推荐bowtie2），有多少百分比的reads能够回帖到基因组上，这个数值一般是大于60%。如果值太小说明样本中的测序数据很多都不属于所研究的基因组，而后续分析的reads也就只占测序得到reads的比较小的一部分。当然也有可能测序机器出问题了，但是这种概率一般较小，我目前还没有遇到过。

另外一个值得注意的是，如果所分析的片段是很短的，而测序read length很长，那么就必须要将adaptor sequence去掉，不然的话也有可能造成mappability很低的情况，更多的是否需要remove adaptor sequence的可以看[这里]（https://www.ecseq.com/support/ngs/trimming-adapter-sequences-is-it-necessary）

cross-correlation analysis
这是基于chip-seq或者atac-seq在感兴趣的特定基因组区域（比如转录因子结合位点），会产生reads的富集。将处在peak区域的正琏和负链的reads调整后，就能算出它们之间的Pearson correlation。一个好的chip-seq，在fragment size那里，会产生一个高的cross-correlation信号，表明测序数据在peaks的地方信号有着明显的富集，如下图：

image

更加详细的说明可以参考这个网站。

ChIP-Seq/ATAC-Seq/DNAse-Seq的一站式质量控制和分析流程

你可能感兴趣的:(ChIP-Seq/ATAC-Seq/DNAse-Seq的一站式质量控制和分析流程)