我的ChIP-Seq(4):MAnorm差异分析

哈哈,搜了一圈没发现网上有关于MAnorm的中文教程或者是说明,本文将是第一篇~撒花✿✿ヽ(°▽°)ノ✿那就要用心写了,感到鸭梨.jpg==

首先,MAnorm是什么,可以做什么呢?
简单地说,这是一款寻找两个ChIP-Seq样本之间差异peak的软件。一般ChIP的流程中,若是单一处理的细胞系,那么callpeak之后可能会做binding motif的分析或是peak相关gene的功能分析等;但若是两种处理的细胞系(比如饥饿组和对照组),我们肯定想要知道两种处理下,组蛋白修饰的差异,类似于RNA-Seq中差异表达基因的分析,所以这时就需要进行差异分析。MAnorm就可以实现这样的分析需要。

一般来说,上述差异分析不一定要在peaks水平进行,完全可以在reads水平,这个就叫做“一步法”;而通过先分别callpeak再比较peaks的density或者depth等,就是所谓的“两步法”。不同方法有不同类型的软件可供选择,这就是ChIP分析成熟的地方,不过技术流大可根据自己的目的写脚本进行个性化处理,这个暂且不表。

那么差异分析软件如何选择呢?根据组蛋白修饰类型、样品是否有重复、是否需要callpeak(即predefined region set),下图一目了然:


Steinhauser et al.2016

我的样品有宽峰窄峰两种修饰、无重复,项目时间紧张尽量想用一个软件实现,所以选择了MAnorm。

MAnorm的原理

话不多说,直接看图:

Shao et al. Genome Biology 2012

概括的说,通过比较两个样品的common peak的density差异,标准化unique peaks,也就是说,既然两个样本间common peak强度一致,那么peak内的reads差异倍数就是测序深度/密度的差异,能够作为normalization的标准。直接比较标准化后的peaks,避免了不同样品信噪比不同的问题。
这个算法基于这样的假设:两个样本间都有的 peak 或是 banding 位点,相关蛋白的结合机制相同,故应有相同的 binding intensity。

MAnorm的使用

1.安装

1.1.4版本
conda/PyPi
需要注意的是,此版本只支持bed格式且不支持paired-end模式,会把所有reads当成single-end处理。若reads文件想用支持更多的格式(sam/bam/bedpe等),请用v1.2.0。
1.2.0版本
暂时只能从Github复制源码进行安装。方法:

git clone https://github.com/shao-lab/MAnorm.git
unzip MAnorm-1.2.0.zip
cd MAnorm
pip install .     ###注意.不要漏掉!
manorm --version ##检查一下是否安装成功,成功后将程序软链接至我的bin或添加至环境变量
2.数据准备

建议首先阅读使用说明,最好从linux中manorm --help,或者在Github中找到相应版本的附带说明,这一点很重要,因为有时网上搜到的说明和你实际用的版本不一致,会走弯路,不要问我咋知道的。
所以要准备的文件有4个:

sample1_peaks.bed/sample2_peaks.bed:
默认bed,支持MACS2出来的结果peaks.xls,软件自动识别无需调整。
sample1_reads.bed/sample2_reads.bed:
默认bed,v1.2.0开始支持其他格式(sam/bam),需使用参数 -rf

将如上文件移动至新文件夹下待用。***tips:这里不再需要对照组In的文件了

3.运行

基本命令(--p1 --p2 --r1 --r2 -o是5个必需参数,注意是两个-):

manorm
--p1 sample1_peaks.xls 
--p2 sample2_peaks.xls 
--pf macs  #指定peaks form
--r1 sample1_reads.sam 
--r2 sample2_reads.sam 
--rf sam #指定reads form
--pe  #paired-end模式
-o output_dir #指定输出文件路径

建议试运行一组数据先,根据报错文件调整格式。软件还不太成熟,需要多调整格式。

4.结果

运行约10min,产生4个结果文件:
sample1peaks_vs_sample2peaks_all_MAvalues.xls:这个是主要的结果文件,Excel格式,里面的peak_group有标注是common/1unique/2unique的。
output_figures 文件夹:4个图,计算的Mvalue Avalue(MA)及校正之后的MA,大概就是这个意思,还需要读文献琢磨
output_filters 文件夹:3个peaks.bed文件,可能就是条件严格了点之后的结果,两个biased包括的peaks很少,一个unbiased包括的peaks很多跟all那个文件差不了多少。
output_tracks 文件夹:3个wig文件,是M A values的,UCSC可视的文件类型。

综上,决定用main output file即第一个结果,进行后面的分析。

你可能感兴趣的:(我的ChIP-Seq(4):MAnorm差异分析)