m6A上游 | 5 MACS2 peak calling

第3篇:用MACS2软件call peaks - 云+社区 - 腾讯云 (tencent.com)

MACS2软件call m6A甲基化peaks - (jianshu.com)

macs2 - (jianshu.com)

https://mp.weixin.qq.com/s/61VRtPkuRaHSxWeMxvispA  

MeRIP-seq 数据分析之 callpeak 及 peak 可视化


#######下载(新集群py37)

conda activate py37

pip install MACS2

#####################

conda install -c bioconda macs2

conda install -c bioconda/label/cf201901 macs2


了解相关参数:

1.输入文件参数:

-t: 实验组,IP的数据文件

c: 对照组

f:指定输入文件的格式,默认是自动检测输入数据是什么格式,支持bam,sam,bed

g:有效基因组大小,由于基因组序列的重复性,基因组实际可以mapping的大小小于原始的基因组。这个参数要根据实际物种计算基因组的有效大小。软件里也给出了几个默认的-g 值:hs -- 2.7e9表示人类的基因组有效大小(UCSC human hg18 assembly).

hs: 2.7e9;mm: 1.87e9;ce: 9e7;dm: 1.2e8

2.输出文件参数:

--outdir:输出结果的存储路径 -n:输出文件名的前缀

-B/--bdg:输出bedgraph格式的文件,输出文件以NAME+'_treat_pileup.bdg' for treatment data, NAME+'_control_lambda.bdg' for local lambda values from control显示。

3.peak calling 参数:

-q/--qvalue-p/--pvalue      

q value默认值是0.05,与pvalue不能同时使用。 

q值与峰宽有一定的联系。理想情况下,如果放宽阈值,您将简单地获得更多的峰值,但是使用MACS2放松阈值也会导致更宽的峰值。

--broad                peak有narrow peak和broad peak, 设置时可以call broad peak 的结果文件。

--broad-cutoff     和pvalue、以及qvalue相似

--nolambda:     不要考虑在峰值候选区域的局部偏差/λ

4.Shift 模型参数:

--nomodel     这个参数和extsize、shift是配套使用的,有这个参数才可以设置extsize和shift。

--extsize          当设置了nomodel时,MACS会用--extsize这个参数从5'->3'方向扩展reads修复fragments。比如说你的转录因子结合范围200bp,就设置这个参数是200。

--shift               当设置了--nomodel,MACS用这个参数从5' 端移动剪切,然后用--extsize延伸,如果--shift是负值表示从3'端方向移动。建议ChIP-seq数据集这个值保持默认值为0,对于检测富集剪切位点如DNAsel数据集设置为EXTSIZE的一半。

用法

#####################

awk '{print "macs2 callpeak -c 5.STAR_allignment/"$5"_Input/"$5"_InputAligned.sortedByCoord.out.bam -t 5.STAR_allignment/"$5"_IP/"$5"_IPAligned.sortedByCoord.out.bam -q 0.05 -f BAM -g hs -n 7.Macs2CallPeak/"$5"/"$5"_IP_Input"}' sampleinfo.input | xargs -iCMD -P30 bash -c CMD

################

常规峰值调用的示例:macs2 callpeak -t ChIP.bam -c Control.bam -f BAM -g hs -n test -B -q 0.01

宽峰调用示例:macs2 callpeak -t ChIP.bam -c Control.bam --broad -g hs --broad-cutoff 0.1

#######################

macs2 callpeak -t 116si_p.ip_siWTAP.bam \

           -c 116si_p.input_siWTAP.bam \

           -g hs -q 0.05 -f BAM

#有control数据

fori in *.bamdomacs2 callpeak -f BAM -c control.bam -t$i-n$i-g hs --outdir ../macs2/ --bdg -q 0.05done



基本选项

-t/--treatment FILENAME,IP 样本

这是MACS唯一的REQUIRED参数。文件可以是任何文件--format选项指定的受支持格式。检查 - 格式化详情。如果您有多个对齐文件,则可以指定

他们是-t A B C。 MACS会将所有这些文件汇集在一起。

-c/--control,Input 样本

控件或模拟数据文件。请与-t对应的control

-n/--name 【结果】文件的前缀

实验的名称字符串。 MACS将使用此字符串NAME创建输出文件,如NAME_peaks.xls,NAME_negative_peaks.xls,NAME_peaks.bed,NAME_summits.bed,NAME_model.r等等。所以请避免这些文件名和您的文件名之间的任何冲突现有文件。

--outdir  【输出文件夹】

MACS2会将所有输出文件保存到speficied文件夹中选项。

-f/--format FORMAT

标签文件的格式,可以是“ELAND”,“BED”,“ELANDMULTI”,“ELANDEXPORT”,“ELANDMULTIPET”(用于对端标签),“SAM”,“BAM”,“BOWTIE”,“BAMPE”或“BEDPE”。默认为“AUTO”,这将允许MACS自动决定格式。当您使用“AUTO”时也会使用

结合不同格式的文件。请注意,MACS无法检测到“BAMPE”或“BEDPE”格式带有“AUTO”,你必须隐含指定“BAMPE”和“BEDPE”的格式。

如今,最常见的格式是BED或BAM / SAM。

-g / --gsize,有效基因组大小,可以是数字,也可以是:hs,mm,ce,dm。

这是可映射的基因组大小或有效的基因组大小。定义为可以测序的基因组大小。因为在chromsomes上的重复特征,实际可映射的基因组大小将小于原始大小,约为基因组的90%或70%尺寸。对于UCSC人类hg18,建议使用默认的hs  -  2.7e9。以下是有效基因组的所有预编译参数。

size:

hs:2.7e9

mm:1.87e9

ce:9e7

dm:1.2e8

-q/--qvalue

调用重要区域的qvalue(最小FDR)默认是0.05。对于广泛的标记,您可以尝试0.05作为cutoff。 Q值是使用Benjamini-Hochberg程序从p值计算。

-p/--pvalue

如果指定了-p,则MACS2将使用pvalue代替qvalue。

--broad

设置该参数,MACS将尝试合并广泛的区域, The maximum length of broad region length is 4 times of d from MACS. DEFAULT:False。

-B/--bdg,保留the fragment pileup,control lambda到 bedGraph 文件。

bedGraph files will be stored in current directory named

--fe-cutoff:fold-enrichment。

--keep-dup:保留重复的 tag。

--outdir:文件输出路径。

-n:输出文件名称前缀。

-B:保留the fragment pileup,control lambda到 bedGraph 文件。

--SPMR:normalized pileup tracks across many datasets,可以在样本间进行比较 peaks。

--nomodel:不使用 macs2 建立 shifting model。

--extsize:与--nomodel 一起使用,从 5'->3'延伸 fragment 到指定长度。

--fe-cutoff:fold-enrichment。

你可能感兴趣的:(m6A上游 | 5 MACS2 peak calling)