2022-09-13 calling peaks问题

1. 利用macs2 callpeak进行 calling peaks,其中有个参数--keep-dup,这是如果输入为过滤掉重复reads的bam文件,这--keep-dup all。如果为未过滤重复reads的bam文件,--keep-dup 1。此参数是指定输入爸妈文件中重复reads有无的。

macs2 callpeak 的基本命令

-t

IP.bam

-c

input.bam

-g

genome.size

-B

输出bgd文件,下游bigwig文件生成所需

-f

双端测序使用BAMPE,单端的话不需要加参数(或 -f BAM),默认是auto识别。除”BAMPE”, “BEDPE”需要特别声明外,其他格式都可以用 AUTO自动检测。

标签文件的格式,可以是“ELAND”,“BED”,“ELANDMULTI”,“ELANDEXPORT”,“ELANDMULTIPET”(用于对端标签),“SAM”,“BAM”,“BOWTIE”,“BAMPE”或“BEDPE”。默认为“AUTO”,这将允许MACS自动决定格式。当您使用“AUTO”时也会使用

结合不同格式的文件。请注意,MACS无法检测到“BAMPE”或“BEDPE”格式带有“AUTO”,你必须隐含指定“BAMPE”和“BEDPE”的格式。

格式指定'BAMPE'或'BEDPE'时将触发特殊模式。这样,MACS2将处理BAM或BED文件作为配对结束数据。而不是建立双峰分布正负链读数预测片段大小,MACS2会使用读取对的实际插入大小来构建片段积累。(所以,当你的数据是双端测序数据时,你应该用BAMPE或者BEDPE参数。当你设置成双端参数的时候,MACS2就会跳过建模计算d的那一步,而是直接用片段的insert size来建立堆积。)

BAMPE格式只是包含配对末端对齐的BAM格式信息,例如来自BWA或BOWTIE的信息。

BEDPE格式是一种简化且更灵活的BED格式只包含定义染色体名称的前三列,来自Paired-end的片段的左右位置测序。请注意,这与BEDTOOLS使用的格式不同,BEDTO的BEDTOOLS版本实际上不在标准BED中格式。

-q

设置FDR阈值

-p

设置pvalue阈值

--nomodel

MACS 不构建模型。这个参数和extsize、shift是配套使用的,有这个参数才可以设置extsize和shift。

--extsize

当设置了nomodel时,MACS会用--extsize这个参数从5'->3'方向扩展reads修复fragments。比如说你的转录因子结合范围200bp,就设置这个参数是200。

--shift

当设置了--nomodel,MACS用这个参数从5' 端移动剪切,然后用--extsize延伸,如果--shift是负值表示从3'端方向移动。建议ChIP-seq数据集这个值保持默认值为0,对于检测富集剪切位点如DNAsel数据集设置为EXTSIZE的一半。

--SPMR

需要-B被设置,不影响FDR和pvalue

--outdir

输出文件的路径

--broad

peak有narrow peak和broad peak, 设置时可以call broad peak 的结果文件。

--broad-cutoff

和pvalue、以及qvalue相似

其实,这里面讨论最多的是--nomodel --shift -100 --extsize 200这些参数如何选择,下面的图很形象的展示了参数的作用。当然,我也是查阅了很多资料与文献,

一般默认在ATAC-seq,DNase-seq,FAIRE-seq的时候将shift设置为extsize的一半,且参数固定为:--nomodel --shift -100 --extsize 200 (猪项目中为shift -75 --extsize 150)。

而在MNase-seq的时候,参数固定为:--nomodel --shift 37 --extsize 73

在ChiP-seq的时候不用移峰,所以只使用-nomodel!!当做组蛋白修饰的时候,由于peak并不典型,所以使用--nomodel --extsize 73参数。


对人细胞系ATAC-seq 数据call peak的参数设置如下:

macs2 callpeak -t sample.final.bam -n sample --nomodel --shift -100 --extsize 200 -B --SPMR -g hs --outdir Macs2_out 2 --keep-dup all --call-summits > sample.macs2.log (单端read时,bam已经去过重复则--keep-dup all,不去的话--keep-dup设置为1)

macs2 callpeak -t sample.final.bam -n sample -f BAMPE -B --SPMR -g hs --outdir Macs2_out 2 --keep-dup all --call-summits > sample.macs2.log(双端reads)


思考:-f 设置为BAMPE时,好像与--shift -100 --extsize 200 --nomode冲突,因为加不加这三个参数,结果是一样的。看-f里面,BAMPE的解释好像也是这个意思。

所以对于双末端数据可以只设置-f BAM与--nomode --shift -100 --extsize 200 参数二选一???



参考1:组蛋白ChIP分析要注意的2个要点(基迪奥):https://www.genedenovo.com/news/333.html

–shiftsize已经被 –extsize所替代;(https://www.imooc.com/article/270403)


参考2: https://www.jianshu.com/p/e83a7e10ea2e?tdsourcetag=s_pcqq_aiomsg

参考3: https://www.jianshu.com/p/9aa719faa4b5


-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

---------------------------------------------------------最近macs3说明书建议分析方法---------------------------------------------------------------------------------------

Examples:

1. Peak calling for regular TF ChIP-seq:

    $ macs3 callpeak -t ChIP.bam -c Control.bam -f BAM  -g hs -n test -B -q 0.01

2. Broad peak calling on Histone Mark ChIP-seq:

    $ macs3 callpeak -t ChIP.bam -c Control.bam --broad -g hs --broad-cutoff 0.1

3. Peak calling on ATAC-seq (paired-end mode):

    $ macs3 callpeak -f BAMPE -t ATAC.bam -g hs -n test -B -q 0.01

4. Peak calling on ATAC-seq ( focusing on insertion sites, and using single-end mode):

    $ macs3 callpeak -f BAM -t ATAC.bam -g hs -n test -B -q 0.01 --shift -50 --extension 100


-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

---------------------------------------------------------------综上感觉对的应该是-------------------------------------------------------------------------------------------------------

1.分析普通转录因子时:

macs3 callpeak -t ChIP.bam -c Control.bam -f BAMPE -g hs -n sample -B -q 0.01 (双末端测序,--keep-dup all必须根据实际情况申明)

2.分析组蛋白ChiP时

鉴定方法1:(建议优选这个吧???

Narrow peak: macs3 callpeak -t ChIP.bam -c Control.bam -n sample -f BAMPE -B -g hs -q 0.05 (双末端测序,--keep-dup all必须根据实际情况申明)

Broad peak:macs3 callpeak -t ChIP.bam -c Control.bam -n sample -f BAMPE -B -g hs -q 0.05 --broad --broad-cutoff 0.1 (双末端测序,--keep-dup all必须根据实际情况申明)

注:DNA methylation underpins the epigenomic landscape regulating genome transcription in Arabidopsis (GB论文),就用了这个方法鉴定peaks,但是-q和--broad-cutoff参数(-q 0.00001 --broad-cutoff 0.00001)更为严格,可以根据实际需求进行调整。

鉴定方法2(如基迪奥推荐方法,用--nomodel,--extsize 指定拓展值)

Narrow peak:macs2 callpeak -t ChIP.bam -c Control.bam -n sample -g hs --keep-dup all --nomodel --shift 0 --extsize 200  -q 0.01

Broad peak:macs2 callpeak -t ChIP.bam -c Control.bam -n sample -g hs --keep-dup all --nomodel --shift 0 --extsize 200 -q 0.01 --broad --broad-cutoff 0.1

注:A chromatin integration labelling method enables epigenomic profiling with lower input (nature cell biology),就用了这个方法鉴定peaks,但是基迪奥推荐方法推荐--extsize 73,《猪基因组顺势元件鉴定及功能SNP注释》,建议--extsize n,n由计算获得。

3. 分析组蛋白修饰时

鉴定方法1:(建议优选这个

macs2 callpeak -t ATAC.bam -n sample --nomodel --shift -100 --extsize 200 -B --SPMR -g hs --outdir Macs2_out 2 --keep-dup all --call-summits

注:但是--shift -100 --extsize 200这个所用论文极多,但是也有其他数值,如《猪基因组顺势元件鉴定及功能SNP注释》用的是shift -75 --extsize 150;macs3又推荐shift -50 --extsize 100;最新的Genomic innovation and regulatory rewiring during evolution of the cotton genus Gossypium (NG棉花论文)用的是—extsize 38 - shift -15(UMI-ATAC-seq),总体来说五花八门。

鉴定方法2:

macs2 callpeak -f BAMPE -t ATAC.bam -g hs -n sample -B -q 0.01

你可能感兴趣的:(2022-09-13 calling peaks问题)