2020.9.17丨Chip-seq结果可视化之peak检测(下)

  • 这一部分是使用deeptools对样品进行相关性分析以及主成分分析,同时从peak中去挖掘motif。我使用的工具是MEME-ChIP,MEME是一个工具系列,挖掘motif的工具比较丰富,MEME、DREME、TomTom、MEME-ChIP,其中MEME-ChIP可以同时调用其他几个工具进行综合分析,比较方便。
  • deeptools是一个很好用的深度分析工具,中文版使用手册可以让你快速上手(虽然翻译有些直,但竟然看得懂!)。在进行相关性分析和主成分分析之前,需要对样品数据进行一个综合统计,deeptools也为我们提供了统计函数
    • 运行代码
      • multiBamSummary \
         --bamfiles testFiles/*bam \ # using all BAM files in the folder
         --minMappingQuality 30 \
         --region 19 \ # limiting the binning of the genome to chromosome 19
         --labels H3K27me3 H3K4me1 H3K4me3 HeK9me3 input \
         -out readCounts.npz --outRawCounts readCounts.tab

         

  • 生成样品相关性热图
    • 运行代码
      • plotCorrelation -in readCounts.npz --corMethod spearman --skipZeros --plotTitle "Spearman Correlation of Read Counts" --whatToPlot heatmap --colorMap RdYlBu --plotNumbers -o heatmap_SpearmanCorr_readCounts.png --outFileCorMatrix SpearmanCorr_readCounts.tab
    • 图示2020.9.17丨Chip-seq结果可视化之peak检测(下)_第1张图片
  • 生成PCA成分分析图
    • 运行代码
      • plotPCA -in readCounts.npz -o PCA_readCounts.png -T "PCA of read counts"

         

    • 图示2020.9.17丨Chip-seq结果可视化之peak检测(下)_第2张图片
  • 发现motif
    • 这一步需要我们先把macs2生成的narrowpeak文件中描述peak位置信息(染色体号/起始位点/终止位点;chr1/start/end)三列分割出来(有文章提到使用summer,但是我生成的summer文件位点描述有问题,其他小伙伴也可以试试),需要注意的是我们需要通过bedtools getfasta工具根据位置信息获取序列,该工具要求文件为bed格式。
    • 运行代码
      • cut -f 1,2,3 ../C1_fa_peaks.narrowPeak >C1_great.bed #对peak位置信息进行分列,生成bed文件
        bedtools getfasta -fi Mus_musculus.GRCm38.dna.toplevel.fa -bed C1_great.bed > C1_motif.fa
         
      • 可以使用MEME进行motif挖掘,通过在线工具运行一次后获得默认参数
        • meme C1_motif.fa -dna -oc . -nostatus -time 18000 -mod zoops -nmotifs 3 -minw 6 -maxw 50 -objfun classic -revcomp -markov_order 0

           

      • 图示(还是觉得MEME-ChIP分析更丰富一些,这里只截图了一部分内容)2020.9.17丨Chip-seq结果可视化之peak检测(下)_第3张图片
  • 最后,还可以直接将peak位置信息文件上传到GREAT,使用great在线工具进行注释,获取基因与基因组的关系表
    • 2020.9.17丨Chip-seq结果可视化之peak检测(下)_第4张图片

你可能感兴趣的:(Chip-seq,生物信息,基因组)