高通---ChIP-Seq数据的Peak calling以及visualization

ChIP-Seq数据的Peak calling以及visualization

文章目录

    • ChIP-Seq数据的Peak calling以及visualization
      • 一、 主要分析流程
      • 二、去除PCR duplicate以降低假阳性率
      • 三、peak calling
      • 四、HOMER注释
      • 五、IGV可视化

一、 主要分析流程

高通---ChIP-Seq数据的Peak calling以及visualization_第1张图片
从基于bowtie2比对得到sam文件开始,对得到的4个sam文件开始下游的一系列处理(双端测序数据):

t_A549.sam
t_LNCaP.sam
t_H2126.sam
input.sam   ##input对照

什么是对照样本?

对照样本不是必须的,一般为input DNA或IgG IP(mock IP)

二、去除PCR duplicate以降低假阳性率

PCR重复:在文库制备过程中的文库富集步骤产生;定位到同一个位置的读段一般被认为来自PCR重复,PCR重复不是有效的测序读段,将会错误地增加测序深度,如果该读段正好引入一个PCR错误,比对后将会导致支持错配的读段数增加,从而报告一个错误的SNP位点。

测序深度:测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一。

samtools:处理SAM、BAM、CRAM格式的工具,及鉴定SNV
高通---ChIP-Seq数据的Peak calling以及visualization_第2张图片

#!/bin/bash
for file in *.sam
do
	echo `date`
	echo "**start to remove duplication of $file**"
	name=`echo $file|awk -F "." '{print $1}'`  ##去掉.sam
	samtools view -b -o $name.bam -@ 8 $name.sam
	samtools sort -n -@ 8 -o $name.namesrt.bam $name.bam
	samtools fixmate -@ 8 -r -m $name.namesrt.bam $name.fixmate.bam
	#为以名称排序的定位alignment填入**配对坐标**,**ISIZE**(inferred insert size猜测的插入序列大小)和**配对相应的标签**(flag)
	samtools sort -@ 8 -o $name.coordsrt.bam $name.fixmate.bam
	samtools markdup -@ 8 -r $name.coordsrt.bam $name.rmdup.bam
	##-r 删除PCR重复
	echo "**remove duplication of $file successfully!"
	echo `date`
done	

参考:samtools命令详解
https://www.cnblogs.com/emanlee/p/4316581.html
https://www.douban.com/note/341724485/

三、peak calling

使用MACS2

#!/bin/bash
for file in t_*.rmdup.bam
do 
	echo `date`
	echo "$file start peakcall"
	name=`echo $file | awk -F "." '{print $1}'`
	macs2 callpeak -t $file -c input.rmdup.bam -f BAMPE -g hs -B -n $name --outdir peakcall/$name
	#-B/--bdg	If this flag is on, MACS will store the fragment pileup, control lambda, -log10pvalue and -log10qvalue scores in bedGraph files.
	#-n/--name	输出文件(有很多个文件)的前缀
	#-g/--gsize	提供基因组的大小,程序有默认的几个物种可以选hs,mm,ce,dm
	#-f/--format	设定输入文件的格式
	echo "$file peakcall finished"
	echo `date`
done

这里分析使用的数据没有做重复,但一般会有2次或更多次的生物学重复,这时后续分析前需要得到两个重复样本之间一致性的peaks(之后再研究吧55555。。。。)

四、HOMER注释

注释原理为计算每个峰中心位置与最近的基因转录起始位点(TSS)的距离

annotatePeaks.pl A549_peaks.narrowPeak hg19 > t_A549_peaks_ann.txt 2>ann.log.txt

五、IGV可视化

生成bam文件的索引文件.bai,然后使用deeptools将bam转换成.bw,将.bw导入IGV

(base) [stu18230119@node3 ~]$ pip install deeptools  ##安装deeptools
for file in *.rmdup.bam
do 
samtools index $file
done
for file in *.rmdup.bam
do 
name=`echo $file |awk -F "." '{print $1}'`
bamCoverage -b $file -o $name.rmdup.bw -p 5 --normalizeUsing RPKM
## --region / -r CHR:START:END  选取某个区域统计
done

Deeptools安装

BAM神器—Deeptools使用指南

你可能感兴趣的:(linux)