简单全面的 END-seq 数据分析教程

前言

  时间过得真快,距离上一次更贴已经过去一个多月了,坚持学习和写作真的不是一件容易的事。今天抽空跟大家分享一个不常见的数据分析技术,在帖子的最后也附上了相关的参考文献,希望对需要的人有所帮助,感兴趣的接着往下看。

  减数分裂是有性生殖生物中必不可少的,染色体数目减半的,特殊的细胞分裂过程。而重组是减数分裂过程中关键步骤,对确保同源染色体正确分离和遗传多样性都有重要意义。大多数哺乳动物中减数分裂重组的发生,首先由PRDM9识别其特异结合序列,对序列附近核小体进行H3K4/36me3修饰,从而招募SPO11产生DNA双链断裂 (double strand breaks, DSBs)。随后,MRE11在DNA上产生缺口使得核酸酶可以进入,对5’-3’和3’-5’方向进行切割,产生单链DNA (single strand DNA, ssDNA) 区域,结合重组酶DMC1/RAD51,使其侵入同源染色体起始重组。目前的研究手段,只能通过间接检测MRE11切割后释放的SPO11-oligo或重组酶DMC1来定位DSBs和研究该过程,且这两种技术都存在一定的局限性。
  那么,今天要跟大家分享的分析技术就是能够检测全基因组范围内的发生DSB位点的技术——END-seq。该技术检测结果主要由一个与SPO11定位一致的中间信号(绿色),两侧呈一定分布的远端信号(红色)组成。他们认为中间信号为SPO11结合的DNA,而两侧的信号分布呈现的为在一群细胞中的DNA末端切割的分布情况。且END-seq对细胞量要求低,精确度高,信噪比好。

分析流程

  下图显示了减数分裂的产生和处理过程(左),以及END-seq检测SPO11 DSBs的示意图(右)。

数据处理

  分析中使用的数据来自参考文献Paiano J et al.,从GEO数据库(GSE138915)下载原始fastq数据。
  为了去除序列中的adapter和低质量的碱基,我们使用 FASTP软件进行质量控制。使用代码如下:

fastp -i read -o read.fq.gz -j read.fastp.json -h read.fastp.html --thread 2

  然后使用Bowtie软件将reads比对到小鼠参考基因组 (GRCm38p2/mm10)上,使用Samtools软件来对先前的bam进行排序得到排序后的bam文件供后续使用,使用代码如下:

bowtie -p 6 -n 3 -k 1 -l 50 -S bwtidx read sample.sam
samtools sort -O BAM -@ 6 -o sample_sort.bam sample.sam

  END-seq的数据类似于ChIP-seq,可用MACS软件来获得DSBs信号,然后使用过滤条件peak > 2.5-fold-enrichment,并且去除黑名单区域( blacklisted)的peak,最终得到DSBs信号。peakcalling使用代码如下:

macs --nomodel --nolambda -g gsize --shiftsize 1000 --keep-dup all -w -S -n prefix -t ipbam

  获得DSBs信号位置后,我们使用deepTools软件绘制热图来展示DSBs信号情况。使用代码如下:

genomeCoverageBed -bg -5 -ibam bam_file -g chrom_sizes >sample.bdg
sort -k1,1 -k2,2n sample.bdg >sample_sort.bdg

bedGraphToBigWig sample_sort.bdg chrom_sizes sample.bw

computeMatrix reference-point --referencePoint center --missingDataAsZero --skipZeros -p 6 --binSize 10 -b 3000 -a 3000 -S sample.bw -R peak.bed -o sample_center_matrix.gz

plotHeatmap -m sample_center_matrix.gz --whatToShow 'heatmap and colorbar' --heatmapHeight 12 --heatmapWidth 5 --colorMap RdBu_r -o sample_center_heatmap.pdf

  至此,分析流程已经完成,但需要注意的是在展示DSBs信号时,要使用原始bam转换为bigwig文件来统计DSBs信号,然后绘制热图,而不能使用MACS软件生成的bigwig文件。原因是因为MACS软件在call peak时会对reads做处理,如果使用该软件生成的bigwig来绘制热图就达不到跟文献中一致的效果,不清楚的可以看一下MACS软件callpeak的原理。

最后

  关于END-seq的内容就分享到这里,后面附上了一下相关的参考资料,需要可以看一看。下期跟大家分享另外一个数据分析技术,后面再见!

参考文献及资料

[1] Paigen, Kenneth, and Petko M. Petkov. PRDM9 and its role in genetic recombination. Trends in Genetics 34.4 (2018): 291-300.
[2] Keeney, Scott, et al. double- strand breaks are catalyzed by Spo11, a member of a widely conserved protein family. Cell 88, 375–384 (1997).
[3] Garcia, Valerie, et al. Bidirectional resection of DNA double-strand breaks by Mre11 and Exo1. Nature 479.7372 (2011): 241-244.
[4] Lange, Julian, et al. The landscape of mouse meiotic double-strand break formation, processing, and repair. Cell 167.3 (2016): 695-708.
[5] Brick, Kevin, et al. Genetic recombination is directed away from functional genomic elements in mice. Nature 485.7400 (2012): 642-645.
[6] Paiano J , Wu W , Yamada S , et al. ATM and PRDM9 regulate SPO11-bound recombination intermediates during meiosis[J]. Nature Communications, 2020, 11(1).
[7] 通过应用该课题组成熟的DSB检测技术END-seq

你可能感兴趣的:(简单全面的 END-seq 数据分析教程)