易基因 | 单细胞甲基化测序(scBS-seq)比对率奇低?你的文库方向性参数可能没选对!

问题的提出

近年来单细胞测序真是火得一塌糊涂,在BS数据分析中,最常用的比对工具就是BSMAP和bismark。然后有小伙伴发现,明明之前用于常规BS-seq的流程用着都挺顺,到scBS-seq(single cell BS seq)数据的时候就不行了。数据质量不错,就是比对率奇低。到底问题出在哪里呢?其实小编刚接触scBS-seq数据的时候也发现了这个问题。今天小编就带大家一起分析解决一下这个问题吧!

无论是BSMAP[1]还是bismark[2]都涉及到一个有关文库方向性的参数:

BSMAP的-n参数:

意思是:

n设为0时,对SE文库来说,只比对到两条前导链,即BSW(++) 和BSC(-+);对PE文库来说,read1只比对到BSW(++) 和BSC(-+),read2只比对到BSWR(+-)和BSCR(--)。

n设为1时,不管是SE还是PE都比对到4条链:BSW(++)、BSC(-+)、BSWR(+-)和BSCR(--)。

该参数对应到bismark中的--non_directional参数:

意思是,一般常规Illumina的BS-seq文库都是具有方向性的文库,该参数应该设为OFF。

我们发现这个有关文库方向性的参数对比对速度的影响是很大的,因为它涉及到Reads是比两条链还是比四条链的问题。

那么什么是BS文库的方向性?

要解答这个问题,我们需要看一下BS-seq文库构建中序列变化:

我们发现:BS转化之后,W链(Watson链)和C链(Crick链)被转化为BSW和BSC链。在PCR之后,所有BSW和BSC链都是由C->T;而他们的互补链BSWR链和BSCR链都是G->A。

我们再分析一下加接头和测序的过程:

结论就是:

Read1中保存的都是C->T序列;

Read2中保存的都是G->A序列。

这就是所谓方向性文库了。

我们看一下实际常规BS-seq建库是不是如此:

WGBS测序下机数据我们使用fastqc进行测序质量检测,有一张Read四碱基比例的图。

我们看一下Read1的四碱基比例:

C基本为0,T很高,提示read1由C->T转化而来。实际上,read1就是PCR后产生的BSW和BSC两条链,它们建库时连接的是P5接头,所以全保存在read1中。

Read2的四碱基比例:

G基本为0,A很高,提示read2由G->A转化而来。实际上,read2就是PCR后产生的BSWR和BSCR两条链,它们建库时连接的是P7接头,所以全在read2。

总之,源于末端加A和Adapter-T,包括Y型接头的设计,常规建库实际上read1测的都是原始链(W与C),read2测的都是PCR扩增产生的互补链(WR和CR)。

也就是说,对于常规BS-seq文库,它们都是方向性的,BSMAP的-n参数都应该设置为0;-bismark的--non_directional参数都应该设置为OFF(均为默认参数)。

那对于单细胞scBS-seq建库,文库是不是也是方向性的呢?是不是也只需要设置默认参数呢?

我们回顾一下scBS建库的流程[3]:

先将gDNA进行BS转换/片段化,然后添加带有9碱基随机引物Oligo1,经过5轮随机扩增(带P5接头),以增加DNA产量,然后用利用Oligo1末端的生物素调出PCR产物。类似地,添加带有9碱基随机引物Oligor2(带P7接头),PCR扩增产生测序文库。

这里有两点需要注意:

1. 相比常规BS-seq,scBS-seq在连接接头之前进行BS转化,这样就避免了连接接头之后的gDNA在BS转化过程中不必要的断裂损失。

2. scBS-seq在最开始使用随机引物进行了多轮随机PCR扩增,以此增加DNA产量,这个过程使得scBS文库已经不具有方向性。

显而易见,对于scBS-seq数据,比对参数应当按照非方向性文库来设置参数,而不能使用默认参数。使用默认参数就是最开始比对率低的原因了。

说了这么多,已经清楚了问题的所在。总结一下参数的选择:

参考文献:

1. Xi, Y., & Li, W. (2009). BSMAP: whole genome bisulfitesequence MAPping program.BMC bioinformatics,10(1),232.

2.Krueger, F., & Andrews, S. R. (2011). Bismark: a flexiblealigner and methylation caller for Bisulfite-Seq applications.bioinformatics,27(11),1571-1572.

3. Clark, S. J., Smallwood, S. A., Lee, H. J., Krueger, F.,Reik, W., & Kelsey, G. (2017). Genome-wide base-resolution mapping of DNAmethylation in single cells using single-cell bisulfite sequencing(scBS-seq).Nature protocols,12(3), 534.

你可能感兴趣的:(易基因 | 单细胞甲基化测序(scBS-seq)比对率奇低?你的文库方向性参数可能没选对!)