生信分析学习笔记 - RNAseq (二) 双端测序与单端测序

声明:本文部分内容和部分图片来源于网络。本文为生信小白学习笔记,不能保证专业名词和内容全部正确或权威。       

       下图为某一条RNAseq从数据预处理,序列回帖到数据可视化的工作流程,包含了较多的软件(Linux环境运行)和若干个包(R语言环境运行),本系列将按下图,对每一个步骤进行学习和理解。


某RNAseq分析流程

问题:

1.   单端测序和双端测序是什么意思?

2.   双端测序的read1和read2有什么关系?在后续的拼接和比对时是如何参与的?

3.   对比单端测序,双端测序的优势是什么?

Illumina测序工作原理

        Illumina测序流程(宣传动画)包括四个主要的步骤:样品制备,cluster生成,测序和数据分析。

        样品制备的方法有很多,所有的制备方法都是在DNA片段的末端加上接头(adaptor),通过简单的循环扩增,引入其他的序列模块。如,测序引物结合位点序列,标签序列(index),以及于流动槽上的oligo(寡核苷酸)结合的互补区域。

        Clustering(簇生成)是指每个片段分子被等温扩增的过程。Flowcell(流动槽)是一块带有通道的玻片。每条通道的内表面都包被着两种不同类型的oligo(寡核苷酸序列)。杂交是由这两种oligo(寡核苷酸序列)的其中一种开始的。这种oligo与片段的一条链上的接头区域互补,聚合酶产生已杂交片段的互补序列,接下来双链分子被变性,原始DNA链模板被洗掉,通过桥式扩增,可以将这些链进行克隆扩增。在这个过程中,目标片段DNA链弯曲后,接头区域与flowcell上第二种类型的oligo杂交。聚合酶产生互补链,形成双链桥结构。这个桥经过变性,产生该分子的两条单链拷贝,均固定在Flowcell上。该过程重复无数遍,且数百万个Cluster同时发生,以使所有片段被扩增。在桥式扩增后,反向链被切割并洗掉,只留下正向链。3‘末端被封闭以避免不必要的引物结合和扩增。

       测序是从第一条测序引物延伸并产生第一条read(正向序列)开始的。在每个循环中,带有荧光标记的碱基竞争性地结合在不断延长的链中,每次只能结合上一个与模板序列互补的碱基。在每次碱基集合时,用光源激发Clusters发出特异的荧光信号,通过检测不同信号,可知正在合成的序列碱基排序。这个过程被称为边合成边测序技术。循环数决定了序列碱基读取的长度(是指每次读取的长度可能少于原链长度?)。每次读取的荧光波长以及信号强度共同决定了碱基识别。 对于一个特定的簇,所有相同的链被同时读取。在大规模并行检测的过程中,数亿个簇被测序。在正向序列测序完成后,测序产物被洗掉。在这个步骤中,引入index1测序引物,其与模板杂交,与正向测序过程相似,生成index1序列。在index序列完成后,测序产物被洗掉,且模板的3’末端的保护被去除。模板现在又发生弯曲,并与flowcell上的另一个oligo结合。index2的读取方式和index1相同。聚合酶使DNA链沿着第二条oligo链延伸形成双链桥。这个双链DNA随后被单链化3‘末端被封闭。原始的正向链被切割并洗掉,只留下反向链。

       第二条read(反向序列)的测序是从引入它的测序引物开始的。反向测序步骤与先前的正向步骤相同,反应反复进行。知道达到所需的测序长度。反向测序产物被洗掉。整个过程产生了数百万条序列,包含了所有片段。独特的index可帮助区分文库制备过程中混合的多个测序样本,可分离混合样品文库的序列。对每一个样品,每个碱基序列相似的片段会被聚类分在一起。正向和反向序列配对并连接起来,形成连续的序列。将这些连续的序列再与参考基因序列组比对,已检测鉴定变异。

       双端测序可以用来解决那些比对结果不唯一的测序片段。

单端测序与双端测序

       两者的区别存在于测序文库的构建方法上。

(作者:wangchuang2017 链接:https://www.jianshu.com/p/5c238ea7c52f)

       单端测序:Single-Read测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flowcell上生成DNA簇,上机测序单端读取序列。该方式建库简单,操作步骤少,常用于小基因组、转录组、宏基因组测序。

       双端测序:双端测序在DNA片段两端都加上接头,进行第一次测序,洗去模板链,将模块再原位置进行扩增,进行第二轮测序。

双端测序对比单端测序的优势

       该优势聚焦于测序中对测序长度的影响。Illumina测序的长度较短,单端测序对于不同位置重复出现的序列片段识别出相同的信息,这导致将该序列回帖至参考序列中时,导致一定的误差。而双端测序中,不同读段间的距离已知,即使对于重复出现的序列,双端测序也可推断出不同序列出现的位置,大大减少了序列回帖的误差。双端测序的序列信息往往可以得到较好的组装结果。

       另一个原因,所有的reads只能按照一个方向进行读取,这会导致测序的质量会随着读取长度的增加而下降。对于单端测序,其下游测序质量就会较低,而双端测序会从两个方向读取超过待测序列的一半。再根据两个序列重合部分进行拼接,读取序列的质量会由于单端测序的结果。

       在双端测序得到的fastQ文件read1和read2中,均具有相同的ID,并在ID后加/1 或/2 进行区分。

你可能感兴趣的:(生信分析学习笔记 - RNAseq (二) 双端测序与单端测序)