生信基础-测序原理

生物信息分析的前提是获得了测序数据，关于测序原始数据也涉及非常多知识及细节，如果明白了测序原理及测序数据产生的过程，在理解关于原始数据的各个问题上也比较容易。

刘小泽-测序的世界

回顾测序历史，目前已经形成了三种测序方法，从上个世纪70年代的Sanger测序到90年代的二代测序，再到长度更长的三代测序，都为快速、高效获得基因序列提供了技术支持。

Sanger测序

1970s年桑格开发的能完成最长1000bp序列的双脱氧终止反应，因为该技术用于高达99.999%的测序准确率，而被用于人类基因组计划完成基因组的测序（改良的桑格法）。但是其因为通量低（一次只能测一条序列）、成本高，而不适用于大基因组的测序。

桑格法的主要思想是，构建4个反应体系，（A, T, G, C四种碱基），分别加入引物、DNA聚合酶、四种dNTP、一定比例的ddNTP（带有放射性标记）。由于ddNTP的加入，导致互补链的合成被终止，当然ddNTP的结合是随机性的，但是在一定时间内，ddNTP会结合完所有的位点。虽然会有ddNTP和dNTP结合在同一个位点，但是在凝胶电泳和放射自显影试验中，只有ddNTP会被检测到，并通过碱基互补推算出待测序列。

Sanger法完成一条序列测序

【PCR实验是在1983年出现的，那么如果需要建立这四个反映体系，那不是需要多条模板链，那这么多的模板链除了扩增还有什么方法？或者说，如何获得这些模板链？】

Illumina 二代测序

二代测序有不同的平台，包括Roche 454测序仪，Illumina Solex/Hiseq 和ABI SOLID，其中以Illumina Hiseq市场份额较多（75%）。其开发的PE 双端测序方法的主要特点是，借助桥式PCR扩增，实现了通量上的极大提高。

一些必须了解的名词

flowcell：测序反应的载体/容器，1个flowcell有8个lane，每个lane包含两列（swath），每一列有60个tile，每个tile会种下不同的cluster，每个tile在一次循环中会拍照4次（每个碱基一次）
lane：测序反应的平行泳道，试剂添加、洗脱等过程的发生位置
tile：每次荧光扫描的位置，肉眼是看不到的
双端测序：可能序列比较长有四五百bp，两边各测120-150bp
junction：双端测序中间一些没有测到的区域

flowcell构造

构建文库
超声波将DNA分子打断成300-800bp长序列片段（人类基因组打成300-500bp），用酶补平为平末端，然后3‘端加一个A碱基（因为接头的3‘端有一个突出的T），再在两端加上互补配对的adapter，再通过PCR扩增达到一定浓度，构成单链DNA文库。

添加接头

接头主要有两个作用，1. 实现桥式扩增，高效；2. 可以实现双端测序

在接头上加上修饰

桥式PCR

进行桥式PCR的关键在于待测序列5’和3’接头设计及flowcell 的lane的与接头互补的接头。桥式PCR的过程可以通过扩增正义链步骤理解，主要包括以下几个步骤：

对模板链（p5-p7）进行扩增，获得双链互补链（p5'-p7'）
洗脱模板链（强碱试剂作用下两条链被分开，由于模版链没有附着在lane上，模版链被冲走，但是互补链依然稳稳固定在lane上）
形成桥式（互补链p7' 与lane上 p7互补，并通过扩增获得正义链p7-p5，与模板链一致）
循环，获得一群序列完全相同的cluster，目的在于实现放大单一碱基的信号强度，满足后期测序需求
解链。桥式PCR完成后，形成了很多的桥形的互补双链，再次强碱解链。利用一种酶--甲酰胺基嘧啶糖苷酶（Fpg）选择性的切掉lane 上p5‘ 连接的链，只留下了与lane p7连接的链即Forward Strand

总之，因为接头的设计，及互补配对的特性，使得最后能只保留正义链，进行测序。

几点注意：

lane与lane之间一般不会相互影响，也就是说一般不会出现lane1固定的DNA又与lane2结合。

lane上随机分布两种接头，p5’（与P5互补），P7（与P7'互补）。
待测序列自带了p5接头和p7接头；

序列只能一开始是利用p5接头互补，因为p7接头和lane是一样的嘛

互补链扩增

形成桥式

测序

测序的原理是，边合成边测序，通过每次加入一个荧光碱基，并检测荧光信号，然后立即对其淬灭，接下来完成下一轮的碱基信号探测。双端测序的顺序是，先对正义链测序，然后index测序，最后反义链测序。

正义链每一轮测序步骤：

引物结合到p5端
聚合酶作用完成一个碱基合成（一种特殊的dNTP【它的3‘ 羟基被叠氮基团替代，因此每次只能添加一个dNTP；还含有荧光基团，能激发不同颜色】）
加入激发荧光缓冲液，用激光激发荧光信号（在dNTP被添加到合成链上后，所有未使用的游离dNTP和DNA聚合酶会被洗脱掉）

这一个循环就能测定flowcell上成千上万的cluster，这就实现了高通量

下一轮测序。加入化学试剂淬灭荧光信号并使dNTP 3’ 叠氮基团变成羟基，这样能继续向下进行再加一个，并且保证这个不再发出荧光

在所有正义链完成测序后，合成称为被洗脱，然后开始index测序检测。首先对通过index1的引物结合位点完成index1完成测序，并洗脱合成产物，然后再通过正义链的p5与lane上的p5'互补，完成index2的测序，并洗脱产物。

洗脱掉index2 产物后，还是一个桥式扩增，得到双链，再变性得到原始Forward strand 和新的Reverse Strand， 除去测完的Forward strand。然后和测Forward一样，也是先连接primer，只是连接的位点是Primer Binding Site2，测完后得到reverse strand序列。

index测序

数据产生

从荧光信号的产生到碱基序列的识别这一过程，主要包括图象校正（即空间校正）、cluster识别、荧光校正（即光学校正）、phasing/prephasing（即化学校正）、碱基识别、PF（Illumina默认的数据过滤算法Pass Filtering）、质量评估等7个步骤

其中相机识别碱基的工作原理：利用了CCD相机(1)对每一个簇(cluster)进行识别，确定其坐标；(2)提取每个簇分别在A、G、C、T四个波长的信号强度值。另外拍照过程相当耗时，一次循环所产生的信号需要40分钟左右才能拍照收集完毕。使用相机的扫描功能会更快一些。

Hiseq 2000测序仪

总之，根据设计的接头以及引物结合位点，一次完成正义链、index及反义链的测序。当然，获得测序数据后的质控又涉及其他知识，关于质控结果的解释也需要认真学习。

三个视频看懂测序原理

生信基础-测序原理

Sanger测序

Illumina 二代测序

桥式PCR

测序

数据产生

你可能感兴趣的:(生信基础-测序原理)