[TOC]

文中1、2自刘小泽处学习，https://www.jianshu.com/p/101c14c3a1d2
学习自相见很不晚https://www.jianshu.com/p/0ae1dc30bb04

1.Sanger测序

每次测一条，溶液中他的复制本很多，将溶液分成四份，

加入原料：

原材料	功能	备注
ddNTP（放射性标记）	链终止，并指示碱基类型	4种ddNTP到4份溶液
dNTP	链增长	4份一样
primer	链增长	4份一样
DNA polymerase	链增长	4份一样

由于复制本大，成千上万，而ddNTP 与DNA单链的结合是随机的，因此会产生长度不一致的复制半成品

电泳区分长度
荧光标记指示碱基类型

优点：

精度高：99.999%

读长长：1000bp

缺点：

酶活性不能一直保持，因此1000bp之后测序准确率就会急速下降。

一次只能测一条链，无法高通量

成本高

2.NGS

第二代测序（NGS）技术，主要学习基于Illumina的边合成边测序（Sequence by Synthesis, SBS)技术

2.1 反应装置

从大到小，层级划分

flowcell：NGS测序反应的基本容器
lane*8：测序反应的平行泳道，试剂添加、洗脱的发生未知
swath*2：？
tile*60：cluster generation的场所，每次荧光扫描的位置，肉眼不可见

2.2 SBS反应过程

2.2.1 将DNA随机打断成DNA片段（fragment）

或者叫构建DNA文库。

DNA molecules =超声波==>300-500bp fragments
酶补平为平末端
3‘端加一个A碱基（方便adapter接上，他的3’端有一个T碱基）
两端加上互补配对的adapter
- 其实还有其他的，Primer binding site，index（barcode）等
P7和P5末端---（注意：tile上为P7和P5‘，因此只有P5端能结合到tile）

5'端-P5-index2-Adapter-引物结合位点1-
-fragment-
-引物结合位点2-Adapter-index1-P7-3'端

PCR扩增
单链DNA文库

2.2.2 将DNA fragment加到flowcell上

将文库的待测序列实现配好一定浓度，经过lane的时候，会在特异的化学试剂作用下，强力随机附着在lane上（tile上）。

2.2.3 Cluster generation

通过桥式PCR进行簇生成，测序使用的是tile上P7生成的链

扩增模板：只有待测序列的P5 端结合到tile上
- tile上的P5’ 链增长，成双链
img
去杂：NaOH强碱溶液变性，洗脱掉待测序列，留下P5‘ 链
桥式形成：加入缓冲液，P5' 链的P7’ 端与tile上的P7结合，成桥，复制成双链！

img
PCR，每个fragment会在一定区域内成簇
强碱解链，甲酰胺基嘧啶糖苷酶（Fpg）选择性的切掉lane 上p5‘ 连接的链，只留下了与lane p7连接的链即Forward Strand

img

2.2.4 双末端测序(PE seq)

一次加入一个荧光碱基，用完失效

2.2.4.1.第一轮-Forward Strand

加入primer到靠近P5端（现在P5端在上面）的primer binding

site1上

加入荧光碱基
该碱基的接有荧光基团，用于发光并抑制链增长
拍照
减去荧光基团并洗脱（或？加入化学试剂淬灭荧光信号并使dNTP 3’ 叠氮基团变成羟基），再次加入荧光碱基，重复

2.2.4.2 index1检测

P7端index1检测

洗脱掉第一轮的产物（read product），然后加入index1 primer与P7端index1互补配对。测完后洗脱产物

P5端index2检测

P5与index2 primer互补配对，测完后洗脱

https://upload-images.jianshu.io/upload_images/9376801-60822a5811e4fe8e.png?imageMogr2/auto-orient/strip|imageView2/2/w/376

2.2.4.3 第二轮-Reverse Strand

此时为桥式，扩增成双链，变性成单链，分别结合在tile上的P5‘ 和P7。出去Forward Strand。测Reverse Strand之后的流程与第一轮类似。

2.2.5 单末端测序(SE seq)

single-end只将index，Primer binding site以及P7/P5添加到 fragment 的一端，另一端直接连上P5/P7，将片段固定在Flowcell上桥式PCR生成DNA簇，然后单端测序读取序列

3.几个名词

3.1 基因组重测序Genome Re-sequencing

全基因组重测序是对基因组序列已知的个体进行基因组测序，并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低，人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序，实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点，以及结构变异等，具有重大的科研和产业价值。

3.2 从头测序 de novo sequencing

de novo测序也称为从头测序：其不需要任何现有的序列资料就可以对某个物种进行测序，利用生物信息学分析手段对序列进行拼接，组装，从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展，基因组测序所需的成本和时间较传统技术都大大降低，大规模基因组测序渐入佳境，基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力，可以高效、低成本地测定并分析所有生物的基因组序列。

3.3 全外显子测序whole exon sequencing

外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低，对研究已知基因的SNP、Indel等具有较大的优势，但无法研究基因组结构变异如染色体断裂重组等。

3.4 ChIP-Seq

染色质免疫共沉淀技术（ChromatinImmunoprecipitation，ChIP）也称结合位点分析法，是研究体内蛋白质与DNA相互作用的有力工具，通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-Seq技术，能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。ChIP-Seq的原理是：首先通过染色质免疫共沉淀技术（ChIP）特异性地富集目的蛋白结合的DNA片段，并对其进行纯化与文库构建；然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上，从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。

3.5 SNP和SNV

单核苷酸多态性singlenucleotide polymorphism，SNP 或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化，其中有些单核苷酸多态性可能与疾病有关，但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时，相对于正常组织，癌症中特异的单核苷酸变异是一种体细胞突变（somatic mutation），称做SNV。

3.6 测序深度和覆盖度

测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M，测序深度为10X，那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为Gap。例如一个细菌基因组测序，覆盖度是98%，那么还有2%的序列区域是没有通过测序获得的。

Day7--测序基础知识