Day7--测序基础知识

[TOC]

文中1、2自刘小泽处学习,https://www.jianshu.com/p/101c14c3a1d2
学习自相见很不晚https://www.jianshu.com/p/0ae1dc30bb04

1.Sanger测序

每次测一条,溶液中他的复制本很多,将溶液分成四份,

  • 加入原料:

    原材料 功能 备注
    ddNTP(放射性标记) 链终止,并指示碱基类型 4种ddNTP到4份溶液
    dNTP 链增长 4份一样
    primer 链增长 4份一样
    DNA polymerase 链增长 4份一样

由于复制本大,成千上万,而ddNTP 与DNA单链的结合是随机的,因此会产生长度不一致的复制半成品

  • 电泳区分长度
  • 荧光标记指示碱基类型

优点:

  1. 精度高:99.999%
  2. 读长长:1000bp

缺点:

  1. 酶活性不能一直保持,因此1000bp之后测序准确率就会急速下降。
  2. 一次只能测一条链,无法高通量
  3. 成本高

2.NGS

第二代测序(NGS)技术,主要学习基于Illumina的边合成边测序(Sequence by Synthesis, SBS)技术

2.1 反应装置

从大到小,层级划分

  • flowcell:NGS测序反应的基本容器
  • lane*8:测序反应的平行泳道,试剂添加、洗脱的发生未知
  • swath*2:?
  • tile*60:cluster generation的场所,每次荧光扫描的位置,肉眼不可见

2.2 SBS反应过程

2.2.1 将DNA随机打断成DNA片段(fragment)

或者叫构建DNA文库。

  • DNA molecules =超声波==>300-500bp fragments
  • 酶补平为平末端
  • 3‘端加一个A碱基(方便adapter接上,他的3’端有一个T碱基)
  • 两端加上互补配对的adapter
    • 其实还有其他的,Primer binding site,index(barcode)等
  • P7和P5末端---(注意:tile上为P7和P5‘,因此只有P5端能结合到tile)
5'端-P5-index2-Adapter-引物结合位点1-
-fragment-
-引物结合位点2-Adapter-index1-P7-3'端
  • PCR扩增
  • 单链DNA文库

2.2.2 将DNA fragment加到flowcell上

将文库的待测序列实现配好一定浓度,经过lane的时候,会在特异的化学试剂作用下,强力随机附着在lane上(tile上)。

2.2.3 Cluster generation

通过桥式PCR进行簇生成,测序使用的是tile上P7生成的链

  • 扩增模板:只有待测序列的P5 端结合到tile上

    • tile上的P5’ 链增长,成双链
    img
  • 去杂:NaOH强碱溶液变性,洗脱掉待测序列,留下P5‘ 链

  • 桥式形成:加入缓冲液,P5' 链的P7’ 端与tile上的P7结合,成桥,复制成双链!

    img
  • PCR,每个fragment会在一定区域内成簇

  • 强碱解链,甲酰胺基嘧啶糖苷酶(Fpg)选择性的切掉lane 上p5‘ 连接的链,只留下了与lane p7连接的链即Forward Strand

    img

2.2.4 双末端测序(PE seq)

一次加入一个荧光碱基,用完失效

2.2.4.1.第一轮-Forward Strand

  • 加入primer到靠近P5端(现在P5端在上面)的primer binding

site1上

  • 加入荧光碱基

  • 该碱基的接有荧光基团,用于发光并抑制链增长

  • 拍照

  • 减去荧光基团并洗脱(或?加入化学试剂淬灭荧光信号并使dNTP 3’ 叠氮基团变成羟基),再次加入荧光碱基,重复

2.2.4.2 index1检测

  • P7端index1检测

洗脱掉第一轮的产物(read product),然后加入index1 primer与P7端index1互补配对。测完后洗脱产物

  • P5端index2检测

P5与index2 primer互补配对,测完后洗脱

https://upload-images.jianshu.io/upload_images/9376801-60822a5811e4fe8e.png?imageMogr2/auto-orient/strip|imageView2/2/w/376

2.2.4.3 第二轮-Reverse Strand

此时为桥式,扩增成双链,变性成单链,分别结合在tile上的P5‘ 和P7。出去Forward Strand。测Reverse Strand之后的流程与第一轮类似。

2.2.5 单末端测序(SE seq)

single-end只将index,Primer binding site以及P7/P5添加到 fragment 的一端,另一端直接连上P5/P7,将片段固定在Flowcell上桥式PCR生成DNA簇,然后单端测序读取序列

3.几个名词

3.1 基因组重测序Genome Re-sequencing

全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。

3.2 从头测序 de novo sequencing

de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。

3.3 全外显子测序whole exon sequencing

外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。

3.4 ChIP-Seq

染色质免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)也称结合位点分析法,是研究体内蛋白质与DNA相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-Seq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。ChIP-Seq的原理是:首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上,从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。

3.5 SNP和SNV

单核苷酸多态性singlenucleotide polymorphism,SNP 或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变(somatic mutation),称做SNV。

3.6 测序深度和覆盖度

测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。

3.7 关于readsCount、RPKM/FPKM、RPM、TPM的理解

你可能感兴趣的:(Day7--测序基础知识)