Biostar handbook学习笔记五-基因组测序技术原理简介

测序技术及原理比较

第X代 公司 平台名称 测序方法 检测方法 大约读长(碱基数) 优点 相对局限
第一代 ABI/生命技术公司 3130xL-3730xL 桑格-毛细管电泳测序法 荧光/光学 600-1000 高读长,准确度一次性达标率高,能很好处理重复序列和多聚序列 通量低;样品制备成本高
第二代 Roche/454 基因组测序仪FLX系统 焦磷酸测序法 光学 230-400 在第二代中最高读长;比第一代的测序通量大 样品制备较难
第二代 Illumina HiSeq2000,HiSeq2500/MiSeq 链终止物和合成测序法 荧光/光学 2x150 高测序通量 仪器昂贵
第三代 太平洋生物科学公司 PacBio RS 实时单分子DNA测序 荧光/光学 ~1000 高平均读长,比第一代的测序时间降低;不需要扩增;最长单个读长接近3000碱基 并不能高效地将DNA聚合酶加到测序阵列中;准确性一次性达标的机会低
第三代 牛津纳米孔公司 gridION 纳米孔外切酶测序 电流 尚未定量 有潜力达到高读长;可以成本生产纳米孔 切断的核苷酸可能被读错方向;难于生产出带多重平行孔的装置

测序质量控制:

FASTQ文件中测序Reads需要与指定的参考基因组进行序列比对,定位cDNA片段在基因组或基因上的位置。在序列比对之前,首先需要确保这些Reads有足够高的质量,以保证后续分析的准确。测序质量控制方式如下:
(1) 去除测序接头以及引物序列;
(2) 过滤低质量值数据,确保数据质量。
经过上述一系列的质量控制之后得到高质量Reads或碱基,称为Clean Data。Clean Data同样以FASTQ格式提供。

使用fastqc软件来展示测序数据的质量:

  1. 安装fastqc
    注意将fastqc加入到系统环境变量中。
  2. 在命令行中直接运行命令
    fastqc seqfile1.fq [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file]
    output dir指的是输出结果路径
    extract参数指的是输出结果是否解压
    -f 参数 是输入文件的格式,指的是测序数据
  3. 或者运行fastqc:
    fastqc seqfile1.fq seqfile2.fq

你可能感兴趣的:(Biostar handbook学习笔记五-基因组测序技术原理简介)