NGS数据前处理

大多数研究者所在的实验室没有条件进行基因测序的,有很多研究所会有测序仪,但是基本上是空置的。大部分研究者是让测序公司代理测序的。公司是以盈利为目的的,所以数据会出现各种各样的问题。

所以要做到以下几点:

  1. 对公司的质量报告持怀疑的态度;
  2. 自己建立一套质量评估体系;
  3. 委托第三方进行评估;

抓质量

对数据进行 fastqc 分析,对测序数据有基本的了解。在脑海里要设定以下条件:

  1. 每一个核苷酸的质量值;
  2. 序列中是否含有接头序列,扩增引物序列等;
  3. 测序重复率的过低(特别是RNA测序);

不同类型的数据分析对数据量的要求不一样,应该根据分析需求判断数据是否能用于后续分析。

此部分的分析软件:

trimmomatic
fastx-tools

比对过程抓质量

很多生物信息分析员看到公司出示质量报告符合要求,就认为这个数据后续分析应该是没问题,但是质量控制是贯穿数据分析整个过程的。如何从分析的结果中细心分析数据的质量呢?

  1. 序列比对统计,对不正常数据要有敏感性(total mapped read, corcodant mappping, paired mapped reads);

    注意:如何提高对数据的敏感性?唯一的方法是多分析数据,多看看已经发表的数据,多去翻查以下ENCODE,ROADMAP PROJECT的数据。

  2. 通过可视化判断数据的问题,把比对数据导入到IGV进行数据比对质量进行分析。

  3. 直接查看数据比对结果,选中一些区域进行检查;

    samtools可以用于查看数据比对结果。
    samtools view -i XX.bam | less -S

  4. Picard中Markduplicates对比对结果中的重复率进行计算。通常重复率过高,表明这个数据实验过程出现问题。

后续分析结果抓质量

不同的数据分析,对这部分的分析不一样。

  1. RNAseq看基因的表达量分布图;
  2. CHIPseq/BSseq看peak的数量和meta gene plot;
  3. capture DNAseq看capture的效率;
  4. WGS看平均测序深度;

这些方法写得比较简单,仅供参考。

你可能感兴趣的:(NGS数据前处理)