微生物组16S rRNA数据分析小结:raw data sequence及其注意事项

笔记内容:
拿到原始数据后,在做上游分析之前,需要了解和注意的:

  • 16s rRNA是什么,测它有什么用
  • 序列文件(raw sequence data)是怎么来的?
  • raw sequence data的简要介绍
  • checklist: 拿到raw sequence data后,需要check的事情

16s rRNA是什么,测它有什么用

细菌的核糖体RNA(rRNA)按照沉降系数分为5S, 16S, 23S三种。16s rRNA是微生物核糖体RNA的一个亚基,16s rDNA是编码该亚基的基因,存在于所有细菌染色体基因中。测序是将16S rDNA扩增出来,而不是研究RNA。

将翻译16S rRNA的DNA扩增出来测序,目的为识别样本中有哪些原核生物物种(细菌/古菌),研究物种多样性。包括他们的相对丰度及物种构成。

为什么可以根据16S rRNA来识别其物种?16S rRNA测序是测其上若干个可变区。这些可变区是species-specific的,可以根据这些可变区的序列特征识别出其物种。同时可变区中穿插着一些保守区。保守区则在不同物种之中变化不大,不能用于特异的识别其属于哪一个物种。

灰色部分为可变区

raw sequence data是怎么来的?

Illumina二代测序的具体过程可以通过官方视频了解,十分详细。大概是:

  • 采集样品(如粪便,皮肤等), 提取微生物DNA
  • 扩增DNA:通过桥式扩增,得到大量扩增的DNA片段
  • 测序:将带荧光标记的叠氮基团结合到待测链上,得到各碱基对应的特定荧光,以此得到测序结果。
  • output: 测序得到n个reads,被output成fastq文件,根据primer和barcode来整理这些reads,得到各个样本的R1和R2,再进行后续分析。

参考wiki
参考illumina官网
官网视频是youtube的,这里是一个B站的
另一个B站视频

raw sequence data的简要介绍

raw sequence data的fastq格式文件,有固定的格式。参考https://en.wikipedia.org/wiki/FASTQ_format

列举工作中常见的两种双端测序得到的raw seqence data:

  1. 未分样本,按批次分文件的下机序列数据:
    批次a_R1.fastq.gz, 批次a_R2.fastq.gz
    批次b_R1.fastq.gz, 批次b_R2.fastq.gz ...
    这样的文件会附一个mapping file, 提供了各个样本的barcode,ForwardPrimer及ReversePrimer,如下所示。有的只有一边barcode,有的有双barcode,下表为双barcode的例子:
sampleID ForwardBarcode ForwardPrimer ReverseBarcode ReversePrimer
sample1 ATGCATCG AGAGTTTGATCMTGGCTCAG TAGGACCG GCTGCCTCCCGTAGGAGT
sample2 ATGCATCG AGAGTTTGATCMTGGCTCAG AAGCACTC GCTGCCTCCCGTAGGAGT
... ... ... ... ...
示意图
fastq格式:比方说这是a批次的R1和R2
  1. 按样本分好各文件的序列数据:
    sample1_R1.fastq.gz, sample1_R2.fastq.gz
    sample2_R1.fastq.gz, sample2_R2.fastq.gz ...
    这种data不是很raw,是将1中的下机数据按照mapping file中样本的信息分好,则得到这样的文件。由于分好样本了,基本不需要mapping file。但如果没有去除adapter和primer,你需要找测序的人要adapter和primer,并且grep一下看看到底有没有。
    其fastq格式和上面的差不多。在不同的流程和软件处理的过程中,其header会根据分析需求做出改变。

check list:拿到raw sequence data后,开始上游分析前

  1. 手头的数据测的是16s的哪个区域?v1-v2?v3-v4?v4?,check对应的primer. 将For和Rev的primer在R1和R2的序列中都grep一下。checkR1的file中是否存在ReversePrimer,R2的file中是否存在ForwardPrimer
    如果存在这种“互换”的情况,需要把它们换回来。并且记得将header中R1,R2的信息更新。
image.png
  1. raw data分好样本了吗?没有的话需要根据barcode和primer来分样本,跟测序合作者要mapping file
    mapping file获取之后,随机抽取一些barcode和primer检查,防止出现1中的问题。以及要检查primer前的的序列是否真的是barcode。barcode前面是否还有其它前缀序列。
  1. 分好样本的为XXR1.fastq, XXR2.fastq这样的格式,不论是你自己分的还是raw data给到你就是这个,都要check primer和barcode是否还在上面,决定后面是否需要cutadapt。自己cutadapt之后也要check一下,以防cut错了。
  1. 在R1和R2中随机抽取几条blast看一下方向,是否与R1(+), R2(-)一致。也是防止R1和R2发生“互调”的问题。
  1. 遇到坑了再补充

你可能感兴趣的:(微生物组16S rRNA数据分析小结:raw data sequence及其注意事项)