微生物组16S rRNA数据分析小结：raw data sequence及其注意事项

笔记内容：
拿到原始数据后，在做上游分析之前，需要了解和注意的：

16s rRNA是什么，测它有什么用

序列文件(raw sequence data)是怎么来的？

raw sequence data的简要介绍

checklist: 拿到raw sequence data后，需要check的事情

16s rRNA是什么，测它有什么用

细菌的核糖体RNA(rRNA)按照沉降系数分为5S, 16S, 23S三种。16s rRNA是微生物核糖体RNA的一个亚基，16s rDNA是编码该亚基的基因，存在于所有细菌染色体基因中。测序是将16S rDNA扩增出来，而不是研究RNA。

将翻译16S rRNA的DNA扩增出来测序，目的为识别样本中有哪些原核生物物种(细菌/古菌)，研究物种多样性。包括他们的相对丰度及物种构成。

为什么可以根据16S rRNA来识别其物种？16S rRNA测序是测其上若干个可变区。这些可变区是species-specific的，可以根据这些可变区的序列特征识别出其物种。同时可变区中穿插着一些保守区。保守区则在不同物种之中变化不大，不能用于特异的识别其属于哪一个物种。

灰色部分为可变区

raw sequence data是怎么来的？

Illumina二代测序的具体过程可以通过官方视频了解，十分详细。大概是:

采集样品(如粪便，皮肤等), 提取微生物DNA
扩增DNA：通过桥式扩增，得到大量扩增的DNA片段
测序：将带荧光标记的叠氮基团结合到待测链上，得到各碱基对应的特定荧光，以此得到测序结果。
output: 测序得到n个reads，被output成fastq文件，根据primer和barcode来整理这些reads，得到各个样本的R1和R2，再进行后续分析。

参考wiki
参考illumina官网
官网视频是youtube的，这里是一个B站的
另一个B站视频

raw sequence data的简要介绍

raw sequence data的fastq格式文件，有固定的格式。参考https://en.wikipedia.org/wiki/FASTQ_format

列举工作中常见的两种双端测序得到的raw seqence data：

未分样本，按批次分文件的下机序列数据:
批次a_R1.fastq.gz, 批次a_R2.fastq.gz
批次b_R1.fastq.gz, 批次b_R2.fastq.gz ...
这样的文件会附一个mapping file, 提供了各个样本的barcode，ForwardPrimer及ReversePrimer，如下所示。有的只有一边barcode，有的有双barcode，下表为双barcode的例子：

sampleID	ForwardBarcode	ForwardPrimer	ReverseBarcode	ReversePrimer
sample1	ATGCATCG	AGAGTTTGATCMTGGCTCAG	TAGGACCG	GCTGCCTCCCGTAGGAGT
sample2	ATGCATCG	AGAGTTTGATCMTGGCTCAG	AAGCACTC	GCTGCCTCCCGTAGGAGT
...	...	...	...	...

示意图

fastq格式:比方说这是a批次的R1和R2

按样本分好各文件的序列数据：
sample1_R1.fastq.gz, sample1_R2.fastq.gz
sample2_R1.fastq.gz, sample2_R2.fastq.gz ...
这种data不是很raw，是将1中的下机数据按照mapping file中样本的信息分好，则得到这样的文件。由于分好样本了，基本不需要mapping file。但如果没有去除adapter和primer，你需要找测序的人要adapter和primer，并且grep一下看看到底有没有。
其fastq格式和上面的差不多。在不同的流程和软件处理的过程中，其header会根据分析需求做出改变。

check list：拿到raw sequence data后，开始上游分析前

手头的数据测的是16s的哪个区域？v1-v2?v3-v4?v4?，check对应的primer. 将For和Rev的primer在R1和R2的序列中都grep一下。checkR1的file中是否存在ReversePrimer，R2的file中是否存在ForwardPrimer。
如果存在这种“互换”的情况，需要把它们换回来。并且记得将header中R1，R2的信息更新。

image.png

raw data分好样本了吗？没有的话需要根据barcode和primer来分样本，跟测序合作者要mapping file
mapping file获取之后，随机抽取一些barcode和primer检查，防止出现1中的问题。以及要检查primer前的的序列是否真的是barcode。barcode前面是否还有其它前缀序列。

分好样本的为XXR1.fastq, XXR2.fastq这样的格式，不论是你自己分的还是raw data给到你就是这个，都要check primer和barcode是否还在上面，决定后面是否需要cutadapt。自己cutadapt之后也要check一下，以防cut错了。

在R1和R2中随机抽取几条blast看一下方向，是否与R1(+), R2(-)一致。也是防止R1和R2发生“互调”的问题。

遇到坑了再补充

微生物组16S rRNA数据分析小结：raw data sequence及其注意事项

16s rRNA是什么，测它有什么用

raw sequence data是怎么来的？

raw sequence data的简要介绍

check list：拿到raw sequence data后，开始上游分析前

你可能感兴趣的:(微生物组16S rRNA数据分析小结：raw data sequence及其注意事项)