宏基因组测序(Metagenomics Sequencing)是以特定环境下的微生物群落作为研究对象,对该样品中所包含的全部微生物总的DNA进行测序
从而使人类可以研究微生物种群结构、物种分类,系统进化,基因功能活性、微生物之间以及微生物与环境之间的互作关系。因此,一定程度上来说,宏基因组测序摆脱了微生物分离纯培养的束缚,为环境微生物群落的研究提供了有效工具。然而,宏基因组测序数据的分析仍然存在许多问题,如组装和参考基因组等。目前,绝大多数的科研学者在宏基因组数据分析这一板块都是依赖于测序公司来完成。对于测序公司而言,他们只负责流程化的数据分析,并未考虑每一个实验的具体设计和潜在的生物学意义,导致许多科研实验结果不理想。因此,科研学者自己掌握宏基因组数据分析会让你的科研更上一层楼。我们深度基因团队基于前期的技术攻关,目前基本上已经掌握了宏基因组测序数据的整套分析流程。接下来,我将在宏基因组数据分析专题中为大家逐步解密宏基因组数据分析。
目前,微生物组的研究手段主要是通过16S(16S rRNA Gene Amplicon Sequencing)和宏基因组测序(Metagenomics sequencing)这两种测序方法。这种测序技术的主要区别在于测序原理的不同:16S测序的技术原理主要是基于16S rDNA基因存在于所有细菌的基因组中,具有高度的保守性。该序列包含9个高变区和10个保守区,通过对某一段高变区序列进行PCR扩增后进行测序,得到对应的序列.宏基因组测序 则是将样品内的微生物基因组DNA随机打断成小的片段,然后在片段两端加入通用引物进行PCR扩增测序,再通过组装的方式,将小片段拼接成较长的序列。对于测序结果的比较而言,16S测序得到的序列很多注释不到种水平,而宏基因组测序则能鉴定微生物到种水平甚至菌株水平。因此,在物种鉴定过程中,宏基因组测序具有较高的优势。当然,我们也建议科研学者可以结合16S和宏基因组测序两种测序手段,可以更高效、更准确地研究微生物群落组成结构、多样性以及功能情况。
此处以MetaWRAP的分析流程为示例。 模块(红色), 宏基因组数据(绿色), 中间状态(橙色)和最终的分箱数据(黄色), 数据报告和图片(蓝色). 后期,我将以此数据分析流程图为框架为大家讲解宏基因组数据分析。图片来自Uritskiy et.al 2018
所需软件:fastqc,软件官网:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/。大家需要结合你的电脑操作系统或Cluster来选择你需要下载的版本。这里简单介绍一下在Linux服务器中的安装:linux命令:
wget -c http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.8.zip #下载fastqc_v0.11.8.zip
unzip fastqc_v0.11.8.zip #解压
cd FastQC #进入该目录
fastqc -h #查看帮助文档
chmod 754 fastqc #增加可执行权限
echo ‘export PATH=/home/xxx/FastQC:$PATH’ >> ~/.bashrc #任何路径下可直接调用
-o --outdir 生成的报告文件的路径
–extract 让程序不打包(默认会打包成一个压缩文件)
–noextract 结果文件压缩
-t --threads 程序运行的线程数(与文件数量一致就行)
-q --quiet 安静运行模式(不选这个选项的时候,程序会实时报告运行的状况)
-f --format 输入文件格式.支持bam,sam,fastq文件格式
-c --contaminants 制定污染序列。文件格式 Name[Tab]Sequence
-a --adapters 指定接头序列。文件格式 Name[Tab]Sequence
fastqc -o./output/ -t 2 ./input/data/A.fq #单个fq文件的质控
ls $input/data/*.fq | while read id; #多个fq文件的循环质控
do
$fastqc_dir/fastqc -t 2 $id -o $output;
done
关于数据质控的结果的解析,我将会在下一篇文章中为大家一一讲解,敬请期待。
[1]参考链接: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/1 Introduction/1.1 What is FastQC.html
[2]参考链接:https://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-018-0541-1
深度基因小伙伴温馨提示: