宏转录组分析:SortMeRNA鉴定过滤rRNA

导读

  • 转录组测序一般期望得到的是mRNA的信息,但是总RNA当中绝大部分都是rRNA。rRNA的信息一般是无用的,所以需要去除总RNA中的rRNA,获得较纯的mRNA。真核生物成熟的mRNA一般带有polyA尾巴,因此可以使用oligo dT富集mRNA间接去除rRNA。但是,原核生物的mRNA不具有polyA尾巴,因此只能选择rRNA直接去除的方法。去除rRNA可以是在建库时(使用化学试剂),也可以是在测序后(使用生信软件),当然联用效果会更佳。如果在分析mRNA的同时,也对rRNA感兴趣,那么使用生信软件则是最好的选择。下面介绍一款可用于鉴定和过滤rRNA的软件:SortMeRNA。


    sortmerna.png

一、介绍

1. 简介

  • SortMeRNA能对宏转录组和宏基因组测序数据进行过滤、mapping和OUT-picking。基于近似种子的核心算法,SortMeRNA能够快速、灵敏地分析核酸序列。SortMeRNA主要应用于鉴定和过滤宏转录组数据中的rRNA。另外,16S扩增子分析项目中也常用SortMeRNA结合QIIME进行OUT-picking和细菌分类注释,例如地球微生物组计划(EMP)在2017年产出的Nature就用SortMeRNA进行了OUT-picking [PMID: 29088705]。

2. 官网:https://bioinfo.lifl.fr/RNA/sortmerna/

3. 文章

  • SortMeRNA: Fast and accurate filtering of ribosomal RNAs in metatranscriptomic data. Bioinformatics 2012 IF=4.5

二、下载和安装

1. 下载

  • Linux 64-bit binary:
    http://bioinfo.lifl.fr/RNA/sortmerna/code/sortmerna-2.1-linux-64-multithread.tar.gz

  • Source code:
    https://github.com/biocore/sortmerna/archive/2.1.tar.gz

  • Mac 64-bit binary:
    http://bioinfo.lifl.fr/RNA/sortmerna/code/sortmerna-2.1-mac-64-multithread.tar.gz

2. 安装
使用apt install可实现一键下载和安装【方便好用】,如下:

sudo apt install sortmerna

tar -xvf sortmerna-2.1.tar.gz

cd sortmerna-2.1

./sortmerna -h
## 查看帮助文档

./indexdb_rna -h
## 查看帮助文档

  • 其他安装方法请参考GitHub:
    https://github.com/biocore/sortmerna#building-on-linux-os

3. 查看关键文件

cd sortmerna-2.1

ll 
## 查看 SortMeRNA中的文件和程序

sortmerna关键文件.png
  • 举例介绍部分文件的用途。可执行文件indexdb_rna用于给rRNA_databases文件夹里的8类rRNA数据库构建用于序列匹配的索引文件。索引文件可指定存放在index文件夹中。文件夹tests内有测试数据,可用于快速分析体验。sortmerna不支持双端分析模式,但是可以用scripts文件夹里的shell脚本将双端数据合并后同时分析。详细软件使用教程可以参考PDF文档。

4. 8类数据库

sortmerna数据库.png

  • SortMeRNA软件包自带细菌16s rRNA,细菌23s rRNA,古菌16s rRNA, 古菌23s rRNA,真核生物18s rRNA, 真核生物28s rRNA,rfam数据库中的5s rRNA和5.8s rRNA数据。8大数据库可一起帮您鉴定宏转录组测序数据中的rRNA序列。

三、使用方法

1. 为8大数据库建索引

./indexdb_rna --ref \
./rRNA_databases/silva-bac-16s-id90.fasta,./index/silva-bac-16s-db:\
./rRNA_databases/silva-bac-23s-id98.fasta,./index/silva-bac-23s-db:\
./rRNA_databases/silva-arc-16s-id95.fasta,./index/silva-arc-16s-db:\
./rRNA_databases/silva-arc-23s-id98.fasta,./index/silva-arc-23s-db:\
./rRNA_databases/silva-euk-18s-id95.fasta,./index/silva-euk-18s-db:\
./rRNA_databases/silva-euk-28s-id98.fasta,./index/silva-euk-28s:\
./rRNA_databases/rfam-5s-database-id98.fasta,./index/rfam-5s-db:\
./rRNA_databases/rfam-5.8s-database-id98.fasta,./index/rfam-5.8s-db

2. 鉴定宏转录组测序数据中的rRNA

  • 首先,下载一个宏转录数据(572M)并解压(2.3G)。当然你也可以使用tests文件夹中的测试数据。
wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/DRA006/DRA006303/DRX103657/DRR110568_1.fastq.bz2
## 从DDBJ数据库中下载测试数据

bzip2 -d DRR110568_1.fastq.bz2
## 解压缩

  • 然后,使用sortmerna鉴定DRR110568_1.fastq中的rRNA(本文省略数据质控),以细菌16S rRNA的鉴定为例,方法如下:
./sortmerna \
--ref rRNA_databases/silva-bac-16s-id90.fasta, /index/silva-bac-16s-db: \
--reads DRR110568_1.fastq \
--aligned DRR110568.1.16s \ ## 匹配到rRNA的序列
--sam --num_alignments 1 --fastx \
--other DRR110568.1.non.16s \ ## 未匹配到rRNA的序列
--log -v

三、结果分析

  • SortMeRNA分析完后后会产生四个文件:1)工作日志.log文件;2)数据库匹配详情.sam文件;3)匹配到数据库的.16s.fastq文件;4)未匹配到数据库的.non.16s.fastq文件,如下:


    结果文件.png
  • 打开log文件可以查看到如下的统计信息。根据该信息总结后可以得到两点结论:1)DRR110568_1.fastq宏转录组测序数据中有988641条序列来源于细菌16s rRNA,这些序列占总序列的14.58%;剩下85.42%的序列为非细菌16s rRNA,这些序列可以作为下游分析的clean数据。感兴趣也可以对细菌来源的16s rRNA序列进行下游分析。


    鉴定结果.png

结束语

  • 到此,使用SortMeRNA鉴定和过滤细菌16s rRNA的工作就被完成了。另外7种rRNA的鉴定和过滤的方法类似,可自己尝试分析。

相关阅读
宏转录组(一)原始数据处理

同步发布于微信公众号:微生态

\color{green}{原创文章,码字不易,转载请注明出处}

你可能感兴趣的:(宏转录组分析:SortMeRNA鉴定过滤rRNA)