前面一篇文章讲了宏RNA测序时去除RNA的原因以及实验端去除让RNA的主流方法。这一章主要讲讲分析段如何去除rRNA。

实验时选择去除rRNA处理后，会大大降低rRNA的比例。但针对于痕量核酸样本（拭子类，脑脊液类），尤其是珍贵样本，不推荐实验时加去除rRNA处理。处理后回收核酸量太少，可能造成后续建库失败的风险。

本文主要讲拿到数据后如何将rRNA这部分数据剔除出来，后续的数据继续分析。那如何去除测序数据中的rRNA呢？

一、数据与软件

宏RNA测序的下机数据
参考数据集（rRNA）
seqkit 软件
Bowtie2 软件
Samtools 软件

二、具体步骤：

1. 宏RNA测序的下机数据

目前宏RNA的测序主流平台还是二代测序平台，包括Illumina、BGIseq测序平台，还有少量来自于Thermo fisher 测序平台Ion S5（部分省市疾控会使用此平台针对新冠进行靶向测序）。测序策略一般为PE100或PE150。

2. 参考数据集（rRNA）

以人类rRNA为例。
登录NCBI网站，在搜索框输入“Homo sapiens”，选择Genomes 会跳转到Genomes-NCBI Datasets，截止写文前（2022-2-15）人类基因组有898条记录（里面有GCA 和GCF的重复）。但其实选一个参考序列即可，无需所有的基因组都下载。每个基因组3GB，全部下载下来比较浪费空间。

图1| homo sapiens.png

图2|人类基因组序列

直接在NCBI主页上选择genomes库，输入Homo sapiens。出来的为人类基因组参考序列，一般有GCF开头的序列就选GCF的，没有的就选GCA开头的。目前人类基因组参考序列为：
Assembly:GCF_000001405.39_GRCh38.p13/
BioProjects:PRJNA168, PRJNA31257
Statistics: total length (Mb): 3272.09 protein count: 122522 GC%: 41.4778

image.png

点击RefSeq下载序列,

homo下载.png

image.png

另一种方式是去NCBI FTP Site（https://ftp.ncbi.nlm.nih.gov/）库里去搜索。
上述方法已经获取人类基因组参考序列的ID号为：GCF_000001405.39，将ID按照三个字符分隔，分别为/GCF/000/001/405，整个链接为https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405。

image.png

GRCh37和GRCh38是常用的两个人类参考序列版本，也即对应着UCSC的hg19和hg38，以GRCh38为例，选择了最新的p13版本，“GCF_000001405.39_GRCh38.p13”。每个版本有多次

GCF_000001405.39_GRCh38.p13网页下包含基因组序列、基因组注释、蛋白序列、编码区cds序列、RNA序列等。用的比较多的是基因组和蛋白序列以及注释信息(1基因组序列和注释信息)。2.RNA序列有两个文件，一个GCF_000001405.39_GRCh38.p13_rna.fna.gz 113MB ，一个GCF_000001405.39_GRCh38.p13_rna_from_genomic.fna.gz 80MB文件，

先将两个RNA序列下载下来。可浏览器直接点击下载（NCBI速度比较大，且中间可能会中断，多次尝试下载，要有耐心，哈哈哈哈），也可在Linux系统下使用wget下载。

wget -c https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_rna_from_genomic.fna.gz
wget -c https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_rna.fna.gz

下载好序列后，解压缩，提取其中的rRNA 序列，用作后续去除rRNA的参考数据集。
如果使用 GCF_000001405.39_GRCh38.p13_rna.fna文件提取rRNA，使用以下程序提取

grep 'ribosomal RNA' GCF_000001405.39_GRCh38.p13_rna.fna  |grep -v 'mRNA' |grep -v 'non-coding RNA'|grep -v 'misc_RNA' >GCF_000001405.39_GRCh38.p13_rna.ribosomal_RNA.acc

image.png

得到5.8S、18S、28S、45S分别有5个copy，5S有17个copy。
如果使用GCF_000001405.39_GRCh38.p13_rna_from_genomic.fna，序列ID中的gbkey这个关键字提示哪个是rRNA，故使用这个关键字提取

grep 'gbkey=rRNA' GCF_000001405.39_GRCh38.p13_rna_from_genomic.fna >GCF_000001405.39_GRCh38.p13_rna_from_genomic.ribosomal_RNA.acc
#提取并按照product列排序
grep 'gbkey=rRNA' GCF_000001405.39_GRCh38.p13_rna_from_genomic.fna |awk -F '[' '{print $4}' |sort

#输出
$ grep 'gbkey=rRNA' GCF_000001405.39_GRCh38.p13_rna_from_genomic.fna |awk -F '[' '{print $4}' |sort
product=l-rRNA]
product=RNA, 18S pre-ribosomal N4]
product=RNA, 18S ribosomal RNA N1]
product=RNA, 18S ribosomal RNA N1]
product=RNA, 18S ribosomal RNA N2]
product=RNA, 18S ribosomal RNA N3]
product=RNA, 18S ribosomal RNA N3]
product=RNA, 18S ribosomal RNA N5]
product=RNA, 28S ribosomal RNA N1]
product=RNA, 28S ribosomal RNA N1]
product=RNA, 28S ribosomal RNA N2]
product=RNA, 28S ribosomal RNA N3]
product=RNA, 28S ribosomal RNA N3]
product=RNA, 28S ribosomal RNA N4]
product=RNA, 28S ribosomal RNA N5]
product=RNA, 45S pre-ribosomal N1]
product=RNA, 45S pre-ribosomal N1]
product=RNA, 45S pre-ribosomal N2]
product=RNA, 45S pre-ribosomal N3]
product=RNA, 45S pre-ribosomal N3]
product=RNA, 45S pre-ribosomal N4]
product=RNA, 45S pre-ribosomal N5]
product=RNA, 5.8S ribosomal RNA N1]
product=RNA, 5.8S ribosomal RNA N1]
product=RNA, 5.8S ribosomal RNA N2]
product=RNA, 5.8S ribosomal RNA N3]
product=RNA, 5.8S ribosomal RNA N3]
product=RNA, 5.8S ribosomal RNA N4]
product=RNA, 5.8S ribosomal RNA N5]
product=RNA, 5S ribosomal 1]
product=RNA, 5S ribosomal 1]
product=RNA, 5S ribosomal 10]
product=RNA, 5S ribosomal 10]
product=RNA, 5S ribosomal 11]
product=RNA, 5S ribosomal 11]
product=RNA, 5S ribosomal 12]
product=RNA, 5S ribosomal 12]
product=RNA, 5S ribosomal 13]
product=RNA, 5S ribosomal 13]
product=RNA, 5S ribosomal 14]
product=RNA, 5S ribosomal 14]
product=RNA, 5S ribosomal 15]
product=RNA, 5S ribosomal 15]
product=RNA, 5S ribosomal 16]
product=RNA, 5S ribosomal 16]
product=RNA, 5S ribosomal 17]
product=RNA, 5S ribosomal 17]
product=RNA, 5S ribosomal 2]
product=RNA, 5S ribosomal 2]
product=RNA, 5S ribosomal 3]
product=RNA, 5S ribosomal 3]
product=RNA, 5S ribosomal 4]
product=RNA, 5S ribosomal 4]
product=RNA, 5S ribosomal 5]
product=RNA, 5S ribosomal 5]
product=RNA, 5S ribosomal 6]
product=RNA, 5S ribosomal 6]
product=RNA, 5S ribosomal 7]
product=RNA, 5S ribosomal 7]
product=RNA, 5S ribosomal 8]
product=RNA, 5S ribosomal 8]
product=RNA, 5S ribosomal 9]
product=RNA, 5S ribosomal 9]
product=s-rRNA]

除了有多copy的rRNA之外（5.8S、18S、28S、45S分别有7个copy，5S有34个copy），还有两个线类体rRNA（文后会补充线类体相关背景知识），为s-rRNA和l-rRNA，分别对应线类体的12S和18S。

image.png

至此，得到人类的rRNA有5.8S、18S、28S、45S、5S和线类体的s-rRNA和l-rRNA。至于45S rRNA前体，长度约为14000nt，后续会在细胞核的核仁中剪切生成80S核糖体的28S rRNA、5.8S rRNA和18S rRNA。

3. 提取序列

上述步骤已经得到rRNA 序列的ID，根据ID 信息从fasta格式的GCF_000001405.39_GRCh38.p13_rna_from_genomic.fna文件中提取相应的序列。可以使用脚本语言，比如awk、awk、Perl等，也可以使用seqkit软件提取。
seqkit软件是一款序列梳理神器-小巧（6M大小），兼具统计、格式转换、长度筛选、质量值转换、翻译、反向互补、抽样、去重、滑窗、拆分等30项全能...。此处仅简要介绍怎么抽提序列。
seqkit网址：https://bioinf.shenwei.me/seqkit/
latest verison： releasev2.1.0：https://github.com/shenwei356/seqkit/releases/download/v2.1.0/seqkit_linux_amd64.tar.gz

tar -xvf seqkit_linux_amd64.tar.gz
解压缩后即为可执行文件。若为了使用方便可将软件路径加到环境变量里面。

第二步提取到的序列id进行格式化，只取id空格前的字符串，输出到文本。

awk '{print $1}' GCF_000001405.39_GRCh38.p13_rna_from_genomic.ribosomal_RNA.acc |sed 's/>//' >GCF_000001405.39_GRCh38.p13_rna_from_genomic.ribosomal_RNA.id

提取序列
seqkit grep -f GCF_000001405.39_GRCh38.p13_rna_from_genomic.ribosomal_RNA1.id GCF_000001405.39_GRCh38.p13_rna_from_genomic.fna > GCF_000001405.39_GRCh38.p13_rna_from_genomic_rRNA.fna

提取出序列后可选择去冗余，经alignment 多个copy的序列后，发现序列之间相似度很大，除部分Gap存在外，仅有少量SNP存在，如下表所示：

rRNA	#of SNP	#of copys
5.8S	0 SNP	7
5S	0-1 SNP	34
18S	0-1 SNP	7
28S	0-12 SNP	7
45S	0-44 SNP	7

去冗余主要是为了减小参考数据集，加快筛查的速度。每条rRNA的copy之间差异度很小，故每个5.8S、5S、18S、28S、45S rRNA 随机选一条；加上2条线类体rRNA，作为去除人类rRNA的参考数据集；笔者也尝试了GRCh37版本中提取rRNA，步骤与此类似，copy数有差异（GRCh37 copy数少）。

4. bowtie2、samtools下载和参考数据集构建index

bowtie2(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml) 是将测序的reads与长参考序列比对的工具。bowtie2使用FM索引（基于Burrows-Wheeler transform 或BWT）对基因组进行索引，以此来保持其占用较小内存。bowtie2支持间隔、局部和双端对其模式。可以同时使用多个处理器来极大的提升比对速度。

Samtools(http://www.htslib.org/)，是一个用于操作sam和bam文件的工具合集。能够实现二进制查看、格式转换、排序及合并等功能，结合sam格式中的flag、tag等信息，还可以完成对比对结果的统计汇总。

（1）**下载bowtie2和samtools **，可以使用conda安装，就是可能不是最新版本。如果使用最新版本，可使用以下命令下载：

#下载bowtie2
wget -c --no-check-certificate  https://jaist.dl.sourceforge.net/project/bowtie-bio/bowtie2/2.4.5/bowtie2-2.4.5-linux-x86_64.zip
#解压后即可用
unzip bowtie2-2.4.5-linux-x86_64.zip 
#下载samtools
wget -c  --no-check-certificate https://jaist.dl.sourceforge.net/project/samtools/samtools/1.15/samtools-1.15.tar.bz2
tar -jxvf samtools-1.15.tar.bz2
#下载的为源码，需编译
cd samtools-1.15/
./configure
make
./samtools --help

构建参考数据集的索引index

$ bowtie2-build Del_human_rRNA_refseq.fasta human_rRNA

建好的人rRNA索引

（2）使用bowtie2去除rRNA

bowtie2 --very-sensitive-local --no-unal -I 1 -X 1000 -p 6 -x rRNA -1 R1.fq.gz -2 R2.fq.gz --un-conc-gz sample_rRNAremoved.fq.gz 2>sample_Map2rRNAStat.xls | samtools view -S -b -o sample_Map2rRNA.bam -

实例：
bowtie2 --very-sensitive-local --no-unal -I 1 -X 1000 -p 6 -x ../DB/human_rRNA -1 6-1-1_L01_72_1.fq.gz -2 6-1-1_L01_72_2.fq.gz --un-conc-gz 6-1-1_L01.fq.gz 2> 6-1-1_L01_Map2rRNAStat.xls |samtools view -S -b -o 6-1-1_L01_Map2rRNA.bam -

Bowtie2参数设置：
--very-sensitive-local --no-unal -I 1 -X 1000：这几个参数不描述，可以看看bowtie2的帮助页；
-p：线程数。
-x：参考序列的前缀（就是bowtie2-build rRNA.fa rRNA中的第二个参数）。
-1，-2：分别接测序数据的R1和R2，没有R2的话，只需要-1。
--un-conc-gz：比对不上的序列，以此前缀输出，压缩格式。
--un-conc ：不能map的reads，fastq格式，非压缩格式，供后续分析直接使用。
sample_Map2rRNAStat.xls是bowtie2最后给出的比对结果，包括比对率、唯一比对、多重比对率等。
后面可以直接通过管道命令“|”，接samtools view -S -b -o sample_Map2rRNA.bam - 直接输出比对到rRNA的bam文件，用作其他分析。也可以不用samtools，直接通过 ">"输出成 sam 文件。

samtools参数介绍：
-o 输出文件的名称
-@ 指使用的线程数
-b 该参数设置输出BAM格式，默认下输出是SAM格式文件
-S 默认下输入是BAM文件，若是输入为SAM文件，则最好加该参数，否则有时会报错

bowtie2跑完之后，将得到几个文件：

image.png

*_1.fq.gz 和 *_2.fq.gz 是原始文件
*rRNAremoved的R1和R2的fq，这个就是我们最后想拿到的，去除了rRNA的序列，用于后续分析；
*Map2rRNA.bam,比对上rRNA的bam；
*Map2rRNAStat.xls是比对到rRNA的情况。

image.png

最后，得到 *rRNAremoved.fq.1.gz 和 *rRNAremoved.fq.2.gz，就是去除rRNA序列之后的病毒宏基因组数据。

该样本为人肛拭子样本。比对人的rRNA的占比为69.41%。出乎我的医意料。但是和我的前一篇文章中的《宏RNA测序去除宿主核糖体rRNA（一）-实验端去除》(https://www.jianshu.com/p/3bfb4fa934d1)中描述的 在这转录组RNA中，核糖体RNA（rRNA）越占RNA总量的80%，是含量最多的一类RNA的观点相吻合。此次选用的原始文件左右双端均为1.2GB，耗时17分钟。故在时间要求比较高的样本中去宿主基因组的步骤可以改为先去除rRNA，因为rRNA的库很小，能快速扫完，把数据量降下来后再进行后续分析，有助于整个分析环节所需时长的缩短。

线类体是细胞核外唯一含有DNA的细胞器，线类体DNA（mitochondrial DNA,mtDNA）。mtDNA全长16569bp，双链，闭环分子，外环为重链（H链），内环为轻链（L链）。其基因结构在哺乳动物中保守，共编码37个基因：13种编码蛋白的基因，22种tRNA，2种rRNA，无内含子。唯一的非编码区：1000bpde D-loop环，包含重链复制起始点、轻重链转录启动子、4个高度保守序列。
异质性：每个细胞中含有数百个线类体，每个线类体含有2-10个拷贝的mtDNA,因此每个细胞中含有数千个mtDNA。
线类体广泛存在于除红细胞以外的组织细胞中。脑和骨骼肌作为高能量代谢器官，其细胞中含有大量线类体，因而mtDNA 缺陷产生极其广泛的病原谱，最主要的表现为线类体性脑疾病。

image.png

mtDNA的特点：（1）复制具有半自主性，受核DNA的影响；（2）线类体基因组所用的遗传密码和通用密码不同；（3）mtDNA为母系遗传；（4）mtDNA在有丝分裂和减数分裂期间都要经过复制分离；（5）mtDNA的杂质性与阈值效应。线类体可随细胞分裂随机分配到子细胞中，造成不同的组织或细胞中携带突变型mtDNA的比例不同，造成了线类体基因病存在组织特异性表型和表型多样性。mtDNA突变存在阈值效应，突变的mtDNA随着年龄的增加在细胞中逐渐积累，病情也常表现为与年龄相关的渐进性加重。

参考文献：

https://zhuanlan.zhihu.com/p/329967121
焦老师讲遗传系列之9：线粒体遗传
人类线粒体基因组简介

宏RNA测序去除宿主核糖体rRNA（一）-分析端去除

一、数据与软件

二、具体步骤：

1. 宏RNA测序的下机数据

2. 参考数据集（rRNA）

至此，得到人类的rRNA有5.8S、18S、28S、45S、5S和线类体的s-rRNA和l-rRNA。至于45S rRNA前体，长度约为14000nt，后续会在细胞核的核仁中剪切生成80S核糖体的28S rRNA、5.8S rRNA和18S rRNA。

3. 提取序列

4. bowtie2、samtools下载和参考数据集构建index

你可能感兴趣的:(宏RNA测序去除宿主核糖体rRNA（一）-分析端去除)

宏RNA测序去除宿主核糖体rRNA（一）-分析端去除

一、数据与软件

二、 具体步骤：

1. 宏RNA测序的下机数据

2. 参考数据集（rRNA）

至此，得到人类的rRNA有5.8S、18S、28S、45S、5S和线类体的s-rRNA和l-rRNA。至于45S rRNA前体，长度约为14000nt，后续会在细胞核的核仁中剪切生成80S核糖体的28S rRNA、5.8S rRNA和18S rRNA。

3. 提取序列

4. bowtie2、samtools下载和参考数据集构建index

你可能感兴趣的:(宏RNA测序去除宿主核糖体rRNA（一）-分析端去除)

二、具体步骤：