实用干货 | 单细胞转录组测序分析—10x参考基因组组装

在单细胞转录组数据分析之前,需要做很多准备工作:1)分析环境的搭建以及各个分析软件的安装;2)参考基因组的选择;3)准备待分析的数据;4)搭建分析流程。与常规的RNA-Seq一样,10x单细胞RNA-Seq也需要测序数据比对到参考基因组进行基因的定量。那么参考基因组的质量就对单细胞的分析结果有着重大的影响。本文主要为大家介绍,分析10x单细胞转录组所需的参考基因组的组装。


参考基因组

参考基因组一般包括两个文件:基因组文件和基因注释文件。

1)参考基因组文件

通常是 fasta格式:以>开头的行标注染色体信息,后续行为该条染色体的碱基信息。

2)基因注释文件

通常有GTF(General Transfer Format)和GFF(generalfeature format)两种,其中 GFF 又可分为GFF3 和 GFF2。这些格式大同小异,主要作用就是注释基因组。上述基因组文件中只有每条染色体的碱基序列,并没有各个基因信息;而 GTF/GFF 文件中包含的是每个转录本的信息。

10x官方提供的参考基因组

对于常用的人和小鼠,10x官方提供了经过处理的,可以直接用来定量的参考基因组,可以在以下链接下载:https://support.10xgenomics.com/spatial-gene-expression/software/downloads/latest。

人的基因组版本为GRCh38,小鼠的为mm10。都是目前常用的基因组版本,所以如果您研究的是人或者小鼠,可以直接从10x官方下载。


自建参考基因组

如果您希望使用最新的人/小鼠基因组,或者研究的是其他物种,那么就需要自行构建参考基因组了。常用的Ensembl和NCBI数据库都提供了这两种格式的文件。

1)Ensembl

网址:http://asia.ensembl.org

点击Viewfull list of all species,进入搜索列表界面。

可在搜索框中直接输入物种名称,以豚鼠为例,输入cavia porcellus。

点击对应名称,下载参考基因组和基因组注释文件。

下载fasta文件,一般选择*toplevel.fa.gz文件,为参考基因组完整文件,其他rm、sm和分开染色体的文件;sm和rm的意义可看README文件。

下载注释文件,一般选择*gtf.gz文件即可。

下载植物、微生物或者其他物种的基因组文件可打开网址:http://ensemblgenomes.org/,在该网址中进行搜索和下载。

2) NCBI

网址:https://www.ncbi.nlm.nih.gov/。

选择Genome标签,输入物种名称。

点击箭头所示位置下载基因组和基因注释文件。

NCBI下载的基因注释文件一般都是GFF格式,而10x单细胞参考基因组组装需要的是GTF格式的文件,需要格式转换的工具——gffread,这个工具需要在linux操作系统上运行。

a)通过conda安装gffread。

conda install -c bioconda gffread

b) 格式转换,下面这一条命令就可以将gff格式的注释文件转换成gtf格式的文件了。

gffreadgencode.v19.annotation.gff3 -T -o gencode.v19.gtf

c)将gtf格式的文件转换成gff3格式的文件。

gffreadgencode.vM13.annotation.gtf -o gencode.vM13.annotation.gff3


构建参考基因组

处理完GTF文件之后,就可以使用cellranger的mkref命令构建基因组了:

cellrangermkref --genome=cavia_porcellus_output

--fasta=reference/cavia_porcellus/fasta/Cavia_porcellus.Cavpor3.0.dna.toplevel.fa

--genes= reference/cavia_porcellus/genes/Cavia_porcellus.Cavpor3.0.106.gtf

这一步根据基因组的大小,需要的内存和运行时间不同。所以建议在大型工作站或者服务器等配置较高的机器上运行。到这里自己的参考基因组就建好了,下一步就可以执行cellranger对数据进行mapping分析了。

参考资料

Findthe input files -Software -Single Cell Gene Expression -Official 10x GenomicsSupport


刘静  | 文案

你可能感兴趣的:(实用干货 | 单细胞转录组测序分析—10x参考基因组组装)