随着单细胞研究越来越多,基于Single-Cell Sequencing发表的文章也越来越多,涉及领域涵盖了肿瘤、发育、神经科学、免疫等。如何从庞大测序数据中获得单个细胞的表达谱成为数据解析的关键点。CellRanger是10x genomic公司专为单细胞转录组分析提供的分析软件,可实现从Illumina原始数据(BCL或fastq格式)到文库拆分,细胞拆分及定量,pca,聚类以及可视化(t-SNE和UMAP)结果。该软件高度集成化,即使您不会写代码也可以快速掌握其用法,使单细胞研究简单化。
1
10x单细胞标记原理
在讲软件用法之前,先给大家回顾下10x单细胞标记原理(详细信息可查看:10X Genomics单细胞转录组技术流程和优势),Gel bead(下左图)由凝胶珠和磁珠上的一段引物构成,引物序列构成依次为:全长Illumina TruSeq Read 1 测序引物、16nt 10X Barcode序列(每个Gel bead的10X Barcode均不相同,形成GEM后用于区分细胞)、12 nt unique molecular identifier (UMI) (区分同一细胞的不同转录本并去除PCR Duplications,实现绝对定量)、30 nt poly dT反转录引物。最终形成的文库结构为下图:
Tips:对于V2试剂(如5’转录组),10x Barcode-16nt,UMI-10nt(比V3试剂少2nt),10x Barcode+UMI=26nt
2
Cell Ranger软件下载与安装
1)该软件的官方下载网址:
https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest 目前该软件更新至3.1.0版本(2019-7-24),下载完成后(提醒:需要注册并登陆才能下载),直接解压即可使用,无需安装,方便快捷。
2)对应库文件的下载
官方已经提供了用于cellranger分析的了人(Human reference (GRCh38)及Human reference (hg19)),小鼠(Mouse)及Human (hg19) and mouse 的reference。如果您的样本来自这两个物种建议直接下载用于后续的分析,下载路径同上。如果您研究的对象不是人和小鼠,不用担心,cellranger也有专门用于构建reference的指令。具体指令如下:
正常的输出文件结构如下:
Tips:如果您的基因组比较大,运行该代码时可能会报内存的错误,添加参数--memgb进行调整,该参数默认16 (GB)。对于超大基因组(如小麦),染色体长度超过512M的基因组需要进行拆分,否则后续cellranger分析无法进行下去。
3
Cell Ranger分析pipeline
cellranger mkfastq文库拆分
Cell Ranger封装了bcl2fastq软件,可以基于Illumina下机的原始数据(BCL格式)进行数据拆分,得到fastq数据。一般情况下,GEO数据库下载的数据或公司提供的数据基本上都是拆分后的fastq,因此这步可以不用运行。该模块的原理及使用方法如下:
--id 由mkfastq创建的文件夹的名称
--run Illumina BCL run文件夹路径
--csv 包含lane,sample和index的文件,格式如下:
输出文件结果如下:
Tips:由于10x测序数据量庞大,为了保证读取的准确性,每个10x sample_Index包含4个8碱基的引物(其中每个碱基位置上均包含了ATCG碱基),样本对应的Index需仔细核对。
cellranger count细胞及基因定量聚类等分析
count是cellranger软件最重要核心的部分,可以完成细胞鉴定,基因组比对,基因定量,细胞降维,聚类,差异分析等功能。
--id 输出结果文件夹
--tranome reference 所在文件夹
--fastqs 样本对应测序fastq 所在文件夹
--sample 样本名,即mkfastq输出的样本名
Tips:--id参数不能写绝对路径,因此如果需要输出到指定路径下,需要先通过cd到输出结果路径,fastq对应的数据格式应为:subject1_S1_L001_R1_001.fastq.gz,设置--sample=subject1,除这些参数外,还可以设置线程数和内存以及reads长度,预计细胞数,强制细胞数等参数,其他参数可在官方网站查看学习
输出文件结果如下:
结果文件说明:
metrics_summary.csv 汇总指标csv格式,表格信息来自html中的summary部分
possorted_genome_bam.bam reads 比对基因组bam文件
filtered_feature_bc_matrix 过滤后的细胞和基因及对应的定量信息
raw_feature_bc_matrix 原始的细胞和基因及对应的定量信息
Analysis tsne,差异分析等二级分析相应的输出结果
molecule_info.h5 多样本整合aggr分析输入文件
cloupe.cloupe 配套软件Loupe Cell Browser 输入文件
Tips:cellranger count并不能对一些低质量的细胞(比如线粒体表达高处于凋亡的细胞)以及可能包含多个细胞的结果进行过滤。
cellranger aggr GEM文库整合
当实验中用到了多个GEM well,需要整合分析时,选择该分析,该分析是基于单个样本cellranger count分析得到的molecule_info.h5,进一步整合分析的。分析得到的结果结构与cellranger count结果结构基本一致,这里不再详细介绍。
--id 输出结果文件夹
--csv 样本对应cellranger count输出结果文件,格式如下:
Tips:如果需要整合的样本中既有用v2试剂又有用v3试剂的,在第三列加入相应样本对应的试剂信息,如果只用了一种试剂,只保留前两列的信息即可。
cellranger reanalyze
相比于count和aggr,reanalyze接受更多的可选的参数,更进一步分析,相应的分析指令及参数请参考:https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/using/reanalyze
一文轻松玩转10X单细胞转录组官方分析软件CellRange | 单细胞专题_fastq (sohu.com)