单细胞的测序自2009年开始,短短十几年的时间呈现爆发式的增长与普及,其在科研、医疗、诊断等多个领域发挥了重要的作用。单细胞的捕获细胞数随着各种技术的迭代,从最开始的Smart-seq近百个细胞的捕获通量增加到10X genomics捕获近万个细胞。
通过使用纳米芯片等技术,细胞数有了巨大的提升。最近研究中的的原位条形码技术是的捕获的量级达到了十万级的水平。并且,根据10X官方的介绍,今年下半年预期会有更高级细胞水平通量的技术推出。
截至今日,单细胞的数据处理软件多如牛毛,从上游的数据比对软件cellranger、kallisto,到归一化的处理方式、批次效应的矫正模型,以及细胞的降维方法,这些软件的选取排列组合不下百种,如何进行选择与调整往往会花费研究人员大量的时间。
现如今,Seurat(https://satijalab.org/seurat/)作为一个整合诸多功能的R包,因其封装程度高,仅需几个函数就可以完成大量的分析工作,在单细胞下游细胞-表达量矩阵处理分析流程上拥有着十分高的欢迎程度,许多的科研机构都将之作为分析流程中主要的统计绘图工具。
但是,受限于单细胞的表达矩阵十分庞大的原因,随着细胞数目的增长,需要加载至内存的数据就越发庞大。据分析人员的测试,十个样本,98000个左右细胞数量的文件,在完成聚类以及umap降维分析之后,全部载入R中需要消耗近40G的内存(普通家用电脑的处理器内存仅为8G左右),如果加上后期其他分析所需的内存开销,就算正常的超算服务器配置都难以招架。
那么,基于这种情况,开发人开发了Scanpy(Single-Cell Analysis in Python), 使用Python来实现有效地处理超过一百万个细胞的数据集。
数据的读入与存储
在读入与数据存储方面,Scanpy具有多种读取数据的接口,例如常规的Cellranger 10X转录组数据与空间转录组分析数据,以及经过转换后的Seurat loom对象,并且也可以通过添加R语言支持来直接操作Seurat对象。Scanpy通常以anndata(https://anndata.readthedocs.io/en/latest/)对象来进行存储,即H5ad格式文件。AnnData 对象中将细胞称为观察值 observations ,将基因称为变量 variables,并且可以为观察值与变量添加多种feature,可以进一步扩展meta 信息。受益于H5ad文件格式索引起来十分快速,不需要将数据完全加载至内存中就能进行操作与计算。
分析与运算
在数据的分析与计算方面,Scanpy与Seurat类似支持了PCA、tsne、umap等降维方法。并且Scanpy提供leiden(Seurat推荐)和louvain两种图聚类算法,值得一提的是Scanpy在聚类时运算速度相当快,在笔者的工作电脑(CPU:Intel I5-7400、内存8G)上对22501
个细胞进行聚类(对应Seurat中的FindNeighbors与FindClusters)用时仅花费1分08秒。这让在个人PC上完成整套单细胞的绘图与数据整合不再是梦想。另外,得益于Scanpy良好的扩展性,基于Scanpy的相关的分析算法也不少,比如在分析细胞RNA速率中常用的scVelo,以及用于免疫组库分析的扩展scirpy等。
软件绘图与数据统计
scanpy基于matplotlib库实现了多种多样的数据展示效果,无论是marker可视化还是空间转录组的可视化工作,scanpy都可以胜任,例如单细胞文章中展示marker基因的堆叠小提琴图与Dotplot图,scanpy都做了很好的封装工作。同时由于AnnData 中meta信息都是以pandas dataframe 进行的存储,所以数据的统计与分析遍得十分的简单与方便。
结尾
随着单细胞样本量的增加与捕获细胞数的增多。使用Scanpy进行数据处理的高分文章也越来越多,相对更加轻量、快速的分析流程也缩短了客户数据处理的周期,在交付内容上即保证了准确性又保证了美观程度。
参考文献:
Svensson V, Vento-Tormo R, Teichmann SA. Exponential scaling of single-cell RNA-seq in the past decade. Nat Protoc. 2018 Apr;13(4):599-604. doi: 10.1038/nprot.2017.149. Epub 2018 Mar 1. PMID: 29494575.
Chen W, Zhao Y, Chen X, Yang Z, Xu X, Bi Y, Chen V, Li J, Choi H, Ernest B, Tran B, Mehta M, Kumar P, Farmer A, Mir A, Mehra UA, Li JL, Moos M Jr, Xiao W, Wang C. A multicenter study benchmarking single-cell RNA sequencing technologies using reference samples. Nat Biotechnol. 2020 Dec 21. doi: 10.1038/s41587-020-00748-9. Epub ahead of print. PMID: 33349700.