单细胞数据分析现在已经有上千个软件工具可供使用了,这为用户带来便利的同时也造成了选择困难。就像时间一样,一个表,没问题,但如果有两个表,时间还不一样,该信谁的呢?
正好我们前面一篇文章介绍了这样一个开源数据库:https://www.scrna-tools.org/,里面收集了几乎所有的单细胞数据分析工具,我们在这个网站上通过工具的引用数排序,截取前 10 行结果,得到目前引用数最多,应用最广的 10 个单细胞数据分析工具 / 流程。这无疑能为我们以后的选择提供一个参考,如果你感到迷茫,选择引用数多的大体不会有错。
STAR
STAR(Spliced Transcripts Alignment to a Reference)是一款用于转录组数据比对的工具,推出于2012年。STAR 在 RNA-seq 领域广泛应用,其独特的两阶段映射策略提高了比对精度,同时支持并行计算,使其适用于大规模数据处理。STAR 的高效性和准确性使其成为生物信息学研究中的重要工具,为基因表达和调控研究提供可靠支持。
2. Seurat
Seurat 是一款强大的单细胞 RNA-seq 数据分析工具,由 Satija 实验室于 2015 年推出。主要应用于识别细胞亚型、构建细胞谱系树和揭示基因表达模式。其优点包括高度可定制的工作流程以及有效的细胞群聚算法等。Seurat 为解析单细胞层面的生物学问题提供了全面而灵活的解决方案。
3. Monocle
Monocle 是一款用于单细胞 RNA-seq 数据分析的工具,由 Trapnell 实验室于 2014 年推出。主要应用于发现细胞发育轨迹、识别基因表达动态变化。其优点包括强大的拟动态系统建模、细胞状态推断和可视化分析。Monocle 广泛用于研究细胞分化、发育和异质性,为理解单细胞水平的生物学过程提供了深刻见解。
4. kallisto
Kallisto 是一款快速、准确的 RNA-seq 数据定量工具,由 Pachter 实验室于 2015 年推出。主要应用于基因表达定量,其优点包括高效的算法、低计算成本和适用于大规模数据集。Kallisto 通过采用估计碎片相对丰度的方法,不需对整个转录组进行比对,加速了分析过程,使其成为 RNA-seq 数据处理的理想选择,特别适用于高通量测序项目。
5. salmon
Salmon 是一款快速、准确的 RNA-seq 数据定量工具,由 Kingsford 实验室于 2017 年推出。主要应用于基因表达估算,其优点包括高效的碎片量化、低计算成本和适用于大规模测序数据。Salmon 采用概率模型,避免了传统比对方法的计算瓶颈,特别适用于高通量测序数据。
6. Scanpy
Scanpy 是一款用于单细胞转录组数据分析的 Python 工具,推出于 2017 年,主要应用于细胞聚类、差异表达和细胞发育轨迹分析。其优点包括强大的可扩展性、灵活的数据处理流程和丰富的可视化功能。Scanpy 为研究人员提供了高效而全面的工具,帮助他们深入了解单细胞水平的生物学特征,促进了单细胞转录组研究领域的发展。
7. CellRanger
CellRanger 是由 10x Genomics 开发的单细胞数据分析工具,于 2015 年首次发布。主要应用于单细胞 RNA-seq 数据处理,涵盖细胞特异性表达、群聚分析和基因表达定量。其优点包括高度自动化、用户友好的界面以及强大的分析工具。CellRanger 通过整合硬件和软件,为研究人员提供了一体化解决方案,大大简化了单细胞转录组研究的复杂性,促进了对细胞异质性和功能的深入理解。
8. inferCNV
inferCNV 是一款用于从单细胞 RNA-seq 数据中推断细胞染色体拷贝数变异的工具,由Broad Institute 开发,首次推出于2017年。其优点包括高效的计算方法、精准的拷贝数变异估算,以及适应于复杂细胞异质性的强大性能。inferCNV 为研究人员提供了深入挖掘单细胞层面基因组变异的工具,有助于解析肿瘤异质性、发育过程和其他与拷贝数变异相关的生物学问题。
9. SCENIC
SCENIC(Single-Cell rEgulatory Network Inference and Clustering)是一个用于推断单细胞基因调控网络的工具,由 Netherlands Cancer Institute 开发。推出于 2017 年,主要应用于识别单细胞水平的转录因子网络。其优点包括高度可定制的工作流程、对细胞异质性的有效处理,以及丰富的可视化功能。SCENIC 为研究人员提供了深入了解单细胞基因调控网络的工具,有助于揭示细胞类型和状态之间的分子调控机制。
10. Harmony
Harmony 是一款用于整合和纠正批次效应的单细胞 RNA-seq 数据分析工具,由 Dana-Farber 癌症研究所于 2018 年推出。主要应用于细胞聚类和亚型发现。其优点包括有效去除批次效应、提高数据集集成性,以及适用于大规模单细胞 RNA-seq 研究。Harmony 通过综合考虑细胞相似性和批次信息,为研究人员提供了一个强大的工具,帮助消除实验批次引入的噪音,确保准确而一致的单细胞分析结果。
可以看到,STAR 和 Seurat 两款软件的引用量遥遥领先,分别达到了恐怖的 3万+和 2.8万+。
STAR 的引用量最高,可能是因为它不仅用于处理单细胞测序数据,它还是用于 Bulk RNA-seq 数据比对的流行工具。而 Seurat,不愧为单细胞转录组数据处理事实上的标准,其优异的表现得到了广泛认可。不过其最大的缺点是运算速度,如果项目的细胞数过多,运算可能会很慢。不过这主要是R语言本身的锅。
值得一提的是,Python 爱好者喜欢的 Scanpy 仅排名第6,这可能是因为其推出时间较晚(2017,比 Seurat 晚2年)。不过现在由于项目的细胞数量越来越多,Python 单细胞数据分析生态越来越完善,Scanpy 的用户也正在快速增长。
最后,以上工具大都集成到了 Galaxy生信云平台(UseGalaxy.CN),不管是 Bulk RNA 还是 Single RNA,都可以在云平台通过鼠标点击就可以分析。
Galaxy中国(UseGalaxy.cn)致力于打造中国人的云上生物信息基础设施。大量在线工具免费使用。无需安装,用完即走。活跃的用户社区,随时交流使用心得。