单细胞测序做为近十年最伟大的科学技术之一,它的应用在很多科研领域均产生了深刻的影响。单细胞测序技术解决了很多在bulk测序上解决不了的单个细胞尺度上的机制研究,这使其已经成为一种现象级研究手段。做为一种适应性很广,功能多样的测序技术,它在研究肿瘤抑制性,免疫细胞和神经系统复杂性上有突出的优势。除了迅速增长的单细胞测序数据之外,各种基于单细胞测序的生信分析工具也得以快速发展。虽然单细胞测序技术最常用于肿瘤研究,而近些年在非肿瘤领域也在迅速增长,考虑到大家也有关注非肿瘤研究领域,并且肿瘤研究的单细胞数据库也都被介绍的很多。所以小编系统整理了截止到2022年初所有的非肿瘤单细胞数据库,今天随推文一起分享给大家,此外我们还整理了具体疾病的单细胞数据集,有需要的可关注(GZH):生信人
以下对非肿瘤单细胞数据库的介绍主要分为三种类型:第一种是大型综合单细胞数据库,这种数据库多是多项重大研究成果的产物,其主要是作为单细胞数据储存的数据库;第二种是疾病特异性单细胞数据库,这种非肿瘤单细胞数据库收录的数据就没有第一种多,主要是针对具体的疾病类型进行数据整理;第三种是单细胞功能分析数据库,这种数据库是针对某一项科学问题,对单细胞数据进行功能分析的数据库,我们可以使用这种数据库完成对单细胞数据的某项具体的功能分析。
一.大型综合单细胞数据库
1.Human cell atlas(HCA):人类细胞图谱计划,迄今为止项目最庞大的单细胞测序项目成果。聚焦人正常组织,获取人体各个组织器官的单细胞层面数据均可使用这个网站进行下载。
网址:
https://data.humancellatlas.org/
2.SCXA:EBI旗下的单细胞数据库,收录了各种疾病类型的单细胞数据,而且这个网站持续更新。由于EBI旗下还有很多bulk RNA数据库和功能分析数据库,这个网站均可无缝连接到相应数据库。
网址:
https://www.ebi.ac.uk/gxa/sc/home
3.Single Cell Portal:目前收录412个研究中的1800万+的单细胞数据库,而且持续更新,数据维护的很好,还可以进行简单的在线分析。
网址:
https://singlecell.broadinstitute.org/single_cell
4.SCPortalen:日本的单细胞测序数据库,日本的生物医学领域还是很先进的,很多诺贝尔医学奖得主都是日本人。这个网站做的很精细,唯一的缺点是数据更新没有Single Cell Portal和SCXA这两个数据库快。
网址:
http://single-cell.clst.riken.jp/
5.scRNASeqDB:另一大型单细胞数据库,专门收集人类单细胞测序的数据库,涵盖200种细胞系和13440个GSM。除了数据庞大的特点,这个数据库可以进行关键基因的在线分析。
网址:
https://bioinfo.uth.edu/scrnaseqdb/
6.Tabula Muris:小鼠的单细胞转录组数据库,包含了来自20个器官和组织的近10万个细胞。这些数据允许对组织间共享的细胞类型的基因表达进行直接和受控的比较,例如来自不同解剖位置的免疫细胞。它们还允许对两种不同的技术的单细胞数据进行比较:基于微流控液滴的3端测序:以相对较低的覆盖率对每个器官的数千个细胞进行研究;和基于流式细胞仪的全长转录本分析:提供更高的灵敏度和覆盖率。
网址:
https://tabula-muris.ds.czbiohub.org/
7.SpatialDB:专门存放单细胞空间转录组数据的数据库,单细胞空间转录组相对于普通的单细胞测序数据,其保留了样本的各种细胞空间分布信息。这个数据库可以下载多种疾病模型的单细胞空间转录组的数据。
网址:
https://www.spatialomics.org/SpatialDB/
8.MCA:浙大郭国骥老师团队制作的小鼠单细胞图谱数据库,小鼠正常组织的单细胞数据均可在这个数据库中下载。
网址:
http://bis.zju.edu.cn/MCA/
9.PlantscRNAd:光有动物的单细胞数据可不够,还有做植物研究的小伙伴。但是我们知道植物细胞有细胞壁,做植物的单细胞测序难度是很高的,于是业界大佬浙江大学樊龙江团队就专门构建了植物单细胞数据库。
网址:
http://ibi.zju.edu.cn/plantscrnadb/
二.疾病特异性单细胞数据库
1. SC2disease:此数据库主要用于各类疾病分析,其基于各种疾病和正常单细胞转录组基因表达谱数据,为研究者提供丰富的细胞特异性信息,如感兴趣基因细胞特异性表达情况,特定细胞类型标记,多种疾病生物标志物,以及提供在疾病和非疾病状态下各种类型细胞的表达谱差异性分析功能。
网址:
http://easybioai.com/sc2disease/
2.BloodSpot:健康和血液病单细胞转录组数据库,对于研究血液性疾病的小伙伴,这是一个宝贵的数据库。这个数据库虽然只收录了循环系统的单细胞数据,但是功能强大,可使用这个数据库进行多种在线分析,而且可以将分析结果以各种图片的形式导出。
网址:
http://servers.binf.ku.dk/bloodspot/
3. KIT:肾脏单细胞数据库,收录了各种肾脏组织的单细胞数据,对肾脏疾病进行研究的小伙伴可要将这个网址记住。
网址:
http://humphreyslab.com/SingleCell/
4. VascularSingleCell:血管单细胞数据库,这个数据库收录了人和小鼠的脑血管肺血管的单细胞数据,不同于上面讲述的血细胞数据库,这个数据库只关注血管细胞。
网址:
http://betsholtzlab.org/VascularSingleCells/database.html
5. iSyTE:专注于研究眼睛发育的单细胞数据库。
网址:
https://research.bioinformatics.udel.edu/iSyTE/ppi/index.php
6.DBTMEE:专门用于研究眼睛小鼠早期胚胎发育的单细胞数据库。
网址:
http://dbtmee.hgc.jp/
7.CeDR Atlas:CeDR Atlas数据库基于文献中人类、小鼠和不同细胞系的特异性药物反应信息,综合分析了细胞类型特异性药物反应分析,涵盖疾病状态下的细胞类型和正常细胞类型,为细胞药物反应谱提供直接参考。数据库目前收录超过582个人类、小鼠和细胞系的单细胞数据结果,包括约140个表型和1250个组织/细胞类型的约188,157个人类相关、42660个小鼠相关和10299个细胞系相关的细胞药物反应信息。
网址:
https://ngdc.cncb.ac.cn/cedr
8.Jingle Bells:数据来源为公开可用的数据(该数据库只是把公开数据进行了整合) 数据来源相对集中,收集免疫(120个数据集)以及非免疫(183个数据集)该数据库作为免疫相关数据的数据库确实具有着把相关信息集中以便我们搜索和学习的作用,我们可以通过这个数据库去了解免疫相关的数据以及文献从而深化我们的课题进展
网址:
http://jinglebells.bgu.ac.il/1.
9.Aging Atlas:衰老研究一直都是一个很热门的领域,这个数据库整理了多项专门研究衰老的单细胞数据,可以使用其进行衰老相关基因的研究。
网址:
https://ngdc.cncb.ac.cn/aging/index
10.Gut Cell Atlas:肠道组织的单细胞测序数据库,所有单细胞数据均公开可下载。
网址:
https://www.gutcellatlas.org/
11.StemMapper:干细胞发育研究单细胞数据库。
网址:
http://stemmapper.sysbiolab.eu/
12.stemformatics:和StemMapper类似,同样是针对干细胞构建的单细胞数据库。
网址:
https://www.stemformatics.org/expressions/gene_expression_graph
三.单细胞功能分析数据库
1.HCL:不同于人类图谱计划,这个数据库在线分析功能强大。由浙江大学郭国骥教授开发,包括人类50种组织的超过70万个细胞,划分为102个cluster,可以查询每种组织、每个cluster的marker基因。可以上传和下载数据自行分析。
网址:
https://db.cngb.org/HCL/
2.Cell Blast:Cell BLAST是一个自带高质量参考数据库的scRNA-seq数据检索/注释工具,能做细胞类型鉴定、发现新细胞类型、注释连续细胞状态。
网址:
https://cblast.gao-lab.org/
3. PanglaoDB:来自瑞典卡洛琳学院的研究人员开发的PanglaoDB数据库,用于探索小鼠和人类scRNA-seq数据,为单细胞组学研究提供公共scRNA-seq数据资源。相关研究成果2019年发表在《Database》。PanglaoDB数据库收集并整合来自多个研究的数据,包括:小鼠的184种组织、1063个样本、446W细胞;人的74种组织、305个样本、112w细胞。
网址:
https://panglaodb.se/index.html
4.CellMarkrer:该数据库包括来源于100000+已发表文献整理出来的,人的158种组织/亚组织、467个细胞类型、13605个Marker基因;小鼠81种组织/亚组织、389个细胞类型、9148个Marker基因。用户可以通过选择物种、组织类型、细胞类型来查询marker基因,也可以下载marker基因列表,还可以上传自己的文章或数据。
网址:
http://bio-bigdata.hrbmu.edu.cn/CellMarker/
5.scQuery:对比分析不同研究的单细胞转录组数据。
网址:
https://scquery.cs.cmu.edu/
6.SCDevDB:单细胞深度组学数据库,在线分析功能强大。
网址:
https://scdevdb.deepomics.org/
7.LnCeCell:从GEO和CancerSEA收集了与癌症相关的scRNA-seq数据集,确保质量,控制癌细胞数> 100,并且通过注释将表达谱分为mRNA和lncRNA,使用GENCODE数据库注释(GRCh38,版本34)。最后得到源于25种癌症的40个单细胞数据集,总共有94605个单细胞被用于构建LnCeCell。
网址:
http://www.bio-bigdata.net/LnCeCell/
8.ColorCells:这个数据库提供了一个友好的可视化界面,包括PCA和t-SNE算法应用于细胞集群在2d和3d空间中,开发一个工具来展示各种组织和细胞类型在人类和老鼠,建立一个超几何分布的统计检验方法自动分配给细胞集群,基于SNN和pearson相关分析,构建蛋白- lncrna共表达网络,从scRNA-Seq数据预测lncrna。
网址:
https://rna.sysu.edu.cn/colorcells/
9.Virtual Cytometry:它为使用scRNA-seq数据的免疫细胞分化研究提供计算平台,通过“发现模块”和“假设测试模块”分别识别和验证参与免疫细胞分化的基因。
网址:
https://www.grnpedia.org/cytometry/
10.SPICA:专注于研究病毒感染和肿瘤小鼠模型的单细胞数据库。
网址:
https://spica.epfl.ch/projects
11.GRNdb:转录因子及其下游靶基因形成的基因调控网络(Gene Regulatory Network, GRN)数据库,是一个免费访问和用户友好的数据库,可以方便地探索和可视化由转录因子(转录因子)和下游靶基因(称为调控)形成的预测调控网络,基于大规模RNA-seq数据,以及已知的tf -靶标关系,适用于各种人类和小鼠条件。
网址:
http://www.grndb.com/
12.SciBet:是一种利用单细胞RNA测序技术预测任意随机测序细胞身份的计算工具。与其他有监督的单元类型识别方法相比,SciBet在精度、鲁棒性、可扩展性和速度方面都具有优势。在普通计算机上,对于包含10万个cell的数据集,我们可以在1秒左右完成准确的特征选择和分类分析。我们不仅提供了R语言的二进制包,还提供了来自多个数据集的大约100种训练过的模式。此外,用户可以在线使用SciBet上传他们的定制数据集进行分类。
网址:
http://scibet.cancer-pku.cn/index.html
13.CellPhoneDB:细胞间通讯网络研究的必备研究工具,是由英国Wellcome Sanger Institute的Teichmann Lab和Vento-Tormo Lab开发,但是在线工具不是很稳定,需下载自行分析。
网址:
https://www.cellphonedb.org/
14.scMetabolism:收集了KEGG,Reactom中的基因集,可自行上传数据,完成对单细胞数据完成代谢通路的分析。
网址:
http://www.cancerdiversity.asia/scMetabolism/
15.signatureDB: B cell数据库,相应成果在2018年发表在新英格兰杂志上,数据以表格的形式进行展示,仅供自行下载研究。
网址:
https://lymphochip.nih.gov/signaturedb/
总结
小编可以负责任的和大家讲,这是截止到目前,最全面的非肿瘤单细胞数据总结的推文了。其实还有一个数据库没有提及,那就是GEO数据库,这个数据库是很多上述讲到的数据库数据的最初来源,大家也都知道GEO涵盖了包括bulk, ATAC, Chip等各种数据,当然各大单细胞研究的数据也会优先上传在这个数据库上,小编在这里就不对其进行细说了。
各种单细胞数据库是非常宝贵的资源,对已经发表的数据进行二次分析也逐渐成为一种常态,特别对一些经费不足的小课题组,分析已经发表的单细胞数据来研究自己的科学问题是一项非常具有重大意义的工作。运用这些数据库进行数据挖掘时,首先是去综合性数据库下载数据,因为这些大型数据库对数据的整理相对规范;其次针对自己的研究领域去找疾病特异性的单细胞数据库;最后是利用可以进行在线分析的数据库对具体细胞亚群的功能进行研究;最后,希望大家都能利用好这些非肿瘤数据库资源,早早发表大paper.