【单细胞】PCMDB:植物细胞标志物数据库

生物学中最基本的问题之一就是哪种类型的细胞以功能协调的方式形成不同的组织和器官,单细胞测序技术的出现使得科研人员可以在单细胞分辨率下研究细胞表型和细胞行为。单细胞测序技术最有吸引力的应用之一是解码复杂的细胞异质性,并创建不同组织/器官中所有细胞类型的综合细胞图谱。

随着单细测序技术的日渐成熟,越来越多研究开始选择并利用单细胞测序,使得其成为研究生物学问题的有利工具。单细胞测序最基本,也是最核心的分析为细胞群体聚类,常见的表现形式是t-SNE或U-MAP聚类,在细胞聚类的基础上分析细胞间基因表达差异、细胞分化时序或者发现鉴定罕见/新细胞群体。

因此,根据细胞的特征性基因和特征性生物学功能去定义每一个细胞群体,是单细胞测序最关键的部分。细胞属性定义常用的策略是基于大量实验或者参考大量文献,挖掘不同细胞群体的特征性表达基因,此方法虽然准确但比较耗费时间,是否有一种数据库,可以让我们可以查看不同细胞群体的marker基因,或者输入输入一个基因,数据库就可以告诉我们该基因属于哪种组织、哪种细胞呢?

发表在2019年1月NAR上的CellMarker数据库收录了158种组织/亚组织的467种人细胞类型, 81种组织/亚组织的389种鼠细胞类型。数据主要来源于文献和数据库,包括单细胞测序数据和生物实验数据。不过这个数据库主要面向人类和小鼠。

我们这几年也开始尝试在烟草上的单细胞研究,但是在做的过程中遇到好几个问题:原生质体的制备细胞活性有时候不够,现有软件分析多倍体尤其是重复序列较多的时候不够理想,cluster需要不断调整(最优不太好确定),cluster label的时候marker基因挖掘很是繁琐,cluster label现有的工具准确性还很欠缺等等。其中一个工作就是,为了解决cluster annotation这一耗时和繁琐的工作,我们去年就开始思考,能不能自己建立一个专门面向植物的marker gene数据库,一是方面自己,同时也方面研究植物单细胞的人。也很幸运,经过多轮审稿,前2天最终被NAR accept了(PCMDB:a curated and comprehensive resource of plant cell markers  【http://www.tobaccodb.org/pcmdb/homePage】 )。

数据来源

PCMDB数据主要有三类来源:实验相关的文献挖掘,单细胞研究发现的可能marker基因,以及一些tissue/cell研究发现的显著差异marker基因。

一致性和扩展性

为了不同物种和不同研究之间的可比性,以及日后的扩展性考虑,我们对于cell的层级机构和命名采用Plant Ontology数据库中的格式。

通过cell和物种名字以及关键词搜索,初步的获取了125,490篇文献,其中31,967篇拟南芥的,17,945篇水稻的,16,552篇玉米的,11,593篇大豆的,10,150篇番茄的和37,283篇烟草的。然后各个专家通过粗略的查看摘要和全文,例如选取有GFP,GUS染色等等实验验证的,最后获得拟南芥2883篇,水稻996篇,玉米649篇,大豆336篇,番茄277篇和272篇烟草的。最后再仔细查看全文以及相应物种的官方注释信息efp表达等等,或者marker基因的相关所需信息。(PS:这一步也是我们收集数据最耗时的步骤

对于单细胞文献,主要是关键词挖掘(“single cell,” “single cell sequencing,” “single cell RNA sequencing,” “single cell RNA-seq,” “single cell RNA seq,” “single cell transcriptome,” “single cell transcriptomics,” and “scRNA seq” 等)。最终获取拟南芥14篇,水稻3篇,玉米3篇和番茄1篇。单细胞的maker gene主要是来自文章的附表。但是由于cluster结果不能获取,所以我们对于每个单细胞数据又重新自己进行了分析和聚类,来做可视化显示用。

对于转录组数据的获取,没什么特别的地方,也是关键词挖掘(genomewide/genome-wide,” “transcriptome,” “landscape,” and “global”等)。只不过这个数据和关键词搜索的结果noise较高,需要手动的进行过滤,比如通过title和abstract过滤掉基因家族研究等非tissue/cell level大转录组的文章。然后提取附表,没有附表的自己下载原始数据进行重分析。

最终获得的marker基因数据量信息如下图所示。

在我们基本快做完的时候,2021年5月4日,浙江大学樊龙江教授团队在Molecular Plant发表了题为“PlantscRNAdb: A Database for Plant Single-cell RNA Analysis”论文,介绍了他们刚刚建立的植物单细胞RNA(scRNA)分析数据库“PlantscRNAdb”。PlantscRNAdb数据库涵盖了已开展单细胞研究的4个模式植物(拟南芥、水稻、番茄和玉米),提供了多种来源的细胞类型标记基因信息,如早期实验、RNA-Seq和scRNA-Seq等途径获得的标记基因。另外,为明确来自单细胞数据标记基因的可信度等级,樊龙江团队重新分析scRNA数据,并将鉴定出的标记基因进行了分类:当特定细胞类型中某个标记基因的读序数占该基因读序总数的80%以上时,即该标记基因的表达主要由这一特定细胞类型贡献,记为“Marker#1”(即“Marker80”),否则记为“Marker#2”。

整体来说,设计理念和我们是类似的,我们也就是多了2个物种。详细来看,我们发现:1)实验验证的marker gene部分(我们最耗时的部分),他们的marker基因的数量和文献的数量非常有限,他们文章中描述是通过查看GFP expression等。但是如果仅仅是利用这个关键词,我觉得操作起来貌似很困难,逻辑也不太通。所以进行overlap分析后发现,他们中的实验验证的marker基因几乎95%都是包括在我们的数据集中的。从数量上,我们也是比他们多出很多的;2)有些物种无法比较,因为比如玉米和大豆,数据库中给出的仅仅是基因名字,没有官方的ID等信息,从这一点上对于后续的使用和扩展也是不方面的;3)cell上也没法进行对比,因为他们采用的cell命令比较凌乱,无法进行对照和对比。但是樊老师团队工作先于我们发表,对于我们还是影响很大的。没办法,工作被抢发,也不是第一次碰到了,科研也是竞争非常惨淡的,只能发掘自己工作其它的亮点了,尤其是不再是第一个的时候。

因此,虽然樊老师团队已经进行了发表,我们觉得我们的工作还是有很大的优势的,最大的劣势就是不是第一个这样的工作了,这个比较遗憾。

从功能的层面,我们也进行了提升,比如多元化的搜索和展示工具。词云图,marker基因在几个物种中的efp表达值展示,以及对于有转录组和single-cell数据的bar图以及U-MAP和t-SNE展示。

除了常规的好看好用的搜索和展示工具之外,我们设计之处就是为了方面用户进行cluster annotation的。所以我们就想怎么方面用户的这一需求。我们测试了目前常见的cluster annotation工具,最后在线的支持了2个:SCSA和singleR,因为这2个对于资源的需求较小,运行时间较短,其它常见的比如:Garnett,SingleCell Net, Cell-ID,scCATCH等。但是即便如此,我觉得这一步的结果还是提升的空间很大,方法部分还是很欠缺的。

当然,我们这个库还是有很多limitation的,就不详细叙述了,欢迎感兴趣的多使用,给我们多提意见,多citation我们的work。

本文使用 文章同步助手 同步

你可能感兴趣的:(【单细胞】PCMDB:植物细胞标志物数据库)