文章快速加分秘诀:单细胞数据的简化使用技巧

最近单细胞终于卷到了生物信息个性化挖掘。

其实18年开始,小编就开始关注单细胞的挖掘,只不过单细胞的公开数据库还是缺少挖掘的潜力和视角。毕竟对于临床医生来说为了文章去测几个单细胞,非常的不划算。况且现在单细胞已经把常见的疾病都测完了,都已经对骨质疏松,罕见病等疾病下手,可想其卷的程度。

所以现在再说测6个样本,就是一篇高分文章,肯定是不现实的。毕竟我们也不可能投入很大的精力去挖掘,去写作。而花费十几万来获取3分左右的文章,又显得那么的没有性价比,毕竟公开数据库的单细胞是免费的,缺乏的只是挖掘路线而已。

小编利用pubmed进行检索,利用公开数据库进行挖掘,主要是scRNA+bulk RNA-seq结合的,一共有265篇文章,通过手工检索,一共发现有如下文章具有一定的代表性。

其影响因子从3+,到6+不等。

从表格中可以看到研究对象一般分为单类细胞,全部免疫细胞,甚至包括只研究恶性细胞(很重要),不同的研究对象,其研究路线和行文方式也是不一样的。从表里看得出来KIRC和CRC是研究的重灾区。有相似路线的,建议小伙伴抓紧绕路。

因为对于单细胞数据,其样本数量较少,尤其是公开数据库中,更为明显,所以利用公开数据库挖掘,必须结合bulk RNA-seq 。

从单细胞层面向常规转录组过渡,基本分为三种方式,第一种是利用CIBERSORTX等方法实现基因和细胞过渡;第二种利用数据集的特点(具有不同组织和人群的临床信息)直接过渡;第三种是利用构建样本的单克隆,区分细胞的不同时期,进行分期差异,进行过渡。

当然还有最后一种,就是本文想要介绍的,小编已经调研过了,基本没有文章这么做,而且非常巧妙。

文章研究的恶性肿瘤细胞,核心在于利用将单细胞数据套用hub gene 思路,筛选出预后基因,然后与常规转录组结合,来构建预后模型。这样操作的好处在于,不用做单细胞到常规的过渡,老师们不需要考虑单细胞,也不需要掌握单细胞技术,而又巧妙的利用了单细胞数据。

单细胞数据要服务于我们的课题,而不是为了用单细胞而单细胞。

Identification and Validation of a Malignant Cell Subset Marker-Based Polygenic Risk Score in Stomach Adenocarcinoma Through Integrated Analysis of Bulk and Single-Cell RNA Sequencing Data

单细胞和常规转录组结合构建胃癌预后模型

数据来源

Bulk RNA-seq:GEO数据库中的四个数据集GSE66229、GSE113255、GSE84437 和 GSE26942;TCGA数据库中的bulk RNA-seq数据,包括375 个STAD和32个正常组织,即文中的TCGA-STAD。

ScRNA-seq:GEO数据库中的GSE134520数据集。

1、鉴定恶性细胞和非恶性细胞标志基因

本文首先是对所收集的三个bulk RNA-seq数据集分别做差异分析,图2A-C中分别展示了这三个数据集中差异基因的整体情况。具体而言,就是在GSE66229数据集中,共鉴定出14224个DEG,其中有7799个基因上调和6425个基因下调。在GSE113255中,共鉴定了8669个DEG,上调基因为7473个,下调基因为1196个。在TCGA-STAD中,共鉴定出13353个DEG,上调基因和下调基因分别为 7077个和6276个。对这些差异基因按上调和下调分组分别取交集,发现这三个数据集中的上调基因和下调基因存在很大的差异(图2D-E),所以必须筛选出在大部分样本中都稳定差异表达的基因才能作为标记基因用于后续分析。简而言之,研究人员首先根据单个数据集中的log2(倍数变化)对DEG进行排序,然后对三个排序后的列表进行综合排序,最后根据p值排序,将前 50个显着上调的基因视为恶性细胞标志基因,将前50个显着下调的基因视为非恶性细胞标志基因。图2F-H中的三个热图分别展示了这100个基因在三个数据集的肿瘤和正常样本中的差异表达情况。

此外,对三个数据集中的上调和下调基因的交集进行KEGG分析发现,上调基因所富集的通路主要包括细胞周期、p53信号通路等,而下调基因所富集的通路主要是氧化物酶体增殖物激活受体 (PPAR) 信号通路、胃酸分泌和 AMPK 信号通路(图2I-J)。

2. 早期胃腺癌的肿瘤异质性

根据前面所筛选出的恶性细胞及非恶性细胞的标记基因,可进一步利用胃腺癌的scRNA-seq数据进行肿瘤异质性分析。通过软件包SCINA在3771个质控合格后的细胞中共鉴定出了2506个恶性细胞、63个非恶性细胞以及1202个未知类型细胞(图3A)。但基于前文中所鉴定的100个标记基因对这些细胞进行PCA分析,发现这三类细胞并不能被很好的分开(图3B)。于是研究人员单独将其中2506个恶性细胞进行亚群聚类,以便进行后续分析,聚类后一共得到9个细胞亚群(图3C),图3D中展示了前5个标记基因在这9个亚群中的表达情况。

恶性肿瘤中具有高度异质性的细胞群,研究不同细胞群中的分化轨迹和相应基因可能有助于阐明癌症发展的分子机制。研究人员通过Monocle R包对恶性细胞进行拟时间分析,发现其分化轨迹包括七种状态(图4A)。图4B中展示了分支表达分析模型 (BEAM) 中前100个显著差异表达的基因热图。

3. 基于细胞标记的多基因风险评分预测胃腺癌预后

文章的最后一部分是构建风险评分模型及其验证,具体是怎么进行的呢?我们一起来学习一下。首先研究人员结合前文中通过bulk RNA-seq数据所确定的恶性细胞标记基因和scRNA-seq中所确定的9个恶性细胞亚群的标记基因在TCGA-STAD数据集中进行单变量cox分析,得到38个与OS显著相关的基因,最后筛选出其中的10个基因用于后续构建多基因风险评分 (PRS),PRS与OS显著相关(图5A)。ROC分析显示PRS在预测患者5年内OS的效果不错(图5B-C)。此外,PRS也与患者的PFS相关,若根据中位PRS将STAD患者分为高危组和低危组,且与低风险组相比,高风险组患者的OS(图5D)和PFS(图5E)都更短。通过PRS和常规临床病理特征的多变量Cox分析可知,PRS是一个独立的预后因素(图5F)。

研究人员还将PRS与OS相关的常规临床病理因素相结合来构建用于预测OS率的列线图模型(图6A),以便更好地预测STAD患者的预后。OS在1-3年的校准曲线表明预测和观察之间具有良好的一致性(图6B-D)。

最后便是对PRS的验证。研究人员采用三个数据集(GSE84437、GSE66229和GSE26942)用于验证 PRS 的预后价值,验证结果与预期一致,且效果不错,发现高风险组患者的OS比低风险组患者短(图7)。

你可能感兴趣的:(文章快速加分秘诀:单细胞数据的简化使用技巧)