三阴性乳腺癌即TNBC是一种肿瘤异质性高的乳腺癌亚型。最近的研究表明,TNBC患者可能包含具有不同分子亚型的细胞。此外,基于scRNA-seq数据构建的GRN已经证明了对关键调控因子研究的重要性。作者使用scRNA-seq对TNBC患者的GRN进行了全面分析。从scRNA-seq数据鉴定出545个恶性细胞。根据PAM50模型对恶性细胞进行亚型划分。细胞间通讯分析显示巨噬细胞在肿瘤微环境中起主导作用。接下来,通过整合基因共表达和富集结合基序构建各个亚型的GRN。然后,根据基因的中心性度量来确定关键基因。重要的是,关键基因ETV6在所有亚型中都普遍上调,但它通过调节不同的靶基因在每个亚型中发挥不同的作用。综上所述,基于scRNA-seq数据构建GRN有助于剖析TNBC的肿瘤内异质性,并鉴定TNBC的关键基因。
来自:Single-cell RNA-seq dissects the intratumoral heterogeneity of triple-negative breast cancer based on gene regulatory networks
从GEO(https:// www.ncbi.nlm.nih.gov/geo/)数据库(GEO: GSE118390)下载了6例TNBC患者(PT039、PT058、PT081、PT084、PT089和PT126)的scRNA-seq数据,该数据库包含1189个高质量细胞,并注释了细胞类型。既往研究表明,乳腺癌的恶性细胞起源于上皮细胞,因此,仅保留868个上皮细胞用于恶性细胞的鉴定。此外,下载了240个正常乳腺上皮细胞的基因表达谱,其中39个作为参考(正常)细胞用于拷贝数估算和正常乳腺上皮细胞GRN构建。此外,从TCGA数据库中获取105例正常和115例TNBC样本的基因表达谱,进行差异基因表达分析。METABRIC数据库收集了186例TNBC患者的临床信息,用于生存分析。
如先前的研究所述,恶性细胞总是伴随着高变CNV(拷贝数变异)。从基因表达谱中推断出868个上皮细胞的CNV。将240个正常上皮细胞作为CNV推断的参考集。根据基因组位置对基因进行排序,以上游和下游基因的平均基因表达量作为推定CNV。在本研究中,使用了intercnv R包进行CNV估计。在从基因表达谱推断出CNV后,进行层次聚类以识别恶性细胞簇。在亚型鉴定中,CNV高变量的细胞簇被认为是恶性细胞。
根据肿瘤细胞的基因表达谱,采用PAM50模型将肿瘤细胞分为5个亚型(normal-like, basal-like, Her2+, LumA,和LumB),该模型基于50个标记基因(PAM50基因特征)广泛用于乳腺癌亚型鉴定。然后,对基因表达谱进行了log2转化。使用genefu R包的SubPred_pam50函数分配每个乳腺癌细胞的亚型。
为了研究不同细胞类型(包括5种分子亚型)的细胞间通讯,首先,从之前的研究中获得了细胞类型注释,包括B细胞、T细胞、巨噬细胞、基质细胞和内皮细胞然后使用python CellPhoneDB(https://www.cellphonedb.org/)包估计两种细胞类型间,配体-受体对在不同细胞类型中的意义,p < 0.05的配体受体对被认为是存在显著相互作用的。
为了测试5种分子亚型的差异激活基因集,首先从分子特征数据库(https://www.gsea-msigdb.org/gsea/ msigdb)下载了50个标记基因集。然后,使用GSVA R包对5个分子亚型进行GSVA分析(基因集变异分析)。
利用基因共表达和转录结合基序信息构建了乳腺癌各亚型和正常上皮细胞的GRN。首先,这些TF是从先前的研究中获得的,该研究包含1797个特定的TF,接下来,进行共表达分析,以估计TF和靶基因之间的潜在调节强度,然后,在每个亚型和正常上皮细胞中保留富含TF结合基序的TF-靶基因对。使用python pySCENIC软件包进行共表达和TF结合基序富集分析。
在获得正常上皮细胞和5个分子亚型的GRN后,采用节点中心性指标构建网络中节点的重要性。在本研究中,使用度degree、间度betweenness、特征值eigenvalue、PageRank和接近度closeness来评估节点的中心性。这些指标使用R的igraph包计算。
在计算GRN的每个节点的五个中心性指标后,使用Q统计对每个GRN的五个节点的中心性指标进行整合: Q ( r 1 , r 2 , . . . , r N ) = N ! V N Q(r_1,r_2,...,r_N)=N!V_N Q(r1,r2,...,rN)=N!VN V k = ∑ j = 1 k ( − 1 ) j − 1 V k − j j ! r N − k + 1 j V_k=\sum_{j=1}^{k}(-1)^{j-1}\frac{V_{k-j}}{j!}r_{N-k+1}^{j} Vk=j=1∑k(−1)j−1j!Vk−jrN−k+1j其中, V 0 = 1 , N = 5 V_{0}=1,N=5 V0=1,N=5, r i r_{i} ri为第 i i i个中心度量指标, r j r^{j} rj代表 r r r的 j j j次方。最后,得到了相应GRN中每个节点的Q统计量。前1%的Q统计量被认为是每个GRN中的关键节点。
为了获得TFs在5种分子亚型特异性GRN中的功能,使用DAVID(Database for Annotation, Visualization and Integrated Discovery)在线工具进行GO注释。此外,从以前的研究中下载了与癌症标志物相关的GO术语。为了可视化,只保留了与癌症标志相关的术语。在本研究中,还研究了ETV6在五种分子亚型中的表达以及TNBC患者的临床预后。采用R生存和survminer包评估基因表达和预后意义。该研究流程图如图所示。