大家好,今天给大家分享的文章是今年9月发表在Nature Communications(IF:14.919)上面的一篇文章。前列腺癌具有异质性,那些对系统治疗有反应的患者,如果存在某些方法对这些患者进行分层,那将使患者受益。这篇文章就是采用ATAC-seq和RNA-seq的单细胞检测方法,对恩杂鲁胺(一种抗癌药物)的早期治疗反应和耐药性模型进行研究。
方法
RNA测序及预处理
LNCaP和VCaP细胞系是从ATCC机构获得。VCaP细胞的RNA测序是用Illumina HiSeq3000进行的,实验中对3个重复样品进行了测序,平均每个样品获得1.11亿个双端reads。在预处理过程中,基于Ensembl参考基因组GRCh38使用STAR对reads进行了比对。使用featureCounts和Gencode注释对read counts进行了定量。
单细胞样品制备和测序
对于scRNA-seq,使用CellRanger将测序reads处理为FASTQ格式和单细胞特征counts。同样地,使用CellRanger ATAC将scATAC-seq的测序reads处理为FASTQ格式,并计算峰-条形码counts。LNCaP-ENZ168、VCaP和VCaP-ENZ48的Drop-seq(液滴测序)样本经过预处理、比对,并使用Drop-seq工具处理成细胞计数矩阵,预计每个样本包含1000个细胞。该流程使用STAR和Picard工具,并使用了人类参考基因组GRCh38和Gencode注释。
甲醛辅助分离调控元件(FAIRE)测序和分析
FAIRE分离的DNA片段用罗氏KAPA试剂盒进行文库制备,在Illumina HiSeq2500上测序,产生50bp的单端reads,并使用bwa与hg19进行比对。使用Picard对重复进行了标记和重比对。使用MACS2对比对文件进行peak calling,DiffBind被用来探索峰的重叠情况,并推导出共识峰集。通过计算每个样本条件下重复的reads平均数,对共有峰位点、MYC(髓细胞增生原癌基因)结合位点和AR(雄激素受体)结合位点进行读长分布分析,并使用t检验比较样本之间的分布中心值,以评估这些位点的染色质开放性差异。
单细胞RNA预处理和质量控制
CellRanger的输出被用作Seurat的输入,用于进一步分析scRNA-seq样品。对于每个样品,根据检测到的基因数量、检测到的分子总数和来自线粒体基因组的reads百分比筛选出质量差的细胞。为了解决数据中细胞周期异质性的影响,使用Seurat CellCycleScoring函数对每个细胞的S期或G2/M期相关基因的表达进行评分。使用sctransform对G2/M期和S期之间的评分差异进行评估。在单细胞RNA聚类中,研究者使用相互最近邻方法fastMNN对4个LNCaP样本进行整合,使用了2000个整合特征并考虑了批次效应。使用Seurat进行聚类和UMAP非线性降维。每个簇的特征基因和样本间的差异表达基因是用Seurat的广义线性模型MAST框架来识别的。如果Bonferroni校正的P值<0.01,簇中至少有10%的细胞表达该基因,且平均倍数变化至少为0.25,则该基因被认为是差异表达的。此外,研究者利用MSigDB中的hallmark基因集,根据其差异表达的基因来表征聚类和样本。具体的步骤是使用GSVA包进行了基因集变异分析(GSVA),以表征每个聚类的平均表达量。然后使用fgsea包对MSigDB hallmark基因集进行基因集富集分析。使用cytoTRACE预测了每个样本中每个细胞的分化潜能。使用scVelo评估了scRNA-seq样本中单细胞的RNA速度。
单细胞ATAC预处理和质量控制
CellRanger ATAC流程的输出被用作Signac软件包的输入,用于进一步分析scATAC-seq样品。对于每个样品,筛选出劣质细胞。使用Signac和潜在语义索引(LSI)进行数据归一化和降维。使用LSI嵌入的harmony方法对scATAC-seq样本进行整合聚类。得到的结果被用作Signac软件包的输入,用于UMAP非线性降维和聚类,使用默认参数和SLM算法进行模块优化。通过汇集每个样品中所有优质细胞的reads,对scATAC-seq样品中的染色质可及性变化进行分析。使用Signac中的TSSEnrichment函数生成转录起始位点的富集,CoveragePlot函数生成基于片段覆盖率的染色质可及性轨迹。使用ReactomePA评估Reactome通路的过表达。用Signac的逻辑回归模型来识别聚类中的差异可及区域,该模型根据每个基因来预测群组成员,并使用似然比检验来比较结果和零模型,以峰的总数作为潜在变量。如果Bonferroni校正的p值<0.05,至少有10%的细胞在该区域显示出可及性,并且平均倍数变化至少为0.25,则该区域被认为是可及的。使用SignacClosestFeature函数用最接近的基因对差异可及区域进行注释。使用R包ggradar对样品间簇的差异可及区域进行可视化。
scATAC-seq的转录因子基序富集和转录输出
使用R包TFBSTools、BSgenome.Hsapiens.UCSC.hg38和从RJASPAR2018数据包中检索的JASPAR数据库的位置-频率矩阵,在样品条件之间和每个样品簇之间的差异可及染色质区域中使用Signac进行转录因子基序富集。考虑到染色质区域的序列特征(如GC频率),因此使用了超几何检验来检验显著性基序富集。通过评估富集的转录因子的靶基因和scRNA-seq簇中差异表达基因之间的重叠,将scATAC-seq中的染色质状态与scRNA-seq中的转录输出相关联。
基于标签转移整合scRNA-seq和scATAC-seq数据集
LNCaP,LNCaP-ENZ48,RES-A和RES-B的每个样本都有scRNA-seq和scATAC-seq数据。这些数据类型使用Signac和Seurat中实现的聚类-标签转移程序进行整合。每个scRNA-seq样本被单独聚类,其聚类标签被投射到匹配的,单独聚类的scATAC-seq样本上,每个样本的聚类分辨率使用clustree进行评估和确定。另外,RNA-seq的表达水平从scATAC-seq数据中推算出来。通过测试不同的预测分数阈值,发现在所有样本中,使用0.3的阈值,大约有50%以上的细胞在数据类型之间进行了标签转移。
RNA-seq和临床数据分析
使用GSVA包对每个基因特征或基因集进行富集评估并在样本中评分。在单细胞水平评估基因集表达的情况下,Seurat中的AddModuleScore函数被用来生成每个细胞的平均表达分数。生存分析使用survival包进行,Kaplan-Meier曲线使用survminer包绘制。对于单一特征的生存分析,使用中位GSVA评分将患者分为低表达和高表达的特征组。对于多个特征的生存分析,利用每个特征的GSVA富集分数,使用欧氏距离和层次聚类法对样本进行聚类。聚类结果随后被用来确定生存分析中的两组样本。
原发性前列腺癌组织的空间转录组学分析
从一名患者身上获得了两片冷冻的PC组织,在Illumina NovaSeqPE150测序仪上完成测序。测序数据首先用10xGenomics的SpaceRanger进行处理,以获得两个部分的表达矩阵。然后用Seurat进行下游处理和聚类,用sctransform对数据进行归一化处理,以考虑测序深度差异。Seurat的AddModuleScore函数被用来对基因特征的spot进行评分。研究者比较了管家基因集和scRNA-seq特征集的基因表达分数分布,以确定第90个百分点作为cutoff,在这个分界点上把spot视为具有高表达的scRNA-seq特征。
结果
染色质重编程是恩杂鲁胺耐药的基础
为了研究PC中AR信号抑制和耐药动力学的分子后果,利用LNCaP亲本细胞系、LNCaP衍生的ENZ耐药细胞系RES-A和RES-B,这些细胞系通过长期暴露于AR靶向药物而产生,以及其他独立生成的LNCaP和VCaP衍生模型(图1a)。为了确定染色质结构对ENZ抗性的影响,对4个样本进行了scATAC测序(图1a)。与亲本细胞相比,ENZ抗性细胞中转录起始位点(TSS)的ATAC-seq信号下降(图1b)。这种趋势也被发现在管家基因、雄性激素反应通路的基因和参与MYC信号传导的基因中,表明这种模式不限于一个特定的基因集。此外,与RES-B和LNCaP相比,RES-A细胞的独特开放位点比例更高(图1c)。
研究者通过对亲代LNCaP和RES-A细胞进行FAIRE测序,证实了ENZ抗性细胞中染色质开放和重编程的程度。虽然开放染色质位点的总数没有明显差异,但与亲代相比,在雄性激素存在和雄性激素匮乏的条件下,ENZ抗性样本有更高比例的独特开放位点。接下来,研究者基于scATAC-seq样本来生成具有不同染色质可及性特征的细胞亚群的聚类可视化(图1d),由此确定了各样品中独特或共享的簇(图1e)。独特的簇是专门针对RES-A和RES-B,共有的簇以相似的比例存在于样本中,被命名为持续簇(图1e)。将每个簇与其他所有的簇进行比较,根据差异可及的染色质区域(DAR)来确定其独特的染色质特征。就细胞数量而言,最普遍的基于染色质的scATAC-seq簇是持续的(图1e),这表明在ENZ抗性的发展过程中,74%的细胞共享一个整体类似的染色质可及性谱。然后,评估了亲代LNCaP、LNCaP-ENZ48以及RES-A和RES-B之间簇染色质DAR的变化。在对恩杂鲁胺的短效反应期间,在几个簇的MYC和TP53周围观察到DAR。
已有研究表明,在无雄性激素的情况下长时间培养的PC细胞系往往显示出类似神经内分泌的表型。结果发现,RES-A和RES-B细胞中NEPC衍生的特征表达升高,以及原始簇中NEPC下调的基因表达升高。此外,在相同细胞系的RNA测序中,NEPC特征的基因集变异分析显示,只有RES-A细胞中NEPC上调的基因表达量较高。这些数据显示,在出现对AR靶向药物的耐药性过程中,染色质发生了广泛的重编程。
恩杂鲁胺的耐药性重构了染色质中TF结合DNA基序的可用性
染色质的可及性通过暴露TF DNA结合基序的轨迹来确定细胞的转录输出。根据reads分布分析,观察到ENZ抗性细胞中MYC结合位点的开放染色质明显增加(图2a),去势条件下AR结合位点的开放染色质减少(图2b)。这些发现表明,ENZ抗性的染色质失调与AR和MYC染色质结合的重构有关,这与之前报道的一致。
为了解决染色质重编程如何在单细胞水平上影响TF DNA基序的暴露,研究者对每个样品中scATAC-seq细胞簇的标记DAR进行了TF基序富集分析(图2c)。在RES-A和RES-B中,簇3和簇5富集了相同TF基序的子集,簇5在所有样品中显示出一致的富集趋势(图2c)。簇3以FOXA1和JUND为特征,而簇5以CTCF、ETS和MYC为特征,尽管它们拥有不同的DAR,但ENZ诱导的簇6和簇7在RES-A或RES-B中并没有显示出TF基序的富集。值得一提的是,MYC和ESR1分别是RES-A和RES-B中所有簇中最常见的(图2d)。这些分析表明,ENZ耐药性与TF DNA基序轨迹的重构有关。
恩杂鲁胺耐药性的转录模式由不同的染色质重编程引起
为了研究与单细胞水平的染色质结构重组有关的转录模式,对LNCaP亲本、RES-A和-B模型进行了scRNA-seq。4个LNCaP样本的综合聚类(图3a)显示了7个持续、3个ENZ诱导和3个初始细胞簇,由标记的差异表达基因集构成(图3b)。为了证实这些细胞亚群与ENZ抗性的其他独立模型有关,使用标签转移方法探索独立scRNA-seq数据集中的匹配细胞群。转移scRNA-seq簇标签证实了LNCaP亲代和RES-C中原始簇的存在,在RES-C和LNCaP-ENZ168中证实了ENZ诱导簇的存在。由于大多数scATAC-seq簇的细胞比例与scRNA-seq的簇3细胞相对应(图3e),这表明该簇的细胞可能代表了ENZ抗性的基因组。对VCaP细胞的分析证实了VCaP亲代细胞以及VCaP-ENZ48的原始和ENZ诱导细胞的普遍性(图3c)。接下来,将scRNA-seq簇与其匹配的scATAC-seq簇连接起来,再次利用标签转移的方法,在相同的样本条件下确定匹配的scRNA-seq和scATAC-seq细胞状态。结果发现,一个染色质状态可以对应多个转录状态。通过探索scATAC-seq数据中的scRNA-seq簇,结果可以在scRNA中找到所有scATAC簇的匹配细胞状态,其中scATAC簇中的细胞通常对应于多个scRNA簇(图3d-e)。总之,这些数据表明,ENZ抗性细胞的转录构型,特别是在治疗期间的持续细胞,是由染色质结构和TF介导的转录重编程驱动过程产生的,这些过程影响许多的细胞命运调节因子。
具有干性特征的前列腺癌细胞亚群先于恩杂鲁胺耐药
细胞周期阶段可能是scRNA-seq数据整合聚类的一个重要决定因素。在Seurat中使用细胞周期评分法,持续簇8、9和11的S期和G2/M期相关基因得分很高(图4a),表明这些簇中的细胞循环和增殖更为活跃。然而,簇11中的细胞不仅具有细胞周期基因的特征,还参与染色质重塑等过程(图4b)。簇5和11显示了一个基因集的高表达,该基因集表征了具有干细胞样、雄激素不敏感和细胞周期驱动特征的细胞亚群(图4c),将这一基因特征命名为Persist。另外,在亲代LNCaP的ENZ治疗前,原始簇10对PC相关基因特征的评分很高,并将其命名为PROSGenesis(图4d)。最后,将PROSGenesis和Persist基因在scRNA-seq样品中的表达进行了可视化,以证实这些亚群细胞在其他模型中的存在(图4e)。
使用CytoTRACE根据表达基因的数量估计分化状态,在大多数样品中,簇11中的细胞显示出高发展潜力(图4f),表明其他细胞亚群可以从该簇的细胞中衍生出来。RNA速度分析预测簇10是恩杂鲁胺诱导的簇前体(图4g)。RES-A和RES-B的簇差速分析显示,许多PC相关基因如ATAD2下调,以及UBE2T等基因的上调。另外,ATAD2和UBE2T在持续簇8、9和11中上调,这表明在ENZ诱导的簇中发生了额外的转录重编程。这些分析得出了ENZ耐药之前两个不同的PC细胞亚群:一个与Persist匹配的持续细胞簇(簇11)和一个与PROSGenesis匹配的原始簇(簇10)。
前列腺癌RNA测序中基因特征的表征
根据基因组变异分析,大多数持续簇和簇10显示E2F靶点、G2M检查点和MYC靶基因的富集,表明在RNA-seq数据中可以检索到细胞亚群的信号。簇内的差异表达和基因集富集分析进一步显示,氧化磷酸化在LNCaP-ENZ48中被上调,这一过程在RES-A中被选择性的维持,但在RES-B细胞中未被维持。此外,在ENZ耐药性的产生过程中,受活化mTORC1信号调节的基因在大多数簇中一致上调,这与之前的报道一致。大部分情况下,ENZ诱导的DEG选择性地出现在RES-B细胞中。同样,当用DHT诱导时,持续簇只在RES-A和RES-B中与持续特征相关。另一方面,PROSGenesis特征仅在RES-B中升高(图5)。总的来说,持续簇,原始簇,PROSGenesis和Persist基因特征具有从RNA-seq来识别前列腺癌侵袭性、再生特征的潜力。
转录信号富集分析识别了前列腺癌患者的治疗持续细胞和预后基因特征
研究者获得了已有研究ENZ治疗CRPC患者的临床数据,对单个基因特征的PFS分析显示,Persist特征基因得分较高的患者与PFS较短有关(图5c,d),而PFS较长的患者在PROSGenesis和原始簇特征上得分高。这些数据表明,对ENZ耐药的单细胞分析中,与持续细胞(簇11)相关的Persist特征是一个有效的分类器,可能对患者进行分层,以确定对AR靶向治疗的反应(图5f)。此外,研究者基于最近发表的PC相关的scRNA-seq数据集,分析显示与成纤维细胞相比,LNCaP模型衍生细胞簇在管腔和基底/中间细胞中得分更高。此外,与基底/中间细胞和原始细胞相比,管腔细胞具有更高的与原始scRNA-seq簇相关的基因表达。然后,对来自Persist和PROSGenesis特征的基因表达细胞及其相关簇和一些对照特征进行评分(图6b)。在Persist特征评分较高的细胞中,约48%为管腔细胞(图6c)。在PROSGenesis特征中得分较高的细胞大多为基底细胞/中间细胞(图6d)。每个肿瘤平均有8%的细胞在Persist和PROSGenesis特征上得分较高(图6e)。
为了探索这些细胞的存在和它们的相对组织病理学位置,用空间转录组学评估了原发性PC切片内的基因表达(前列腺A和B),利用聚类分析重建了基质和上皮成分的基因表达信号,并在基质组织(ST)、良性上皮(BE)和腺癌(PC-AC)的5个簇中注释了组织结构(图6f)。PROSGenesis和Persist特征,以及伴随模型衍生的簇10特征,与来自管家基因特征的分数相比,在切片内显示出高表达分数(图6g)。在两个切片中,高信号的spot分布在所有5个簇中(图6h)。然而在前列腺A中,与ST相比,PC-AC簇中 Persist 特征得分高的spot更为普遍(图6h)。这些数据表明,在PC患者未经治疗的原发性前列腺组织中,存在着治疗的持续细胞,具有很高的转移潜力。
最后,研究者验证了是否能利用从这些细胞中提取的特征基因预测原发性PC患者的复发,由此获得了原发性肿瘤TCGA PRAD(图7a)和早发性PC ICGC RNA-seq数据。使用所有特征进行聚类,TCGA PRAD队列分离出54%的GS(Gleason分级)-7和15%的GS-8+患者,他们不会从额外的治疗中受益,因为他们的预后相对较好(图7b),在ICGC队列中也观察到类似的趋势。在TCGA队列中,ENZ诱导的簇(图7c)、PROSGenesis(图7d)、Persist(图7e)和持续簇(图7f)基因特征是簇分离的最重要因素,而NEPC下调基因是ICGC队列的主要决定因素。这些肿瘤中反映AR活性的特征在TCGA队列中与较长的进展时间相关(图7g,h),表明AR驱动的肿瘤对AR信号的抑制有更好的反应。在早发性PC队列中,与TCGA PRAD队列相比,持续簇和PROSGenesis特征对GS-7患者进行了显著的分层,表明这些特征能够进一步确定基于GS的患者风险分层,避免过度治疗。高PROSGenesis评分与良好的预后以及来自原始簇10的基因集相关(图7i)。在TCGA队列中,13个簇衍生特征中有8个与PFS相关(图7i),表明这些特征在PC患者风险分层中的重要作用。
参考文献: Single-cell ATAC and RNA sequencing reveal preexisting and persistent cells associated with prostate cancer relapse
更多精彩文章可关注 生信人
更多最新文献免费订阅 可关注医科文小程序