纯生信分析套路 肿瘤拓扑图+无监督深度学习

一、当前治疗局限性

皮肤黑色素瘤其恶性程度和侵袭性较强,也是导致全球发病率和死亡率攀升的主要原因。目前,患者接受系统性抗-CTLA-4 和抗-PD-1免疫疗法有持续的治疗效果,但是还是对部分患者无效。其主要原因,一方面是肿瘤免疫逃避的内在机制作用,另一方面是免疫抑制受到肿瘤微环境的调节。其中细胞外基质(extracellular matrix,ECM)被纤维母细胞修饰,这一修饰会增加ECM壁厚和胶原纤维,起到限制免疫细胞接触癌细胞的物理屏障作用。

因此,上述的内在机制其形成原因还没有了解清楚。


二、基质网络介导的免疫抑制,究竟该何去何从

肿瘤微环境的空间结构即肿瘤拓扑图(topological tumor graphs,TTG)研究,可以清楚解析所有细胞类型间的空间相互作用,作为肿瘤-宿主相互作用的表型。分析由于细胞核形态不同而区分的不同的细胞类型。主要有肿瘤细胞(大而圆的细胞核)、淋巴细胞(小而深的细胞核)和基质细胞(纺锤形细胞可能是成纤维细胞,可能包含内皮细胞)。


另外,根据病理切片图推导TTG,用社会网络分析算法去构建肿瘤微环境,并基于TTG的病理切片将看似混乱的细胞分布数据转化为高度结构化的微环境表型,整合高维基因组数据,使用无监督深度学习,降维的同时整合拷贝数变化(copy-number alterations,CNA)和基因表达数据,完成基因型-表型整合。 


三、数据实战

数据下载

TCGA(The Cancer Genome Atlas)下载未进行系统治疗的400名SKCM患者队列全肿瘤切片数据,随机分成数目相同的测试组和验证组。另外还有12名接受了连续活检的转移性黑素瘤患者,使用靶向CTLA4、PD-1或两者联合的抗体治疗。


图像处理

使用计算病理学pipeline(CRImage)得到每个细胞核形态特征,包括形状,强度,结构特征。根据97个形态和结构特征做支持向量的细胞类型分类,有人工细胞、淋巴细胞、癌症细胞和基质细胞。另外,黑色素瘤细胞分类流程如下:

1. LScore

肿瘤内淋巴细胞分布和密度定义LScore,LScore = 淋巴细胞分布(0-3,0=组织中没有淋巴细胞,1=组织横断面积约25%有淋巴细胞,2=25%-50%存在淋巴细胞,3=组织中50%以上存在淋巴细胞)+淋巴细胞密度(0-3,0=没有,1=轻度,2=中度,3=严重)。

2. 纯度估计

3. 估算淋巴细胞分数

4. 免疫表型聚类

共分为3簇。

5. 差异表达分析

TCGA Biolinks (http://bioconductor.org/packages/release/bioc/html/TCGAbiolinks.html)中TCGAanalyze_EAcompleteforenrichmentanalysis

进行差异表达基因分析。

TTG

在自动图像分析提供的细胞空间映射基础上,将每个细胞视为一个节点,当细胞在空间上接近(<35 mm)时绘制细胞之间的边缘。这一阈值是通过计算肿瘤-间质界面中癌细胞与最近的基质细胞之间的距离来确定的。然后利用所有分布的平均值。通过将癌细胞的所有边缘删除到非癌细胞创建癌症超节点。然后计算剩余网络中的连通分量。与超过50个细胞相连接的成分被合称为癌症超节点,再次连接成网络。对于每个网络,只保留最大的连接组分。

网络中心的措施

通过将节点按其细胞类型分开,创建特定细胞类型的节点度(无论细胞类型是什么,邻居都被计数)。这里使用聚类系数作为统计量,聚类系数=所有封闭的三节点/所有三节点,度量节点的邻域的连通程度。


肿瘤内间质细胞的平均聚类系数为间质聚类,只统计间质细胞的邻居。基质屏障由淋巴细胞必须穿过的基质细胞数统计得到,样本中淋巴细胞的单个基质屏障的平均值视为样本的整体基质屏障。


中间度衡量基于最短路径的通信网络中的通信量,通过该节点的每对节点之间的最短路径数为某节点的中间度。在每类细胞中,计算中间度平均值,即为该细胞的细胞网络中间度。

生存分析

单变量Cox比例风险模型用于检测肿瘤间质聚集和屏障高低的患者间总生存率(OS)的差异。患者将根据简直屏障上/下四分之一分为高低间质屏障,加入临床信息,同样标准做多变量Cox回归,使用Kaplan-Meier曲线进行可视化。

基因组和转录组数据

从TCGAbiolinks (http://bioconductor.org/packages/release /bioc/html/TCGAbiolinks.html)下载RNA测序转录数据。从Broad Institute TCGA Genome下载SNP6 Copy number analysis基因组数据。Hg19作为参考基因组比对,进行差异表达分析。

CNx

CNx整合转录组数据和拷贝变异数据,利用高斯混合聚类对转录组数据进行二值化,并将其用于无监督深度学习网络的损失函数。输入拷贝变异数据,损失函数是拷贝数数据与二值化基因表达数据之间的交叉熵。通过将各层的权重矩阵(22)相乘,选择权重大于均值两个SDs的基因来确定节点的基因。


二进制化节点后,CNx瓶颈层可视为一个网络。采用激活阈值比例评估该节点是否被激活。

Software and data

图像处理采用CRImage和EBImage,Python软件包NetworkX创建肿瘤拓扑图。编码器-解码器网络使用Python和Tensorflow实现。基因组分析使用R中进行TCGAbiolinks。

Code availability

CRImage可从Bioconductor获得。包括肿瘤拓扑图的代码和相关分析的R代码(https://github.com/henrik86 / topology-tumourgraphs)。


 

四、结果呈现

黑色素瘤全肿瘤组织切片中的细胞空间分布

对TCGA400个患者的样品进行全检和H&E染色全自动图像分析(图1A),样本包括原发肿瘤(n = 91),区域淋巴结转移(n = 191), 局部皮肤转移(n= 61), 远距离转移(n=51)肿瘤, 另外有六个样本没有分类。全切片图像进行细胞类型区别,癌细胞,淋巴细胞,包括纤维细胞和内皮细胞在内的基质细胞,同时计算个体细胞百分比。


通过使用H&E图像上的单细胞注释、病理学家评分、估算免疫亚型、肿瘤纯度测量和通路分析验证了从图像分析得出的细胞分类。淋巴细胞计数分数高的肿瘤,淋巴细胞百分比明显增高。差异基因表达分析显示,高淋巴细胞百分比的样本富集了免疫相关途径,包括B细胞和T细胞受体信号。


构建TTGs对黑色素瘤微环境的结构定位

基于图形的算法定量地解剖基质结构,构建淋巴细胞、基质细胞和癌细胞三种细胞的空间关系图1B所示。基质细胞的平均结度显著比癌细胞的低(P < 2.2e–16),表明癌细胞与邻近细胞的空间相互作用比基质细胞更强。淋巴细胞的节点程度分布较广,表现为混合的连接模式(图1C)。基质细胞的聚类系数比具有相似聚类系数分布的癌细胞和淋巴细胞具有更高的变异性(图1D)。相比之下,不同细胞类型间的中心性无显著差异,表明细胞相对于网络中心的位置差异不大(Fig. 1E)。

(图1:计算模式。A自动计算病理pipeline模式分析以单细胞分辨率分类的H&E染色图像TTGs显示。B全肿瘤切片TTG图。C-E节点度、聚类系数和介数的细胞类型特异性分布,t检验的P值。)


基质聚类

测定淋巴细胞对癌细胞的可接近性(在黑色素瘤中经常进行的组织病理学观察),以“基质屏障”测量(图2A和B)。比较本组间质特征与临床病理特征TCGA黑色素瘤组(表一),与肿瘤类型相比,原发性黑色素瘤的间质聚集明显低于转移瘤,而原发性和转移性黑色素瘤间质屏障没有显著差异。基质聚集和屏障分别与基质百分比成正相关,与淋巴细胞百分比成负相关。对肿瘤类型(原发肿瘤、区域淋巴结转移和远处区域皮肤转移)的分层分析中,淋巴细胞百分比与间质特征呈负相关,表明间质特征与淋巴细胞呈负相关,与肿瘤类型无关。

(图2:淋巴细胞浸润的基质屏障的概念说明。A.H&E染色图中基质屏障B.癌症超节点)


(表一:TCGA黑色素瘤队列中基质特征与临床病理测量的关系)

肿瘤微环境结构的定量测量与患者生存相关

单变量生存分析发现,高基质聚类(图3A)和屏障(图3B)均与不良的10年OS相关而基质细胞百分比与生存率无显著相关性。多变量生存分析显示,与高间质聚类和间质屏障相关的不良预后与溃疡状态和溃疡深度无关。

(图3:基质屏障和聚类与患者生存相关。A.基质聚类 B.10年OS C. 基质屏障与聚类的散点图 D.淋巴细胞百分比 E.四组之间的比较)


与低聚类/低屏障肿瘤相比,高聚类/高屏障肿瘤的10年OS明显更差(图3D)。高聚类/高屏障肿瘤的淋巴细胞百分比明显低于低聚类/低屏障肿瘤(图3E)。


因此组织学的基质结构测量是黑色素瘤预后的重要预测因子。


基质屏障和聚类的免疫抑制潜力

鉴于高间质聚集和屏障是不良预后的独立预测因素,提出间质聚集和屏障通过阻碍癌淋巴细胞相互作用促进免疫抑制的假设。结果发现淋巴细胞-肿瘤面积比与间质屏障和聚类显著负相关(图4A)。间质屏障在属于“低细胞毒性”免疫表型(簇1)的肿瘤中显著高于"高细胞毒性"免疫亚型("簇3 ";图4B),淋巴细胞百分比也最高。

(图4:基质屏障和聚类的免疫抑制潜力. A箱线图显示淋巴细胞与组织面积的比值与基质屏障之间的关系。B从先前描述的免疫表型衍生的簇间基质屏障的差异。C低/高基质特征间免疫细胞特征的差异。D CNx瓶颈层的可视化 E CNA与CNx鉴定的基因表达及差异基因表达分析的相关性。F 每个基因列表中的细胞因子基因显示为蛋白-蛋白相互作用网络(串相互作用评分>0.4)。


从基于omics的深度学习方法解读基质特征的分子基础

无监督的深度分析框架(CNx)整合和分析匹配的拷贝数和转录组数据。CNx由输入层(15,667个节点)、编码层(7,000个节点)、瓶颈层(200个节点)、解码层(7,000个节点)和输出层(15,667个节点)组成。在瓶颈层中确定了所激活和基质聚集或屏障之间具有最高Spearman相关性的节点。这些节点及其与其他节点的关系被可视化为一个网络,权重最大的基因被可视化为嵌套节点(图4D)。因为这个压缩层捕获了拷贝数驱动的基因表达(cis和trans),促进与基质特征相关的节点激活的基因列表因此构成了与癌症-基质相互作用有关的假定基因的目录。


与差异表达分析发现的与基质聚类和屏障相关的基因相比,CNx鉴定的基因拷贝数与基因表达数据之间的相关性明显更高(图4E)。


五、整体反思

1. 提出肿瘤拓扑图TTGs:一种研究原发性和转移性黑素瘤肿瘤微环境空间结构的新方法。

2. 构建TTGs,从整体肿瘤病理切片图像中了解到的黑色素瘤肿瘤微环境,通过计算病理学转化为细胞网络。

3. 细胞类型之间的节点度分布有很大差异,特别是间质细胞的节点度比上皮细胞小,聚集系数更广泛。肿瘤细胞、淋巴细胞和基质细胞间的空间相互作用取决于细胞的特性。

4. 空间显式测量TTGs定义了基质募集、肿瘤内基质细胞空间聚集和基质屏障的两种表型,量化了淋巴细胞沿最短路径渗透到肿瘤簇的平均基质细胞数量。

5. 无监督的方式基于深度学习的方法,直接整合全基因组拷贝数和肿瘤转录组数据,从高维和高度相关的基因组数据中推断出独立的拷贝数驱动特征的调控方式,提高常规差异表达分析的显著性。

你可能感兴趣的:(纯生信分析套路 肿瘤拓扑图+无监督深度学习)