昨天最后一部分,我提到了临床研究的3,2,1法则,不少同学还有一些疑惑
不知大家是否还记得,我说过弄懂影像组学的概念,可以和小护士讲明白我们做什么研究,但真正的高逼格在于一句话就把能把整个研究讲个大概
3,2,1;
3包括X(自变量,也叫预测变量),Y(因变量,也叫结局变量),Z(协变量)。
举个俗套也是最好理解的例子,探究吸烟对肺癌的影响;
这里吸烟就是X自变量,是否得肺癌就是Y因变量,这里得Y就是一个二分类变量,不同的因变量Y决定了具体研究方法的选择
那么协变量Z是什么呢?
比如我们发现性别,年龄,工作压力,睡眠时间,甚至家族史等等都会对肺癌产生影响,如果在数据收集的时候,不收集这些数据,或者分析时不对这些因素进行调整,那我们得到的X对Y的作用不能真实反应X与Y间的情况。而这些因素,就称作协变量
昨天不明白321的,3理解了嘛;
好,那我们接下来介绍2,就是研究人群,和研究样本量
纳入的人群(范围)越精确,研究的样本量在数据完整的前提下越大越好
当然这涉及到样本量的计算方式我们后面会介绍
不过对于影像组学,鑫仔也发现一个小规律,一般高分文章样本量:提取的特征比大约都在1:10或1:20左右,就是训练集有60人,可以按1:20提取前3个特征,训练集30人也可以按1:10提选择的TOP的3个特征,欢迎同学们打脸;
特征从ROV/VOI中提取;
最后介绍1;就是研究类型了,对于影像组学基本全都是回顾性队列研究。这里不多提,这个需要回去看下流病书
掌握了321原则就能准确的对研究有个描述了!
有了这个铺垫,我们就可以顺利的进入今天的影像组学花式玩法七重境界之前三重!这是我们的小糕老师的绝妙之作,我这里仅作分享
影像组学的主要原材料就是影像,这也是影像科最方便拿到手的数据。整合多模态或者多靶区的玩法,可以说是影像口或者影像科的人员经常爱玩的套路。
看过影像组学文章的童鞋,有时候可能看到这样的标题:整合多模态的MRI影像组学用于预测XXX的研究
MRI:磁共振成像; 核磁共振成像;
什么是多模态呢?分为传统版和现代版
传统的多模态指融合了CT、MRI、超声、PET等多种影像学技术的玩法,而现在的多模态也可表示单种影像设备中整合多个成像技术的方式,就是机子用的序列不一样。
多模态MRI指多个MRI序列的联合,比如在常规序列基础上整合DWI, DKI, PWI等功能序列
多模态CT包括平扫CT、增强CT、CT血管成像(CTA)和CT灌注成像(CTP)等;多模态超声包括有普通二维超声、弹性成像等
一个病例,多弄个序列,就是多一种玩法了!
多靶区是指对不同的区域进行研究。比如胶质母细胞瘤GBM除了整个肿瘤区域,肿瘤内还有多个子区域,如肿瘤增强区域(T1WI增强序列出现强化呈高信号)、非增强水肿区域(T1WI增强序列上不强化呈低信号,在T2WI、T2WI-flair序列呈高信号)。就是周围那圈,TME其实是个基础操作。
展开来说,增强区域与致密肿瘤相关,破坏血脑屏障血脑屏障(BBB)的完整性,是外科手术切除的典型靶点;而非增强水肿区域,反映了细胞浸润和血管源性水肿的结合,该区域的肿瘤细胞对治疗的最终疗效具有深远影响。那么除了肿瘤的子区域,其实还能对肿瘤周围区域进行研究,称之为瘤周区域。比如肿瘤区域融合瘤周区域的影像组学特征以预测早期非小细胞肺癌淋巴结转移。
子区域和瘤周区域,在这些区域提取特征,就是对预测变量X的另一种玩法了;
当然不同文章有不同文章的瘤周划定方式,这个我们以后会专门总结,看看在什么情况下选择什么样的划定方式比较好;
就像这张图,就是在分割过程中对瘤周进行了勾画,从瘤周提取特征;
此外,结合临床因素也是个常见玩法,即把影像组学作为主变量,临床因素作为协变量
我们明天分享的文章有一篇就结合了临床因素,文章还会被更新到公众号;
https://mp.weixin.qq.com/s/tdXmyD8bWYtpjHg666sisQ
插一嘴,这是今天海鸥老师分享的文章,里面就有很多我昨天讲的内容,大家可以当作复习资料;
Radio-genomics 认为影像学特征与基因特征具有相关性,这个算是多组学;
临床资料是我们在写文章时常规用到的最基本数据,主要包括基本人口学特征(如年龄、性别、疾病家族史)、肿瘤相关参数(如AJCC分期、病灶大小)、病理指标(如病理类型、分化程度)和血液指标(如白蛋白、中性粒细胞/淋巴细胞比值)等。同理,影像学征象也可以作为协变量加入。
体会下区别,如果收集的数据中包含以往研究证明过的危险因素或保护因素,我们可以在建立影像组学模型的同时,构建临床/影像学/临床-影像学预测模型,再将各模型进行对比,以观察影像组学相比于传统模型是否更有价值,或者将各模型结合以获得最综合的模型。还可以将影像组学与临床因素/影像学特征进行相关性分析、亚组分析等,以丰富文章内容。
这个我们君莲数据库周五就会分享一篇这样的文章,我们明天的分享也会有所提及;
第一重境界从321准则3的自变量X入手,大家理解了嘛?分为多模态多靶标以及与临床特征进行结合
搞懂临床逻辑,影像组学难在我昨天说得几步而已,但对你的文章是全方位升级;
时间关系,我们先分享第二重境界
一起来思考这样一个问题,我们是不是可以采用相同的预测变量X,只对结局变量Y进行更换,就能获得一篇新的文章了?
这个我昨天也提到了,那五个圈圈
所以当然是可行的了。不过要注意一个大前提,即Y具有临床意义与价值。
我们知道结局变量Y有远期疗效(如总体生存期OS、无进展生存期PFS)、近期疗效(如影像学的完全缓解CR/部分缓解PR/无变化SD/进展PD、病理学的病理完全缓解)、肿瘤相关参数(如肿瘤组织学分级、TNM分期)、病理指标(如脉管癌栓、PD-L1表达)和毒副反应(如II级以上放射性肺炎)等。
接下来就用文献来举例说明具体的Y玩法:远期疗效文献示例:术前影像组学标志物预测 I 期非小细胞肺癌远处转移(PMID: 30527455)
近期疗效文献示例:基于MRI的影像组学诺莫图可预测局部晚期鼻咽癌诱导化疗反应及远期生存(PMID: 31372781)
肿瘤相关参数文献示例:整合原发肿瘤和淋巴结影像组学以预测胃癌的淋巴结转移(PMID: 32531334
病理指标文献示例:影像组学术前预测宫颈癌淋巴-血管侵犯(PMID: 34322375)
毒副反应文献示例:影像组学预测免疫治疗相关性肺炎(PMID: 29075985)
大家莫慌,这个随后公众号的平鑫而论专栏会对这5篇文章做详细讲解,到时候跟上就可以。
有能力的同学也可以根据PMID看看原文
对影像组学比较熟悉的朋友,就会发现影像组学的分析算法还是比较多样的,主流的是各种机器学习的算法,也有不少深度学习的算法。所以,我们也能够从分析方法入手,比如数据处理方法、特征筛选算法、模型建立算法、深度学习等。
文献示例:基于机器学习的超声影像组学对原发性和转移性肝癌进行术前分类(PMID: 33447862)——基于Python的scikit-learn包采用多种建模算法,包括K最邻近法(KNN)、逻辑回归(LR)、多层感知机(MLP)、随机森林(RF)和支持向量机(SVM)。
在这里可能会有同学问了,这些算法难吗,有现成的代码可以用吗?有自学过python、R语言或其他编程语言的同学,会发现说我们大多时候只是代码的搬运工。但是呢,搬运代码也是有技巧的。比如想要找到具体功能的代码或碰到bug时,可以根据关键词进行检索,常用的网站有CSDN、stackflow、github等等。此外,微信“搜一搜”的功能也十分强大,毕竟有那么多优质的公众号在,比如咱们的解螺旋。在我们的【分析算法】专栏,也持续有具体算法和优质代码的讲解。
这里面思路比代码重要,有了思路,代码就是短短几行换个参数。
说起python,昨天有小伙伴问,不用python可不可以,是可以的。但是昨天因为时间太晚了。
我没有说特征提取这一步应该应用的工具;
目前比较主流的影像组学特征提取工具包括 IBEX、MaZda(基于C++和Delphi)、 Pyradiomics(基于Python)、CERR(主要用于放疗)、LIFEx网站、MARLAB、Radiomics(基于R)等。
目前来讲,兼顾功能强大,开源,操作较为简单等特质的特征提取方式首推Pyradiomics。
当然3Dslicer也是可以做特征提取的,而这个pyradiomics是基于python的;
3Dslicer还是不够强大,主要用于靶区勾画,高通量提取最好还是用pyradiomics,其实也就是几行代码,手把手教学很快就会,不用懂原理,达到目的就可以;那么我们今天的入门级影像组学的前三重境界就介绍完了;
总结一下:
影像组学可以基于多模态、多区域影像(预测变量)开展研究,还可与临床指标和影像学征象(预测变量)等相融合,发展成为高效辅助诊断或预测的工具。它作为医工交叉的产物,其应用先进的计算机方法(分析方法)解决临床具体问题(结局变量),如肿瘤的定性、分级分期、基因分析、疗效评估和预后预测等。
大家的讨论:
超声不是很好做,跟检查医生手法关系很大,不像钼靶、ct,mri比较标准,超声的高分的大多都是多模态
对呀 切面不容易标准化
有些图片伪影很多
很多都是画个boundingbox,就是因为roi不好画
我们提取出来的特征,会符合某种分布嘛,比如正态,我们在特征提取的时候是直接参数检验(t检验),还是非参数检验
这个问题问的非常好,一般都是符合正态分布的,像我看的多组学的文章,他们在比如说影像组,病理组,还有基因组,他们之间做相关的时候用的都是皮尔森,相关都没有用,斯皮尔斯皮尔曼,说明他做了那个,那个正态性,还有方差急性检验,这些都是的
因为我在医院可能就是发文献没那么没有昨天那么快,但是这样的文献我可以在我回去以后,或者是明天有空的时候发给你们,多组学的文章里面,他们相关的时候都是用的,皮尔森就说明这个数据是符合正太的。
我们最后的准确率要在一个什么样的区间算是比较好的?
AUC的话通过我们做文献综述总结,从0.6几到0.9几都有发表,还是看你的科学问题跟你的数据质量。
比如说多中心的,还有那个前瞻性的,还有用了多组学数据的,或者是数字量非常大的,他们哪怕是AUC不是很高,还是发了一区。
如果是个人意见的话,看近一年的文章就是最好在0.7,训练集和验证期都在0.7以上,发表的可能性比较大吧。如果有0.80.9,那就更好了,如果实在是达不到0.7,至少要达到。