影像组学训练营 第一天(共三天)

文章目录

  • 影像组学简介
  • 影像组学流程
    • 第一步:Imaging,图像收集获取
    • 第二步:ROI/VOI分割
    • 第三步:图像特征提取 Feature extraction
    • 第四步:特征选择和建模
  • 课后思考和答疑问题:

影像组学简介

影像组学,英文叫Radiomics。
Radio-mics = Radiology + Omics
Radiology:放射学,指的是医学影像,比较好理解。
说几个我们平时比较常见的:x线,CT,核磁,核医学(包括PET/CT和SPECT/CT),介入等
有的小伙伴可能会问,哪个设备目前比较好发文?
影像组学训练营 第一天(共三天)_第1张图片

影像组学训练营 第一天(共三天)_第2张图片
根据pubmed(2022.04.12)上的截图,我们可以看出,至少目前来讲,CT和MRI还是占统治地位的。
看过Radiology,我们看下Omics。
我们先来看眼维基的定义:

影像组学训练营 第一天(共三天)_第3张图片
我们可以看出组学是对这一系列balabala进行的集体表征和量化。其实组学就是用数据表示出个体与个体间的关系,我们再来举个例子:
Genome(基因组)是构成生物体所有基因的组合,基因组学(Genomics)就是研究这些基因以及这些基因间的关系。

按照上面的拆解模式,基因组学的研究对象是“基因”,采用的研究方法不再是最早单独研究某个基因片段的作用,而是将所有的基因构成综合起来进行系统化的分析和考虑。
当然,这是个大热词,之后发展了很多组学,相信大家都耳熟能详,我这里不一一列举。基因组学的对象是基因,影像组学的对象就是影像,它的研究方法是将影像内包含的所有信息提取出来然后进行综合系统化分析。更确切的说,影像组学是采用自动化算法从影像的感兴趣区(ROI,region of interest)内提取出大量的特征信息作为研究对象,并进一步采用多样化的统计分析和数据挖掘方法从大批量信息中提取和剥离出真正起作用的关键信息,最终用于疾病的辅助诊断、分类或分级。

理解了概念,我们下面介绍下影像组学的流程

影像组学流程

影像组学的流程,有套路可言:
先上图,一个干瘪鱼骨版,一个肥美鱼肉版影像组学训练营 第一天(共三天)_第4张图片
影像组学训练营 第一天(共三天)_第5张图片
殊途同归,最核心的都是四步,第一次吃鱼,先搞明白骨头在哪里,才能保证之后吃鱼筷筷到肉。所以鑫仔今天先分享鱼骨版。
影像组学训练营 第一天(共三天)_第6张图片
很清晰,就框架而言,仅仅只有四个步骤;

第一步:Imaging,图像收集获取

一般来说,收集的格式为DICOM格式,具体的在以后的实战课程会讲,但理论上,这里面大家会不会有疑问,我们医院有13个CT设备,CT图像能一起研究嘛?
来自13个设备的影像能一起研究吗?
不能,要深入的理解可以看下面的论文,这里涉及到影像组学质控的内容;
论文PMID 32154773
影像组学训练营 第一天(共三天)_第7张图片

第二步:ROI/VOI分割

也就是有同学刚开始比较关注的靶区勾画部分;
ROI 全称region of interest,也就是感兴趣区。
VOI全称 volume of interst ;感兴趣体积。
靶区勾画的过程叫掩膜,下图是直观的表示,下图卵巢癌的靶区勾画步骤,画的好看就是一张Figure 2。
影像组学训练营 第一天(共三天)_第8张图片
影像组学训练营 第一天(共三天)_第9张图片
目前ROI/VOI分割分为三种,手动/半自动/全自动,软件也有很多
例如:slicer ,3dslicer,这也是最推荐的一款软件。
3DSlicer 由美国国家卫生研究院以及全球开发者社区维护,提供了基于最大类间方差、基于区域生长(Region Growing)、基 于 模 板(EMSegmenter with Atlas)、基 于 交 互(KSlice Interactive)和 基 于 统 计(Statistics Segmenter)等的分割方法。是功能非常强大的软件!

还有就是有名的ITK-SNAP,我们医院影像科就是用ITK-SNAP进行半自动分割。这个也很好用,都可以尝试,
就是深度学习先自动分割,然后再手动修改。(高分文章的ROI用ITK多一些。不绝对)注意,自动分割也是也是deep learning很专注做的一个方向。

ITK-SNAP由宾夕法尼亚大学佩恩图像计算与科学实验室开发,提供了基于主动轮廓(Active Contour)的半自动分割方法;此外,还有LIFEx等线上分割网站,高分文章都有使用;
关于这一点,以后会专门有推文为大家讲解深度学习影像组学所面临的挑战

第三步:图像特征提取 Feature extraction

所提取的特征例如形态学特征、一阶特征、二阶特征、高阶特征等等等;每类都可以提取出数十、乃至上百的信息;当然高阶特征可能有上千个;这里问大家一个问题,提取到的影像组学特征越多越好吗?
不是的,过多的特征会引起模型过拟合

例如,我提取到了一个特征,这个特征可能来自高阶特征的小波变换特征,在训练集中表现特别好,但测试集表现就很差。深度学习黑箱也很难讲,这个起码我们知道,哦,这个是GLCM;
解决了这个问题,我们进行下一步

第四步:特征选择和建模

特征选择又叫降维,最经典的两种方式包括PCA(主成分分析:一种无监督算法)和LASSO(L1正则化:一种线性回归模型)来进行
之后就可以运用机器学习算法构建模型了,这里面骚操作就多了。可以直接用LASSO回归,特征筛选完,直接用线性方程建立Radscore。有监督的SVM/Logistic回归/随机森林,这都是常见建模套路,日后我们会慢慢渗透

模型的多样性也对应了明天助教君君姐要讲的影像组学7重境界第三重,不过不用太过担心,刚才分享的公众号的"平鑫而论"专栏就是会从第一重境界开始解读所有影像组学花式玩法~~给大家透露个小细节(不过要从专栏第五期开始才有基础篇哦)

找到关键特征,我们构建模型其实也有五个方向:这里先加个餐
① 辅助诊断(如肿瘤的良恶性判读和肿瘤术前分期等)

② 分子分型(如分子的高低表达等)

③ 近期疗效(如判断EGFR突变患者使用TKI靶向治疗的耐药评估或新辅助放化疗患者的病理学完全缓解评估等)

④ 远期疗效预测(如对原发性肝癌术后复发预测及对鼻咽癌患者的无进展生存期预测等)

⑤ 毒副反应评估(如放射性肺炎、脑损伤等)

以上就是,通过对结局变量Y(就是机器学习中的标签,也就是因变量)的变换的5个不同研究方向。

X就是预测变量(自变量),Y是结局变量(因变量),Z就是协变量;
为什么要提XYZ?这就涉涉及我们要开展影像组学需要的资源。
影像组学研究也要要遵守临床研究的321法则,XYZ必须(要从中能提供结局事件Y和重要的协变量Z),要有一定的样本量和结局事件,保证研究的检验效能;图像、设备的同质性最好要比较好。其他细节方面,比如靶区勾画(要有人力、精力进行图像勾画)、收集临床资料等等。

最后,我来解答几个共性问题
影像组学发文现状怎样?听说发文量挺多了,现在开始做,晚不晚?我们刚才也看到,影像组学至今5000多篇。影像组学训练营 第一天(共三天)_第10张图片
影像组学自2016年以来一直是热点,因此发文量飙升,但规范的影像组学论文依然能发到非常好的杂志,这是因为影像组学的价值越来越被临床认可。4500篇,跟其它领域比起来,还是个小赛道。随着数据越来越标准,研究越来越规范,影像组学,或者影像组+人工智能在肿瘤学等领域会愈发大放异彩。

所以,不要怕晚,心动不如行动,赶紧学起来,做起来吧!还有同学会问:我想做影像组学方面的研究,请问有没有什么指导方法?还有同学会问:我想做影像组学方面的研究,请问有没有什么指导方法?我们随后也会有更多课程与推文进行详细介绍各种细节。我们随后也会有更多课程与推文进行详细介绍各种细节,好啦,今天我的分享先到这里。

课后思考和答疑问题:

  1. 什么是高阶特征的小波变换特征?

影像组学训练营 第一天(共三天)_第11张图片
这篇文章的补充文件,就给了些如何小波变换的公式影像组学训练营 第一天(共三天)_第12张图片

  1. 什么是GLCM?
    GLCM灰度共生矩阵,是最常见的二阶特征

  2. 什么是Radscore?
    影像组学评分,后面的文章会遇到。

  3. 临床研究的321法则是什么?

  4. 数据?
    数据可以从TCIA搞,这个日后会讲,或者你要能喝酒,今晚把影像科兄弟约出来撸个串子做做铺垫。

  5. 老师好,我有个问题想咨询您一下,你觉得如果做深度学习,是画roi好还是做一个同样大小包含瘤体瘤周的boundingbox好?
    这个要看你想提哪的特征而定
    有文章做肿瘤免疫发现TOP特征都是瘤周特征,往TME一靠,就有的说
    正常来讲,应该是瘤内瘤周都有涉及,之后看哪个特征与你的因变量Y关系大,相关性强;
    也有文章做血管曲率特征的,多种多样。影像组学说白了,无论深度学习还是机器学习特征都变成了数据。理性来看,谁相关性强要谁;
    你可以找找有没有专门提外周的,我目前没看到;

影像组学训练营 第一天(共三天)_第13张图片
就是您的意思,我参悟一下,是靠近第一副图,用癌周也提取特征,还是靠近第二幅图,用一个分割的图,做深度学习哦;
这副图(第一幅图),就提取了瘤周15mm.分成5层,每层3㎜,提取了4464个特征;
影像组学训练营 第一天(共三天)_第14张图片
第二幅图,就是直接用机器学习,提取每一层的特征
每次输入一个固定,training好的的立方体哦;发现倒数第二层有最佳的预测性能

  1. 临床上如何对提取的特征进行解释呢?
    列线图就是一个很好的应用;把Radscore和多因素cox回归筛选出来的特征联合构建列线图展示,这样看列线图得分对患者情况进行评估;

  2. 怎么从临床角度去说明特征与结局指标的关系?列线图其实也只是整合了因素的相关性 无法其中的临床关系解释的呀?
    radscore的风险分层,
    问:我的意思是 比如年龄和结局指标相关 我可以说年龄越大 免疫越差 以后越差等等?但是影像组学研究 这些特征好像没办法解释 只是得到了一个分数和结局的关系?
    答:你可以把Radscore看作一个类似年龄的指标;而Radsocre就是与特征有线性关系的,都是算出来的;
    问:Radscore是必备的吗?
    答:不是,也可以用有监督模型直接进行判别

  3. 黑匣子是深度学习的共通毛病?
    机器学习和深度学习的黑匣子不太一样,还是有可解释性的;
    举个例子:Radscore相关性

  4. 做深度学习的话,像您第一步图像获取说不同的设备不能一起研究,需要去批次效应,这个在深度学习上如何将MRI普通序列图像进行标准化啊?
    影像组学训练营 第一天(共三天)_第15张图片
    影像组学训练营 第一天(共三天)_第16张图片

影像组学训练营 第一天(共三天)_第17张图片

  1. 老师,我以前没怎么接触过影像组学的文章,影像组学研究对病例数要求高吗?
    100例左右就可以,其实是不高的
    一些特殊疾病的可以更少一点吗?当然

你可能感兴趣的:(生物信息学,影像组学)