(图像分类、目标检测、图像分割、目标跟踪、GAN)
摘 要
现代医疗体系中,医生执行复杂治疗过程中的每个行为步骤,都依赖于大量的快速思考和决策。计算机视觉,借助机器学习、深度学习等方法,应用专业医师的种类丰富、深度钻研的医学知识,提取医学领域的特征工程,就可以对医学数据,包括影像、传感器数据,做出高准确率的医学判断。由此,计算机视觉,成为现代医疗辅助技术的重要信息来源。本文结合当前的实际情况,简要介绍了计算机视觉的技术进展和趋势,并在此基础上详细探讨了计算机视觉在智慧医疗领域中的应用技术和领域。
关键词:
计算机视觉;智慧医疗;深度学习;卷积神经网络
目 录
第1章 研究背景与意义
第2章 研究现状
第3章 模型介绍
第4章 模型训练
第5章 实验结果
第6章 总结
参考文献
第一章 研究背景与意义
医疗影像主要有x线、计算机断层扫描(CT)和磁共振成像(MRI)等等,传统上是医生人工操作对影像进行分析,为疾病诊断给出依据。随着图像处理的发展应用,出现了计算机辅助诊断。当前,由于人工智能技术的发展,特别是深度学习的应用,人们正试图将其应用于医学影像分析,以实现智能诊断,从而提高诊断速度和诊断准确性,使病人迅速获得正确的治疗,此外还能弥补医生的不足。
人工智能在医学影像中的应用,其作用大体上可分为两个层面:一是增强成像效果,包括摄影和图像处理,提供更加能够诊断疾病的影像;二是分析诊断,利用人工智能技术对影像进行分析,从而给出诊断结论。认知以及感知等作为人工智能领域中最为重要的内容,其可以通过科学推理而感知信息,在感知当中,计算机视觉作为其重要的组成部分,其会直接影响感知结果。早在20世纪50年代,人们就开始研究计算机视觉系统,称其为计算机视觉是因为其能够像人的眼睛一样识别、理解图像。早期阶段,人们通常使用计算机来分析、辨别一些跟数学、物理等相关的学科信息。直到1960年左右,计算机渐渐就可以识别三维图像了,随着时间的推进及科学技术水平的快速发展,直至1966年计算机视觉才真正诞生,随着科技的进步,其逐渐可以识别更为复杂的图像及信息。当前,MIT人工智能实验室也已专门设立了计算机视觉学科,现阶段已有很多人开始关注、研究计算机视觉这门学科。
目标分类、定位和检测分别是指识别图像中的目标类型、确定目标所在位置,以及同时确定目标的类型和位置。过去十年,ImageNet 大规模视觉识别挑战赛(ILSVRC)是促成这些任务进步的先锋。它创建了一个由深度学习研究人员组成的大型社区,社区中的研究者相互竞争和合作以改进各种 CV 任务的技术。
2012 年,首个使用 GPU 的现代 DL 方法成为该社区发展的拐点,它预示着该领域接下来几年的显著进展,直到 2017 年 ILSVRC 竞赛举办了最后一届。值得注意的是,在此期间,分类准确率已经达到了人类级别。在医学上,这些方法的细粒度版本已成功用于许多疾病的分类和检测,
第二章 研究现状
近年来,伴随着医学图像采集技术的显著改善,医疗设备以更快的影像帧率、更高的影像分辨率和通信技术,实时采集大量的医学影像和传感器数据。基于图像处理技术的医学影像解释方法,也迫切希望得到攻克解决。在医学图像处理中,GPU首先被引入用于分割和重建,然后用于机器学习。
3.1、病变检测
面向疾病预防的病变检查,包括有无病变、病理类型,是健康检查的基础任务。基于计算机的病变检测,是计算机视觉技术在智慧医疗中的重大体现,并且非常适合引入深度学习。在基于计算机的病变检测方法中,一般通过监督学习方法或经典图像处理技术(如过滤和数学形态学),计算并且提取身体部位或器官在健康状态下的特征工程。其中,基于监督学习的机器学习方法,它所使用的训练数据样本,需要专业医师提供全面的病理影像,并手工标注。特征工程计算过程产生的分类器,将特征向量映射到候选者来检测实际病变的概率。
基于卷积神经网络(CNN)的病变检测系统,病变检测的准确率度提高了13-34%,而使用非深度学习分类器(例如支持向量机)几乎不可能实现这种程度的提升。CNN由输入层,两个隐藏层和输出层组成,并用于反向传播。在图形工作站出现以前,病变检测系统的特征工程训练过程,往往非常耗时。早在1993年, CNN应用于肺结节检测;1995年,CNN应用于检测乳腺摄影中的微钙化检测;1996年,CNN应用于从乳房X线照片中提取肿块或正常组织的特征区域。
3.2、病理图像分割
图像分割就是一个根据图像中的相似度计算,把图像分割成若干个同质区域,并且为每个区域进行定性分类的过程。在病理图像分割中,传统方法中只利用了颜色等简单特征,开发了基于区域的分割方法和基于边界的分割方法,前者依赖于图像的空间局部特征,如灰度、纹理及其它象素统计特性的均匀性等,后者主要是利用梯度信息确定目标的边界。传统方法对图像本身所蕴含的丰富信息,利用不足。在分类方法选取中,也大多是基于聚类等简单方法,存在精确性较低及适应范围小的缺陷。多节点、多层次的CNN模型,提取了图像中尽可能多的潜在特征,并对这些特征利用PCA(Primary Component Analysis,主成分选取方法)降维,选出其中的关键特征,然后结合SVM(Support Vector Machine,支持向量机),对病理图像进行像素分割。该方法能在更大程度上利用图像本身的信息,提高了图像中细胞分类的准确率。基于卷积神经网络的计算机视觉技术,大大增强了病理图像分割过程的效率和质量。
3.3、病理图像配准
图像配准是多图像融合和三维建模的前提,是决定医学图像融合技术发展的关键技术。在图像认知过程中,单一模态的图像只能提供单个维度的视角,图像中的空间信息难以全方位展示。多种模式或同一模式的多次成像通过配准融合,可以实现感兴趣区域的信息增强和上下文信息补全。在一幅图像上同时表达来自多种成像源的信息,医生就能做出更加准确的诊断或制定出更加合适的治疗方法。医学图像配准过程包括图像的多种处理方法,如定位、旋转、尺寸缩放、拓扑变换,即通过寻找一种空间变换模型,使两幅图像对应点达到空间位置和解剖结构上的映射。如果这种映射过程是一一对应的,即在重叠区域中,一幅图像中的任意像素点在另一幅图像中都有对应点,我们就称之为配准。目前,基于尺度不变特征转换和卷积神经网络的图像配准模型,是病理图像配准的主要途径。
3.4 基于病理图像的三维建模与仿真
传统的病理检测,往往需要从病体切割取样,往往费时费力,还会损伤病体健康,导致治疗任务加重。基于病理图像的三维建模与可视化,则可以提高病理检查过程,同时消除检查过程对病体的影像。基于图像建模的核心问题是基于图像的几何建模问题。它研究如何从图像中,恢复器官组织的实时三维信息,并构建其几何模型,以进行三维渲染和编辑。在图像配准的基础上,基于图像的三维建模方法,主要有轮廓法、亮度法、运动法、纹理法。这些方法都需要利用图像像素计算,并提取图像特征。前者包含大量的传统图像处理操作,如对图像进行逐点处理,把两幅图像对应像素点的灰度值进行加权求和、灰度取大或者灰度取小等操作。后者,基于深度学习,对图像进行特征提取、目标分割等处理,通用性更强。基于病理图像的三维模型与仿真建模,把有价值的生理功能信息与精确的解剖结构结合在一起,可以为临床诊断和治疗提供更加全面和准确的资料。
第三章 模型介绍
医学影像诊断是“图像分类”非常重要的一个应用领域。在医学图像检查的分类中,通常有一个或多个图像作为输入,而最简单的输出是只有一个诊断变量(即是否存在疾病)。本节以此简单的情形作为背景,多个诊断变量的情形与此类似。模型如下:
当前研究最多的影像诊断还是基于卷积神经网络(CNN)。CNN用于医学影像诊断的过程类似于一般的图像识别过程,见图所示。其基本原理是:CNN获取原始像素的输入图像,并通过卷积层、整流线性单元(RELU)层和池化层对其进行变换,完成特征提取,然后输入到完全连接层中,该层计算各分类的分数或概率,最高得分(或最高概率)者即为最后的分类结果。
卷积层
卷积是两个数组(可由矩阵转换为数组)的运算,一个数组由图像中某个位置的输入值(如像素值)组成,另一个是滤波器(或核)。计算输入与滤波器的点积得到一个输出。按一定的步长将滤波器移到图像中的下一个位置,重复上面计算过程,直到覆盖整个图像,生成特征(或激活)映射。
线性整流单元层
线性整流单元(RELU,Rectified Linear Unit)层是一个将负输入值设置为零的激活函数,即当输入值x小于0时,输出f(x)为0;当输入值x大于等于0时,f(x)=x。RELU简化、加速了计算与训练,并且有助于避免消失梯度问题。其它一些激活函数还有sigmoid、tanh、leaky RELU,等等。
池化层
池化层的作用是减少参数数量以及图像的大小(宽度和高度,但不是深度)。最大池化是常用的方法,“最大”是指获取最大的输入值而丢弃其它值。其它池化还有平均池化等。
全连接层
“全连接”是将前一层中的每个神经元都连接到全连接层中的每个神经元。可以有一个或多个完全连接的层。这一层的任务是计算出分类中各种可能类别的概率,最终实现分类。
基于深度学习的影像分析示意图如图所示,其基本结构是将多个卷积层、激活层和池化层堆叠起来。在空间维进行压缩,并根据学习到的特征映射数量进行扩展之后,所有特征被映射到全连接层上,由最后一个全连接层的激活函数给出分类概率,最后输出分类结果。
第四章 模型训练
模型训练
训练是建立一个输入—输出关系的过程。用已知的数据(样本)及其结论(标签)作为输入,让机器在知道输入数据及其应该获得的正确结论的前提下,调整内部参数,从而通过这些参数“记住”输入数据与正确结论之间的关系。可见,“训练”其实就是“教导”机器的过程。经过训练后,机器便建立起了反映输入与输出关系的一种“模型”。这种“模型”类似于函数关系,以后输入新的数据,通过模型的计算,就可以获得结论(输出结果)。
模型学习
学习是遵循某种规则(学习算法)调整神经网络内部参数的过程。机器学习可分为三类:监督学习、无监督学习和强化学习。在当前的研究中,大部分医学影像诊断是采用监督学习。它的基本原理是:计算输出结果,并与应有的正确结论(标签)进行比较,计算出误差,依据此误差去调整神经网络中各神经元之间的连接系数(即权值Wij),然后又根据新的输出计算误差,再调整Wij。重复上述过程,直到完成全部训练数据。如图所示。
第五章 实验结果
实验环境
本文研究的硬件环境为i9-9900kintel处理器,内存为32GB,GPU为GTX2080显卡(8GB显存);操作系统为Windows10,软件环境为Keras2.2.4,Python3.7。
实验结果
近几年,深度学习在医学影像分析中的研究获得了显著进展,限于篇幅,下面给出三个研究例子。
皮肤癌诊断
2017年,斯坦福大学A. Esteva等人在《Nature》发表了利用深度神经网络实现皮肤癌诊断的论文(“Dermatologist-Level Classification of Skin Cancer With Deep Neural Networks,”Nature, vol. 542, no. 7639, p. 115, 2017)。皮肤癌的诊断一般是先临床筛查,然后有可能再做皮肤镜分析、活检和组织病理学检查。该文阐述了使用深度卷积神经网络进行的皮肤病变分类。该系统使用的是预先在ImageNet数据集上训练的Google Inception v3 CNN架构,并在自己的数据集(包含2,032种不同疾病的129,450张临床病变图像)上使用像素和标签输入进行训练微调,如图4所示。757个训练分类,其由皮肤病新分类法和将疾病映射到训练分类的划分算法来定义。最后的推理分类要笼统一些,由一个或多个训练分类组成(例如,恶性黑色素细胞病变——黑色素瘤类)。推理分类的概率是根据分类结构对训练分类的概率进行求和。系统性能的测试使用经活检证实的临床图像,其测试性能与21位经过认证的皮肤科医生进行对比。使用两个关键的二元分类:角质形成细胞癌与良性脂溢性角化病、恶性黑色素瘤与普通的痣。第一个二元分类代表对最常见癌症的识别,第二个则代表对最致命皮肤癌的识别。结果表明,CNN在这两项任务中都取得了与所有专家同等的性能,其能力水平堪比皮肤科医生,从而展示了人工智能在皮肤癌诊断中的前景。
间质性肺病诊断
瑞士伯尔尼大学Marios Anthimopoulos等人于2016年发表了利用深度CNN实现间质性肺疾病诊断的论文(Lung Pattern Classification for Interstitial Lung Diseases Using a Deep Convolutional Neural Network,IEEE Transactions on Medical Imaging, Vol. 35, No. 5, May 2016)。间质性肺病(ILD)是以弥漫性肺实质、肺泡炎症和间质纤维化为病理基本病变。伯尔尼大学的论文提出并评价了一种用于ILD模式分类的卷积神经网络(CNN),如图5所示。该网络由5个卷积层,核为2×2,激活函数是LeakyReLU,采用平均池化,全连接层最后一层的激活函数是softmax,给出7个分类的概率分布。7个输出对应的分类是:健康、毛玻璃不透明度(GGO)、微结节、实变、网状、蜂窝和GGO/网状的组合。训练和评估的数据集包含14696个图像。这是一个针对特定问题设计的深度CNN。在一个具有挑战性的数据集中,对比分析证明了有效性。该系统旨在为ILDs提供鉴别诊断,作为放射科医生的辅助工具。
第六章 总结
用人工智能实现医学影像智能分析,关键还是神经网络的训练和学习。训练的效果与数据密切相关。一是需要用大量的数据“教导”机器,对于医学影像诊断而言,即需要大量的病例影像。尤其是监督学习,需要很大的有标签数据。二是数据的正确性,即原始数据与结论(标签)的正确关系,显然,如果使用错误的数据,训练后得出的模型就可能导致错误。
许多用于医学影像分析的公共数据集已经开始出现,而且还会有更多的公共数据集出现,这将为人工智能机器学习提供极大的数据支持。然而,数据是过去的,对于一些突发的新型疾病,比如新病毒传染病,由于初期缺乏足够的有标签数据,对于机器学习是一个很大的挑战,而学习算法的进步则是应对这一挑战的关键。
参考文献
[1]李明耀,周立明,周其伟.人工智能在医学领域的应用[J].科技传播,2019,11(20):143-144.
[2]唐家俊,白小玉.计算机视觉在医学领域的应用[J].通讯世界,2019,26(04):120-121.
[3]王一培,杨雯,张艺钊,赖茂德和徐扬.精准医学人工智能在病理图像中的应用[J].现代信息技术,2018,2(5):170-172.
[4] 林瑶, 田捷. 医学图像分割方法综述[J]. 模式识别与人工智能, 2002, 15(2).
[5] 林晓, 邱晓嘉. 图像分析技术在医学上的应用[J]. 包头医学院学报, 2005, 21 (3): 311~314