作者所在班级1402012
作 者 姓 名符子龙
作 者 学 号14020120006
《基于深度学习的视网膜OCT图像分类》的文献综述
内容摘要
通过翻阅这些参考资料和文献,了解了深度学习技术在图像处理和计算机视觉上的应用与发展,以及各种常用的模型算法。本题主要关注与视网膜OCT的图像处理,通过查阅其他相关论文,了解今年来适用于医学影像的图像处理方法,特别是关于视网膜的图像分割,图像分类,图像识别等经典算法。另外,通过阅读医学文献了具体了解了视网膜的解剖学结构,以及图像特点。
关键词:深度学习视网膜结构图像处理图像分类
第1章 前言
外后视镜外形轮廓不但影响到车身的外观,也影响到车身尺寸,行业标准有轿车外后视镜的安装位置不得超出汽车最外侧250毫米的规定。
1.1课题背景及意义
1.1.1.图像分类
随着互联网、数码相机及摄像机和数字存储技术的发展,数字多媒体资源日益增多。
而从传统互联网到移动互联网,在社交网络中人们也不仅仅是用文字表达自己,而是倾向采用更直观的图像和视频来进行交流。大量的信息隐藏在海量的图像数据中。面对越来越大的数据处理量,仅凭人工显然无法实现,迫切需要计算机能够读懂并且处理。而图像分类和识别任务主要是对数字图像的内容进行分析,获取图像中的关键信息,让图像“会说话”。许多应用领域对图像的处理特别是图像的分类识别提出了需求:
(1)基于内容的图像检索CBIR(Content-based image retrieval),这一概念于1992年由T.Kato[1]提出,一般根据图像的视觉特征来查找与输入的图片具有相同或相似内容的其它图片。SMEULDERSAW等‘21回顾了200篇相关文献,认为在未来基于内容图像的检索有更广阔的应用前景,而更准确的检索结果不仅依赖于准确的理解图像而更多的是良好的图像分类。近年来,基于内容的图像检索成为研究的一个热点领域,提出了许多新方法,例如Krizhevsky利用深度自动编码器将小型彩色图像映射成为短的二进制编码用于检索,Kauf利用GPU的并行执行能力实现了基于内容的图像检索,提高了效率。Liui51提出了一种基于内容检索的新方法颜色差分直方图:CDH(color differencehistograms)。
(2)对图像/视频自动标注,就是通过计算机自动给无标注的图像和视频加上能够反映其内容的语义关键词。自动标注主要用于多媒体信息的管理和检索,在商业方面也有很好的应用前景,例如个人照片管理、广告图片投放等。对图像和视频进行标注的核心仍然是图像语义理解。Carl Doerschl利用判别式聚类方法对地理信息进行标注,ArpitJai利用一种基于时空块的新中间层表示方法用于对视频进行标注。
[if !supportLists](3)[endif]医学影像处理,医学影像对于医生诊断疾病提供了非常有价值的参考信息。
基于图像分类和识别的方法可以通过影像数据积累发现一些疾病在影像里的特征和相
互联系,提高影像对于疾病诊断的作用。Akgul[8]对基于内容检索的方法在放射学上应用现状和未来发展方向进行了综述。Varghese[9]贝,U研究了在脑部磁共振图像中的应用。
其它的应用领域还有如:视频监控、自动机器人,交互式游戏等。有效
的图像分类识别是上述应用领域重要的研究基石。图像分类识别问题应用领域广泛,是机器视觉中的重要问题之一,也是一个典型的模式识别与机器学习的问题。图像分类技术的研究一直很火热,分类准确率也在不断提升,涌现了许多有效的智能分类方法。但有仍有不少问题有待进一步解决。如图像的视觉信息转换为人类理解的语义表达难题;对不同来源图像用统一的视觉特征方法进行描述;解决因图像质量、光照、拍摄视角差别等造成的分类识别困难;处理海量数据的高效、准确算法问题等。因此尽管发展迅速、方法众多,图像分类问题仍然是计算机视觉领域中非常值得研究的问题,也有很强的实际应用需求。在国际会议和刊物上每年都有
大量的相关文章发表,例如:CVPR、ICCV、ECCV、ICML、NIPS,InternationalJournal
ofCompeerVision(IJCV),IEEE,TransactionsonPatternAnalysisandMachine
Intelligence(PAMI)等。
1.1.2.深度学习应用于图像分类
深度学习模型虽然在图像分类领域取得令人瞩目的分类效果,但一直无法用数学理论来证明其问题求解过程,这使得研究局限于通过实验来调整模型结构和参数,从而设计出更为有效的模型。除了对模型本身的研究,深度学习与其它的机器学习方法的融合,引入其他方法的优点解决相应的问题也是研究的一个热点。本文介绍了卷积神经网络的应用与研究热点,引入迁移学习、支持向量机、多尺度空间模型、模糊分类等方法与卷积神经网络模型融合。
1.2.视网膜OCT图像
1.2.1 什么是OCT
光学相干层析扫描仪(OCT):OCTJ,韭行视网膜断层扫描的原理类似B超,不同的是OCT采用的是850rim波长的光扫描,而B超采用的是声频扫描。主要用于黄斑水肿、裂孔的测量及青光眼RNFL厚度的测量。
1.2.1 OCT的优点
各种成像技术,如x射线计算层析成像ⅨcT)、核磁共振成像、超声波
成像等,在医学上已经获得广泛应用,成为现代医学诊断技术的一个显著标志。每种技术由于其不同的工作原理,决定了其不同的分辨率和探测深度、不同的适用范围、不同的检测部位和功能特点。X射线计算层析成像探测深度深,分辨率也较高,但入射的高能量会使生物组织离化,频繁使用会损害身体。超声波成像分辨率较低。核磁共振虽有亚毫米级的分辨率,但所需的超导磁体价格昂贵。Huang等人首次把OCT技术用于人眼视网膜细微结构和冠状动脉壁结构的成像,获得了成功。Schmit等人将其用于生物组织光学特性参数的'钡4量,也取得了很好的效果。鉴于它广泛的应用前景,国际上在开展研究工作的同时,已经向产品化方向发展。国内也有一些科研小组开始进行有关的研究工作。当今医学影像技术在现代医院中的作用愈来愈重要,除了众所周知的x光、超声波诊断、核磁共振成像及各种内窥镜检查外,其他技术也层出不穷,可以解决许多以前影像检查方法所不能解决的问题。但他们各自仍存在局限性:X光检查不能准确探测出初期的肿块,高能量照射时人体组织容易产生伤害:超声检查不具有探测尺寸小于几毫米物体的分辨本领,和x光一样不能提供任何组织化学成分信息;核磁共振成像虽有较好的空间分辨率,能探测特殊组织的化学物质,但费用极其昂贵,不利于常规应用;内窥镜检查可清晰地看到组织结构并能夹取活检,但同样不能实时地确定组织的成分。
OCT最初的应用是眼科学成像“61。目前,医学仍然是OCT的主要应用领域。与其他的光学技术相比,OCT具有很多卓越的优点:
[if !supportLists](1)[endif]纵向分辨率和样本入射光的数值孔径相互独立;
[if !supportLists](2)[endif]高纵向分辨率和横向分辨率;
[if !supportLists](3)[endif]非接触、非侵入式的操作;
[if !supportLists](4)[endif]可以增加与图像对比度有关的功能。相关的对比技术是基于多普勒频移,偏振和波长相关的后向散射。
现在,OCT作为一种非侵袭性的诊断工作,在临床医学中开始发挥其巨大作用,因为OCT图像的轴向分辨率可达到10/2m,比现在任何一种临床诊断设备的分辨率高达lO倍以上,且这种光纤式结构不仅便宜而且很容易进入导管,与内窥镜进行相结合作业,在人体内部的组织器官检查中得到很高的分辨率,特别是眼科学、心脏学、皮肤病等学科诊断中具有明显的优势。对于青光眼的诊断和处理目前在临床是十分棘手的问题,眼内压测量经常不能准确预测出青光眼的病情进展,只有在视网膜神经纤维缺少50%以上时,视野缺损和视神经乳头凹陷这样的后期临床诊状才能检测到。OCT对视网膜结构的高分辨率成像,对眼科临床上诊断青光眼、斑变质和斑水肿十分
可靠。视网膜视神经纤维层是在青光眼中受影响的解剖结构,由于OCT的高分辨率可敏感地测量视网膜神经纤维层的厚度且观测到视盘的外形变化,可以在OCT中明确的判别。相对于玻璃体和视网膜结构,视网膜神经纤维层是一个相对高散射的介质层,由于视神经纤维的圆柱形状,视网膜神经纤维层的后散射信号强度依赖于入射光的角度,这种角度依赖型导致了神经纤维变成视神经的视盘边缘的视网膜神经纤维层信号衰减。现在通过察看患者的视网膜神经纤维层厚度就可以估测出青光眼病情的进展,这在以前对青光眼的诊断上是没有一个客观标准的。对青光眼的诊疗上是一个突破而且OCT检查几乎不会给病人造成任何不适。
1.2.3 视网膜OCT研究
视网膜OCT图像自动识别系统是涉及现代数学,模式识别、图像处理、计算机视觉等多个领域,对完善OCT系统,增强其实用性有着重要的意义。近20多年来,医学影像已成为医学技术中发展最快的领域之一,其结果使临床医生对人体内部病变部位的观察更直按、更清晰,确诊率也更高。70年代初,X-CT的发明曾引发了医学影像领域的一场革命,与此同时,核共振成像,超声成像、数字射线照相术、发射型计算机成像和核素成像等也逐步发展。计算机和医学图像处理技术作为这些成像技术的发展基础,带动着现代医学诊断正产生着深刻的变革。各种新的医学成像方法的临床应用,使医学诊断和治疗技术取得了很大的进展,同时将各种成像技术得到的信息进行互补,也为临床诊断及生物医学研究提供了有力的科学依据。因此,医学图像处理技术一直受到国内外有关专家的高度重视。
借助于现代计算机技术结合病理专家实践经验,采用图像处理技术对医学图像进行处理,从而对视网膜OCT图像进行识别,对于医学科研与教学,以及临床诊断方面有着现实的意义和非常广阔的前景。
目前,数字图像处理、模式识别和人工智能技术已经被广泛的应用在生物医学领域,并取得了一些成果[Is-191,但用模式识别对OCT视网膜层析图进行病理诊断的系统报道并不多。本论文利用图像处理技术结合医学病理专家的知识经验对视网膜OCT图像进行分类识别的研究,应用模式识别对细胞图像进行诊断分类,达到利用视网膜OCT图像识别进行眼底病辅助诊断的目的。目前主流的工作首先是通过借用了大量的图像处理技术和算法,如图像滤波、图像增强、边缘检测等对图像进行了预处理。尔后利用K-L变换进行特征提取,最后采用最近邻法、BP神经网络等方法对OCT产生的视网膜层析图进行分类并诊断,对OCT系统的推广与完善具有重要意义。
[if !supportLists]第1章[endif]目前主要的图像分类方法
(说明:主题是综述主要内容的叙述部分。一般要叙述所选研究题目的国内外研究现状;本研究至目前的主要他人研究成果;比较各种学术观点,阐明本研究的发展趋势;目前存在的问题。对当前工作的现状,今后的发展趋势应作重点、详尽而具体地叙述。)
2.1 图像分类步骤
不同图像分类算法有各自的模型特点,但归纳起来图像分类问题的一般过程为。首先对原始图像做预处理,提高图像的质量或者是需要改变图像的大小获得合适的输入。然后利用特征学习算法对图像进行特征提取,获得图像的特征表示。再采用分类算法构建相应的模型,就可以利用模型对图像进行分类预测。这其中特征提取算法和分类算法是影响最终分类效果的关键,也是研究人员关注的焦点。本节将重点对这两个关键环节的研究现状和发展做一个阐述,为后续的研究奠定良好的理论急促。
2.1.1图像特征提取和表示
图像特征的提取和表示是图像分类研究工作的基础,图像特征的选择和表示很大程度上决定了图像分类的效果。本文将图像特征的提取和表示分为以下三个阶段:基本的视觉特征表达阶段、人工加工特征表达阶段和特征的自我学习阶段。基本的视觉特征表达阶段,这类特征有直观的基于底层的特征表示的方法,如颜色、纹理、形状、空间关系等和局部特征算子。直观特征最早使用的一类图像特征,它简单有效,但近年来随着图像处理的要求日益提高,目前研究较多的是多种直观特征融合以及直观特征与人工统计特征融合的方法。
局部特征是相对全局特征而言,显然颜色直方图等直观性特征是从图像全局考虑。
当图像出现一些遮挡,尺度变化等问题,特别是需要考虑图像的前景和背景进行内容识别的时候,全局特征有较大的局限性。局部特征和全局特征不同,致力于寻找图像中稳定且具有良好区分性点,这些点人工是无法直观捕捉到,但计算机只需要这些像素点就能够描述图像主要内容。因此也被称为显著点。SIFT(Scale.Invariant Feature Transform)算子,删因其良好的鲁棒性M得到了广泛的应用,‘'Video Google’’就是利用SIFT算法的影像检索框架。SIFT算法作为最经典的局部特征算子,算法的核心就是提取SIFT关键点(keypoint)。针对经典SIFT算子存在高维数的问题PCA.SIFT[49】采用主成分分析(Principal ComponentAnalysis,PCA)降维的概念,成功的将SIFT从128维降至36维,也成为SIFT算子改进中应用较广的算子。由于SIFT算子只利用了图像的灰度信息,研究人员结合颜色和形状等提出了很多针对SIFT算子的改进算法,
特征算子还有HOG(HistogramofOrientedGradient)梯度方向直方图、SURF(Speeded Robust Features)、GLOH(Gradient location.orientation 对比了当时主流的三种局部特征描述符的表现,分析每个算子生成及匹配速度。并给出了相应的结论,可以看出整体表现上PCA.SIFT略胜一筹。局部特征算子具备如前所述遮挡、尺度不变等的优点,但是仍然还是有它的不足之处,主要体现在:(1)原始图像的分辨率影响算子性能,因为分辨率实际上反映了原始图像中信息量的多少。原始分辨率高意味着在特征提取的采样过程中可以保存较多的原始信息,从而提取得到的更多关键点。反之,关键点就少,性能下降;(2)在提取特征向量过程中必须进行尺度空间的极值检测,因此如果图像时大片平滑区域时,由于不存在极值点而难以提取关键点;(3)对一些具有方向性和重复性的特征,例如纹理特征,提取到的关键点偏少,容易误检。
人工加工的特征表达阶段,是指在基本特征提取的基础上研究人员应用统计、代数
方法或者变换系数等方法描述特征。这类二次加工的特征表示中最经典的是词袋模型
(BagofWords,Bow)。它首先通过SIFT等局部特征算子抽取图像的基本特征,然后对这些特征采用K—means等聚类方法映射成关键词集合,形成词典(字典),然后
分别对每个原始特征描述按字典进行统计以形成最后的特征描述。词袋模型最初主
要应用在文本领域,之后延伸到图像处理领域,词袋模型由于可以高速实现分类,效果良好,迅速成为最流行的分类方法。目前仍有许多基于词袋模型的扩展算法研究,特别是在图像内容检索领域。含空间信息的词袋模型,加快单个视觉词汇的描述子分配,加强视觉词汇的分布能力等都是基于词袋模型的研究。
除了词袋模型以外,代数特征方法也是常用的人工加工特征之一。代数特征方法主
要是通过代数理论如矩阵分解奇异值分解等计算或统计抽取特征,常用的方法可以主要有:主分量分析(PCA)、线性鉴别分析(LDA)和Fisher线性鉴别分析删。这些方法在人脸识别中经常使用,其局限主要体现在两个方面:一方面需要大的样本集进行学习;另一个方面对视角、光照与物体非线性形变敏感。上述方法都属于线性投影的方法,而非线性特征方法目标是将非线性问题转为线性问题,例如使用“核技巧”。主要方法有:KPCA[65石71和SVM的一些扩展方法[68-701。该类方法的局限性也表现在两个
方面:一方面在非线性转换过程里的映射几何意义不明确;另一方面使用“核技巧”缺乏选取标准的引导,多通过实验调整和经验选取。还有一类人工加工特征是对在其他特征提取方法对图像进行各种滤波变换如K—L变换、傅里叶变换、小波变换、小波
包变换等。将滤波变换的系数作为图像特征,这种方法是二次提取的特征称为变换
系数特征。其优点是表示能力强、特征维数低。缺点是依赖于对分类识别图像的某种变换、特征的语义不直观。特征的自我学习阶段,前两个阶段的特征抽取和表达无论是哪种,都离不开人工选择,即使是多种特征结合的方式也需要事先根据问题领域人工确定。在问题没有解决之前确定选取的特征更多要依靠经验和运气。能否让图像特征实现学习而不需要人工选择?
人类的视觉系统给出了这样的启示:人的视觉系统信息处理是分级的,从低层特征到高层的特征,逐步抽象,越抽象越接近表现语义。在此基础上,Hinton提出了深度学习的概念。深度学习继承了神经网络对复杂函数逼近的特点,提出的多层学习模型模拟了人脑的认知机制。Hinton提出了深度信念网(DeepBeliefNetworks,DBNs)[741,实现了深度学习的概念。DBNs用非监督贪婪算法进行逐层训练解决原有深层结构带来的易陷入局部最小和梯度扩散的难题。深度学习思想的核心有三点:第一,逐层训练;第二,用无监督学习训练每一层;第三,用无监督训练来对所有层进行调整。深度学习不需要人工指定特征,可以将图像这样的研究对象直接作为输入,因此非常适合处理图像问题。深度学习的主要算法除了DBNS外,Fukushima提出的卷积神经网络(ConvolutionalNeural Networks,CNN)[761是第一个真正多层网络结构学习算法,也是近年在图像处理领域研究最多的深度学习算法。除此之外深度学习还出现了许多其它结构,例如自动编码器AutoEncoder,稀疏自动编码器Sparse AutoEncoder,降噪自动编码器DenoisingAutoEncoders,递归神经网络RNN[801。Bengio研究了基于线性和非线性的自动编码器。近年来深度结构在目标识别阮、语音识别、人脸识别网、运动姿势估计方面也有很多应用。总而言之,随着计算机硬件以及GPU技术的发展,深
度学习的结构可以更好的适应大型图像数据库的应用,不需要人工特征提取方法实现图像分类识别任务,做到机器智能学习,并且有非常广阔的应用领域。
2.1.2.分类学习算法
在特征提取之后,需要依靠分类学习算法得到最终的图像分类结果,分类学习算法或者称分类器也是研究人员研究的热点。
(1)SVM(支持向量机):支持向量机是当前研究最热门的分类算法之一,
支持向量机以统计学习理论为基础,将线性不可分问题通过高维映射成为线性可分问题,采用线性分类进行划分。以线性二分类为基础,通过采用一对一、一对多等策略可以转换为多分类问题的求解。在图像分类任务中,SVM具有良好的泛化能力,不易陷入局部最优。但SVM构建过程中的核参数选择还缺少标准,误差惩罚参数选取也是SVM的一个难点。这2个重要的参数对SVM的分类效果有明显的影响。很多研究围绕着这2个关键点,例如:多核学习的概念的提出以及其在图像和目标识别的应用。
在核选择上问题上也有不少研究,Kotrooulos在医学图像分割领域证明采用RBF核的效果最佳,RBF核是目前大多数SVM的首选。Hillt941对几种SVM方法进行了比较,并分析了各算法训练速度优劣的原因。
(2)随机森林:随机森林是由多个决策树通过随机形式方式组成的分类器。随机
森林适合于多分类任务,其表达直观、训练和预测速度快。Leo Breiman和Adele Cutler
发展出随机森林的算法。随机森林也是图像分类常用的分类器之一,Kontschiedert在随机森林的框架下融入了标注拓扑信息用于图像语义标注。Schroff将图像局部和全局多种特征融合在随机森林的框架下提高了分类器的表现。随机森林的缺点主要有两点:第一,对噪音较大的问题容易出现过拟合;第二,由于分类结果取个别树的众数,对于分类问题中有不同级别属性的,权值计算存在较大偏差,分类结果不可靠。
(3)贝叶斯方法:贝叶斯分类以计算类概率的方式得出样本属于某一类的概率,
将最大概率的类标签赋予样本。朴素的贝叶斯分类器(Naive Bayesian Classifier)因具有较高的准确性,在图像分类问题,文本分类等应用较多,ZhangI蚓用它来解决多标注的特征学习问题。贝叶斯分类器的缺陷是:需要估计概率密度分布函数,这个在很多应用中都难以估计。另外,它的前提假设是各特征满足独立不相关,否则分类的准确度就会大大降低。
(4)神经网络:神经网络算法是由生物的神经网络结构得到启示,通过数学模型
模拟神经元以及神经元之间的相互连接而构成网络模型。神经网络对不同的神经元设置不同的权值参数,通过激活函数调整神经元节点之间的连接关系,实现对样本的学习。
R Hecht-Nielson删证明任何连续函数都可以n4--层的BP网络实现任意精度近似。BP神经网络在早期的图像分类问题中也常使用,但因BP神经网络容易陷入局部最小,训练时间较长而相对其它分类方法并没有明显的优势,近年来BP神经网络的研究相对较少。深度学习实际上神经网络的一种特殊扩展形式,它将特征提取和分类融合在一个结构中实现。
(5)集成学习:集成学习实际上并不是一种全新的分类方法,它的理论基础是概
率近似准确(PAC,Probably Approximately Correct)。集成学习不同于上述分类方
法去努力提升单个分类器的分类精度,而是研究是否可以通过集成的方式,实现弱学习方法转强。在1990年Schapirell021首先提出了集成学习的概念和Boosting算法,之后集成学习逐渐成为机器学习领域中的热点。集成学习领域最著名的2个算法是:
AdaBoost算法,Bagging算法。AdaBoost通过提高错误样本的权值改变样本数据分布,将弱分类器组合提升为强分类器。Bagging通过训练集的划分,采用不同的子集训练分类器,获得不同分类器后再进行集成,提升分类性能。Bagging的训练集是随机的,各训练集是独立的,而Boosting训练集的选择不是独立的,每一次选择的训练集都依赖于上一次学习的结果。Boosting算法的变种有很多:LPBoostll0、TotalBoost,
SoflBoost,ERLPBoostl等。这些Boosting算法主要是从最大化boosting算法的
间隔(Margin)或者软间隔(SoftMargin)考虑来改进的。2001年周志华等人提出了“选择性集成,,概念并设计了一种选择性集成算法GASENll,用对弱分类器先选择再集成
的方式提升了性能。集成学习算法存在两个问题:第一,当要集成的弱分类器有较大相关性和冗余时,集成效果不好,这时增加分类器也得不到多大的提升。第二,Boosting
系列集成算法对弱分类器更新样本权重,是基于全局的,这样弱化了强分类器的作用。
我按照基于聚类、排序、选择、优化个不同角度对选择性集成算法进行综述。
综上所述,深度学习的方法与传统的图像分类方法相比较有以下几点优势:第一,
深度学习方法在同一结构中实现特征选择和分类,无需人工选择特征:第二,从现有的研究成果看,深度学习方法比传统的图像分类方法在一般图像分类准确率上有显著的提升:第三,深度学习方法的结构由于其网络的深度和对并行计算的支持更适合于处理大批量的数据。
2.2 视网膜的生理结构
视网膜就像一架照相机里的感光底片,专门负责感光成像。当我们看东西时,物体的影像通过屈光系统,落在视网膜上。视网膜是一层透明薄膜,因脉络膜和色素上皮细胞的关系,使眼底呈均匀的橘红色。后界位于视乳头周围,前界位于锯齿缘,其外面紧邻脉络膜,内面紧贴玻璃体。
视信息在视网膜上形成视觉神经冲动,沿视路将视信息传递到视中枢形成视觉,这样在我们的头脑中建立起图像。
生物结构
组织学上视网膜分为10层,由外向内分别为:色素上皮层,视锥、视杆细胞层,外界膜,外颗粒层,外丛状层,内颗粒层,内丛状层,神经节细胞层,神经纤维层,内界膜。
视网膜内层为衬于血管膜内面的一层薄膜,有感光作用。后部鼻侧有一视神经乳头。
视网膜上的感觉层是由三个神经元组成。第一神经元是视细胞层,专司感光,它包括锥细胞和杆细人的视网膜上共约有1.1~1.3 亿个杆细胞,有600~700万个锥细胞。视杆细胞主要在离中心凹较远的视网膜上,而视锥细胞则在中心凹处最多。第二层叫双节细胞,约有10到数百个视细胞通过双节细胞与一个神经节细胞相联系,负责联络作用。第三层叫节细胞层,专管传导。
视网膜是一层菲薄的但又非常复杂的结构,它贴于眼球的后壁部,传递来自视网膜感受器冲动的神经纤维跨越视网膜表面,经由视神经到达出口。视网膜的分辨力是不均匀的,在黄斑区,其分辨能力最强。视网膜的厚度相当于一张薄纸。从光学观点出发,视网膜是眼光学系统的成像屏幕,它是一凹形的球面。组织结构层次为色素上皮细胞→光感受器细胞→双极细胞→神经节细胞。
视网膜的凹形弯曲有两个优点:
(1)眼光学系统形成的像有凹形弯曲,所以弯曲的视网膜作为像屏具有适应的效果;
(2)弯曲的视网膜具有更广宽的视野。
视网膜后极部有一直径约2mm的浅漏斗状小凹陷区,称为黄斑,这是由于该区含有丰富的叶黄素而得名。其中央有一小凹为黄斑中心凹,黄斑区无血管,但因色素上皮细胞中含有较多色素,因此在检眼镜下颜色较暗,中心凹处可见反光点,称为中心凹反射,因此处只有大量的视锥细胞,故它是视网膜上视觉最敏锐的部位。
2.3 视网膜OCT图像特点
OCT视网膜各层对应关系
1.神经纤维层:神经纤维,反光强——红黄色带。
2.神经节细胞层:节细胞体,反光弱——绿蓝色带。
3.内丛状层:节细胞和双极细胞树突——神经纤维,反光强——黄色带。
4.双极细胞体层:细胞体,反光弱——蓝色带。
5.外丛状层:视细胞和双极细胞树突——神经纤维,反光强——黄色带。此层有中介膜存在,是真正的视网膜中分界所在。
6.视细胞体层:视细胞体,反光弱——蓝色带,而且较宽。
7.外界膜:反光略增强,很窄的绿黄色带。为视细胞体与椎体、杆体(感受器)之间的分界处,外界膜的内侧为视细胞体,其外侧即为椎体和杆体。
8.视细胞光感受器内节带:较外界膜反光略弱——很窄的绿色带。
9.视细胞光感受器内外节连接处:反光明显增强,很窄的黄色带。在黄斑中心凹处,因该处的椎体外节长而稍远离其下的色素上皮带。
10.视细胞光感受器外节带:反光略弱——非常窄的绿色带。仔细观察下是一条区分内外节连接处与其下色素上皮层的非常非常窄的绿色光带,在黄斑中心凹处,因该处椎体外节长而增宽
11.色素上皮层:反光明显增强、增宽的红黄色带。在黄斑中心凹处,因该处色素上皮增多,而略有增宽。
12.玻璃膜和脉络膜毛细血管层:因色素上皮层的遮蔽作用,结构显示不太清楚。
2.4 视网膜OCT图像处理
OCT作为一种新型的成像技术具有很多技术上的优势,利用OCT诊断眼底病已经得到了广泛的应用。已阅的文献主要从视网膜OCT图像的预处理、特征提取和分类器设计几个方面对视网膜OCT图像识别这一课题进行了一定的研究和讨论。
OCT图像的预处理主要采用了两种方法:二值化和图像轮廓提取。主要讨论了后一种方法。视网膜OCT图像信息量较大,图像背景复杂。单纯的图像处理方法不能得到连通的特征区域。在对图像进行预处理时,有些学者采用了彩色分割、数学形态学运算以及边缘检测等方法相结合的办法。在处理图像过程中,膨胀以及闭运算操作会使预处理后的边缘与实际的图像边缘产生偏离,所以,把握好预处理过程中的结构元素的大小十分关键,既要使图像连通有要使基本形态特征保持不变。经过预处理后,视网膜OCT图像轮廓清晰,特征区域明显,为后续的图像识别奠定了基础。
通过对视网膜OCT图像的分析,有部分学者采用二值化、轮廓提取技术对图像进行了预处理,利用K.L变换提取了图像的特征向量,最后分别用最近邻法和BP神经网络法进行了图像识别。从实验中可以看出,不同的方法保留的图像信息是不同的,所以最后的结果就会有差异。通过比较,采用图像二值化后直接用最近邻法进行图像识别的方案,识别率达到了100%。
2.5 图像处理中主要的深度学习方法
AutoEncoder自动编码器
最简单的一种方法是利用人工神经网络的特点,人工神经网络(ANN)本身就是具有层次结构的系统,如果给定一个神经网络,我们假设其输出与输入是相同的,然后训练调整其参数,得到每一层中的权重,自然地,我们就得到了输入I的儿种不同表示(每一层是输入的一种表示),这些表示就是特征,在研究中可以发现,如果在原有的特征中加入这些自动学习得到的特t正可以大大提高精确度,甚至在分类问题中比}」前址好的分类算法效果还要好,这种方法称为自动编码(AutoEncoder )。
Sparse Coding稀疏编码
如果我们把输出必须和输入相等的限制放松,同时利用线性代数中基的概念,即O=Wx B, +砚x B, +...+W,x B,, , B是基,W;是系数,我们可以得到这样一个优化问题:Min 11一Olo
通过求解这个最优化式子,我们可以求得系数W和基B;,这些系数和基础就是输入的另外一种近似表达,因此,它们可以被当成特征来表达输入I,这个过程也是自动学习得到的。如果我们在上述式子上加上L1的Regularity限制,得到: Min}I一O}+u*(IW卜}砚I+…+}W,})。(2. 1)
种方法被称为Sparse Coding,它是一种对对象的简洁表征的方法,这种方法可以自动地学习到隐藏在对象数据潜在的基函数。
Restricted Boltzmann Machine(RBM)限制波尔兹曼机
假设有一个二部图,每一个相同层的节点之间没有链接,一层是可视层,即输入数据层(v),一层是隐层(h),如果假设所有的节点都是二值变量节点(只能取0或者1值),同时假设联合概率分布p(v, h)满足Boltzmann分布,我们称这个模型是受限玻尔兹曼机(RBM)。下面我们来看看为什么它是Deep Learning方法。首先,这个模型因为是二部图,所以在己知v的情况下,所有的隐藏节点之间是条件独立的,即p(hIv卜p(h, I 1,) ... p(h� I v)。同理,在己知隐藏层h的情况下,所有的可视节点都是条件独立的,同时又由于所有的v和h满足Boltzmann分布,因此,当输入v的时候,通过p(hlv)可以得到隐藏层h,而得到隐藏层h之后,通过p(vlh)又能重构可视层,通过调整参数,我们就是要使得从隐藏层得到的可视层VI与原来的可视层v如果一样,那么得到的隐藏层就是可视层的另外一种表达,因此隐藏层可以作为可视层输入数据的特征,所以它就是一种Dcep Learning方法。文献X32]从理论一上证明,当隐层节点足够多时,深度网络就可以表示任意离散分布;文献[33]指出受限玻尔兹曼机中的隐层节点与可视节点可以为任意的指数族单元(即给定隐单元(可见单元),可见单元(隐单元)的分布的形式一可以为任意的指数族分布),如高斯单元、softmax单元、泊松单元等等。
Deep BeliefNetworks深信度网络
DBNs是一个概率生成模型,与传统的判别模型的神经网络相对,生成模型是建立一个观察数据和标签之间的联合分布,对P(Observation|Label)和 P(Label|Observation)都做了评估,而判别模型仅仅而已评估了后者,也就是P(Label|Observation)。对于在深度神经网络应用传统的BP算法的时候,DBNs遇到了以下问题:
(1)需要为训练提供一个有标签的样本集;
(2)学习过程较慢;
[if !supportLists](3)[endif]不适当的参数选择会导致学习收敛于局部最优解。
目前,和DBNs有关的研究包括堆叠自动编码器,它是通过用堆叠自动编码器来替换传统DBNs里面的RBMs。这就使得可以通过同样的规则来训练产生深度多层神经网络架构,但它缺少层的参数化的严格要求。与DBNs不同,自动编码器使用判别模型,这样这个结构就很难采样输入采样空间,这就使得网络更难捕捉它的内部表达。但是,降噪自动编码器却能很好的避免这个问题,并且比传统的DBNs更优。它通过在训练过程添加随机的污染并堆叠产生场泛化性能。训练单一的降噪自动编码器的过程和RBMs训练生成模型的过程一样。
Networks卷积神经网络
卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。
CNNs是受早期的延时神经网络(TDNN)的影响。延时神经网络通过在时间维度上共享权值降低学习复杂度,适用于语音和时间序列信号的处理。
CNNs是第一个真正成功训练多层网络结构的学习算法。它利用空间关系减少需要学习的参数数目以提高一般前向BP算法的训练性能。CNNs作为一个深度学习架构提出是为了最小化数据的预处理要求。在CNN中,图像的一小部分(局部感受区域)作为层级结构的最低层的输入,信息再依次传输到不同的层,每层通过一个数字滤波器去获得观测数据的最显著的特征。这个方法能够获取对平移、缩放和旋转不变的观测数据的显著特征,因为图像的局部感受区域允许神经元或者处理单元可以访问到最基础的特征,例如定向边缘或者角点。
[if !supportLists]第2章[endif]总结
深度学习是关于自动学习要建模的数据的潜在(隐含)分布的多层(复杂)表达的算法。换句话来说,深度学习算法自动的提取分类需要的低层次或者高层次特征。高层次特征,一是指该特征可以分级(层次)地依赖其他特征,例如:对于机器视觉,深度学习算法从原始图像去学习得到它的一个低层次表达,例如边缘检测器,小波滤波器等,然后在这些低层次表达的基础上再建立表达,例如这些低层次表达的线性或者非线性组合,然后重复这个过程,最后得到一个高层次的表达。
Deep learning能够得到更好地表示数据的feature,同时由于模型的层次、参数很多,capacity足够,因此,模型有能力表示大规模数据,所以对于图像、语音这种特征不明显(需要手工设计且很多没有直观物理含义)的问题,能够在大规模训练数据上取得更好的效果。此外,从模式识别特征和分类器的角度,deep learning框架将feature和分类器结合到一个框架中,用数据去学习feature,在使用中减少了手工设计feature的巨大工作量(这是目前工业界工程师付出努力最多的方面),因此,不仅仅效果可以更好,而且,使用起来也有很多方便之处,因此,是十分值得关注的一套框架,每个做ML的人都应该关注了解一下。
当然,deep learning本身也不是完美的,也不是解决世间任何ML问题的利器,不应该被放大到一个无所不能的程度。
2)Deep learning未来
深度学习目前仍有大量工作需要研究。目前的关注点还是从机器学习的领域借鉴一些可以在深度学习使用的方法,特别是降维领域。例如:目前一个工作就是稀疏编码,通过压缩感知理论对高维数据进行降维,使得非常少的元素的向量就可以精确的代表原来的高维信号。另一个例子就是半监督流行学习,通过测量训练样本的相似性,将高维数据的这种相似性投影到低维空间。另外一个比较鼓舞人心的方向就是evolutionary programming approaches(遗传编程方法),它可以通过最小化工程能量去进行概念性自适应学习和改变核心架构。
Deep learning还有很多核心的问题需要解决:
(1)对于一个特定的框架,对于多少维的输入它可以表现得较优(如果是图像,可能是上百万维)?
(2)对捕捉短时或者长时间的时间依赖,哪种架构才是有效的?
(3)如何对于一个给定的深度学习架构,融合多种感知的信息?
(4)有什么正确的机理可以去增强一个给定的深度学习架构,以改进其鲁棒性和对扭曲和数据丢失的不变性?
(5)模型方面是否有其他更为有效且有理论依据的深度模型学习算法?
探索新的特征提取模型是值得深入研究的内容。此外有效的可并行训练算法也是值得研究的一个方向。当前基于最小批处理的随机梯度优化算法很难在多计算机中进行并行训练。通常办法是利用图形处理单元加速学习过程。然而单个机器GPU对大规模数据识别或相似任务数据集并不适用。在深度学习应用拓展方面,如何合理充分利用深度学习在增强传统学习算法的性能仍是目前各领域的研究重点。
本文还介绍了用于图像分类的不同方法,目前主流的分类方法还是用卷积神经网络。还了解了视网膜及其OCT图像的具体结构和特征。