最近由于工作项目的原因,需要研究U-Net卷积网络,在这里将自己学习成果和大家分享一下,欢迎大家提问交流。U-Net网络提出基于论文 U-Net: Convolutional Networks for Biomedical Image Segmentation(论文:https://pan.baidu.com/s/1iinUuPlbWTiPQXgoI0WC6w,代码:https://github.com/silencemao/detect-cell-edge-use-unet)。这篇论文的作者是参加一个ISBI的竞赛, 获得了不错的效果,然后将其的成果分享给大家,以供大家学习.ISBI的官网:http://brainiac2.mit.edu/isbi_challenge/
在医学图像处理领域,医学图像分割主要有两种框架,一个是基于CNN(卷积神经网络)的,另一个就是基于FCN(全卷积网络)大名鼎鼎的FCN就不多做介绍了,具体的可以去参考http://www.cnblogs.com/gujianhan/p/6030639.html。
这个想法也很简单,就是对图像的每一个像素点进行分类,在每一个像素点上取一个patch,当做一幅图像,输入神经网络进行训练,举个例子:
这是一篇发表在NIPS上的论文Ciresan D, Giusti A, Gambardella L M, et al. Deep neural networks segment neuronal membranes in electron microscopy images[C]//Advances in neural information processing systems. 2012: 2843-2851.
这是一个二分类问题,把图像中所有label为0的点作为负样本,所有label为1的点作为正样本。
这种网络显然有两个缺点:
冗余太大,由于每个像素点都需要取一个patch,那么相邻的两个像素点的patch相似度是非常高的,这就导致了非常多的冗余,导致网络训练很慢。
感受野和定位精度不可兼得,当感受野选取比较大的时候,后面对应的pooling层的降维倍数就会增大,这样就会导致定位精度降低,但是如果感受野比较小,那么分类精度就会降低。
这里主要介绍一下基于FCN框架的网络结构----U-net ,网络结构如下:
网络结构如图所示, 蓝色代表卷积和激活函数, 灰色代表复制, 红色代表下采样, 绿色代表上采样然后在卷积, conv 1X1代表核为1X1的卷积操作, 可以看出这个网络没有全连接,只有卷积和下采样. 这也是一个端到端的图像, 即输入是一幅图像, 输出也是一副图像. 好神奇. 可以看出来,该网络就是一个全卷积神经网络,输入和输出都是图像,没有全连接层。较浅的高分辨率层用来解决像素定位的问题,较深的层用来解决像素分类的问题。
2 ISBI 竞赛是一个关于细胞分割的竞赛, 或者说是细胞边缘检测的竞赛, 这个比赛官方只提供了30张训练图像, 30张测试图像. 数据量非常少, 怎么办?isbi挑战的数据集,网址为: http://brainiac2.mit.edu/isbi_challenge/,数据集需要注册下载,我的GitHub上也有下载好的数据集。 我们可以做数据增强, 数据增强之后数据还不是很多, 没问题, U-net适用于小数据集(这个不是很准确,也没有官方的说明).
3 做这个问题的思路, 大约一个多月以前看到交大某位大神的博客(后来了解到竟然是老乡), 他的博文地址
http://blog.csdn.net/u012931582/article/details/70215756 , 我也是根据他的代码来改的,还没达到大神的能力.
(1) 官方提供的是一个tif文件的数据,将30张512X512的图片压缩(暂时理解为压缩吧)或者堆叠在一起,
这个挑战就是提取出细胞边缘,属于一个二分类问题,问题不算难,可以当做一个练手。
一开始我还以为就一张训练图像,一张label, 一张测试图像,还把我苦恼了一段时间(汗). 首先要安装libtiff这个python包,目前只能在python2上安装成功,(pip install libtiff), python3没有安装成功,又把我苦恼了一段时间.安装之后就可以将这看似一张的图像,转换为30张512x512的图像.方法大致如下:
from libtiff import *
imgstack = TIFF3D.read_image('train-volume.tif')
for i in range(imgstack.shape[0]):
savepath = '../../deform/tarin/' + str(i) + '.tif'
img = TIFF.open(savepath, 'w')
img.write_image(imgstack[i])
同样的方法,我们也可以将label(图像),和测试集分开来.这样训练集,测试集,label(GroundTruth), 都有了.但是数据量太少,怎么办?数据增强把,参考 http://keras-cn.readthedocs.io/en/latest/blog/image_classification_using_very_little_data/ ,这是使用keras实现数据增强的例子(data augmentation).数据增强的时候要注意,因为你的训练集中的每一个图像和label是一一对应的,所以你的每一张训练图像是怎样扭曲加噪声,label就要怎样扭曲加噪声,大神给我提供了一个思路,就是把label当做训练图像的一个通道,这样他们就可以进行同样的数据增强了.
(2)由于只有30张512*512的训练图像数据,数据集太小成为了一个很大的挑战,所以需要对图像进行增强,图像增强参考一篇图像扭曲的论文(http://faculty.cs.tamu.edu/schaefer/research/mls.pdf),扭曲前后图像效果对比如下:
接下来进行图像增强(代码实现:http://download.csdn.net/detail/u012931582/9817058,),增强之后就可以进行训练网络了,keras是一个非常简单地深度学习框架,可以很方便的搭建自己的网络,keras实现: https://github.com/zhixuhao/unet,将训练集,label,测试集生成一个npy文件,然后送入U-net就可以了.然后对在测试集上进行测试,跑的特别慢.结果如下:
通过阅读论文和博文我么可以了解到在医学图像领域还是有这样一个网络存在, 它是FCN的延伸,可用于获得图像的边缘.人工智能领域的研究深不可测, 希望广大网友能分享更多的资源,谢谢。.
下面分享几个有用的链接:
keras库:https://keras.io/