最近语义分割总是学了忘忘了学,并且自己对于神经网络的知识掌握的并不算特别的好,因此找到一个合适的顺序学习还是很重要滴,不然总是看不懂,下面就列一下自己的学习过程。
鼻祖了算是(如果是神经网络之前一点都没了解过,一开始可以先了解一下CNN的知识和结构之类的,以防看不懂。学基础网络结构看这里 蒋竺波 - 知乎)
散修炼丹师手记_Y.Z.Y._CSDN博客每篇丹方都来自各大门派典籍,结合本人独门手法总结熔炼,仅供学习交流,谨慎食用。。。,深度学习,视觉/OpenCV,算法https://blog.csdn.net/qq_42823043/article/list/1 先看这个博主写的,比较好懂
语义分割--全卷积网络FCN详解 - 我的明天不是梦 - 博客园语义分割--全卷积网络FCN详解 语义分割--全卷积网络FCN详解 语义分割--全卷积网络FCN详解 语义分割--全卷积网络FCN详解 1.FCN概述 CNN做图像分类甚至做目标检测的效果已经被证明并https://www.cnblogs.com/xiaoboge/p/10502697.html超级推荐,讲的很全也很好,就是稍微加大了一些难度
【总结】图像语义分割之FCN和CRF - 知乎前言 (呕血制作啊!)前几天刚好做了个图像语义分割的汇报,把最近看的论文和一些想法讲了一下。所以今天就把它总结成文章啦,方便大家一起讨论讨论。本文只是展示了一些比较经典和自己觉得比较不错的结构,毕竟这…https://zhuanlan.zhihu.com/p/22308032 主要讲了一个整体的语义分割可以分为前端和后端,然后前端用网络,后端用场,但是有点难,而且很旧,可不看
Fully Convolutional Networks for semantic Segmentation(深度学习经典论文翻译) - 一生不可自决 - 博客园摘要 卷积网络在特征分层领域是非常强大的视觉模型。我们证明了经过端到端、像素到像素训练的卷积网络超过语义分割中最先进的技术。我们的核心观点是建立“全卷积”网络,输入任意尺寸,经过有效的推理和学习产生相https://www.cnblogs.com/xuanxufeng/p/6249834.html这就是经典FCN翻译好的论文了,读完上面的可以开始读论文了
语义分割——SegNet(四)_散修炼丹师手记-CSDN博客_segnet简介补充一下2015年发表的SegNet模型,它是由剑桥大学团队开发的图像分割的开源项目,该项目可以对图像中的物体所在区域进行分割。SegNet是在FCN的语义分割任务基础上,搭建encoder-decoder对称结构,实现端到端的像素级别图像分割。其新颖之处在于解码器对其较低分辨率的输入特征图进行上采样的方式。SegNet论文地址:https://arxiv.org/abs/1511.005...https://blog.csdn.net/qq_42823043/article/details/103251851老样子,先看看可能这个
【语义分割】--SegNet理解_Alex-zzm-CSDN博客_segnet原文地址:SegNet复现详解:http://mi.eng.cam.ac.uk/projects/segnet/tutorial.html 实现代码: github TensorFlow简介: SegNet是Cambridge提出旨在解决自动驾驶或者智能机器人的图像语义分割深度网络,开放源码,基于caffe框架。SegNet基于FCN...https://blog.csdn.net/zhuzemin45/article/details/79709874精读深度学习论文(29)SegNet&FC-DenseNet - 知乎0. 前言嘿嘿,现在水平明显提升了,看论文容易多了,两篇两篇看。SegNet相关资料:原文:SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation译文官方网站:包括源码、样例等。Git…https://zhuanlan.zhihu.com/p/45130876
然后可以看这两个进行补充,当然了都讲得比较浅,因为他说实话和FCN查不算很多
unet的话也是说FCN的一个延申,所以我们可以直接看论文,上链接
Unet论文详解U-Net:Convolutional Networks for Biomedical Image Segmentation_祥瑞的技术博客-CSDN博客_unet论文
注意一点的是 在一开始FCN中也有拼接,这里也有拼接,专业一点叫“copy and crop”,z和两个的不同之处在于,FCN是逐像素相加,而Unet是对其channel的拼接过程。
首先解释一下平移不变性,通俗一点来说就是你移动了图像,但是你依然可以把它识别出来。这对图像分类来说是一种很好的特性,但是不适用于语义分割。
精读深度学习论文(20) DeepLab V1 - 知乎
如何理解空洞卷积(dilated convolution)? - 知乎(真的一定要看,把空洞卷积讲的特别好)
DeepLab V1 论文笔记 - 知乎 (总的论文中文翻译可以看过来)
条件随机场自己还没有弄得很明白,之后弄明白了可以在写一下。
下面开始transformer的相关网络学习
直接上沐神的b站视频即可,难度不大。
打印出来论文 然后照着翻译去读 难度不大,论文翻译网址如下:
TransUNet论文笔记_Johngo学长
还是上沐神的b站视频
然后看这篇文章,写的超好,把没有听懂的知识都梳理了一遍。
Swin-Transformer网络结构详解_太阳花的小绿豆的博客-CSDN博客_swin transformer
看完上面几篇文章之后,我突然对于imagenet的与训练很感兴趣,从网上搜了一下,发现了何恺明写过一篇这样的文章,打印下来看了一看,受益匪浅
论文➕重磅!何恺明等新作《Rethinking ImageNet Pre-training》 - 知乎
如何评价何恺明等 arxiv 新作 Rethinking ImageNet Pre-training? - 知乎
直接看论文 它主要讲的是多个任务的混合网络,我们只需要学习其语义分割的网络架构即可。
看论文,然后具体翻译可以参照以下网址:
Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers_一只黑猩猩的博客-CSDN博客
其余的话,这篇文章不是很难,主要是进行一个实验操作,然后解析看以下:
[论文笔记]Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers - 知乎
重新思考语义分割范式——SETR - 知乎