“深度学习”学习日记。--ImageNet、VGG、ResNet

2023.2.14

一、小历史:

在2012年的ILSVRC(ImageNet Large Scale Visual Recognitoin Chanllege),基于深度学习的方法AlexNet 以绝对优势获胜并且他颠覆了以前的图片识别方法,此后深度学习方法一直活跃在这个舞台。

二、ImageNet:

ImageNet是一个拥有超过100万张图像的数据集,并且每一张图片都有标签,;在2012年的AlexNet大幅度降低了错误的识别率,并且,此后基于深度学习的方法不断提升识别精度,特别是2015年的ResNet(超过150层的深度网络)将错误率下降到了3.5%

ImageNet数据集的下载: https://image-net.org/

ImageNet数据集的下载步骤:

如果没有账号,先注册再登陆,没有登陆就无法进入下载页面

“深度学习”学习日记。--ImageNet、VGG、ResNet_第1张图片

 三、VGG:

VGG是有卷积层和池化层构成的基础CNN。不过,正如这个结构图所表示,他的特点在与将有权重的层(卷积层或全连接层)叠加值深层。VGG16表示有16层,VGG19表示有19层

VGG的一个特点是他是基于3×3的小型卷积核的运算时连续进行的,正如图像所示,重复进行“卷积层重叠2次或者4次,再通过池化层将大小减半”的处理,最后由全连接层输出结果,结构简单,应用性强。

VGG的结构图:

“深度学习”学习日记。--ImageNet、VGG、ResNet_第2张图片

 

四、GoogleNet:

结构图:

“深度学习”学习日记。--ImageNet、VGG、ResNet_第3张图片  

从图像看上去,这是一个很复杂的网络结构,但是实际上它基本上和CNN的差别不大GoogLeNet的一个特征就是不仅在纵向上有深度,在横向上也有广度,这样横向的广度称为“Inception”结构,它使用了多个大小不同的卷积核(和池化),最后合并他们的结果

 Incepton结构:

“深度学习”学习日记。--ImageNet、VGG、ResNet_第4张图片

 五、ResNet:

ResNet是微软团队开发的网络,他的特征在于比以前的网络更具有深度的结构;以前的学习,我们可以知道加深层对于提升性能非常重要,但是,过深的结构会导致神经网络最终的性能不佳。于是,阿紫ResNet中为了解决这个问题,就导入了“快捷结构”,此后,就可以随着层的加深二不断提升性能了。

快捷通道:

“深度学习”学习日记。--ImageNet、VGG、ResNet_第5张图片

像这样,“快捷结构”横跨(跳过了)输入数据的卷积层,将输入x合计到输出。在连续两层的卷积层中,将输入x跳着连接值两层后的输出f(x),变成f(x)+x。因为快捷通道会原封不动的传递输入数据,所以反向传播时会将来自上有的梯度原封不动地传向下游。这里的重点时不对来自上游的梯度做任何处理,将其原封不动地传向下游。因此,基于快捷结构,不用担心梯度会变大还是变小,能够向前传递的是有意义的梯度。所以,这样的“快捷结构”也能使得因为加深层而导致梯度消失的问题得到缓解。

ResNet:以VGG为基础添加“快捷结构”:

“深度学习”学习日记。--ImageNet、VGG、ResNet_第6张图片

 

六、迁移学习:

实践中,经常会灵活应用ImageNet数据集去完成神经网络的学习权重参数的过程,这称为 “迁移学习”

将学习完的权重的一部分复制到其他神经网络,进行再学习(fine tuning) 。比如,准备一个和VGG相同结构的神经网络模型,把学习完的数据作为 权重的初始值 ,以新数据为对象,进行再学习。迁移学习在数据集较少时效果显著。

你可能感兴趣的:(深度学习,人工智能)