VGG-16详解

VGG-16示例

  • 理解:
  • 不易理解的地方:
  • 扩充:结合VGG-16视频及文档学习

VGG-16详解_第1张图片
Vgg11-19

理解:

输入图像为2242243,大小为:224224,深度为:3(通道数)
3
364卷积:33表示卷积核大小,64为图像深度,即卷积核的个数
卷积核:只改变图像的深度(即卷积核的个数),不改变图像的大小
池化:只改变图像的大小,不改变图像的深度
Tensor: 就像ndarray一样,一维Tensor叫Vector,二维Tensor叫Matrix,三维及以上称为Tensor

不易理解的地方:

  • 参数说明:其中的64,128,512都是手动指定的(这也是为什么到了第五次卷积核池化之后图像深度仍是512的原因)包括后面的全连接层4096,1000
  • 77512过渡到114096:他是怎样有多维转化为以为的?其实在他们之间有一个过渡函数x = x.view(x.size(0), -1)。因为分类器是一个简单的nn.Linear()结构,输入输出都是维度为一的值,x = x.view(x.size(0), -1) 这句话的出现就是为了将前面多维度的tensor展平成一维。其中-1表示会自适应的调整剩余的维度,(直接填-1表示拉直, 等价于tensor_name.flatten()),从这里我们可以看得出来,view函数如其名,只改变“看起来”的样子,不会改变张量在内存中的排列。可参考:链接1和链接2
  • 全连接层:一共有三个全连接层,在前两个全连接层是由relu和Dropout构成,而最后一层是用softmax进行激活,对于softmax来说,它能够将图片的输入转化为类别的输出。

扩充:结合VGG-16视频及文档学习

  • 视频链接(视频中使用的代码为Keras框架):
    https://www.bilibili.com/video/BV1ta411c7Sx/?spm_id_from=333.788.recommend_more_video.2
  • 文档链接(pytorch框架):
    https://zhuanlan.zhihu.com/p/87555358
  • 视频中代码链接:https://pan.baidu.com/s/1AMQs7Zss3Xwa1Y7qfK_q_A
    提取码:15pn

总结不易,喜欢请点赞!!!!!

你可能感兴趣的:(科研工具,深度学习,pytorch,神经网络)