-深度学习--图像五大技术


CNN浅析和历年ImageNet冠军模型解析

http://www.infoq.com/cn/articles/cnn-and-imagenet-champion-model-analysis
解读Keras在ImageNet中的应用:详解5种主要的图像识别模型
https://yq.aliyun.com/articles/78726

Keras中最新的深度学习图像分类器

Keras提供了五种开箱即用型的CNN:

      1. VGG16

      2. VGG19

      3. ResNet50

      4. Inception V3

      5. Xception


视觉识别是计算机视觉的关键组成部分,如:

图像分类对象检测、目标跟踪、语义分割、实例分割

实质:物体检测和分割,都可以被归结为图像分类问题。

分类的种类:

图像分类包括通用图像分类、细粒度图像分类等。图1展示了通用图像分类效果,即模型可以正确识别图像上的主要物体。

分类的难点

        对于人来说,识别出一个像“猫”一样视觉概念是简单至极的,然而从计算机视觉算法的角度来看就值得深思了。我们在下面列举了计算机视觉算法在图像识别方面遇到的一些难点,要记住图像是以3维数组来表示的,数组中的元素是亮度值。

  • 视角变化(Viewpoint variation):同一个物体,摄像机可以从多个角度来展现。
  • 大小变化(Scale variation):物体可视的大小通常是会变化的(不仅是在图片中,在真实世界中大小也是变化的)。
  • 形变(Deformation):很多东西的形状并非一成不变,会有很大变化。
  • 遮挡(Occlusion):目标物体可能被挡住。有时候只有物体的一小部分(可以小到几个像素)是可见的。
  • 光照条件(Illumination conditions):在像素层面上,光照的影响非常大。
  • 背景干扰(Background clutter):物体可能混入背景之中,使之难以被辨认。
  • 类内差异(Intra-class variation):一类物体的个体之间的外形差异很大,比如椅子。这一类物体有许多不同的对象,每个都有自己的外形。
  • PASCAL VOC 数据集

      PASCAL VOC从2005年到2012年每年都发布关于分类、检测、分割等任务的数据库,并在相应数据库上举行了算法竞赛,极大地推动了视觉研究的发展进步.最初2005年PASCAL VOC数据库只包含人、自行车、摩托车、汽车共4类,2006年类别数目增加到10类,2007年开始类别数目固定为20类,以后每年只增加部分样本.PACAL VOC数据库中物体类别均为日常生活中常见的物体,如交通工具、室内家具、人、动物等.PASCAL VOC数据库共包含9963张图片,图片来源包括filker等互联网站点以及其他数据库,每类大概包含96~2008张图像,均为一般尺寸的自然图像.PASCAL VOC数据库与Caltech-101相比,虽然类别数更少,但由于图像中物体变化极大,每张图像可能包含多个不同类别物体实例,且物体尺度变化很大,因而分类与检测难度都非常大.该数据库的提出,对物体分类与检测的算法提出了极大的挑战,也催生了大批优秀的理论与算法,将物体识别的研究推向了一个新的高度.

    ImageNet 数据集

      随着分类与检测算法的进步,很多算法在以上 提到的相关数据库上性能都接近饱和,同时随着大 数据时代的到来、硬件技术的发展,也使得在更大规 模的数据库上进行研究和评测成为必然.ImageNet是由Li主持构建的大规模图像数据库,图像类别按照WordNet构建,全库截止2013年共有1400万张图像,2.2万个类别,平均每类包含1000张图像.这是目前视觉识别领域最大的有标注的自然图像分辨率的数据集,尽管图像本身基本还是以目标为中心构建的,但是海量的数据和海量的图像类别,使得该数据库上的分类任务依然极具挑战性.除此 之外,ImageNet还构建了一个包含1000类物体 120万图像的子集,并以此作为ImageNet大尺度视 觉识别竞赛的数据平台,也逐渐成为物体分类算法 评测的标准数据集.


TensorFlow之CNN图像分类及模型保存与调用

https://blog.csdn.net/Enchanted_ZhouH/article/details/74116823

数据集中总共有五种花,分别放在五个文件夹下。

#将所有的图片resize成100*100

你可能感兴趣的:(机器学习,python3)