理解图像分类和零样本目标识别的区别

图像分类和零样本目标识别有啥不同?

图像分类

 拿12306火车票图片来说吧,总共80种,比如其中一类为红枣,给你100个红枣的图片,尽管这100个红枣的图片千差万别,但都是红枣,机器就拿这100个样本学习并记住其特征,比如红色的、椭圆的,表皮有褶皱的等等。 同样,对于另外79种,也一样操作,学习完成了,你给一张图片,给机器识别,机器提取该张图片的特征后,在学习过的80种中间挑出机器认为概率最大的一个。

注意,图片分类,机器识别的结果只能是机器学习过的80种图片中间的一种,如果你给一个80种图片以外的其他图片,机器是无法识别出来的。
    
零样本图像目标识别

与图像分类不同的是,比如,给你一类猪的图片,100张各种各样的猪,机器学习完成以后,需提取猪的各种特征,如四条腿、大耳朵、2只眼睛,鼻孔很大等等。学习完成以后呢,
给机器一张牛的图片识别,需要机器认出来可能是谁谁谁

Zero-short learning:就是用来解决识别我们的训练样本中从没就没有出现过的样本。但是,虽然训练样本中从来没有出现过该样本,但是却有类似的样本出现过。比如,你的训练样本中包括了很多的猫,而且对猫的描述有比较详尽的描述,那么对于新出现的一类猫虽然在训练样本中没有出现过,但是你还是能够给识别出来。其实就是相对于zero-short learning, one-short learning还是有一些训练样本,但是非常少,甚至是只有一个训练样本。大家都知道,在图像识别领域,想要识别准确率高,同一类的训练样本需要非常多来训练才会使得模型拟合较好。

该类模型主要用于没有足够标签数据的分类问题。

这个在《deep learning》第538至第540页或其中文译本《深度学习》书第458至460页中是有讲述的,当然这个只是在讲迁移学习中简略的讲述了,想要详细了解,可以根据它引用的文献去仔细看看。

理解图像分类和零样本目标识别的区别_第1张图片

理解图像分类和零样本目标识别的区别_第2张图片

理解图像分类和零样本目标识别的区别_第3张图片

https://github.com/exacity/deeplearningbook-chinese

这个是中文版译本的github地址,有兴趣的可以去下载和查看。


图像分类算法很简单,就不用提了,那这个零样本目标识别算法咋整?

零样本图像目标识别的基本思路:
1. 与图片分类已有,对已有样本类别用深度学习模型提取 图片特征
2. 对已有图片文字类别名称矢量化 - word2Vec  ---   比赛题目中,出题方已经帮大家完成了矢量化的操作,不用自己单独提取。-- 注意,这个矢量化包括学习样本以外的其他类别,如牛这个类别
3. 对以后图片的各个类别做特征标注 - 比赛题目中,出题方已经帮大家完成了各个类别的标注,不用自己手工标注。 ---  注意,这个标注包括学习样本以外的其他类别,如牛这个类别
4. 将每类图片提取出来的特种映射到 类别名称矢量 或 类别特征标注,使得该图片与对应的矢量或特征标注某种距离最小。
5. 完成学习以后,当输入一张新的图片时,深度学习提取图片特征做矢量映射, 然后计算该矢量与 步骤3或4 的所有类别(包括学习样本的类别以及学习样本以外的类别)的距离,取距离最小的那个类别为识别目标。
 

胶囊神经网络与普通卷积神经网络到底有啥不同?

具体算法可参见论文,以下仅仅从代码实现角度来做个入门级描述:

普通神经网络(卷积+全连接)训练或预测过程:
输入  一张图片
输出  一个N维的向量. 其中N是图片类别的个数.N维向量中,每个元素则表示该图片属于第几类的概率.比如第一个元素为0.3,则表示该图片属于第一类的概率为30%,以此类推。

胶囊神经网络(卷积+胶囊)训练或预测过程:
输入  一张图片
输出  一个N X M维的矩阵. 其中N是图片类别的个数,M是胶囊的维数 - 这个M值根据自己的胶囊模型来定义和选择.在文字识别的网络中,我选择了16.N X M 的矩阵的意义 : 每一行(共N行,每行是个M维的向量)的模或者叫范数或长度,表示该图片属于第几类的概率.比如[1,0.9,0.3,..........],计算一下该向量的平方和再开根号,得到该向量的模,则这个值就是该图片属于第N类的概率。

但这个M维的向量有何意义?

这个向量正是胶囊神经网络的精髓:这个向量代表的该图片的方向和位置、旋转角度,比如图片1算出来的第i个向量为[1,0,0,0,0,0,0,.......],而图片2算出来的第i个向量为[-1,0,0,0,........],这2个向量的模相等,都等于 1,说明这2张图都属于第i个分类。
但注意到图片1和2第一个值符号相反,说明这2张图片是相互左右翻转或上下颠倒或位置有移动。 
普通的神经网络理论上也可以达到这个效果,训练时需要运用数据扩增(data augment),但data augment相当于人为增加了训练数据量,训练非常耗时,而且收敛很慢,实测了一下,效果还是比胶囊差很多。

你可能感兴趣的:(python学习,深度学习)