Deep Metric Learning for Visual Understanding(深度度量学习在视觉理解方面的发展)

度量学习旨在学习距离函数来测量相似样本距离,其在很多视觉理解上发挥很大的作用,一般的,最优视觉函数对于不同的理解任务是非常具体的,因为其数据分布在不同的任务中是不同的,普遍认为度量学习训练数据的效果要优于手工设计,比如说欧式距离与余弦距离,大量的度量学习被 提出,并且成功应用于人脸识别 图片分类 视觉跟踪 人体重识别 跨模态配对 图片的几何定位。

度量学习分为监督与非监督的,非监督度的度量学习尝试学习低纬度空间的保存样本的几何信息,监督的度量学习主流存在科研阶段,其在寻找适当最优的函数探索训练样本的监督信息,函数需要被设计在不同的任务中,然后大量的监督的度量学习是学习线性映射到新的特征空间,在度量学习中 其是非线性的数据点。核函数可以解决非线性问题,但是会出现比例问题,因为核函数存在两个问题(1)核函数的选择很困难与经验化(2)核函数不能很好的表达非线性的数据 。因此深度度量学习是一个很好的解决方案。

深度度量学习关键的思想是探索不同神经网络架构学习一系列的非线性转变来映射数据点到其他的特征空间来匹配与比较,其把度量学习与特征学习整合到一个框架,此文的目的是提供不同深度度量的技术与视觉理解任务的应用。

定于1  满足非负性、对称性、恒等性、可等性 

Deep Metric Learning for Visual Understanding(深度度量学习在视觉理解方面的发展)_第1张图片

定义2 伪度量

Deep Metric Learning for Visual Understanding(深度度量学习在视觉理解方面的发展)_第2张图片

lemma 1

总结了度量学习本质是在大量损失函数和约束条件下情况下寻找度量映射函数的方法,其中借助了伪度量函数的中介

Deep Metric Learning for Visual Understanding(深度度量学习在视觉理解方面的发展)_第3张图片

声明:举个例子

手写体识别mnist数据集,选择4、7、9三类各50个样本来分类,大小28*28 形成784维,使用(LDA 线性判别分析)在原始维度和转化的维度空间 是不同的可以见图片1

Deep Metric Learning for Visual Understanding(深度度量学习在视觉理解方面的发展)_第4张图片

在本文中,阐述了深度度量学习,学习非线性映射函数把数据映射到新的特征空间中,其通过神经网络的权重和偏重完成。

深度度量学习:在这个章节 我们介绍了基础的深度度量学习 的概念,讨论与现存方法的相似性与不同

基本概念:如图2的神经网络框架

Deep Metric Learning for Visual Understanding(深度度量学习在视觉理解方面的发展)_第5张图片

寻找一个函数 ,把权重 和 偏重看做是函数的参数,整个神经网络框架的输入是数据,相当于函数的自变量,输出是函数的输出,其xi xj 的深度度量距离可以视为f(xi) f(xj)的之间的欧氏距离,图三所示为神经网络cnn,最近很多利用卷积神经网络做的深度度量学习,前向传播如图3 所示

Deep Metric Learning for Visual Understanding(深度度量学习在视觉理解方面的发展)_第6张图片

基于孪生神经网络的度量学习

经典的,孪生神经网络和三重网络广泛应用于神经网络,图4展示了这些

Deep Metric Learning for Visual Understanding(深度度量学习在视觉理解方面的发展)_第7张图片

Deep Metric Learning for Visual Understanding(深度度量学习在视觉理解方面的发展)_第8张图片

样本可以分为相似的和不同的两种类型,相同的xi xj 之间的的距离小于参数τ1 ,不同xi xj 之间的距离是大于τ2

损失函数可表示为下面的公式:

Deep Metric Learning for Visual Understanding(深度度量学习在视觉理解方面的发展)_第9张图片

以下介绍一种重要的工作:DRLIM (Dimensionality reduction by learning an invariant mapping )降维学习恒定的映射函数,通过孪生网络用于面部矫正,其主要学习样本临近信息的区别信息来建立映射函数。这里有4种特征(1)需要在训练样本间的关系(2)对于非线性信息的输入信号比较鲁邦(3)学习的函数可以解决不可见的信息,具有普遍性(4)在输出的空间函数生成的映射比较平滑与连续性 ;【20】引入一种非线性度量学习:深度度量子网络分析网络(a deep independant subspace analysis)被称为DNLML-ISA 为两层神经网络非监督的,每层存在不同的激活函数,

 

 

 

 

 

 

你可能感兴趣的:(论文阅读,paper_reading)