2020-3-28 深度学习笔记15 - 表示学习 5(得益于深度的指数增益(深度的优势),提供发现潜在原因的线索(正则化策略))

第十五章 表示学习

官网
英文

2020-3-24 深度学习笔记15 - 表示学习 1(贪心逐层无监督预训练-目前已经不太使用)
2020-3-25 深度学习笔记15 - 表示学习 2(迁移学习和领域自适应)
2020-3-26 深度学习笔记15 - 表示学习 3(半监督解释因果关系causal factors -生成式对抗网络)
2020-3-27 深度学习笔记15 - 表示学习 4(分布式表示)

得益于深度的指数增益Exponential Gains from Depth

相比于浅层网络,一些函数能够用指数级小的深度网络表示。 缩小模型规模能够提高统计效率。

上一节的生成模型的示例,能够学习人脸图像的潜在解释因子,包括性别以及是否佩戴眼镜。 完成这个任务的生成模型是基于一个深度神经网络的。

浅层网络(例如:线性网络)不能学习出这些抽象解释因子和图像像素之间的复杂关系。
在这个任务和其他AI任务中(深度网络应用),这些因子几乎彼此独立地被抽取,但仍然对应到有意义输入的因素,很有可能是高度抽象的,并且和输入呈高度非线性的关系。 我们认为这需要深度分布式表示,需要许多非线性组合来获得较高级的特征(被视为输入的函数)或因子(被视为生成原因)。

非线性和重用特征层次结构的组合来组织计算,可以使分布式表示获得指数级加速之外,还可以获得统计效率的指数级提升

足够深的前馈网络会比深度不够的网络具有指数级优势。

一系列和卷积网络相关的深度回路族表达能力的理论结果,即使让浅度回路只去近似深度回路计算的函数,也能突出反映深度回路的指数级优势。

提供发现潜在原因(Underlying Causes)的线索

在本章第三节中,曾经回答过“什么原因能够使一个表示比另一个表示更好?”。一个答案是,一个理想的表示能够区分生成数据变化的潜在因果因子,特别是那些与我们的应用相关的因素。

表示学习的大多数策略都会引入一些有助于学习潜在变差因素 underlying causal factors of
variation的线索。 这些线索可以帮助学习器将这些观察到的因素与其他因素分开。监督学习提供了非常强的线索:每个观察向量 x x x的标签 y y y,它通常直接指定了至少一个变差因素。

正则化策略对于获得良好泛化是很有必要的。 当不可能找到一个普遍良好的正则化策略时,深度学习的一个目标是找到一套相当通用的正则化策略,使其能够适用于各种各样的AI任务(类似于人和动物能够解决的任务)。

在此,我们提供了一些通用正则化策略的列表,给出了一些学习算法是如何发现对应潜在因素的特征的具体示例。

  • 平滑:假设对于单位 d d d和小量 ϵ \epsilon ϵ f ( x + ϵ d ) ≈ f ( x ) f(x + \epsilon d) \approx f(x) f(x+ϵd)f(x)。 这个假设允许学习器从训练样本泛化到输入空间中附近的点。 许多机器学习算法都利用了这个想法,但它不能克服维数灾难难题。
  • 线性:很多学习算法假定一些变量之间的关系是线性的。 这使得算法能够预测远离观测数据的点,但有时可能会导致一些极端的预测。 大多数简单的学习算法不会做平滑假设,而会做线性假设。 这些假设实际上是不同的,具有很大权重的线性函数在高维空间中可能不是非常平滑的。
  • 多个解释因子:许多表示学习算法受以下假设的启发,数据是由多个潜在解释因子生成的,并且给定每一个因子的状态,大多数任务都能轻易解决。
    • 本章第三节描述了这种观点如何通过表示学习来启发半监督学习的。 学习 p ( x ) p(x) p(x)的结构要求学习出一些对建模 p ( y ∣ x ) p(y\mid x) p(yx)同样有用的特征,因为它们都涉及到相同的潜在解释因子。
    • 本章第四节介绍了这种观点如何启发分布式表示的使用,表示空间中分离的方向对应着分离的变差因素。
  • 因果因子:该模型认为学成表示所描述的变差因素是观察数据 x x x的成因,而并非反过来。 正如本章第三节中讨论的,这对于半监督学习是有利的,当潜在成因上的分布发生改变,或者我们应用模型到一个新的任务上时,学成的模型都会更加鲁棒。
  • 深度,或者解释因子的层次组织:高级抽象概念能够通过将简单概念层次化来定义。 从另一个角度来看,深度架构表达了我们认为任务应该由多个程序步骤完成的观念,其中每一个步骤回溯到先前步骤处理之后的输出。
  • 任务间共享因素: 当多个对应到不同变量 y i y_i yi的任务共享相同的输入 x x x时,或者当每个任务关联到全局输入 x x x的子集或者函数 f ( i ) ( x ) f^{(i)}(x) f(i)(x)时,我们会假设每个变量 y i y_i yi关联到来自相关因素 h h h公共池的不同子集。 因为这些子集有重叠,所以通过共享的中间表示 P ( h ∣ x ) P(h \mid x) P(hx)来学习所有的 P ( y i ∣ x ) P(y_i \mid x) P(yix)能够使任务间共享统计强度。
  • 流形:概率质量集中,并且集中区域是局部连通的,且占据很小的体积。 在连续情况下,这些区域可以用比数据所在原始空间低很多维的低维流形来近似。 很多机器学习算法只在这些流形上有效。 一些机器学习算法,特别是自编码器,会试图显式地学习流形的结构。
  • 自然聚类:很多机器学习算法假设输入空间中每个连通流形可以被分配一个单独的类。 数据分布在许多个不连通的流形上,但相同流形上数据的类别是相同的。 这个假设激励了各种学习算法,包括正切传播、双反向传播、流形正切分类器和对抗训练。
  • 时间和空间相干性:慢特征分析和相关的算法假设,最重要的解释因子随时间变化很缓慢,或者至少假设预测真实的潜在解释因子比预测诸如像素值这类原始观察会更容易些。
  • 稀疏性:假设大部分特征和大部分输入不相关,如在表示猫的图像时,没有必要使用象鼻的特征。 因此,我们可以强加一个先验,任何可以解释为”存在”或”不存在”的特征在大多数时间都是不存在的。
  • 简化因子依赖:在良好的高级表示中,因子会通过简单的依赖相互关联。 最简单的可能是边缘独立,即 P ( h ) = ∏ i P ( V h i ) P(h) = \prod_i P(Vh_i) P(h)=iP(Vhi)。 但是线性依赖或浅层自编码器所能表示的依赖关系也是合理的假设。 这可以从许多物理定律中看出来,并且假设在学成表示的顶层插入线性预测器或分解的先验。

你可能感兴趣的:(深度学习,IT)