2020-3-27 深度学习笔记15 - 表示学习 4(分布式表示)

第十五章 表示学习

官网
英文

2020-3-24 深度学习笔记15 - 表示学习 1(贪心逐层无监督预训练-目前已经不太使用)
2020-3-25 深度学习笔记15 - 表示学习 2(迁移学习和领域自适应)
2020-3-26 深度学习笔记15 - 表示学习 3(半监督解释因果关系causal factors -生成式对抗网络)

分布式表示Distributed Representation

分布式表示的概念(由很多元素组合的表示,这些元素之间可以设置成可分离的)是表示学习最重要的工具之一。 分布式表示非常强大,因为他们能用具有 k k k个值的 n n n个特征去描述 k n k^n kn个不同的概念。

举一个非常简单的例子,假设我们的词典上有16个词,如果用传统的bag-of-words 的表示方法,我们可以用16维的向量来表示每个词,向量的每一位代表某个词的出现与否。然而,如果用分布式表示的思想,也可以用四维的向量来代表每一个词,例如(0,0,0,1), (0,0,1,0),…,(1,1,1,1) 。 这个简单的例子其实用来说明:对同一个输入,我们可以有不同的配置(configuration)。

在本书中也可以看到,具有多个隐藏单元的神经网络和具有多个潜变量的概率模型都利用了分布式表示的策略。

以下是基于非分布式表示的学习算法的示例:

  • 聚类算法
  • k k k-最近邻算法
  • 决策树
  • 高斯混合体和专家混合体Gaussian mixtures and mixtures of experts:模板(聚类中心)或专家关联一个激活的程度。 和 k k k-最近邻算法一样,每个输入用多个值表示,但是这些值不能轻易地彼此分开控制。
  • 具有高斯核 (或其他类似的局部核)的核机器
  • 基于 n n n-gram的语言或翻译模型

网上找到一个例子
下面两幅图表示两种聚类的表达方式。
我们可以把左图看成是一般的聚类方式,右图看成是基于分布式表示的聚类方式。
2020-3-27 深度学习笔记15 - 表示学习 4(分布式表示)_第1张图片

如左图所示,假设我们把整个的空间分成几个区域,那每一个区域可以由一组参数来描述(charaterize)。 比如在高斯混合模型(Gaussian Mixture Model)里,每一个混合模块(Mixture component)都由一组高斯分布的期望和协方差来(covariance)决定。相比之下,在右图中,每一个区域由三个子模块来表达。 这个时候我们只需要三组参数,而且每一个区域都会共享这三组参数,被称之为参数共享(parameter sharing)。 这个性质带来的一个重要的优点是 – 非局部泛化(non-localgeneralization). 我们需要知道机器学习的目的就是要在测试级上(test set)得到更好的泛化(bettergeneralization)效果 。 在左图中,我们只能得到局部泛化(local generalization), 即便这样,为了达到局部泛化的目的,我们需要对每个区域有足够多的例子(training examples)。除此之外,分布式表示可以有效地应对curse of dimensionality问题 。

An important related concept that distinguishes a distributed representation
from a symbolic one is that generalization arises due to shared attributes between
different concepts.
将分布式表示和符号表示区分开来的一个重要概念是,由不同概念之间的共享属性而产生的泛化。

When and why can there be a statistical advantage from using a distributed
representation as part of a learning algorithm? Distributed representations can have
a statistical advantage when an apparently complicated structure can be compactly
represented using a small number of parameters.
在学习算法中使用分布式表示何时以及为什么具有统计优势? 当一个明显复杂的结构可以用较少参数紧致地表示时,分布式表示具有统计上的优点。

另一个解释基于分布式表示的模型泛化能力更好的说法是,尽管能够明确地编码这么多不同的区域,但它们的容量仍然是很有限的。

我们可以学习出男性和女性之间的区别,或者是眼镜的存在与否,而不必通过涵盖所有这些值组合的样本来表征其他 n − 1 n-1 n1个特征的所有配置。 这种形式的统计可分离性质能够泛化到训练期间从未见过的新特征上。

2020-3-27 深度学习笔记15 - 表示学习 4(分布式表示)_第2张图片

观察上图
生成模型学到了分布式表示,能够从戴眼镜的概念中区分性别的概念。 如果我们从一个戴眼镜的男人的概念表示向量开始,然后减去一个没戴眼镜的男人的概念表示向量,最后加上一个没戴眼镜的女人的概念表示向量,那么我们会得到一个戴眼镜的女人的概念表示向量。 生成模型将所有这些表示向量正确地解码为可被识别为正确类别的图像。

你可能感兴趣的:(深度学习,IT)