“What I cannot create, I do not understand.”
– Richard Feynman
虽然”分而治之“在很长时间内的科学研究中已经是被重视的原则,但是要理解一个复杂的人工智能系统,与之相反的”联合构造“也应该是可选的原则。否则我们将永远在盲人摸象:每个人总是相信整个世界的一小部分并夸大它的重要性。
简约性和自洽性就像胶水一样为智能拼图游戏将所需片段结合在一起,它们揭示了深度网络的角色是成为外部观察和内部表征之间非线性映射的模型。
此外,论文强调,闭环压缩结构在自然界中无处不在,适用于所有智能生物,这一点可以见于大脑(压缩感觉信息)、脊髓回路(压缩肌肉运动)、DNA(压缩蛋白质的功能信息)等等生物示例。因此,他们认为, 压缩闭环转录可能是所有智能行为背后的通用学习引擎。它使智能生物和系统能够从看似复杂和无组织的输入中发现和提炼低维结构,并将它们转换为紧凑和有组织的内部结构,以便记忆和利用。
为了说明这个框架的通用性,论文研究了另外两个任务:3D 感知和决策(LeCun 认为这是自主智能系统的两个关键模块)。
闭环转录成功发现2d图像数据的紧致结构,这依赖于每个类的图像数据之间存在统计相关性。如果数据的低维结构是通过严格的物理或几何限制定义而不是软统计相关性,那我们相信压缩机制会更有效。
特别地,如果我们相信简约性和自洽性对人类大脑如何从终身视觉输入中开发世界的心智模型也能发挥作用,那我们对3d空间的感知应该是这样一个闭环压缩感知的结果。
David Marr 在其颇具影响力的著作《视觉》一书中提出的 3D 视觉经典范式提倡“分而治之”的方法,将 3D 感知任务划分为几个模块化过程:从低级 2D 处理(如边缘检测、轮廓草图)、中级 2.5D 解析(如分组、分割、图形和地面),以及高级 3D 重建(如姿势、形状)和识别(如对象),而相反,压缩闭环转录框架提倡“联合构建”思想。
感知是压缩闭环转录?更准确地说,世界上物体的形状、外观甚至动态的 3D 表示应该是我们的大脑内部开发的最紧凑和结构化的表示,以相应地解释所有感知到的视觉观察。如果是这样,那么这两个原理表明紧凑和结构化的 3D 表示就是要寻找的内部模型。这意味着我们可以并且应该在一个闭环计算框架内统一计算机视觉和计算机图形,如下图所示:
图10:计算机视觉和图形之间的闭环关系,用于视觉输入的紧凑和结构化 3D 模型
计算机视觉通常被解释为为所有 2D 视觉输入重建和识别内部 3D 模型的前向过程,而计算机图形学表示其对内部 3D 模型进行渲染和动画处理的逆过程。将这两个过程直接组合成一个闭环系统可能会带来巨大的计算和实践好处:几何形状、视觉外观和动力学中的所有丰富结构(例如稀疏性和平滑度)可以一起用于统一的 3D 模型, 最紧凑,且与所有视觉输入一致。
计算机视觉中的识别技术可以帮助计算机图形学在形状和外观空间中构建紧凑模型,并为创建逼真的 3D 内容提供新的方法。另一方面,计算机图形学中的 3D 建模和仿真技术可以预测、学习和验证计算机视觉算法分析的真实对象和场景的属性和行为。视觉和图形社区长期以来一直在实践“解析合成”的方法。
外观和形状的表示能统一吗?基于图像的渲染,其中,通过从一组给定图像中学习以生成新视图,可以被视为早期尝试用简约和自洽的原理缩小视觉和图形之间的差距。特别是,全光采样表明,可以用所需的最少图像数量(简约性)来实现抗锯齿图像(自洽性)。
最近建模辐射场的工作为这个视角提供了更多实验证据:直接在3D辐射场中采用低维结构(稀疏支持和空间光滑性),比蛮力训练黑盒神经网络获得更有效的解决方案。而它未来的挑战在于识别正确的紧致结构化3d表示的簇,能用一个统一的框架集成形状几何、表观甚至动态,以获得数据、模型、计算的最小复杂度。
前面讨论了如何用压缩闭环转录引导视觉输入学习到好的感知模型。从另一层面说,一个智能体能用这样一个感知模型来完成复杂环境下合适的 任务。从感知结果或接收奖励来学习这种行为形成了另一个更高层次的闭环(图11)。
图11: 一个自动智能体在一个闭环集成感知(反馈),学习,优化和行为,以学习一个合适任务的最优策略。 s t s_t st 或 x k x_k xk 是世界模型的状态, r r r 或 g g g 是当前状态行为 a t a_t at或控制 u k u_k uk感知的奖励或代价; J J J 或 V V V是学习到的和每个状态有关的代价或值, Q Q Q是学到的和每个状态-值对相关的代价。这里我们故意同时使用最优控制和强化学习的术语来达到两者的比较和统一
自洽性原理很明显在这里起作用:闭环反馈系统的角色是确保智能体学习到的模型和控制策略和外部世界一致,使得模型能够做出状态( s t s_t st) 转换最佳的预测,学到的控制策略 π θ \pi_\theta πθ能够做出获得最大期望奖励 R R R的行为:
max θ R ( θ ) ≐ E a t ∼ π θ ( s t ) [ ∑ t r ( s t , a t ) ] . \max_{\theta} R(\theta) \doteq \mathbb E_{a_t\sim \pi_\theta(s_t)} \Big[\sum_t r(s_t, a_t) \Big]. θmaxR(θ)≐Eat∼πθ(st)[t∑r(st,at)].
注意到这里的奖励 R R R在LDR模型的比例约减目标中扮演重要角色,它测量学习到的控制策略 π \pi π 的好坏并指导提升。
简约性是现代强化学习在解决大尺度任务(例如alpha-go和玩视频游戏)获得成功的主要原因。在几乎所有有着天文数字大小和维度(例如 D D D)的状态-行为空间的任务中,实践者总是假设最优值 V ∗ V^* V∗, Q-函数 Q ∗ Q^* Q∗,或者策略 π ∗ \pi^* π∗只依赖于一个小的 ,例如 d ≪ D d \ll D d≪D,特征数量:
V ∗ ( s ) ≈ V ^ ( f ( s , a ) ) , Q ∗ ( s , a ) ≈ Q ^ ( f ( s , a ) ) , π ∗ ( a ∣ s ) ≈ π ^ ( a ; f ( s , a ) ) , V^*(\bm s) \approx \hat{V}\big(f(\bm s, \bm a)\big), \nonumber\\ Q^*(\bm s, \bm a) \approx \hat{Q}\big(f(\bm s, \bm a)\big), \\ \pi^*(\bm a\mid \bm s) \approx \hat{\pi}\big(\bm a; f(\bm s, \bm a)\big), \nonumber V∗(s)≈V^(f(s,a)),Q∗(s,a)≈Q^(f(s,a)),π∗(a∣s)≈π^(a;f(s,a)),
其中 f ( s , a ) ∈ ℜ d f(\bm s,\bm a) \in \Re^d f(s,a)∈ℜd是一个在极端大或高维的状态-值空间学习低维特征的非线性映射。在视频游戏中,状态维数 D D D 很容易上百万,然而特征数 d d d 需要学习一个几十或上百维的好策略!这些在OC/RL寻求的最优控制策略或值/奖励函数甚至经常假设这些特征的线性叠加:
ω ⊤ f ( s , a ) = ω 1 ⋅ f 1 ( s , a ) + ⋯ + ω d ⋅ f d ( s , a ) . \bm \omega^\top f(\bm s, \bm a) = \omega_1\cdot f_1(\bm s, \bm a) + \cdots + \omega_d\cdot f_d(\bm s, \bm a). ω⊤f(s,a)=ω1⋅f1(s,a)+⋯+ωd⋅fd(s,a).
也就是非线性映射 f f f是假设能在学习到的特征上线性化策略/值/奖励函数的相关性。
有效地利用低维结构使得学习可以拓展到高维的状态-行为空间,正确识别和线性化这样的低维结构是使得控制策略可泛化的关键。我们相信,一个闭环学习系统要自动决定和奖励/任务相关的正确特征数,就需要将RL公式拓展到一个合适的maxmin博弈来达到自洽性。
最近,许多理论尝试按照马尔科夫决策过程的采样和计算复杂度解释强化学习实验观察的有效性,然而基于非结构化通用MDP和奖励函数的理论将不能提供这些实验成功的相关解释。例如广为人知的强化学习采样复杂度的边界在状态空间和行为的基数上保持线性 O ( ∣ S ∣ ∣ A ∣ ) O(|\mathcal S||\mathcal A|) O(∣S∣∣A∣),这就不能解释实验观察到强化学习的大尺度任务(例如Alpha-Go 和视频游戏,状态和行为空间是天文数字)的有效性。
我们相信RL在解决许多实际大尺度任务的有效性可能来自系统动态的本证低维或最优策略/控制和状态的相关性。例如,假设系统有一个有界躲避维度或者MDP是低秩的。
总的来说,对于大尺度的RL任务,这两个原理使得这样一个感知,学习,行为的闭环感知系统成为一个真实有效的学习引擎。这样的引擎使智能体能发现低维结构,如果有的话,以及智能学习任务和最终行为,如果学习到的结构足够好足够泛化。
" If I were to choose a patron saint for cybernetics out of the history of science, I should have to choose Leibniz. The philosophy of Leibniz centers about two closely related concepts – that of a universal symbolism and that of a calculus of reasoning.`"
~ – Norbert Wiener
人们会期望基本的智能原理对大脑的设计产生重大影响。简约和自洽原理为灵长类视觉系统的几个实验观察提供了新的思路。更重要的是,它们揭示了未来实验中要寻找的目标。
作者团队已经证明,仅寻求内部简约和预测性表示就足以实现“自监督”,允许结构自动出现在通过压缩闭环转录学习的最终表示中。
例如,图 9 显示无监督数据转录学习自动区分不同类别的特征,为在大脑中观察到的类别选择性表示提供了解释。这些特征也为灵长类大脑中稀疏编码和子空间编码的广泛观察提供了合理的解释。此外,除了视觉数据建模,最近的神经科学研究表明,大脑中出现的其他结构化表示(例如“位置细胞”)也可能是以最压缩的方式编码空间信息的结果。
可以说,最大编码率降低 (MCR2) 原理在精神上类似于认知科学中的“自由能最小化原理”(free energy minimization principle),后者试图通过能量最小化为贝叶斯推理提供框架。但与自由能的一般概念不同,比率约减在计算上易于处理且可直接优化,因为它可以以封闭的形式表示。此外,这两个原理的相互作用表明,正确模型(类)的自主学习应该通过对这种效用的闭环最大化博弈来完成,而不是单独进行最小化。因此,他们相信,压缩闭环转录框架为如何实际实施贝叶斯推理提供了一个新的视角。
这个框架也被他们认为阐明了大脑使用的整体学习架构,可以通过展开优化方案来构建前馈段,且不需要通过反向传播从随机网络中学习。此外,框架存在一个互补的生成部分,可以形成一个闭环反馈系统来指导学习。
最后,框架揭示了许多对“预测编码”大脑机制感兴趣的神经科学家所寻求的难以捉摸的“预测错误”信号,这是一种与压缩闭环转录产生共振的计算方案:为了让计算更容易,应在表示的最后阶段测量传入和生成的观测值之间的差异。
从数据分析的数学或统计模型的角度,可以把我们的框架视作PCA,GPCA,RPCA和非线性PCA对高维空间多个低维非线性子流形的泛化。这种泛化对于连接理想的、经典的模型到真实世界的真实结构是有必要的。尽管已经有实验证据支持,但我们的压缩闭环转录过程的数学属性仍需进一步探究。据我们所知,只有在原始数据 x x x假设分布在多维线性子空间时,基于比率约减的maxmin博弈才能产生正确的最优解。对于非线性流形的转录知之甚少。
一个严谨的的系统的调研需要理解子流形低维支集的高维分布。因此在数学上,学习这样的子流形在高维空间如何以相对于原始测度最小的畸变下被识别、分组、分离或形变是至关重要的。这些问题属于经典微分几何和微分拓扑的研究领域了。
此外,我们也希望在形变的过程中,子流形上数据的概率测度以一个合适的最优的方法重新分布,使得编码和采样是都最经济和有效的。这就和最优传输相关了。当子流形在固定的线性子空间时,理解比率约减可达极值或整体部分的体积比就和Brascamp-Lieb不等式等基础解析不等式相关了。更通用的问题就和测度熵(也就是熟知的球装问题)和分布编码理论相关了。
除了非线性低维结构,真实世界的数据和信号通常都是对时间平移、空间转换甚至通用群变换不变的。Wiener认为同时学习非线性和不变性是一个很大的技术挑战。他已经做出了早期的尝试来泛化调和分析到非线性过程和系统中。我们的框架建议通过增量压缩来统一处理非线性和不变性。这很自然就推出结构化深度网络,例如ReduNet。我们相信压缩提供可建模通用序列数据或非线性动态过程的统一视角,这将导致著名模型,例如RNNs或LSTM的数学严格证明。
除了纯粹数学上的追求,我们也需要数学研究能获得可计算的测量和可拓展的算法。我们必须描绘出实现此类任务所需的精确统计和计算资源,这与压缩感知的研究程序设定的精神实质相同,因为智能需要用它们建模高维数据、解决大尺度任务。这就需要数学和计算的闭环,使得很多丰富的几何结构簇(稀疏编码,子空间,网格,群,图)都能使用;图1作为一个建模真实世界数据的紧致原型,通过有效可计算的非线性映射来泛化神经网络。
文章介绍的两个原理主要解释了智能在单个代理或系统的出现,和Nobert Wiener首先提出的个体遗传学习的概念有关。再过七十年后,我们可能会并非巧合的发现自己在这篇论文中“闭合”了人工智能的现代实践,回到了它的根源控制论,并将Wiener在他的书中提到的一系列基本概念交织在一起,同时对智能拼图进行了探索:紧致的信息编码,闭环反馈,通过博弈学习,白盒建模,非线性,平移不变性,等等。
正如前面所看到的的,压缩闭环转录与Hinton等人在1995年提出的框架相比,在计算上更易于处理和可扩展。而且,循环的学习非线性编码/解码映射(通常表现为深度网络),本质上在外部无组织的原始感官数据(如视觉、听觉等)和内部紧凑和结构化表示之间提供了一个重要的“接口”。
不过,他们也指出,这两个原理并不一定能解释智能的所有方面。高级语义、符号或逻辑推理的出现和发展背后的计算机制仍然难以捉摸。直到今天,关于这种高级符号智能是可以从持续学习中产生还是必须进行硬编码,仍然存在争议。
在三位科学家看来,诸如子空间之类的结构化内部表示是高级语义或符号概念出现的必要中间步骤——每个子空间对应一个离散的(对象)类别。如此抽象的离散概念之间的其他统计、因果或逻辑关系可以进一步简化建模为紧凑和结构化(比如稀疏)图,每个节点代表一个子空间/类别。可以通过自动编码来学习图形以确保自一致性。
他们推测,只有在个体智能体学习的紧凑和结构化表示之上,高级智能(具有可共享的符号知识)的出现和发展才有可能。因此,他们建议,应该通过智能系统之间有效的信息交流或知识迁移来探索高级智能出现的新原理(如果高级智能存在的话)。这个和wiener讨论过的系统发展学习有关。
此外,这种更高层次的智能所需要的任何新原则必须揭示为什么在不同的个体代理之间进行内部模型/概念的校准和共享是可计算的,以及揭示一组代理从这种符号抽象和共享中获得某些可测量的智能收益。
显然,随着我们向高级别的智能推进我们的研究,我们希望此时设定更高的标准,无论未来在 上发现什么新原理,它们都将在智能的出现和发展中真正发挥实质性的作用,应该与我们在本文中提出的两个原理有两个共同点:
只有具备可解释和可计算性,我们才能无需依赖当前昂贵且耗时的“试错”方法来推进人工智能的进步,能够描述完成这些任务所需的最少数据和计算资源,而不是简单地提倡“越大越好”的蛮力方法。智慧不应该是最足智多谋的人的特权,在一套正确的原则下,任何人都应该能够设计和构建下一代智能系统,无论大小,其自主性、能力和效率最终都可以模仿甚至超过动物和人类。
最后引用开尔文的一段话来表达对智能科学的一个期望:
When you can measure what you are speaking about and express it in numbers, you know something about it; but when you cannot measure it, when you cannot express it in numbers, your knowledge is of the meager and unsatisfactory kind: it may be the beginning of knowledge, but you have scarcely, in your thoughts, advanced to the stage of science, whatever the matter may be.
– Lord Kelvin, 1883
上一篇:论智能出现的简约性和自恰性原理(上)