AI的关系推理与理解世界

姓名：李嘉蔚学号16020520034

【嵌牛导读】:DeepMind AI 关系推理超越人类；一些重要算法目录；人与机器人对世界认识与解释的相似。

【嵌牛鼻子】：类似打球时判断球关系的推理方面AI已经超越人类。

【嵌牛提问】：究竟是什么情况？

【嵌牛正文】：

里约奥运会让世界再度见识了国乒队强大的实力，各国其实为了想和中国队抗衡也是想了不少办法，比如德国KUKA机器人公司在2014就开始研发打乒乓球的陪练机器人。

据报道，为了验证机器人的效果，KUKA公司请了，德国著名乒乓球运动员前世界冠军波尔来与机器人进行乒乓对决。

机器人陪练确实很强，毕竟这个机械臂有非常多的感应器，可以感知球路。并能做出很多常人无法轻松做出的握拍动作，所以蒂姆·波尔一上来就连失5球，处于落后状态。不过前世界冠军，也毕竟是世界冠军，很快就找回了状态，用自己的分析和经验反超了机械臂，一发扣球绝杀赢得了这场“人机大战”。

这机器人其实不只能打乒乓球，换个工具分分钟就变身木匠，每一刀下去都经过精确的计算，竟然把一个木桩锯出来两把完整的椅子。

德国总理默克尔和美国总统奥巴马也对KUKA 的这个机械臂赞不绝口，认为它将会引领德国工业的发展，是德国工业的未来。不过这家公司现在已经被美的集团收购了。

这就表明了除了脑力体育运动围棋，机器人也在各种体育项目中超越人类。这期中的原理仍然是各种算法。让我们再看看下面的突破成果:

DeepMind 发表官博介绍了他们的两篇最新论文，称其都在理解“关系推理”这一挑战方面展示出了令人可喜的结果。一个是视觉互动网络 VIN，能够预测视觉场景中各个物体在未来几百步所处位置，另一个则是模块化的、具有关系推理能力的深度神经网络架构 RN，可以“即插即用”，提升其他深度神经网络结构（如 CNN）关系推理的能力。在李飞飞等人提出的图像理解数据集 CLEVR 测试结果表明，RN 的总体推理正确率已经达到 95.5%，超越人类水平。

研究一：视觉互动网络 VIN，从原始视觉观察中学习真实物理机制的通用模型

首先看《视觉互动网络》（Visual Interaction Networks）。

DeepMind 官方博客中称，理解关系推理的一大关键因素是，预测未来一个真实场景中发生了什么。

只看一眼，人类不仅能够推断出物体接下来几秒钟、几分钟乃至更长时间所处的位置，还能够预测接下来发生了什么。

例如，对着墙踢一个球，大脑能够预测到球碰到墙以及接下来球和墙两者的走向：球会根据入射角度、速度反弹，而墙应该还会在那里不动。这些预测虽然简单，但都是由一套复杂的认知系统所引导的。

由此，DeepMind 的相关研究人员开发了“视觉互动网络”（Visual Interaction Network，VIN），能够简单模拟大脑的推断系统。

VIN 能够根据几帧连续的视频，推断（infer）上面多个物体接下来所处的位置。

这与生成模型不同，生成模型生成的结果是从视觉上“想象”出来的，而 VIN 则是根据物体彼此之间的基本关系演化推断出的。

在连续大约 150 帧的视频中，VIN 给出了极为接近的模拟，这之后的预测结果从肉眼看来也算是合理的。来源：deepmind.com

VIN 由两大机制组成：一个视觉模块和一个现实推理模块（physical reasoning module）。结合在一起，VIN 的两大模块能够处理一段视觉场景，并且预测其中每个不同物体在现实物理规律下会发生的情况。

DeepMind 研究人员在各种不同的环境中测试了 VIN，包括弹跳台球、有弹簧连接的质体，以及行星引力系统。结果表明，VIN 可以准确预测物体在未来几百步（hundreds of steps）会发生的情况。

作者在摘要中写道，只需一眼，人类便能对一系列不同的物理系统的未来状态做出各种各样的预测。另一方面，来自工程、机器人和图形学的现代方法通常局限于狭窄的领域，需要直接测量底层状态（underlying state）。

我们提出了视觉互动网络（Visual Interaction Network，VIN），一个用于从原始视觉观察中学习物理系统动态机制的通用模型。

VIN 由基于卷积神经网络的感知前端（a，见上）和基于交互网络的动态预测器（b，见下）组成。通过联合训练，感知前端学会了将动态视觉场景解析为一组特殊的物体表征。动态预测器则通过计算物体之间的相互作用和力学关系，学习将这些状态向前推进，从而产生任意长度的预测物理轨迹。

作者发现，在只有 6 帧输入视频的情况下，VIN 可以生成各种物理系统中几百个时间步长的预测轨迹，而且这些轨迹都是准确的。

VIN 也可以应用于物体不可见的场景当中，从而根据可见物体预测不可见物体的未来状态，由此隐含地推断未知物体的质量。研究结果表明，感知模块和基于物体动态机制的预测模块引入的物体表征能够进行精确的动态预测。这项工作为复杂物理环境中，根据原始感官观察的输入，进行基于模型的决策和规划开辟了新的机会。

论文展示了如何将用于计算实体间关系的专用模块 RN 应用于更广泛的深度学习架构，从而大幅提高后者完成与关系推理有关的任务的能力。

论文提出的模块化结构 RN 在 CLEVR 数据集上取得了 95.5％的正确率，超过了人类水平。bAbI 结果也显示了 RN 拥有通用（general）推理能力，解决了 18/20 项任务，没有灾难性的故障。

作者在论文中写道，工作中最有趣的一个方面是在相对简单的、基于 CNN 和基于 LSTM 的 VQA 架构中，插入 RN 模块，将 CLEVR 的结果从 68.5％提高到95.5％，取得了当前最优也是超越人类的水平。

作者推测，RN 提供了更灵活的推理机制，而有了 RN 做关系推理后，CNN 更多专注于处理局部空间结构数据，从而实现了整体的性能大幅提升。

作者写道，在计算过程中，区分“处理”和“推理”很重要。例如 ResNet 这样强大的深度学习架构，作为视觉处理器而言十分高效，但可能并不是推理任意关系最合适的选择。

他们这项工作的一个关键贡献是，RN 通过学习能够归纳（induce）上游处理任务，从而提供一组对物体有用的表征。

需要注意的是，输入数据和目标函数并没有指定内部物体表征的任何特定形式或语义。这表明 RN 具有丰富的结构化推理能力，哪怕是非结构化的输入和输出也能胜任。

作者认为，他们新提出的这一关系网络（RN）模块是一种简单而强大的方法，适用于让深度神经网络学习在复杂的现实世界中执行多种不同的、结构化的推理任务。

深度神经网络在理解世界本质方面拥有强大能力。

DeepMind 最新上传到 arXiv 网站的两篇论文，结果都展示了神经网络在解构世界方面强大的能力。

神经网络能够将世界解构为一个个由物体组成的系统，以及这些系统内部和之间的关系，并且在此基础上进行泛化，生成对场景以及其中的物体彼此之间新的推论，乍看起来很不相同，然而在本质上却有共通之处。

DeepMind 博客最后写道，他们认为论文中提出的新方法都是可扩展的，能够应用于更多的任务，构建更多的复杂模型，从而更好地理解人类强大而灵活的智能的关键一环——推理。

看来世界的本质是什么情况人类是无从得知，但人与神经网络一样可以将世界解释为想象的物体，这在对人类的研究中也是十分有用的。

其实这都是算法的作用，我们来看看有哪些常用的算法吧:

奥地利符号计算研究所（Research Institute for Symbolic Computation，简称RISC）的Christoph Koutschan博士在自己的页面上发布了一篇文章，提到他做了一个调查，参与者大多数是计算机科学家，他请这些科学家投票选出最重要的算法，以下是这次调查的结果，按照英文名称字母顺序排序。

1、A* 搜索算法——图形搜索算法，从给定起点到给定终点计算出路径。其中使用了一种启发式的估算，为每个节点估算通过该节点的最佳路径，并以之为各个地点排定次序。算法以得到的次序访问这些节点。因此，A*搜索算法是最佳优先搜索的范例。

2、集束搜索（又名定向搜索，Beam Search）——最佳优先搜索算法的优化。使用启发式函数评估它检查的每个节点的能力。不过，集束搜索只能在每个深度中发现最前面的m个最符合条件的节点，m是固定数字——集束的宽度。

3、二分查找（Binary Search）——在线性数组中找特定值的算法，每个步骤去掉一半不符合要求的数据。

4、分支界定算法（Branch and Bound）——在多种最优化问题中寻找特定最优化解决方案的算法，特别是针对离散、组合的最优化。

5、Buchberger算法——一种数学算法，可将其视为针对单变量最大公约数求解的欧几里得算法和线性系统中高斯消元法的泛化。

6、数据压缩——采取特定编码方案，使用更少的字节数（或是其他信息承载单元）对信息编码的过程，又叫来源编码。

7、Diffie-Hellman密钥交换算法——一种加密协议，允许双方在事先不了解对方的情况下，在不安全的通信信道中，共同建立共享密钥。该密钥以后可与一个对称密码一起，加密后续通讯。

8、Dijkstra算法——针对没有负值权重边的有向图，计算其中的单一起点最短算法。

9、离散微分算法（Discrete differentiation）

10、动态规划算法（Dynamic Programming）——展示互相覆盖的子问题和最优子架构算法

11、欧几里得算法（Euclidean algorithm）——计算两个整数的最大公约数。最古老的算法之一，出现在公元前300前欧几里得的《几何原本》。

12、期望-最大算法（Expectation-maximization algorithm，又名EM-Training）——在统计计算中，期望-最大算法在概率模型中寻找可能性最大的参数估算值，其中模型依赖于未发现的潜在变量。EM在两个步骤中交替计算，第一步是计算期望，利用对隐藏变量的现有估计值，计算其最大可能估计值；第二步是最大化，最大化在第一步上求得的最大可能值来计算参数的值。

13、快速傅里叶变换（Fast Fourier transform，FFT）——计算离散的傅里叶变换（DFT）及其反转。该算法应用范围很广，从数字信号处理到解决偏微分方程，到快速计算大整数乘积。

14、梯度下降（Gradient descent）——一种数学上的最优化算法。

15、哈希算法（Hashing）

16、堆排序（Heaps）

17、Karatsuba乘法——需要完成上千位整数的乘法的系统中使用，比如计算机代数系统和大数程序库，如果使用长乘法，速度太慢。该算法发现于1962年。

18、LLL算法（Lenstra-Lenstra-Lovasz lattice reduction）——以格规约（lattice）基数为输入，输出短正交向量基数。LLL算法在以下公共密钥加密方法中有大量使用：背包加密系统（knapsack）、有特定设置的RSA加密等等。

19、最大流量算法（Maximum flow）——该算法试图从一个流量网络中找到最大的流。它优势被定义为找到这样一个流的值。最大流问题可以看作更复杂的网络流问题的特定情况。最大流与网络中的界面有关，这就是最大流-最小截定理（Max-flow min-cut theorem）。Ford-Fulkerson 能找到一个流网络中的最大流。

20、合并排序（Merge Sort）

21、牛顿法（Newton's method）——求非线性方程（组）零点的一种重要的迭代法。

22、Q-learning学习算法——这是一种通过学习动作值函数（action-value function）完成的强化学习算法，函数采取在给定状态的给定动作，并计算出期望的效用价值，在此后遵循固定的策略。Q-leanring的优势是，在不需要环境模型的情况下，可以对比可采纳行动的期望效用。

23、两次筛法（Quadratic Sieve）——现代整数因子分解算法，在实践中，是目前已知第二快的此类算法（仅次于数域筛法Number Field Sieve）。对于110位以下的十位整数，它仍是最快的，而且都认为它比数域筛法更简单。

24、RANSAC——是“RANdom SAmple Consensus”的缩写。该算法根据一系列观察得到的数据，数据中包含异常值，估算一个数学模型的参数值。其基本假设是：数据包含非异化值，也就是能够通过某些模型参数解释的值，异化值就是那些不符合模型的数据点。

25、RSA——公钥加密算法。首个适用于以签名作为加密的算法。RSA在电商行业中仍大规模使用，大家也相信它有足够安全长度的公钥。

26、Schönhage-Strassen算法——在数学中，Schönhage-Strassen算法是用来完成大整数的乘法的快速渐近算法。其算法复杂度为：O(N log(N) log(log(N)))，该算法使用了傅里叶变换。

27、单纯型算法（Simplex Algorithm）——在数学的优化理论中，单纯型算法是常用的技术，用来找到线性规划问题的数值解。线性规划问题包括在一组实变量上的一系列线性不等式组，以及一个等待最大化（或最小化）的固定线性函数。

28、奇异值分解（Singular value decomposition，简称SVD）——在线性代数中，SVD是重要的实数或复数矩阵的分解方法，在信号处理和统计中有多种应用，比如计算矩阵的伪逆矩阵（以求解最小二乘法问题）、解决超定线性系统（overdetermined linear systems）、矩阵逼近、数值天气预报等等。

29、求解线性方程组（Solving a system of linear equations）——线性方程组是数学中最古老的问题，它们有很多应用，比如在数字信号处理、线性规划中的估算和预测、数值分析中的非线性问题逼近等等。求解线性方程组，可以使用高斯—约当消去法（Gauss-Jordan elimination），或是柯列斯基分解（ Cholesky decomposition）。

30、Strukturtensor算法——应用于模式识别领域，为所有像素找出一种计算方法，看看该像素是否处于同质区域（ homogenous region），看看它是否属于边缘，还是是一个顶点。

31、合并查找算法（Union-find）——给定一组元素，该算法常常用来把这些元素分为多个分离的、彼此不重合的组。不相交集（disjoint-set）的数据结构可以跟踪这样的切分方法。合并查找算法可以在此种数据结构上完成两个有用的操作：

查找：判断某特定元素属于哪个组。

合并：联合或合并两个组为一个组。

32、维特比算法（Viterbi algorithm）——寻找隐藏状态最有可能序列的动态规划算法，这种序列被称为维特比路径，其结果是一系列可以观察到的事件，特别是在隐藏的Markov模型中。

以上就是Christoph博士对于最重要的算法的调查结果，InfoQ的读者们？你们熟悉哪些算法？又有哪些算法是你们经常使用的？

其实，我们与机器人一样，都是在用自己想象的一套理论来解释世界。不同的是，我们的这套理论是进化出来的，而机器人是人造的。

图片发自App

从柏拉图的洞穴比喻中就可看出:我们都在大脑这个洞穴中，通过双眼这个摄像机获取外部信息，得道的只是一些电信号啥的东西，我们大脑对这些信息给出了自己的解释:就是生成的视觉。

而机器人也一样，而他们也竟然通过类似的方法开始解释世界。

(注:拉图的洞穴比喻内涵，比喻是柏拉图用来试图解释理型世界和现实世界的区别。柏拉图认为现实世界都是理型世界的倒影，理型世界才是世界的本质，是完美的。这就好比是模具和造出来的物品的区别。同样的模具造出来的东西实际上是不可能相同的。就好比是在洞穴中，普通人只看到了倒映在洞穴墙壁上的影子，却把它当成是这个世界的本质所在；而我们人类中的哲学家们在转过身来时，看到了真正的世界的样子，看到了理型的世界本身，而不再只是倒影。他认为自己找到了世界本源的答案。于是奔走相告，试图让普通人明白虚幻的“现实世界”本身；可是，普通人根本不可能理解所谓理型世界的意义，而认为其生活的世界才是本质的所在，认为哲学家是试图扰乱其正常的生活。)

　　柏拉图的洞穴理论的意义在于，哲学家试图引导人们认识世界的本质，打破加在普通人身上的枷锁，或者是蒙蔽双眼的有色眼镜。

看来既然世界的本质是无法认识的，那么机器人就成为了我们最亲近的伙伴，因为我们都是这么来解释自己得到的信号，而竟然成功的解释了世界。

图片发自App

AI的关系推理与理解世界

你可能感兴趣的:(AI的关系推理与理解世界)