利用人工智能增强人类智能

出品 | CDA数据分析研究院，转载须授权

通过创建允许我们使用机器学习模型中的表示的用户界面，我们可以为人们提供推理的新工具。

什么是电脑？

从历史上看，这个问题有不同答案——即不同的计算视图——有助于激发和决定人类最终建立的计算系统。考虑早期的电子计算机。ENIAC是世界上第一台通用电子计算机，受委托为美国陆军计算炮兵射击台。其他早期计算机也用于解决数值问题，例如模拟核爆炸，预测天气和规划火箭的运动。这些机器以批处理模式运行，使用原始输入和输出设备，没有任何实时交互。这是计算机作为数字计算机的愿景，用于加速以前需要数周，数月的计算。

在20世纪50年代，对计算机的不同看法开始发展。1962年道格拉斯·恩格尔巴特（Douglas Engelbart）提出计算机可以作为一种方式使用。在这种观点中，计算机不是解决数字运算问题的主要工具。相反，它们是具有丰富输入和输出的实时交互系统，人类可以与之合作以支持和扩展自己的问题解决过程。这种情报增强（IA）的愿景深深地影响了许多其他人，包括施乐PARC的Alan Kay，Apple的Steve Jobs等企业家，以及现代计算系统的许多关键思想。它的思想也深刻影响了数字艺术和音乐，以及交互设计，数据可视化，计算创造力和人机交互等领域。

对IA的研究经常与人工智能（AI）的研究竞争：资金竞争，竞争有才能的研究人员的利益。虽然这些领域之间一直存在重叠，但IA通常专注于构建使人和机器协同工作的系统，而AI则专注于将智能任务完全外包给机器。特别是，人工智能问题通常是在匹配或超越人类表现方面构成的：在国际象棋或围棋中击败人类；学习识别语音和图像或翻译语言以及人类等等。

本文描述了一个新的领域，今天出现在AI和IA的综合中。对于这个领域，我们建议使用人工智能增强（AIA）：使用AI系统来帮助开发新的智能增强方法。这个新领域引入了新的重要基本问题，与其父级领域无关的问题。我们相信AIA的原则和系统将与大多数现有系统完全不同。

我们的文章首先调查了近期关于人工智能增强的技术工作，包括生成界面的工作——即可用于探索和可视化生成机器学习模型的界面。这样的界面开发了一种生成模型的制图，人类从这些模型中探索和创造意义的方法，并将这些模型“知道”的内容融入他们的创造性工作中。

我们的文章不仅仅是对技术工作的调查。我们认为现在是在这个新兴领域的基础上确定一些广泛的基本问题的好时机。这些新工具能在多大程度上实现创造力？基于现有想法的微不足道的重组，它们能用于产生真正令人惊讶和新的想法，还是想法陈词滥调？这些系统能用于开发基本的新接口原语吗？这些新原语将如何改变和扩展人类的思维方式？

使用生成模型发明有意义的创造性操作

让我们看一个机器学习模型使一种新型接口成为可能的例子。要理解界面，想象一下你是一个类型设计师，正致力于创建一个新的字体。在草拟了一些初始设计之后，您希望尝试使用粗体，斜体和浓缩变体。让我们来看一下从任何初始设计中生成和探索这些变化的工具。由于很快就会解释的原因，结果的质量非常粗糙；请耐心等待。

当然，改变粗体（即重量），斜体和宽度只是改变字体的三种方式。想象一下，用户可以仅通过选择现有字体的示例来构建自己的工具，而不是构建专用工具。例如，假设您想要改变字体上的serif度。在下面，请从顶部框中选择5到10个sans-serif字体，然后将它们拖到左侧的框中。选择5到10个serif字体并将它们拖到右侧的框中。在您执行此操作时，在浏览器中运行的机器学习模型将自动从这些示例中推断出如何以serif或sans-serif方向插入起始字体：

事实上，我们使用相同的技术来构建早期的粗体斜体和冷凝工具。为此，我们使用以下粗体和非粗体字体，斜体和非斜体字体以及压缩和非压缩字体的示例：

为了构建这些工具，我们使用了所谓的生成模型。要理解生成模型，考虑描述字体的先验似乎需要大量数据。例如，如果字体是64 × 64像素，那么我们需要64 × 64 = 4096个参数来描述一个字形。但我们可以使用生成模型来找到更简单的描述。

我们通过构建一个神经网络来实现这一点，该神经网络采用少量输入变量（称为潜在变量），并将整个字形作为输出。对于我们使用的特定型号，我们有4040个潜在空间维度，并映射到4096描述字形所有像素维空间。换句话说，想法是将低维空间映射到更高维空间：

我们使用的生成模型是一种称为a的神经网络。就我们的目的而言，生成模型的细节并不那么重要。重要的是，通过更改用作输入的潜在变量，可以将不同的字体作为输出。因此，潜在变量的一个选择将提供一种字体，而另一种选择将提供不同的字体：

您可以将潜在变量视为字体的紧凑，高级表示。神经网络采用该高级表示并将其转换为全像素数据。真是太了不起了4040个数字可以捕获最初需要的字形中的明显复杂性4096个变量。

我们使用的生成模型是从一个从开放的网络上刮下来的5万字体的训练集中学习的。在训练期间，调整网络中的权重和偏差，使得网络可以输出与训练集中的任何期望字体的近似近似，只要做出适当的潜在变量选择。在某种意义上，该模型正在学习所有训练字体的高度压缩表示。

实际上，该模型不仅仅重现了训练字体。它还可以概括，生成训练中看不到的字体。通过被迫找到训练样例的简洁描述，神经网络学习了一个抽象的，更高级别的字体模型。这种更高级别的模型使得可以概括超出已经看到的训练示例，以产生逼真的字体。

理想情况下，一个好的生成模型将暴露于相对少量的训练样例，并使用该暴露来推广到所有可能的人类可读字体的空间。也就是说，对于任何可想到的字体 - 无论是现有的还是未来的想象 - 都可以找到与该字体完全对应的潜在变量。当然，我们使用的模型远远没有达到这个理想。一个特别令人震惊的失败是模型生成的许多字体省略了大写“Q”的尾部（你可以在上面的例子中看到这一点）。不过，记住理想的生成模型还是会有用处的。

这些生成模型在某些方面与科学理论的工作方式类似。科学理论通常大大简化了对复杂现象的描述，将大量变量简化为几个变量，从中可以推导出系统行为的许多方面。此外，良好的科学理论有时使我们能够概括地发现新现象。

例如，考虑普通的材料对象。这些物体具有物理学家所称的相 - 它们可以是液体，固体，气体，或者可能是更具异国情调的物质，如超导体或玻色 - 爱因斯坦凝聚物。 先验地说，这样的系统似乎非常复杂，或许涉及到10^23个左右的分子。但是热力学和统计力学的定律使我们能够找到一个更简单的描述，将这种复杂性降低到几个变量（温度，压力等），这些变量包含了系统的大部分行为。此外，有时可以概括，预测意外的物质新阶段。例如，在1924年，物理学家利用热力学和统计力学来预测物质的一个显着的新阶段，即玻色 - 爱因斯坦凝聚，其中一组原子可能都占据相同的量子态，导致令人惊讶的大规模量子干涉效应。在我们后来关于创造力和生成模型的讨论中，我们将回到这种预测能力。

回到生成模型的细节，我们如何使用这些模型进行上述工具中的基于实例的推理？让我们考虑一下粗体工具的情况。在这种情况下，我们采用用户指定的粗体字体的所有潜在向量的平均值，以及所有用户指定的非粗体字体的平均值。然后我们计算这两个平均向量之间的差异：

我们将其称为粗体向量。为了使一些给定的字体更粗，我们只需将一些粗体向量添加到相应的潜在向量，添加粗体向量的数量来控制结果的粗体：

这项技术是由，像粗体矢量这样的矢量有时被称为属性矢量。我们展示的工具有许多缺点。考虑下面的示例，我们从中间的示例字形开始，然后增加或减少粗体（分别在右侧和左侧）：

检查左右两侧的字形，我们看到许多不幸的文物。特别是对于最右边的字形，边缘开始变粗糙，并且衬线开始消失。更好的生成模型可以减少这些伪影。这是一个很好的长期研究计划，带来了许多有趣的问题。但即使使用我们的模型，使用生成模型也有一些显着的好处。

要了解这些好处，请考虑一种天真的粗体方法，我们只需在字形边缘添加一些额外的像素，然后将其加粗。虽然这种增厚可能与非专家对类型设计的思考方式相匹配，但专家做了更多涉及的事情。在下文中，我们展示了这个天真的增稠程序与格鲁吉亚和Helvetica实际完成的结果：

正如您所看到的，在两种情况下，天真的粗体过程都会产生完全不同的结果。例如，在格鲁吉亚，左笔划仅通过粗体略微改变，而右笔划大大扩大，但仅在一侧。在这两种字体中，粗体不会改变字体的高度，而天真的方法也是如此。

正如这些示例所示，良好的粗体不是加厚字体的简单过程。专家类型设计师有许多用于粗体的启发式方法，从先前的许多实验中推断出的启发式方法，以及对历史实例的仔细研究。在传统程序中捕获所有这些启发式算法将涉及巨大的工作。使用生成模型的好处是它可以自动学习许多这样的启发式方法。

例如，天真的粗体工具将快速填充在字母“A”的封闭上部区域中的封闭负空间中。字体工具不会这样做。相反，它保留了封闭的负空间，向下移动A的杆，并且比外部更慢地填充内部笔划。这个原理在上面显示的例子中很明显，特别是Helvetica，它也可以在字体工具的操作中看到：

保留封闭负空间的启发式不是先验明显的。但是，它是在许多专业设计的字体中完成的。如果您检查上面显示的示例，很容易理解为什么：它提高了可读性。在训练过程中，我们的生成模型从它看到的例子中自动推断出这个原理。然后我们的粗体界面使用户可以使用它。

实际上，该模型捕获了许多其他启发式方法。例如，在上面的例子中，（粗略地）保留了字体的高度，这是专业字体设计的标准。同样，正在发生的不仅仅是字体的加厚，而是生成模型推断出更微妙的启发式的应用。这种启发式方法可用于创建具有属性的字体，否则这些属性不太可能发生在用户身上。因此，该工具扩展了普通人探索有意义字体空间的能力。

字体工具是一种认知技术的例子。特别是，它包含的原始操作可以内化为用户思考的一部分。在这方面，它类似于Photoshop或电子表格或3D图形程序等程序。每个都提供了一组新的界面原语，原语可以被用户内化为他们思想中的基本新元素。这种新原语内化的行为对于智力增强的大量工作至关重要。

字体工具中显示的想法可以扩展到其他域。使用相同的界面，我们可以使用生成模型来使用诸如表情，性别或头发颜色等品质来操纵人脸图像。或者使用长度，讽刺或语调来操纵句子。或者使用化学特性操纵分子：

这种生成界面提供了一种生成模型的制图，人类探索的方法和使用这些模型的意义。

我们之前看到，字体模型自动推断出有关字体设计的相对深入的原则，并使其可供用户使用。尽管可以推断出如此深刻的原则是很好的，但有时候这些模型会推断出其他错误或不可取的东西。例如，在某些脸部模特中加入微笑矢量会使脸部不仅仅是笑容更多，而且更具女人味。为什么？因为在训练数据中，女性比男性更多。所以这些模型可能不仅仅是学习关于世界的深刻事实，它们也可能内化偏见或错误的信念。一旦知道了这种偏差，通常就可以进行修正。但要找到这些偏见需要仔细审核模型，目前尚不清楚我们如何确保此类审核是详尽无遗的。

更广泛地说，我们可以问为什么属性向量工作，何时工作，何时失败？目前，人们对这些问题的答案知之甚少。要使属性向量起作用，需要采用任何起始字体，我们可以通过在潜在空间中添加相同的向量来构造相应的粗体版本。然而，先验地没有理由使用单个常数向量来替换将起作用。可能我们应该以许多不同的方式取代。例如，用于加粗serif和sans-serif字体的启发式方法是完全不同的，因此似乎可能涉及非常不同的位移：

当然，我们可以做一些比使用单个常量属性向量更复杂的事情。给定成对的示例字体（unbold，bold），我们可以训练机器学习算法，将未加载版本的潜在向量作为输入，并输出粗体版本的潜在向量。通过关于字体权重的附加训练数据，机器学习算法可以学习生成任意权重的字体。属性向量只是进行这些操作的一种非常简单的方法。

由于这些原因，属性向量似乎不太可能作为操纵高级特征的方法。在接下来的几年里，将会开发出更好的方法。但是，我们仍然可以期望提供的操作与上面概述的操作大致相似，从而允许访问高级和潜在的用户定义概念。该接口模式不依赖于属性向量的技术细节。

交互式生成对抗模型

让我们看一下使用机器学习模型来增强人类创造力的另一个例子。它是由互动式生成对抗性网络或iGAN引入的。

在2016年。Zhu 等人的一个例子是在界面中使用iGAN来生成诸如鞋子之类的消费产品的图像。传统上，这样的界面将要求程序员编写包含关于鞋子的大量知识的程序：鞋底，鞋带，鞋跟等。朱等人没有这样做，而是用一种生成模型训练505幅0 鞋子千图像，从Zappos的下载。然后，他们使用该生成模型构建一个界面，让用户粗略地勾勒出鞋子，鞋底，鞋带等的形状：

视觉质量低，部分原因是朱等人使用的生成模型是已经过时的。现代（2017）标准——更现代的模型，视觉质量会更高。

但视觉质量不是重点。这个原型正在进行许多有趣的事情。例如，注意鞋底的整体形状如何在鞋底填充时发生显着变化 - 它变得更窄更光滑。填充了许多小细节，例如白色鞋底顶部的黑色滚边，鞋底上到处都是红色。这些和其他事实是从基础生成模型中自动推导出来的，我们将在稍后描述。

相同的界面可用于草绘风景。唯一的区别是潜在的生成模型已经在景观图像而不是鞋子图像上进行了训练。在这种情况下，可以仅绘制与景观相关的颜色。例如，这里有一个用户在一些绿草中绘制草图，山的轮廓，一些蓝天和山上的雪：

这些界面中使用的生成模型与我们的字体模型不同。它们不是使用变分自动编码器。但潜在的想法仍然是找到一个低维潜在空间，可用于表示（比如说）所有风景图像，并将潜在空间映射到相应的图像。同样，我们可以将潜在空间中的点视为描述景观图像的紧凑方式。粗略地说，iGAN的工作方式如下。无论当前图像是什么，它都对应于潜在空间中的某个点：

假设，正如之前的视频中所发生的那样，用户现在勾画出一个概述山形的笔画。我们可以将笔画看作是对图像的约束，挑选出潜在空间的子空间，包括潜在空间中与图像匹配的所有点：

界面工作的方式是在潜在空间中找到一个靠近当前图像的点，因此图像不会改变太多，但也接近满足强加的约束。这是通过优化目标函数来完成的，该目标函数将距离与每个施加的约束相结合，以及从当前点移动的距离。如果只有一个约束，比如说，对应于山脉，这看起来如下所示：

因此，我们可以将此视为对潜在空间施加约束以便以有意义的方式移动图像的一种方式。

iGAN与我们之前展示的字体工具有很多共同之处。两者都提供了编码关于世界的微妙知识的可用操作，无论是学习理解山是什么样的，还是推断在加粗字体时应该保留封闭的负空间。iGAN和字体工具都提供了理解和导航高维空间的方法，使我们保持在字体或鞋子或风景的自然空间。正如朱等人所说：

或我们大多数人，即使在Photoshop中进行简单的图像处理也会带来难以克服的困难......任何不完美的编辑都会立即使图像看起来完全不切实际。换句话说，经典的视觉操作范例并不能阻止用户“脱落”自然图像的多样性。

与字体工具一样，iGAN是一种认知技术。用户可以将界面操作内化为他们思维中的新原始元素。例如，在鞋子的情况下，他们可以学习根据他们想要应用的差异来思考，添加鞋跟，或更高的鞋面，或特殊的亮点。这比非专家对鞋的传统方式（“11号，黑色” 等）更为丰富）。在某种程度上，非专家确实以更复杂的方式思考 - “让顶部更高一些，更时尚” - 他们在这方面思考的方式很少，或者看到他们选择的后果。拥有这样的界面可以更容易地探索，开发习语的能力和计划能力，与朋友交换想法等等。

两种计算模型

让我们重新回顾一下我们开始撰写文章的问题，关于计算机的用途以及这与智能增强的关系。

计算机的一个常见概念是它们是解决问题的机器，如：

“计算机，在这样的风中发射这种炮弹的结果是什么？”

“计算机，东京的最高温度在5天内会是多少？”

“电脑，当Go董事会处于这个位置时，最好的举动是什么？”

“计算机，这个图像应该如何分类？” 等等这些问题。

这是计算机作为数字计算器的早期观点所共有的概念，也是历史和现在人工智能的大量工作。它是计算机模型，作为外包认知的一种方式。在可能的未来人工智能的推测性描述中，这种认知外包模式经常出现在人工智能作为神谕的视野中，能够解决一些具有优于人类表现的大类问题。

但是对计算机的用途有一个非常不同的概念是可能的，这个概念与智力增强的工作更加一致。

要理解这种替代观点，请考虑我们的主观思想体验。对于许多人来说，这种体验是口头的：他们认为使用语言，在他们的头脑中形成文字链，类似于言语中的句子或写在页面上。对于其他人来说，思考是一种更直观的体验，包含图形和地图等表示。还有其他人将数学融入他们的思维中，使用代数表达式或图解技术，如费曼图和彭罗斯图。

在每种情况下，我们都在考虑使用其他人发明的表示：单词，图形，地图，代数，数学图表等。随着我们的成长，我们将这些认知技术内化，并将它们作为我们思考的基础。

在历史的大部分时间里，可用的认知技术范围已经缓慢且渐进地发生了变化。将引入一个新词或一个新的数学符号。更少见的是，将开发一种全新的认知技术。例如，在1637年，笛卡尔发表了他的“方法话语”，解释了如何用代数表示几何思想，反之亦然：

这使我们对几何和代数的思考方式发生了根本变化和扩展。

从历史上看，持久的认知技术很少被发明。但现代计算机是一种元媒体，可以快速发明许多新的认知技术。考虑一个相对平庸的例子，比如Photoshop。熟练的Photoshop用户通常会有以前不可能的想法，例如：“让我们将克隆图章应用到这样的图层。” 这是一个更普遍的思想类型的例子：“计算机，[新型动作]这种[新想象的一类物体的新表现形式]”。当这种情况发生时，我们正在使用计算机来扩展我们可以思考的思路。

正是这种认知转化模式奠定了智力增强的最深层次工作的基础。而不是外包认知，而是改变我们用来思考的操作和表示; 它是关于改变思想本身的基础。因此，虽然认知外包很重要，但这种认知转换视图提供了更为深刻的智力增强模型。这是一种观点，其中计算机是改变和扩展人类思想的手段。

从历史上看，认知技术是由人类发明者开发的，从苏美尔和中美洲的写作发明到道格拉斯·恩格尔巴特，艾伦凯等设计师的现代界面。

本文中描述的例子表明，AI系统可以创建新的认知技术。当你想要一个新的字体时，像字体工具这样的东西不仅仅是要咨询的神谕。相反，它们可以用于探索和发现，提供新的表示和操作，这些表示和操作可以作为用户自己思考的一部分内化。虽然这些例子处于早期阶段，但他们认为人工智能不仅仅是认知外包。人工智能的另一种观点是可能的，它可以帮助我们发明新的认知技术，从而改变我们的思维方式。

在这篇文章中，我们专注于少数几个例子，主要涉及对潜在空间的探索。还有许多其他人工智能增强的例子。给一些味道，而不是全面的用于神经网络辅助绘图；这使用户能够快速建立新的乐器和艺术系统；通过探索潜在的空间来开发动画、机器学习设计模型和一个能够插值的生成模型。在每种情况下，系统都使用机器学习来启用可以集成到用户思维中的新原语。更广泛地说，人工智能增强将利用诸多的领域。

寻找强大的新思想基础

我们认为机器学习系统可以帮助创建表示和操作，作为人类思想中的新原语。我们应该在这些新原语中寻找什么属性？这个问题太大了，无法在一篇短文中全面回答。但我们将简要探讨一下。

从历史上看，重要的新媒体形式在引入时通常看起来很奇怪许多这样的故事已经传播到流行文化中：斯特拉文斯基和Nijinksy的“春天的仪式”首映的近乎骚乱; 由早期的立体派绘画引起的惊愕，引领纽约时报：“他们的意思是什么？那些对他们负责的人是否已经离开了他们的感官？这是艺术还是疯狂？谁知道？”

另一个例子来自物理学。在20世纪40年代，量子电动力学理论的不同表述由物理学家Julian Schwinger，Shin'ichirōTomonaga和Richard Feynman独立开发。在他们的作品中，Schwinger和Tomonaga使用了传统的代数方法，沿着与其他物理学类似的方式。费曼使用了一种更为激进的方法，基于现在所谓的费曼图，描绘了光与物质的相互作用：

最初，Schwinger-Tomonaga方法对其他物理学家来说更容易理解。当Feynman和Schwinger在1948年的研讨会上展示他们的作品时，Schwinger立刻受到了好评。相比之下，费曼让他的观众神秘莫测。正如James Gleick所说的那样：

Feynman发现每个人都有一个最喜欢的原则或定理，并且他都违反了这些原则...... Feynman知道他失败了。当时，他很痛苦。后来他简单地说：“我的东西太多了。我的机器来自太远了。“

当然，仅仅为了陌生而陌生是没用的。但是这些例子表明，代表性的突破一开始往往显得很奇怪。有任何潜在的原因是真的吗？

部分原因是因为如果某些表示是真正新的，那么它将显得与您以前见过的任何不同。费曼的图表，毕加索的画作，斯特拉文斯基的音乐：都揭示了真正的新意义。良好的陈述可以提升这些洞察力，让熟悉的人们尽可能生动地展示出新的东西。但由于强调不熟悉，表现形式似乎很奇怪：它表现出你以前从未见过的关系。在某种意义上，设计师的任务是识别核心的陌生感，并尽可能地扩大它。

奇怪的陈述通常很难理解。起初，物理学家更喜欢Schwinger-Tomonaga和Feynman。但随着费曼的方法被物理学家慢慢理解，他们意识到尽管施温格 - 智多和费曼在数学上是等价的，但费曼更强大。正如格莱克所说：

Schwinger在哈佛大学的学生处于竞争劣势，或者在其他地方的同伴看来，他们怀疑他们无意中使用了这些图表。这有时候是真的...... Murray Gell-Mann后来花了一个学期留在Schwinger的房子里，后来喜欢说他到处寻找Feynman图。他没有找到任何，但有一个房间已被锁定......

这些想法不仅适用于历史表征，也适用于计算机界面。然而，我们对表现形式的陌生感的提倡与关于界面的许多传统智慧相矛盾，特别是广泛认为它们应该是“用户友好的”，即新手简单且可立即使用。这通常意味着界面是陈词滥调，由标准方式组合的传统元素构建。但是，虽然使用陈词滥调的界面可能既简单又有趣，但与阅读公式化的浪漫小说类似。这意味着界面没有透露任何真正令人惊讶的主题领域。因此，它对加深用户的理解或改变他们的思维方式几乎没有作用。对于平凡的任务，这是很好的，但对于更深层次的任务。

理想情况下，界面将表现出主题背后最深层的原则，为用户揭示新的世界。当您学习这样的界面时，您会将这些原则内化，为您提供更强大的推理方式来推理这个世界。这些原则是你理解的差异。他们真的很想看到，其他一切都是最好的支持，最糟糕的是不重要的渣滓。最好的接口的目的不是在某种浅层意义上用户友好。它在更强的意义上是用户友好的，关于世界，使它们成为用户生活和创造的工作条件。在那一点上，曾经出现过奇怪的东西可以变得舒适和熟悉，成为思想模式的一部分。

这对于使用AI模型进行智力增强意味着什么？

令人向往的是，正如我们所见，我们的机器学习模型将帮助我们构建界面，以对用户有意义的方式实现深层原则。为了实现这一点，模型必须发现关于世界的深层原则，识别这些原则，然后在界面中以用户可理解的方式尽可能生动地表现它们。

当然，这是一个很高的命令！我们展示的例子几乎没有开始这样做。确实，我们的模型有时会发现相对较深的原则，例如在加粗字体时保留封闭的负空间。但这仅仅隐含在模型中。虽然我们已经构建了一个利用这些原则的工具，但如果模型自动推断出所学的重要原则，并找到通过界面明确表示它们的方法，那就更好了。（鼓励取得进展）使用信息理论思想来寻找潜在空间中的结构。）理想情况下，这些模型将开始得到真实的解释，不仅仅是静态形式，而是动态形式，可由用户操纵。但是从那时起我们还有很长的路要走。

这些界面会抑制创造力吗？

我们很容易怀疑我们所描述的接口的表现力。如果界面限制我们只探索图像的自然空间，那是否意味着我们只是在做预期的？这是否意味着这些界面只能用于生成视觉陈词滥调？它是否会阻止我们从创造真正的创造性工作中产生任何真正新的东西？

要回答这些问题，找出两种不同的创造方式是有帮助的。这种双模式模式过于简化：创造力并不完全适合两个不同的类别。然而，该模型澄清了新界面在创造性工作中的作用。

第一种创造方式是从事工艺的工匠的日常创造力。例如，字体设计师的大部分工作都包括对最佳现有实践的有效重组。此类工作通常涉及许多创造性选择，以满足预期的设计目标，但不会开发关键的新基础原则。

对于这样的工作，我们一直在讨论的生成接口是有希望的。虽然它们目前有许多局限性，但未来的研究将识别并解决许多不足之处。这与GAN迅速发生：原始的GAN有许多限制，但很快出现的模型更适合图像，提高了分辨率，减少了伪影，等等。通过足够的迭代，这些生成接口将成为工艺工作的强大工具，这似乎是合理的。

第二种创造方式旨在开发从根本上改变创造性表达范围的新原则。人们在毕加索或莫奈等艺术家的作品中看到了这一点，他们违反了现有的绘画原则，开发了新的原则，使人们能够以新的方式看待。

使用生成界面时，是否可以进行此类创造性工作？难道这些界面不会将我们限制在自然图像或自然字体的空间中，从而积极地阻止我们探索创造性工作中最有趣的新方向吗？

情况比这更复杂。

在某种程度上，这是关于我们生成模型的力量的问题。在某些情况下，模型只能生成现有想法的重组。这是理想GAN的限制，因为训练有素的GAN生成器将重现训练分布。这样的模型不能基于新的基本原理直接生成图像，因为这样的图像看起来不像它在训练数据中看到的那样。

Mario Klingemann和Mike Tyka 等艺术家现在正在使用GAN创作有趣的艺术作品。他们正在使用“不完美”的GAN模型，他们似乎可以用来探索有趣的新原则; 也许情况可能是，糟糕的GAN可能比理想的GAN更具艺术趣味。此外，没有什么说接口必须只能帮助我们探索潜在的空间。也许可以添加操作，故意将我们带出潜在的空间，或者自然图像空间的不太可能（以及更令人惊讶的）部分。

当然，GAN不是唯一的生成模型。在一个足够强大的生成模型中，模型发现的概括可能包含超出人类发现的想法。在这种情况下，对潜在空间的探索可以使我们发现新的基本原理。该模型将发现比人类专家更强大的抽象。想象一下，在立体主义者的时代之前，一直在绘画的生成模型; 可能是通过探索这个模型，有可能发现立体主义吗？如本文前面所讨论的那样，它将类似于玻色 - 爱因斯坦凝聚的预测。这样的发明超越了今天的生成模型，但对于未来的模型似乎是值得的。

到目前为止，我们的例子都是基于生成模型。但是有一些有启发性的模型不是基于生成模型。考虑一下开发的pix2pix系统。该系统在成对的图像上训练，例如，显示猫的边缘的对和实际相应的猫。一旦经过训练，就可以显示一组边缘并要求生成实际相应猫的图像。它经常做得很好：

当提供不寻常的约束时，pix2pix可以产生醒目的图像：

与我们之前的例子不同，pix2pix不是一个生成模型。这意味着它没有潜在的空间或相应的自然图像空间。相反，有一个神经网络，被称为混淆，一个生成器 - 这与我们早期的生成模型没有意义相同 - 将约束图像作为输入，并产生填充图像作为输出。

对发生器进行针对鉴别器网络的训练，其作用是区分由真实数据产生的图像对和由发生器产生的图像对。

虽然这听起来类似于传统的GAN，但存在一个至关重要的区别：发生器没有潜在的矢量输入 5。相反，只有一个输入约束。当人类输入一个不同于训练中所见的约束时，网络被迫即兴发挥，尽其所能根据先前学到的规则来解释该约束。创造力是从训练数据推断的知识的强制合并以及用户提供的新颖约束的结果。因此，即使是相对简单的想法 - 如面包和旁观者猫 - 也会产生引人注目的新型图像，图像不在我们以前认为的自然图像空间之内。

结论

人工智能将改变我们与计算机交互的方式，这是传统观念。不幸的是，AI社区中的许多人都大大低估了界面设计的深度，经常将其视为一个简单的问题，主要是关于使事情变得漂亮或易于使用。在这种观点中，界面设计是一个需要传递给他人的问题，而艰苦的工作则是培养一些机器学习系统。

此视图不正确。最深的是，界面设计意味着开发人类思考和创造的基本原则。这是一个问题，其知识产生可追溯到字母表，制图和音乐符号的发明者，以及现代巨人如笛卡尔，Playfair，费曼，恩格尔巴特和凯。这是人类在努力解决的最困难，最重要和最基本的问题之一。

如前所述，在人工智能的一个共同观点中，我们的计算机将继续更好地解决问题，但人类将基本保持不变。在第二种常见观点中，人类将在硬件层面进行修改，可能直接通过神经接口进行修改，或通过全脑仿真间接进行修改。

我们已经描述了第三种观点，其中AI实际上改变了人性，帮助我们发明了新的认知技术，扩展了人类思想的范围。或许有一天，这些认知技术将在一个良性反馈循环中加速AI的发展：

它不会是机器中的奇点。相反，它将是人类思想范围内的奇点。当然，这个循环目前非常具有推测性。我们所描述的系统可以帮助开发更强大的思维方式，但最多只是间接意义上的这些思维方式被用来开发新的AI系统。

当然，从长远来看，机器可能会在所有或大多数认知任务上超过人类。即使是这种情况，认知转型仍然是一个有价值的目标，值得追求。即使机器做得更好，学习下棋或顺利进行也有乐趣和价值。在讲故事等活动中，利益往往不是作为建筑本身的过程和伪造的关系而产生的。除了工具性福利之外，个人变化和成长具有内在价值。

我们讨论的面向接口的工作不在用于判断人工智能中大多数现有工作的叙述之外。它不涉及打破分类或回归问题的一些基准。它并没有涉及令人印象深刻的壮举，例如在Go等游戏中击败人类冠军。相反，它涉及更主观和难以衡量的标准：它是否有助于人类以新的方式思考和创造？

这给做这种工作带来了困难，特别是在研究环境中。应该在哪里发布？一个人属于哪个社区？判断此类工作应采用什么标准？好的工作和坏的区别是什么？

我们相信，在未来几年内，将出现一个回答这些问题的社区。它将举办研讨会和会议。它将在Distill等场所发布作品。它的标准将来自许多不同的社区：来自艺术和设计以及音乐社区; 来自数学界对抽象和良好定义的品味; 以及现有的AI和IA社区，包括计算创造力和人机交互方面的工作。成功的长期考验将是创作者广泛使用的工具的开发。艺术家是否使用这些工具开发出非凡的新风格？其他领域的科学家是否使用它们以其他方式发展理解？这些都是伟大的愿望。