在验证码中,寻找大脑机制和通用人工智能的新线索

针对人工智能的最新发现,技术博客 bdtechtalks发布了一系列探讨文章[1],本文是其中之一。

数十年来,人工智能科学家一直致力于创造出具有人类大脑解决通用问题能力的机器。尽管计算机科学的各个领域都取得了长足的进步,但通用人工智能(artificial general intelligence, AGI)[2]研究仍有很长的路要走。

当前的 AI 方法要么需要大量数据,要么需要大量手动编码规则,并且都只适用于非常狭窄的领域[3]。与之相反,AGI 应该能够以少量数据和特定指令执行多个任务。尽管创建 AGI 的方法历经了数十年的变化和发展,但有一点一直保持不变:人类大脑证明通用智能确实存在。大脑可以灵活、高效地解决问题。

如果能了解人脑如何解析信息和解决问题,就可能获得创建通用 AI 的蓝图。

研究大脑的机制是神经科学的重点,在过去的几十年中,该领域已越来越多地与人工智能交织在一起。神经科学家和计算机科学家之间的合作实现了 AI 的巨大进步,对于实现 AGI 也可能至关重要。

旧金山 AI 公司 Vicarious 的科学家在同行评审的科技期刊《Frontiers in Neuroscience》中发表的论文[4],提供了一个全新的框架来阐述人类大脑提取和处理信息的机制,以及该过程与当前 AI 技术的差异。

虽然这不是探索神经科学与 AI 之间协同作用[5]的第一篇著作,但该论文提供了关于有机 AI(Organic AI)的有趣观点。

在 AI 和神经科学研究员 Dileep George 的带领下,Vicarious 的科学家从验证码测试中汲取了经验,从中获得了有关大脑信息处理机制的线索。

思维中如何形成常识

论文提到:“有效的学习和有效的概括来自归纳偏见,构建通用人工智能(AGI)是一种寻找正确归纳偏见集的练习,这种归纳偏见使快速学习成为可能,同时又足够广泛地应用于人类擅长的任务。”

人类和动物的大脑证明这种偏见的存在。每个大脑都经过了进化,并且根据所处身体的特定问题灵活地进行优化。

但是,研究人员建议不要直接对大脑回路进行逆向工程,而是应该从功能角度研究思维的机制。研究表明,人类的通用智能要归功于新皮质[6](哺乳动物大脑的外层)。

研究人员表示:“从功能上讲,新皮质与海马系统相结合,通过建立丰富的因果模型,将外部体验内化。对于人类和其他哺乳动物,这些模型可以实现感知、行动、记忆、计划和想象力。”

构建丰富的世界模型[7],使我们能够推理原因和结果,处理“如果……”这样的反事实情景,不用每种问题都有针对性的指示才能解决问题。这是通用智能的关键要求。

“从出生的那一刻起,我们就开始运用感官来构建一个连贯的世界模型。随着成长不断完善该模型,并在生活中毫不费力地进行访问。”

例如,在没有看过棒球比赛的情况下,仅仅看到下方画面,就能推理出引起球改变方向的原因,以及如果棒球没有被球棒击中会发生什么情况。这是因为我们对世界运转方式以及物体之间的相互作用有深刻理解。

论文中写道:“常识是从过去的经验中提炼出来的代表,可以适用于任何给定情况下的适当细节层次。”而这正是当前 AI 技术所欠缺的。

研究人员观察到,深度学习[8]经常被与大脑相提并论,是人工智能的当前领先分支,它更类似于在非常基础的有机体中发现的原始智力形式。深度神经网络可以针对非常狭窄的任务优化参数,例如在 CT 扫描中检测癌性结节、将语音转换为文本,或者在复杂的电子游戏中击败专业人员[9]。但是深度神经网络缺乏人脑丰富的建模能力。

论文作者研究的重点示例是验证码。虽然也可以训练深度学习算法来解决验证码挑战,但是需要数百万个带标签的实例,并且无法处理偏离训练实例的情况。

尽管科学家可以通过创建更大的神经网络[10]取得进步,但在创建可以泛化其能力的模型方面并没有任何重大突破。

论文中提到:“从进化史上学到的是,通用智能是通过能够构建世界上丰富模型的新皮质的出现实现的,而不是通过专用电路的集成。将功能特定的神经网络与哺乳动物的大脑区分开的是构建丰富内部模型的能力,这些模型可以通过多种方式进行查询。”

向大脑学习

研究人员在论文中提出了一个三角框架,通过已知的世界属性、大脑的物理结构和算法来理解智能行为。从三个角度解释观察结果,可以更好地指导构建具有通用问题解决能力的 AI 算法。

文中提到:“三角划分策略,利用这种世界 — 大脑 — 计算机之间的对应关系:当我们观察大脑的某个属性时,可以将该属性与世界的组织原则相匹配吗?该属性可以在计算框架中表示,以产生通用性和学习/推理效率吗?”

三角模型策略使用已知的世界属性、大脑的物理结构和算法来解释智能行为

研究人员进一步指出,纯机器学习模型处理算法和数据时并未考虑从大脑中获得的见解。

大脑的关键属性之一是“生成模型”,它使我们能够在大脑内部将事物可视化,并在抽象和概念级别进行关于世界的推理。这种生成模型有助于填补视觉场景和自然语言推理方面的空白。例如,听到“Sally 在地板上钉了个钉子”这句话时,你会自动想象该过程,不用特别明确告诉你 Sally 在钉的过程中让钉子保持垂直。

生成模型的目的不是重新创建真实场景,而是应该能够根据场景的组成及其关系来构成场景。

具有此类属性的 AI 算法可以执行诸如分类(场景包含哪些对象)、分割(哪些像素属于哪个对象)、遮挡推理(检测被部分遮挡的对象)、推理等任务。当前的深度学习系统可以被训练来执行其中一项任务,而不能胜任全部。

递归皮层网络(The Recursive Cortical Network, RCN)

该论文的两位作者 Dileep George 和 Miguel Lázaro-Gredilla,是 2017 年开发了递归皮层网络(RCN)的 AI 研究组成员。RCN 从神经科学的知识中得出见解,以统一的方式处理识别、分割和推理。

根据研究人员当时进行的测试,RCN 能够以较小的训练数据集解决基于文本的验证码,并且比深度学习模型具有更大的灵活性。

RCN 从神经科学和真实世界汲取见解的示例:实验表明,人类视觉系统优先识别形状和轮廓,而不是纹理。这是因为,对象的颜色和纹理可能在不同的光照条件下发生变化,但是形状通常保持不变。

人类大脑对形状和轮廓有“偏向”,这也是你不需要用带标签的例子来识别下面这些奇怪物体的原因。

研究人员观察到:“轮廓-表面分解可能是大脑皮层处理自然信号的一般原理,而这种‘偏见’可能是由进化发掘的。”

另一方面,深度神经网络也具有一些偏见。例如,你可以训练卷积神经网络(CNN)[11]来非常高精度地检测 二维码,这是大多数人无法企及的壮举。但是,面对很多现实情形时[12],同一个深度学习模型很难在图像中识别对象。

“二维码不是人类视觉系统天生偏好的自然信号”,研究人员补充,CNN 对二维码进行分类的功能可能表明其缺乏与人类相似的偏见。

论文讨论的另一个有趣的属性是层次结构。人类的视觉系统倾向于将世界视为嵌套对象的组合。这也是世界的重要属性。例如,一棵树由茎、叶、根组成,而与每个组成部分的形状无关。即使是第一次看到的树,我们也可以区分这些部分。很多 AI 研究人员,包括深度学习先驱 Geoffrey Hinton[13],都在探索层次结构作为泛化计算机视觉功能的一种手段。

论文作者写道:“通过对世界层次结构的镜像,视觉皮层可以通过重复利用对象组成部分的不变表征,来逐步建立对象的不变表征。分层组织也适用于有效的学习和推理算法。”

同样值得注意的是,视觉系统对上下文和细节水平的敏感性。我们通过同时顾及局部特征以及全局特征的反馈机制,来应对世界的高可变性。例如,单独看很难检测出下面的照片是什么:

但是对比周围细节再查看相同像素块时,我们可以理解图片的内容。

研究人员提到:“由于影响变化的多种因素,对世界的任何局部观察都可能是模棱两可的,因此需要在一个连贯的整体中,整合和重新解释局部的感官信息。为此,需要反馈连接。”

上下文和反馈可以解决很多问题,例如验证码中的遮挡。

反馈机制使我们能够解决验证码中的遮挡问题

虽然长期目标是 AGI,但基于这些原理创建的 RCN 已在各个领域中使用。George 在评论中提出:“我在仓库和工厂的机器人上部署了 RCN。Vicarious 为机器人提供服务,来解决高转换环境中的提货、包装和装配问题。”,并且补充提到 RCN 的数据高效(只需要使用少量数据)是一大优势。

总结

Vicarious 研究人员提出的这项工作,是旨在寻找创造真正智能途径的多项努力之一。今年早些时候发表的另一篇论文从功能(Functionality)、物理(Physics)、意图(Intent)、因果关系(Causality)和效用(Utility)的角度(简称为 FPICU)讨论了“计算机视觉的暗物质[14]”。

在测试和测量 AI 系统中的智能水平方面也有有趣的发展,比如 Keras 深度学习库的创建者 Francois Chollet 的抽象推理语料库[15](Abstract Reasoning Corpus, ARC)。ARC 用于测试 AI 系统是否可以用极少的示例在抽象层面上解决问题。

Dileep George 和他的同事们提出,以灵活且数据高效的方式解决验证码的问题会是一个很好的信号,表明 AI 算法能够解决多个任务,使我们更接近 AGI 的最终目标。

“选择解决文本验证码作为评估 RCN 的现实世界挑战问题,因为验证码体现了我们在模型中寻求的强大概括性——人们无需进行样式特定的训练即可解决新的验证码样式。”

乔治和他的同事们将会把研究扩展到其他领域。“我们正在将 RCN 扩展到更多现实领域,然后会将其与概念学习以及语言相结合。我们也在扩展机器人技术中应用 RCN 的情况。”

References

[1]一系列探讨文章:https://bdtechtalks.com/tag/ai-research-papers/

[2]通用人工智能(artificial general intelligence, AGI):https://bdtechtalks.com/2020/05/13/what-is-artificial-general-intelligence-agi/

[3]适用于非常狭窄的领域的AI:https://bdtechtalks.com/2020/04/09/what-is-narrow-artificial-intelligence-ani

[4]论文:https://www.frontiersin.org/articles/10.3389/fncom.2020.554097/full

[5]神经科学与 AI 之间协同作用:https://bdtechtalks.com/2020/01/20/neuroscience-artificial-intelligence-synergies/

[6]通用智能要归功于新皮质:https://bdtechtalks.com/2020/09/28/ai-conscience-patricia-churchland/

[7]构建丰富的世界模型:https://bdtechtalks.com/2019/12/09/judea-pearl-the-book-of-why-ai-causality/

[8]深度学习:https://bdtechtalks.com/2019/02/15/what-is-deep-learning-neural-networks/

[9]在复杂的电子游戏中击败专业人员:https://bdtechtalks.com/2018/07/02/ai-plays-chess-go-poker-video-games/

[10]创建更大的神经网络:https://bdtechtalks.com/2019/11/25/ai-research-neural-networks-compute-costs/

[11]卷积神经网络(CNN):https://bdtechtalks.com/2020/01/06/convolutional-neural-networks-cnn-convnets/

[12]面对很多现实情形时:https://bdtechtalks.com/2019/12/16/objectnet-dataset-ai-computer-vision/

[13]深度学习先驱 Geoffrey Hinton:https://bdtechtalks.com/2020/03/02/geoffrey-hinton-convnets-cnn-limits/

[14]计算机视觉的暗物质:https://bdtechtalks.com/2020/06/01/artificial-intelligence-computer-vision-fpicu/

[15]抽象推理语料库:https://bdtechtalks.com/2019/12/03/francois-chollet-arc-ai-measurement/

你可能感兴趣的:(在验证码中,寻找大脑机制和通用人工智能的新线索)