原标题: A Framework for Intelligence and Cortical Function Based on Grid Cells in the Neocortex
作者: J. Hawkins, M. Lewis, M. Klukas, S. purdy and S. Ahmand
论文来源: https://www.frontiersin.org/articles/10.3389/fncir.2018.00121/full
译者私货: 这篇论文详细阐述了 Hawkins 的千脑智能理论. 智能被人们认为是对现实世界构建模型的一个过程. 而现实世界由无数个相互关联的对象组成, 对象与对象之间存在着密切的联系. 千脑理论认为大脑皮层在形成这么一个现实世界的模型时, 各个对象以及它们之间的联系被分布式的储存在所有的皮质柱里面.
另外这是我第一次做翻译, 所谓信达雅只求能够做到第一层, 读起来可能也只比Google翻译好那么一点, 若有任何问题请务必提出来. 建议有能力的读者直接去看原文.
摘要
如今大脑皮层如何工作仍然是一个秘密. 在这篇文章中我们提出了一种新的框架来解释皮层/皮质的功能. 作为一种内嗅皮层 (entorhinal cortex) 的神经元, 网格细胞 (grid cells) 表示了一个个体在环境中的位置. 最近的证据显示类网格细胞 (grid cell-like neurons) 可能同样在皮层中出现. 我们提出网格细胞存在于皮层的各个区域/脑区和各个皮质柱 (cortical column) 中, 这些网格细胞定义了一个基于位置的框架来实现皮层的功能. 尽管在内嗅皮层中的网格细胞表示了某个对象的位置, 即它和周围环境的关系, 我们认为皮质网格细胞可以同时表示多个对象的位置和关系: 体感皮层 (somatosensory cortex) 的皮质柱记录与被触摸对象相关的触觉特征的位置; 视皮层 (visual cortex) 的皮质柱记录与被看到的对象相关的视觉特征的位置. 我们提出内嗅皮层和海马从学习环境的结构进化而来的机理, 现在被皮层用于学习对象的结构. 某个位置是由所有的皮质柱共同表示的, 这一点揭示了皮质表示对象的构成 (compositionality ) 和行为的机理. 这就很自然地得到一个假说: 皮层的每个部分都学习对象的完整模型, 并且在整个新大脑皮层中分布着许多对象的模型 (也就是千脑智能理论). 由于在所有皮层区域观察到的脑回路 (circuitry of the neocortex) 的相似性, 甚至高等级的认知任务也在这个基于位置的框架下学习和表达.
介绍
人类的新皮层可以学习关于这个世界非常复杂和琐碎的模型. 我们每个人都可以辨认超出1000种对象, 我们通过视觉, 触觉, 听觉来感受这些对象的存在; 当我们和这些对象互动时, 我们可以感知对象的行为和变化; 我们知道这些对象在世界中所处的位置. 人类的新皮层学习的对象或结构可以是抽象的, 它们可以没有物理实在或者我们对它们没有直观的感受. 理解它们的脑回路同样是非常复杂的. 理解这么复杂的脑回路是如何学习关于这个世界的复杂模型是神经科学的一个基本目标.
Vernon Mountcastle 第一个提出了大脑皮层的区域 (即脑区) 本质上是相似的. 他认为之所以区分出不同的脑区, 主要是因为每个脑区的输入不同, 而不是因为脑区之间结构和功能的差异. 他进一步提出一种小体积的皮层区域, 被称为皮质柱, 是脑区相似的基本单元 (Mountcastle, 1978). 这是一种强有力的观点, 但是它很难确认皮质柱表现的行为足以解释我们具有的认知能力. 今天, 主流观点认为大脑皮层可以一步步分层级地处理一系列感官输入, 提取出越来越复杂和抽象地特征来认知对象 (Fukushima, 1980; Riesenhuber and Poggio, 1999). 尽管这种观点解释了感官推理 (sensory inference) 的某些方面, 它无法解释人类行为的丰富性, 我们如何学习多自由度的复杂模型, 以及当我们和对象互动时, 我们如何学习对象自身的行为和变化这些问题. 它同样无法解释为什么占据大脑皮层大部分的区域都是负责运动而不是感知. 在这篇文章中, 我们提出了一种新的理论框架来解决上述的不足.
过去的几十年里, 神经科学的一些最令人兴奋的进展都跟 "网格细胞" 和 "位置细胞 (place cells)" 有关. 这些神经元存在于哺乳动物的海马复合体中, 人类的海马体类似于手指的大小和形状, 位于大脑的两侧. 网格细胞结合位置细胞可以记忆所处环境的地图 (O’Keefe and Dostrovsky, 1971; Hafting et al., 2005; Moser et al., 2008). 网格细胞表示了一个个体在地图中当前的相对位置. 海马体中的建模工作已经证明了这些神经表征对情景记忆和空间记忆的能力 (Byrne et al., 2007; Hasselmo et al., 2010; Hasselmo, 2012), and navigation (Erdem and Hasselmo, 2014; Bush et al., 2015). 同样有证据表明网格细胞在更抽象的认知活动中扮演重要的角色 (Constantinescu et al., 2016; Behrens et al., 2018).
最近的实验证据显示网格细胞同样存在于皮层. 通过 fMRI (Doeller et al., 2010; Constantinescu et al., 2016; Julian et al., 2018) 在前额叶和顶叶区域发现了类网格细胞放电模式的特征; 通过人的单个细胞记录发现了更多额叶皮质存在网格细胞的直接证据 (Long and Zhang, 2018); 通过多个四极管的记录已经发现了网格细胞, 位置细胞, 和连接细胞 (conjunctive cell) 在大鼠 S1 区的响应. 我们团队提出, 皮质在预测感官输入时, 需要表示一种以对象为中心的位置, 这种位置的表示需要整个皮质的感觉区域的参与, 这与网格细胞的机理是一致的 (Hawkins et al., 2017).
这里我们提出类网格神经元存在于皮层的各个皮质柱中. 内侧嗅内皮层 (medial entorhinal cortex, MEC) 的网格细胞主要代表一个个体在环境中的位置, 而我们认为皮质中的网格细胞可以同时表示出很多种事物的位置. 躯体感觉皮层的皮质柱可以接受身体不同部位的信号输入, 它们表示了在这些输入下, 被触摸的对象在外在参考系中位置. 类似的, 视皮层中的皮质柱接受视网膜中不同区域的视觉信号, 表示了在这些信号输入下, 被看到的对象在外在参考系中位置. 既然内侧嗅内皮层的网格细胞和位置细胞是通过身体的移动来学习环境的模型的, 我们很自然地提出皮质中的网格细胞通过感官的运动结合感官输入来学习对象的模型.
尽管我们很大程度上搞清楚了 MEC 的网格细胞的感受野 (receptive field) 的性质, 以及这些细胞是怎么编码位置的 (Rowland et al., 2016), 这些性质背后的机理却仍不清楚. 实验结果显示网格细胞具有独一无二的细胞膜 (membrane) 和树突 (dendritic) 性质 (Domnisoru et al., 2013; Schmidt-Hieber et al., 2017), 现在有两种主要的计算模型来表示这种性质: 振荡干扰模型 (O’Keefe and Burgess, 2005; Burgess et al., 2007; Giocomo et al., 2007, 2011; Burgess, 2008) 和连续吸引子模型 (Fuhs and Touretzky, 2006; Burak and Fiete, 2009). 我们提出的框架假设 "皮质的网格细胞" 在生理学上的性质和 MEC 的网格细胞类似, 同时我们不关心这些性质具体是怎么来的.
这篇文章中 "皮质柱" 的定义和 Mountcastle 的研究中的定义类似, 都是代表了一小块皮层区域, 这种区域包含了纵向的全部6层神经和足够的横向范围, 以包含所有细胞类型和感受野的响应, 也就是说皮质柱并不对应物理上的实体, 而只是为了方便而使用的一种抽象的指代 (大概是因为还没有在皮层中真的发现网格细胞). 我们用皮质柱来指代大约大脑皮层的一平方毫米, 尽管这个大小并不重要, 而且可能因物种和脑区的不同而有所不同.
网格细胞如何表示位置?
为了理解我们在干什么, 我们首先要回顾一下内嗅皮层中的网格细胞是怎么表示空间和位置的 (图1).
因为译者懒, 跳过了正文中一些更详细的解释.
这种编码位置的过程被称为 "路径整合 (path integration)", 它有一个很好的特点, 即无论动物怎么移动, 当返回到相同的物理位置时, 一个模块总是激活相同的网格细胞.
总结起来, 这种表示位置的方式具有几种很好的特点:
(1) 强大的表征能力:
由一组网格单元模块编码的位置数量很大, 因为它随模块数量呈指数级增长.
(2) 可以在任何位置进行路径整合:
无论网络从哪个位置开始, 路径整合都可以工作. 这是一种一般化的方法. 在一个陌生的环境中, 每个网格单元模块都必须学习一次路径整合, 然后就可以将所有位置进行编码, 即使是动物以前从未进入过的位置.
(3) 每个环境中的位置都是独一无二的:
每个被学习的环境都对应着一组独一无二的位置. 实验记录显示在进入不同环境时, 网格细胞的模块的 "锚定 (anchor)" 方式都是不同的 (Rowland and Moser, 2014; Marozzi et al., 2015). (术语 "锚定" 指的是选择每个模块中的哪些网格单元应该在当前位置处于活动状态.) 这表明在任何独一无二的环境中, 当前位置以及动物可以移动到的所有可能位置都可以非常精确地表达 (Fiete et al., 2008; Sreenivasan and Fiete, 2011).
综合这些特点, 我们可以概括地描述网格细胞如何表示一个环境, 比如说一个房间 (图 2A). 一个环境由一系列的位置/位置表象组成, 这些位置表象由路径整合相互关联起来 (比如动物可以在这些位置表象之间移动). 环境中每个位置表象都是唯一的, 并且都不会出现在另外一个环境中. 一个环境由动物可以在其中移动的所有位置组成, 包括没有被访问过但可以访问的位置. 位置表象与可观测的地标相关联.
皮质中的网格细胞
现在让我们考虑一小块接收指尖输入的大脑皮层 (图 2B). 我们的想法是, 大脑皮层中的一些神经元代表了指尖在探索对象时的位置. 当手指移动时, 这些皮质中的网格细胞通过运动输出的副本 (不理解) 和路径整合来更新它们对位置的表示. 像咖啡杯这样的对象和一组位置关联起来; 像房间这样的环境以同样的方式和一组位置关联起来. 与某个对象的位置相关联的是一组可观测的特征. 大脑皮层区域接受手指的输入, 在对象的位置空间中追踪从指尖传来的感官信号的位置. 通过移动和感受, 指尖对应的皮质区域学习到了对象的模型, 这种学习方式和内嗅皮层中的网格细胞和位置细胞学习环境的模型的方式是一样的. 虽然内嗅皮质整体用于追踪身体的位置, 但新皮层的不同区域可以独立地追踪每个可移动的感觉区域的位置. 比如说, 躯体感觉皮层的每个区域都追踪来自相关身体部位的感觉输入的位置. 这些感觉区域并行运行, 构建出了对象的并行模型. 同样的方式也适用于视觉, 一小块视网膜的区域类似于一小块皮肤的区域. 视网膜上不同的区域观测对象的不同位置. 每一个新皮层的区域接受相应的视网膜区域的视觉信号输入, 然后在被观测的位置空间中追踪视觉信号的位置. 当眼睛移动的时候, 不同的视觉的皮质柱感受到对象的不同的位置, 并且学习被观测对象的并行模型.
我们现在已经讨论了我们的想法的最基本方面:
(1) 每个皮质柱中都有表现行为类似网格细胞的神经元, 它们的行为模式表示了皮质柱输入信号的位置, 这个位置和外在参照系相关. 这些位置表象通过运动输出的副本 (不理解, 意思是负责控制运动的神经元的信号也会传递给这些类网格细胞, 然后类网格细胞以此来更新位置吗?) 和路径整合得到更新.
(2) 皮质柱学习现实世界中每一个对象的模型, 就像网格细胞和位置细胞学习环境模型一样. 被皮质柱习得的模型存在于一组位置表象, 每个不同的对象的位置表象都不相同, 其中一些位置具有可观测的特征.
一个基于位置的皮层计算框架
我们的想法表明皮质柱比以往认为的更强大. 通过对应输入和网格细胞表示的位置表象, 皮质柱可以学习现实世界中复杂的结构模型 (Lewis et al., 2018 也提到这个观点). 在这一节中, 我们会展示这种基于位置的框架如何能够使神经元学习丰富的模型, 就像大脑皮层实际能够做到的那样.
对象组合 (Object Compositionality)
对象以一种特定的排列方式和其他对象组合在一起. 比如通过记忆咖啡杯上每个位置的感觉来学习咖啡杯的形状是低效的; 更高效的做法是, 将咖啡杯作为过去已经学到的对象的组合来学习, 比如说一个圆柱体和一个把手的组合. 我们考虑一个印有标签的咖啡杯 (图 3A). 这个标签存在于世界上的多个位置, 它自身就是一个被习得的 "对象" (图中的标签是作者创办的公司, Numenta). 为了表示这个带了标签的咖啡杯, 我们需要一种关联其他对象的方法: "标签" 相对于另一个对象 "杯子" 的相对位置. 这种组合结构的方法体现在世界上几乎所有的对象中, 因此皮质柱必须有一种 "将新的对象表现为已习得对象的某种排列" 的神经机制. 那么这种机制是怎么实现的呢?
我们已经提出了每个对象都与唯一的一组位置相关联, 这组位置构成了一个包含了对象的位置空间. 如果手指触摸带标签的咖啡杯, 代表手指位置的皮层的网格细胞可以在某一个时刻表示在咖啡杯的位置空间中手指的位置, 以及经过重新锚定后, 在另一个时刻表示在标签的位置空间中手指的位置. 由于标签是贴在杯子上的, 那么标签空间中的点和杯子空间中的点存在一一对应的关系 (图 3B). 通过创建一个 "位移" 向量, 杯子空间中任意的点可以转换为标签空间中的对应的点. 通过这个过程, "标签在杯子上" 这一事实就被表现出来了.
确定两个对象之间的位移向量类似于之前研究过的导航问题, 或者说, 动物在环境中知道如何从 a 点到 b 点 (图 3C). 处理导航问题的机制 (确定同一空间中两点间的位移) 也可以解决对象组合问题 (确定两个不同空间中点的位移关系).
位移细胞
为了用网格细胞进行点对点的导航, 几种模型被提了出来: 一种经典的模型检测跨多个网格单元模块的两组活动网格单元之间的差异 (Bush et al., 2015); 另一种模型通过网格细胞使用线性前向探针 (linear look-ahead probes) 来规划和计算轨迹 (Erdem和Hasselmo, 2014). 我们提出一种相关的替代模型, 我们的想法仍然依赖于检测两组活动的网格细胞之间的差异, 然而我们认为这是基于网格细胞模块间的关系来实现的. 我们把这些细胞称为 "位移细胞" (详细信息见补充材料). 位移细胞类似于网格细胞, 一个位移细胞不表示一个单一的位移. (在补充材料的例子中, 一个在 "向右两步, 向前一步" 这种位移下被激活的细胞同样也会被 "向上五步, 向前四步" 这种位移激活.) 然而, 多个位移细胞模块中的细胞活动能够表示惟一的位移, 这与多个网格细胞模块中的细胞活动能够表示惟一的位置非常相似 (图 3D). 因此一个位移矢量可以表示咖啡杯上特定相对位置的标签. 值得注意的是, 一个位移矢量表示且只能表示特定的两个对象的相对位置. 复杂的对象可以用一组位移向量来表示, 这些向量定义了一个对象的组成部分 (组成部分也是对象), 以及它们是如何相对排列的. 这是一种高效的存储和表示对象结构的方法.
这种表示对象的方法允许分层级的组合. 比如说在杯子上的标签同样由两个子对象组成: 字母和图案. 一个表示标签放置在杯子上的位移矢量隐含了所有标签的子对象. 这种方法甚至可以表示递归的结构, 比如一个标签可能包含一个印着这个标签的杯子. 层级和递归的组合不仅是物理对象的基本元素, 还是语言, 数学, 和其他智能思考表现的基本元素. 这种方式的核心思想是利用一个位移矢量有效地表示两个或更复杂的已习得对象的身份和相对位置, 从而构建出新的对象.
网格细胞和位移细胞执行互补操作
网格细胞和位移细胞执行互补操作. 网格细胞根据当前位置和位移向量 (即运动) 确定新的位置. 位移细胞确定从当前位置到达新位置所需的位移.
如果这两个位置在同一个空间中, 那么网格细胞和位移细胞可以有效地进行导航. 在这种情况下, 网格细胞根据起始位置和给定的移动来预测新的位置. 位移细胞表示从位置 1 到位置 2 所需要的移动.
如果这两个位置处于不同的空间中 (物理位置是一样的, 只是对应的对象不一样), 则网格细胞和位移细胞可以有效地表示两个对象的相对位置. 网格细胞根据给定的位移将一个对象空间中的位置和另一个对象空间中的位置关联起来, 而位移细胞表示两个对象的相对位置关系.
我们认为所有的皮质柱中都存在网格细胞和位移细胞. 大脑皮层在基于位置的框架下处理问题时, 这两种细胞执行两个基本的互补操作. 通过交替单个对象空间中的位置表示和两个不同对象空间中的位置表示, 新皮层可以使用网格细胞和位移细胞来学习对象的结构并生成操作这些对象的行为.
内嗅皮质中存在网格细胞, 我们认为它们也存在于新皮层的所有区域. 本文预测了位移细胞的存在, 我们认为在新皮质的所有区域存在着位移细胞. 考虑到它们与网格细胞的互补作用,在海马复合体中也可能存在位移细胞.
对象的行为
对象可以存在行为, 例如图 4 中的订书机. 订书机的顶端可以被抬起和旋转. 这种动作会改变订书机的形态, 但它还是订书机. 我们不会将合上和打开的订书机看作两种不同的对象, 尽管它的整体形态发生了改变. 对象的一部分相对于整体的移动被称为对象的 "行为". 我们可以学习到对象的行为, 因此它们必须能够被皮质柱的神经组织表示出来. 我们可以用基于位置的框架去表示这种行为, 同样还是用位移向量. 订书机由顶部和底座组成, 顶部和底座的相对位置被一个位移向量表示, 就像位移向量表示标签和咖啡杯的相对位置一样. 然而, 和咖啡杯不同的是, 订书机的这两部分的相对位置会发生改变. 当订书机的顶部向外翻转的时候, 关联顶部和底座的位移向量发生了改变. 因此订书机顶部的角度由一系列位移向量来表示. 通过学习这个序列, 皮质柱就学到了对象的行为.
开合订书机是两种不同的行为, 它们作用在相同的元件上, 只是方向相反. 这些行为有时被称为 "高阶" 序列. 之前我们描述了神经元层学习高阶序列的神经机制 (Hawkins and Ahmad, 2016). 这种机制如果应用于位移模块, 将允许学习, 推理, 回忆对象复杂的行为序列.
处理 "是什么" 和"在哪里"
感官处理发生在两组平行的皮层区域, 被称为 "是什么" 和 "在哪里" 通路. 在视觉上, 对 "是什么" 或者说腹侧通路的破坏会导致视觉无法辨认对象; 如果破坏 "在哪里", 或者说背侧的通路, 即使认出了对象是什么物体也难以接近对象.
在其他感觉形式中观察到的 "是什么" 和 "在哪里" 通路的位置是相同的, 因此这似乎是皮层组织的一般原则 (Goodale and Milner, 1992; Ungerleider and Haxby, 1994; Rauschecker, 2015). 既然 "是什么" 和 "在哪里" 通路的皮质区域有相似的解剖结构, 因此我们可以假设它们具有相似的运作原理.
基于位置的框架可以同时解释怎么处理 "是什么" 和"在哪里" 这两种皮质功能. 简要来说, 我们认为 "是什么" 和 "在哪里" 区域的本质区别是: "是什么" 区域的皮层网格细胞表示以对象为中心的位置空间; "在哪里" 区域的皮层网格细胞表示以身体为中心的位置空间. 图 5 展示了一个表示移动的位移向量如何在 "是什么" 和 "在哪里" 两个区域中生成. 这两个区域的基本操作都是先处理一个位置, 然后再处理下一个位置, 然后位移细胞可以判断从原先位置移动到下一个位置的运动向量. 在 "是什么" 区域里 (图 5C), 两个位置都处于对象的位置空间中, 位移向量能够表示手指从前一个位置移动到后一个位置的移动. 在这个例子中, "是什么" 区域需要知道手指相对于杯子的位置, 但它不需要知道手指或者杯子相对于身体的位置. 在 "在哪里" 区域 (图 5B), 两个位置处于身体的位置空间中, 因此位移向量能够表示身体如何从一个位置移动到下一个位置. "在哪里"区域可以执行此计算, 而无需知道第二个位置上有没有对象, 对象是什么物体. 关于 怎么处理 "在哪里" 更为详细的讨论超出了本论文的范围. 我们想要指出的是基于不同的位置空间, 同样的机制可以处理 "是什么" 和"在哪里" 两种问题.
千脑智能理论: 重新思考层级关系
大脑皮层的脑区通过层级结构组织起来 (Felleman and Van Essen, 1991; Riesenhuber and Poggio, 1999; Markov et al., 2014). 一般认为, 当感觉传入进新皮质时, 第一层区域会检测到传入信号的一些简单的特征. 这个区域的输出被传递到第二层区域, 该区域将简单的特征组合成更复杂的特征. 这个过程一直进行到到层级结构中最高的那些层级区域, 单元细胞响应出完整的对象 (图 6A). 这种将新大脑皮层视为分层级的特征提取器的观点也是许多人工神经网络的基础 (LeCun et al., 2015).
我们的想法是皮质柱比现在认为的更为强大. 通过整合感官输入和在对象空间中该输入的位置相结合, 再结合感官的运动信息, 每个皮质柱都能够学习对象的完整模型 (详情见 Hawkins et al., 2017; Lewis et al., 2018). 这表明了对皮质层级结构的一种修正的解释: 每个层级都学习对象的完整模型, 每个区域都包含多个对象模型 (图 6B).
区域间的前馈和反馈投射通常连接着多个层级结构 (图 6 中只有一层连接). 比如说, 视网膜投射到外膝体 (LGN) 的丘脑中继细胞 (thalamic relay cells), 接着投射到, 和皮层区域. 这种 "层级跳跃" 是一种普遍规律. 因此在某种程度上, V1和V2都对视网膜的输入进行处理. 从LGN到V2的连接比到V1的连接更加发散, 这表明V2在一个不同的空间尺度学习模型. 我们预测相类似的, V2的皮质网格细胞表示的空间尺度将大于V1. 一个区域内输入的收敛程度, 对应了其网格细胞表示的空间尺度, 决定了该区域可以学习的对象的尺度范围. 举个例子, 想象一下识别字母表中的印刷字母. 小到刚刚能够分辨的字母在且仅在V1中被识别, 直接输入给V2的信息分辨率很低, 不能分辨特征. 然而较大的打印字母在V1和V2中都能被识别, 甚至更大的字母对V1来说可能太大而只能在V2中识别. 注意分级处理仍然在发生, 我们的想法是当一个像V1这样的区域向另一个像V2这样的区域传递信息时, 它不是传递尚未分类的特征表象, 而是传递完整的对象表象. 如果对象是被群体编码的话 (见 Hawkins et al. 2017), 我们的这种想法将难以被实验证实. 单个神经元会参与许多不同的物体表征, 如果单独观察一个神经元, 它们似乎代表的是感官特征, 而不是对象. 皮质柱所能学习的对象数量很大 (Hawkins et al., 2017) 但仍有上限, 不是每个皮质柱都可以学会每个对象. 分析一个系统的容量需要对层级的流 (flow) 有更为详细的理解, 这超出了本文的范围.
有许多从皮层到皮层的投射与纯粹的层级处理不一致 (图 6B, 绿色箭头). 比如说在左右半球的各个脑区之间有很长的投射 (Clarke and Zaidel, 1994), 以及在处理不同的感觉形式的脑区之间存在着大量的联系, 即使在层级的最底层 (Schroeder and Foxe, 2005; Driver and Noesselt, 2008; Suter and Shepherd, 2015). 这些连接可能不是分层级的, 因为它们的轴突终止于与前馈或反馈输入相关的细胞层 (也就是所在区域或脑区) 之外的细胞. 据估计, 所有可能的区域到区域的连接中有40%实际上存在, 这远远超过了纯粹的层级结构的范围 (Felleman and Van Essen, 1991). 这些长期的非层级连接的作用是什么? 论文 (Hawkins et al., 2017) 里面提出, 皮质柱的某些层 (如 L4 和 L6) 的细胞活动随着每个新的感觉变化, 而表示被观测 “对象” 的其他层(如 L2 和 L3) 的细胞活动在输入改变时是稳定的. 我们展示了表示 “对象” 的细胞层中的长程连接如何允许多个皮质柱共同决定它们正观测的对象是什么. 比如说, 如果我们看到并触摸一个咖啡杯, 有许多皮质柱同时观察杯子的不同部分 (视觉上和触觉上). 这些皮质柱位于视觉和触觉层级结构的多个级别中. 每个皮质柱都有唯一的感官输入和唯一的位置, 因此表示位置和输入的细胞之间的长程连接没有意义. 然而, 如果不同的皮质柱正在观察相同的对象, 那么表示对象的细胞层中的神经元之间的连接, 使皮质柱能够快速定位出正确的对象. 因此, 如果任何两个区域经常同时观察同一物体, 那么这两个区域之间的非层级连接都是有意义的, 即使这两个区域是处于不同感觉方式下的初级和次级感觉区域 (详情见 Hawkins et al., 2017).
关于感知 (perception) 的一个经典问题是, 新皮层如何将不同的感官输入融合成一个统一的被感知对象的模型. 我们提出新皮层具有感官融合的分布式模型. 例如没有一个单一的咖啡杯模型可以表示出咖啡杯的所有外观和触感, 相反一个咖啡杯可以有100多个模型. 每个模型基于一组不同形式的感官输入的子集, 也就是会有基于视觉输入的多个模型和基于体感输入的多个模型, 每个模型都可以随着运动通过观察相关感官的输入来推断出杯子的形状. 然而, 长程非层级连接使得模型们可以快速地确认潜在对象, 这一过程通常发生在单一的感觉里.
每个区域学习对象的完整模型, 但这并不排除层级的流. 其主要思想是, 对于世界中的每个对象, 新大脑皮层有100个甚至是1000个模型. 被观测特征的整合不仅发生在皮质柱中层级结构的顶层, 还发生在皮质柱中层级结构的每一层里, 我们把这种理论称为 "千脑智能理论".
讨论
Crick (1979, 见参考文献) 写下了标题为 "思考大脑" 的文章, 文章里他写到 "尽管细节知识在不断稳定地积累, 人类大脑是如何工作的仍然是一个意义深远的迷." 他认定在未来我们无疑会积累更多关于大脑的数据, 但是这并不重要, 因为 "我们现在思考这个问题的方式可能是错的." 他推断我们现在缺少一个 "理论框架", 一个能够解释实验上的发现, 兼容现有的更琐碎理论的框架. 在这篇文章发表后四十年的现在, 他的看法依然是适用的.
也许到现在为止我们取得的最大进步是建立了一个以海马复合区的位置细胞和网格细胞为基础的框架. 这些细胞的发现揭示了一个动物是如何学习环境的地图, 以及它们如何利用这个地图在环境中移动的框架. 这个框架的成功使得人们对内嗅复合区和海马的研究兴趣空前增加.
这篇文章中提出了一个理解新皮层的理论框架. 我们提出的皮层框架是之前基于网格细胞和位置细胞的框架的衍生物. 用于学习环境结构的机制现在被用于学习对象的结构; 用于追踪动物在环境中的位置的机制现在被用于追踪四肢和感觉器官相对于对象的位置. 这种类比在多大范围内是成立的我们仍不清楚. 位于海马, 海马下托 (subiculum) 和内嗅皮质的神经回路中的是网格细胞 (Hafting et al., 2005), 位置细胞 (O’Keefe and Dostrovsky, 1971; O’Keefe and Burgess, 2005), 头朝向细胞 (head direction cells) (Taube et al., 1990; Giocomo et al., 2014; Winter et al., 2015), 边界细胞 (Lever et al., 2009), 对象向量细胞 (Deshmukh and Knierim, 2013), 以及其他细胞, 加上许多连接细胞 (conjunctive cells), 这些连接细胞显现出结合其他细胞的性质 (Sargolini et al., 2006; Brandon et al., 2011; Stensola et al., 2012; Hardcastle et al., 2017). 我们现在展示的这种想法是新皮层包含一些细胞, 这些细胞在功能上等价于一类海马复合体中的细胞. 这些细胞的性质只会在清醒的动物感知被习得的对象时被检测到. 最近的工作表明事实可能的确如此 (Long and Zhang, 2018).
定向
在内嗅皮层和大脑的其他地方发现了头朝向细胞 (Taube et al., 1990; Sargolini et al., 2006; Brandon et al., 2011; Giocomo et al., 2014; Winter et al., 2015; Raudies et al., 2016). 这些细胞表示了动物相对于所在环境的多中心定向 (allocentric orientation). 个体知道当前相对于环境的定向后, 才能通过感官来推断自己在哪里, 预测自己在移动后的感觉, 以及决定如何移动到一个新的位置. 在 Hasselmo(2009) 和 Hasselmo et al. (2010) 研究的模型中, 头朝向细胞对于在空间位置之间精确地转移至关重要. 整个新皮层都存在这种定向需求. 比如说, 仅仅知道手指相对于咖啡杯的具体位置是不够的, 手指也有相对于杯子的定向 (旋转方向和接触角度). 要预测手指接触杯子时会感觉到什么, 或者要到达杯子上的一个新位置需要做什么运动, 除了要知道杯子的位置还需要知道手指相对于杯子的方向. 因此我们预测, 在每个皮质柱内, 都会有细胞表示定向, 这类细胞的功能与海马复合体中的头朝向细胞类似. 大脑皮层如何表示定向还不清楚, 也许有一组定向细胞, 每个细胞都有一个偏好方向, 类似于头部定向细胞, 但我们还没有发现任何实验证据. 当然还有一种替代的方法, 定向可以通过总体代码来表示, 但这将更难被验证. 比如在体感区域, 定向可以通过激活一个稀疏的多中心定向检测器子集 (a sparse subset of egocentric orientation detectors) 来表示 (Hsiao et al., 2002; Bensmaia et al., 2008; Pruszynski and Johansson, 2014). 定向是如何被表示的, 以及定向与皮层的网格细胞和位移细胞的相互作用是什么, 现在在很大程度上是未知的. 这是也我们正在积极研究的领域.
预测
大脑皮层功能的许多理论背后的基础都是预测 (Lashley, 1951; Rao and Ballard, 1999; Hawkins and Blakeslee, 2004; Lotter et al., 2018). 通过表示感官的位置, 皮质柱可以在每个对象的位置空间关联感觉信息, 这类似于位置细胞将感觉信息与位置关联 (O’Keefe and Nadel, 1978; Komorowski et al., 2009), 这使得皮质柱能够构建强大的预测模型. 举个例子, 当你的手指从杯子底部移动到顶部时, 不管杯子相对于感官如何旋转, 皮质柱都能预测你的感觉. 即使在遇到新对象时, 由于用位移细胞表示复杂的对象, 皮质柱能够概括和预测. 例如, 假设我们看到一个杯子有一个熟悉的标签 (图 3A), 但标签的一部分被模糊了, 一旦皮质柱识别出了标签和杯子, 它就可以预测出杯子上完整的标签, 即使这是一个新的杯子. 因为没有位置的显性表象, 建立起这样的预测模型会更困难. 在以前的论文中, 我们提出了树突的机制, 可以作为预测网络的神经基础 (Hawkins and Ahmad, 2016; Hawkins et al., 2017). 总的来说, 预测是本文讨论的大部分框架的基础.
一些注意事项
皮层这种基于位置的框架的关键要素之一是皮层区域在不同对象空间之间快速切换的能力. 为了知道咖啡杯上有一个标签, 我们需要在杯子和标签之间选择注意力. 随着注意力的每一次转移, 皮质网格细胞会重新锚定到刚被注意到的对象的位置空间. 注意力转移到新的对象空间对于表示两个对象之间的位移是必要的, 比如标签和杯子. 我们在周围的物体之间不断转移注意力是非常正常的. 对于每个刚被注意到的对象, 皮质网格细胞在新的对象空间中重新锚定, 而位移细胞表示新的对象相对于前一个对象的位置. 注意力的转移与感官的运动, 网格细胞的重新锚定, 以及人们普遍认为的传导到丘脑的反馈信号密切相关 (Crick, 1984; McAlonan et al., 2006), 这可能是为了选择一组输入的子集来处理. 关于这些因素是如何协同工作的我们知之甚少, 这也代表着一个有待进一步研究的领域.
位置编码的唯一性
我们的假说基于一组细胞模式能够编码很大数量的位置, 并且这些位置都是唯一的. 但有一些观测表明网格细胞本身可能无法形成足够唯一的编码. 比如说由于每个网格细胞的表现行为包括了很大一片物理空间 (Hafting et al., 2005), 一个网格细胞模式中的细胞的激活范围不是很稀疏. 稀疏性有助于创造出简单能够识别的唯一编码, 而稀疏性的缺失可以通过对更多的网格细胞模式的活动进行采样来克服, 但是我们还不清楚网格细胞模块的大小以及实际能够被采样的数量. (Gu et al., 2018) 表明网格细胞模块由较小的独立活动的子单元组成, 这也将增加网格细胞的表示能力. 另一个影响表示能力的因素是连接细胞. 在内嗅皮层中, 连接细胞的数量要多于纯粹的网格细胞. 连接细胞能够整合网格和方向, 以及其他的一些特征 (Sargolini et al., 2006). 连接细胞相比起网格细胞可能激活范围更为稀疏, 因此更可能是形成一组唯一的位置编码的基础. 如果新皮层中有细胞类似于连接细胞, 它们可能也在位置编码中扮演同样的角色. 我们还不清楚网格细胞, 定向细胞和连接细胞是如何协同工作, 从而准确地揭示在新皮层中位置是如何编码的. 随着我们对新皮层中的位置编码了解得越来越多, 记住这些可能性是很重要的.
新皮层的网格细胞和位移细胞在哪里?
大脑的新皮层通常被分成了6层平行于表面工作的细胞层. 这里有数十种神经元类型, 因此每层细胞层也包含了多种神经元类型. 有一些证据显示皮质的网格细胞位于 L6 [特别是 L6 中从皮层到皮层的神经元 (cortical-cortical neurons) (Thomson, 2010)], 位移细胞位于 L5 [特别是 L5 中的厚簇状神经元 (thick-tufted neurons)] (图 7).
皮层网格细胞位于 L6 的一部分证据是 L4 和 L6 之间不同寻常的连通性. L4 是基本输入层. 然而, 前馈输入在 L4 神经元的所有突触中只占不到10% (Ahmed et al., 1994, 1997; Sherman and Guillery, 2013). L4 神经元上约45%的突触来自于 L6a 从皮层到皮层的神经元 (Ahmed et al., 1994; Binzegger et al., 2004), 同样地 L4 神经元在 L6 神经元上有大量的突触 (McGuire et al., 1984; Binzegger et al., 2004; Kim et al., 2014). 此外, L6 和 L4 之间的连接在传播上相对较窄 (Binzegger et al., 2004). L6 和 L4 之间狭窄的连接使人联想到 MEC 的网格细胞和海马的位置细胞之间拓扑定向双向连接性 (topologically-aligned bidirectional connectivity) (Rowland et al., 2013; Zhang et al., 2013). 我们之前展示了若 L6 代表对象空间的位置, L6 和 L4 的相互连接能够通过感官的移动来学习对象的结构 (Lewis et al., 2018). 为了使皮质柱能够以这种方式学习对象的结构, 需要接收感觉信号的神经元和表示位置的神经元的双向连接, L6a 是现在唯一已知的一组满足这个要求的神经元. 另外网格细胞用运动输入来更新其表示的路径整合. 实验表明这些重要的运动输入投射在 L6 (Nelson et al., 2013; Leinweber et al., 2017). 现有表明新皮层中网格细胞存在的证据还不能说明哪一个细胞层包含网格细胞. 这可能在不久的将来得到实验确认. 我们预测网格细胞应该在 L6.
位移细胞位于 L5 的主要证据仍然是连接性. 据我们所知一组 L5 的神经元子集 (被称为 “L5 厚簇状神经元”) 存在于所有新皮层区域, 它们投射到与运动行为有关的大脑区域. (例如,视觉皮层的 L5 神经元投射到控制眼球运动的上丘.) 这些 L5 神经元是大脑皮层的运动输出神经元. 然而, 同样的 L5 神经元将轴突的一个分支发送到丘脑中继核 (thalamic relay nuclei), 然后再投射到层级更高的皮质区域 (Douglas and Martin, 2004; Guillery and Sherman, 2011; Sherman and Guillery, 2011). 很难理解同样的 L5 细胞是如何既作为运动输出, 又作为其他区域的前馈输入. Guillery 和 Sherman 提出的解释是 L5 神经元表示一个运动指令, 前馈投射表示一个运动指令的输出副本 (Guillery and Sherman, 2002, 2011).
我们提出另一种可能的解释. 这些 L5 神经元是位移细胞, 它们交替地表示运动 (投射到与运动有关的皮质区域), 然后表示组成的物体 (通过丘脑中继细胞发送到更高层级的区域). 像我们之前讨论的, 当比较同一空间中的两个位置时, 位移细胞将表示一个移动向量; 当比较两个不同空间中的两个位置时, 位移细胞将表示组合成新的对象. 这两种快速变化的表象可以通过振荡周期的相位 (phase of an oscillatory cycle) 或生理激发模式来消除投射终点的歧义 (Burgess et al., 2007; Hasselmo, 2008; Hasselmo and Brandon, 2012). 虽然我们还远没有完全了解不同细胞层的功能以及它们如何协同工作, 但基于位置的框架提供了一个契机, 让我们重新审视这些有关皮质解剖和生理学的海量文献, 并在这个问题上取得进展.
基于位置的框架可能表示高级思维和智能
我们已经用一些例子描述了基于位置的框架能够形成感官推理. 考虑到所有皮层区域的解剖结果都是相似的, 很有可能新皮层做的所有事情, 包括语言和其他形式的高级思维, 都基于这种基于位置的框架. 为了支持这个观点, 目前的实验证据表明网格细胞存在于新皮质中, 这些证据收集自执行 "认知任务" 的人类, 并在远离感官直接输入的皮质区域检测到 (Doeller et al., 2010; Jacobs et al., 2013; Constantinescu et al., 2016).
基于位置的框架能够应用在物理结构, 比如说咖啡杯, 也能够应用在抽象的概念上, 比如数学和语言. 一个皮质柱本质上是一个学习预测模型的系统. 皮质柱从输入和导致输入变化的运动中学习这些模型. 成功的模型在给定当前状态和预期运动时, 预测下一个输入. 而皮质柱的 "输入" 和 "移动" 不需要对应于物理实体. 皮质柱的 "输入" 可以来自视网膜, 也可以来自大脑皮层的其他区域, 这些区域已经识别出一个视觉对象, 比如一个单词或一个数学表达式; "运动" 可以表示眼睛的运动, 也可以表示抽象的运动, 比如动词或数学算符.
成功地学习一个预测模型需要正确地发现对象空间的维度, 学习在该空间中移动如何更新位置, 在对象空间中关联输入特征和特定的位置. 这些能力既适用于感官知觉, 也适用于高级思维. 想象一个皮质柱正试图通过视网膜的视觉输入和手指的移动输入来学习咖啡杯的模型. 由眼睛输入的变化可以证明当手指划过的位置无法映射到对象的特征空间时, 学习过程会失败. 类似的, 当你试图理解一个数学问题, 用一个算符作用在等式上无法解决问题, 但换一个算符就可以解了.
新皮质中的网格细胞表明所有知识都是在位置和位置空间这么一个环境中被学习和储存的, 而 "思考" 这么一个过程就是在位置空间中移动的过程. 在理解新皮层如何表现出认知功能的细节上我们还有很长的路要走, 但我们相信基于位置的框架可能不仅是这些问题的核心, 还可能就是问题的答案.
结论
现在可以说神经科学 "在实验数据上很丰富, 但理论框架上非常匮乏". 这一说法对于新皮层而言尤为正确. 我们不缺少可以被实证的数据, 但缺少一个理论框架来解释感知, 认知和智能这些异构能力与新皮层中观察到的同构脑回路之间的分歧. 目前, 我们最接近这种框架的方法是分层特征提取, 但我们知道这远远不够.
一种发展皮层功能理论的方法是基于详细的解剖数据建立皮质柱的硅模型 (Helmstaedter et al., 2007; Markram et al., 2015).这种方法从解剖出发并且希望由皮质柱的仿真来发现理论原理. 但我们的方法不同, 我们从已知的新皮层表现出来的功能细节出发 (例如感官运动学习和推理), 推导能够表现出这些功能的神经机理 (例如表示位置的细胞), 并且将这些神经机理和生物上的数据细节对应起来.
基于这种方法, 我们提出了一种新的框架来理解新皮层的工作机理. 我们认为网格细胞遍布新皮层. 在被观察对象的参考系中, 皮层的网格细胞追踪输入皮层的信号的位置. 我们认为存在一种新型的神经元: 位移细胞. 它同样遍布在皮层中, 和网格细胞协同工作. 这种框架能够解释一小块皮质区域如何学习和表示对象的形态, 对象如何由子对象组成, 以及对象的行为. 这个框架同样促成了一个新皮层在整体上如何工作的解释. 之前的理论通过一系列特征提取步骤来处理输入, 使得对象在层级结构的顶层被识别, 而我们认为新皮层包含1000个对象模型, 这些模型可以并行操作, 也可以分层级操作.
内省和反思有时候可以揭示出在越来越多的客观实验技术下被忽视的基本真理. 当我们开始新的一天, 我们能够感知到上千种对象, 比如树木, 被打印和说出来的词语, 建筑和人. 所有被感知的对象都有一个具体的位置. 当我们注意每个对象时, 我们感知与对象间的距离和方向, 以及对象彼此之间的相对位置. 这种位置和距离的感觉是感知能力所固有的, 它每时每刻自然而然地存在着. 当我们持续关注一些对象时, 大脑必然有对象位置和对象间的距离的神经表象. 我们这种想法创新的地方在于这些位置和距离的计算发生在新皮层的每个地方, 它们是皮层功能, 概念和智能的基本数据类型.
论文正文到这里就结束了, 引用文献太长就不放了, 大家可以看原文.