2022-05-10

PNAS | 视觉皮层编码物体纹理的机制

原创骄阳似我图灵基因 2022-05-10 09:27

收录于合集#前沿分子生物学技术

撰文：骄阳似我

IF=11.205

推荐度：⭐⭐⭐⭐

亮点：

本文表明人类类别选择视觉皮层的作用不是明确地编码对象，而是提供一组基本的纹理特征，这些特征可以无限地重新配置，以灵活地学习和识别新的对象类别。

人类识别物体和场景的视觉能力被认为依赖于视觉皮层类别选择区域的表征。这些表示可以通过具体表示对象来支持对象视觉，即通过表示复杂的视觉特征来支持对象视觉，而不考虑构成真实世界对象所需的特定空间排列。为了区分这些假设，本文利用一种图像合成方法，提供了对视觉特征的复杂性和空间排列的独立控制。发现人类观察者可以很容易地在具有相似复杂特征的合成图像中检测到自然物体，这些特征在空间上是混乱的。然而，根据类别选择区域的大胆反应建立的观察者模型，以及猕猴下颞叶皮质和Imagenet训练的深层卷积神经网络模型，都无法识别真实物体。这并不是因为缺乏信噪比，因为所有这些观察者模型都可以预测人类在图像分类任务中的表现。那么，这些类别选择区域中类似纹理的表示如何支持对象感知呢？从类别选择皮质读出的图像特异性读数产生了一种对自然特征排列更具选择性的表征，表明物体识别所需的信息是可用的。

近期，在PNAS杂志上发表了一篇名为“Texture-like representation of objects in human visual cortex”的文章，表明人类类别选择视觉皮层的作用不是明确地编码对象，而是提供一组基本的纹理特征，这些特征可以无限地重新配置，以灵活地学习和识别新的对象类别。

本文评估对特征的复杂性和空间排列的感知敏感性，使用了一个检测任务，受试者在每次试验中被呈现3张图像（1张自然图像，2张合成图像），并被要求从中选择一张奇怪的图像，即看起来与其他图像最不同的图像。图像直径8度，中心距固定中心6度。在每次试验中，两个合成图像都与自然图像的特征在特定的特征复杂度和空间排列约束水平上匹配。测试结果表明人类观察者对物体的感知不仅对复杂视觉特征的存在敏感，而且对这些特征的空间排列也敏感。

为了比较dCNN模型和人类观察者的行为，构建了一个观察者模型，该模型使用dCNN特征来执行奇点检测任务。本文评估了五种不同的Imagenet训练DCNN的性能：VGG-19（用于图像合成的相同模型）、CORnet-Z、VGG-16、ResNet-18和AlexNet。人类观察者选择自然图像作为奇点的频率确实随着特征复杂度的增加而下降，但即使在特征复杂度最高的情况下，也仍然显著高于概率，这表明DCNN仅对复杂视觉特征的存在而不对其排列敏感。当Synth包含复杂的视觉特征时，不管这些特征有多混乱，发现dCNN观察者模型无法检测自然图像。为了确定dCNN观测器模型是对特征的空间排列敏感，还是仅对构成对象的复杂特征的存在敏感，分析了作为空间池区域大小函数的奇异检测性能，仅针对复杂特征条件，在将特征复杂度固定在尽可能高的水平时隔离空间排列的影响。而人类观察者在特征排列受到最少约束时，检测自然图像的频率最高，而在特征排列受到更多约束时检测自然图像的频率较低，所有五个dCNN观察者模型在任何条件下选择自然图像的可能性都不显著高于偶然性，并且对空间排列的变化不敏感。因此，与可靠地报告自然图像在合成图像中脱颖而出的人类观察者不同，dCNN模型无法将自然图像识别为奇数图像，即使在特征在整个图像中被置乱的图像中呈现。

行为和建模结果表明dCNN特征对复杂特征的排列不敏感，这表明dCNN不表示对象，而是包含一种类似纹理的复杂视觉特征表示。对象分类（Imagenet训练的DCNN优化执行的任务）不需要对象的显式表示，只需要组成对象的复杂特征的表示。为了验证这一点，本文比较了人类观察者和dCNN观察者模型在类别级奇点检测任务中的性能。在每次试验中，观察者看到三个不同的自然图像——其中两个属于同一类别，而第三个图像包含来自不同类别的图像——并被指示从中选出一个。为了使这项任务与前一项任务具有可比性，要求受试者选择与前两项任务最为不同的图像，而不是明确要求他们选择属于不同类别的图像。结果表明dCNN表示虽然对特征排列不敏感，但对于区分视觉特征不同的类别是有用的。

为了评估人类视觉皮层区分自然和合成物体图像的能力，测量了7名人类观察者大脑中的大胆反应，而受试者被动观看10种不同图像类别的自然和合成图像。图像显示时间为4秒，对置12度，中心距固定点左右各7度。使用一个广义线性模型估计每个图像的试验平均响应。分析了13个视觉皮层区域的数据，包括V1、V2、V3和hV4，这些区域是视网膜定位、中梭形（mFus）、后梭形（pFus）、枕下回（IOG）、枕横沟（TOS）和侧支沟（CoS），这些区域是使用功能定位器进行功能定位的，以及侧枕皮质（LO）、腹侧视觉皮质（VVC）、后下颞皮质（PIT）和腹内侧视觉区（VMV），这些都是解剖学定义的。为了确定视觉皮层反应是否能够支持古怪检测任务中的行为构建了一个观察者模型，使用粗体反应来选择最不同的图像。结果表明，在人类视觉皮层中测量的粗体反应包含了区分不同类别的有用信息。当区分自然图像和特征匹配的混沌合成器时，大脑皮层的反应无法与人类观察者的表现相匹配。在几个不同的图像类别中，与人类观察者相比，使用每个视觉区域的响应构建的所有观察者模型识别自然物体图像的可能性显著降低，表明跨越不同功能和解剖区域的视觉皮层反应，包括早期视觉皮层（V1、V2、V3、hV4）、腹侧颞叶皮层（mFus、pFus、CoS、VMV、VVC、PIT）和侧枕叶皮层（LO、IOG、TOS），并不优先代表物体特征相对于包含相同复杂视觉特征的混乱排列的自然排列，这表明人类视觉皮层的类别选择性区域中的表征缺乏对自然特征排列的选择性。

在人类观察者和dCNN模型、人类视觉皮层的类别选择区域和猕猴IT模型之间的自然与合成异常检测任务中，人类视觉皮层的类别选择区域和猕猴IT模型表明，导致观察到的行为的潜在表征几何体中存在错位。因此，直接分析了DCNN的表征空间、类别选择视觉区域，并对其进行建模，并将其与从独立知觉任务中的行为反应推断的知觉表征空间进行比较。通过使用相似性判断任务，发现作为人类对象感知基础的表征必须对特征的自然排列具有选择性。为了分析人类感知物体的代表性几何结构，进行了一项独立的行为实验，结果表明视觉皮层的类别选择性区域和猕猴IT皮层模型中的表征对于特征的自然排列是非选择性的，因此视觉皮层的表征几何结构与人类视觉感知的几何结构不一致。

调和矛盾在神经表征和关于自然特征排列选择性的感知之间，试图找到一种皮质表征的转换，这种转换可能更接近人类的感知。为了量化特定表征空间区分自然对象和具有混乱匹配特征的合成对象的能力，开发了一个自然图像选择性指数，用于测量自然图像和合成对象之间的表征距离超过两个不同合成对象之间距离的程度。结果表明，自然图像和合成图像的表示有很大的不同，可以找到特定于图像的分类边界，但不能找到图像的一般边界。

视觉纹理（如木纹）的几乎无法区分的变元物，可以通过匹配复杂的特征来合成，而不管它们的空间排列如何。然而，人类并没有被这种混乱物体的合成图像所愚弄。因此，人类视觉皮层的类别选择区域可能会优先表现出对自然物体敏感的表征几何。相反，本文证明了基于类别选择区域的观察者模型、猕猴下颞皮质模型和Imagenet训练的深层卷积神经网络并不优先代表自然图像，即使它们能够区分图像类别。这表明需要重新认识类别选择皮层的作用，它代表着一组复杂的纹理特征，适用于各种视觉行为。

教授介绍：

Akshay V. Jagadeesh

Akshay是在斯坦福大学攻读计算神经科学的博士生，由贾斯汀·加德纳博士指导。Akshay的研究重点是理解人类的视觉感知。Akshay的研究计划的一个主要目标是描述人类视觉皮层中感觉表征的几何特征，并对使用这些表征进行目标驱动行为所涉及的皮层计算进行建模。这个过程的关键是注意力在通过任务相关读数灵活地提取和调节感觉表征中所起的作用。Akshay还对人类视觉系统与最先进的视觉计算模型（例如深度神经网络）之间的异同感兴趣。人类如何在视觉的人工神经网络模型难以完成的某些任务上如此出色，而在深度神经网络认为微不足道的其他任务上却如此糟糕？Akshay试图结合功能性神经成像、视觉心理物理学和计算建模来回答这些问题。

此前，Akshay是加州大学伯克利分校的一名本科生，在 Mark D'Esposito 教授的实验室工作。2015年至2016年，Akshay在柏林洪堡大学/BCCN的Martin Rolfs博士的实验室做客座研究员。除了研究之外，Akshay还热衷于教学，并在加州大学伯克利分校和斯坦福大学的研究生和本科阶段设计、教授和协助了几门课程，主题从计算机视觉到认知神经科学再到冥想科学。

参考文献：

Akshay V. Jagadeesh,et al.Texture-likerepresentation of objects in human visual cortex[J].April 19, 2022，PNAS,https://doi.org/10.1101/2022.01.04.474849.

2022-05-10

你可能感兴趣的:(2022-05-10)