喜欢打酱油的老鸟

机器学习时代，神经科学家如何阅读和解码人类的思想

机器之心分析师网络

作者：Jiying

编辑：Joni

这篇文章围绕机器学习（ML）和功能性磁共振成像（fMRI）的应用问题，以三篇最新的研究型论文为基础，探讨基于统计学中 ML 的 fMRI 分析方法。

本文主要讨论的是机器学习（ML）和功能性磁共振成像（fMRI）的应用问题。fMRI 主要用来检测人在进行各种脑神经活动时（包括运动、语言、记忆、认知、情感、听觉、视觉和触觉等）脑部皮层的磁力共振讯号变化，配合在人脑皮层中枢功能区定位，就可研究人脑思维进行的轨迹，揭示人脑奥秘。其基本原理是利用 MRI 来测量神经元活动所引发之血液动力的改变。所以，利用 ML 连接 fMRI 图像，以了解人脑正在观察和思考的物件是理论上可行的。以本文讨论的问题为例，神经科学家现在可以通过像数据科学家一样运行计算模型来预测并准确地将神经功能与认知行为联系起来。不过，这些技术与人工智能模型有着相同的偏见（biases）和局限性（limitations），需要严格的科学方法加以应用[1]。

虽然神经科学家在 20 世纪初就注意到了大脑血流有明显的变化，但是却一直没有找到合适的方法来测量这些变化。20 世纪 80 年代出现了一种有效的方法：正电子发射体层摄影(术) （position emissiom tomography，PET）。有了这种技术，研究人员能够通过放射性追踪和检测光子（phonto）发射来观察神经元活动的变化。由于这些光子在神经元消耗最多葡萄糖的地方降解得最多，因此它们可以显示出神经元的活动。然而，早期使用这种方法时面临着一个问题：每个人的大脑都有不同的尺寸和结构，差异和变化非常大。此外，PET 扫描的空间和时间图像分辨率非常低。它们检测的区域至少有一毫米宽，需要 10 秒钟才能收集到足够的数据来形成图像。所以该技术的早期应用范围相当有限。

磁共振成像（magnetic resonance imaging，MRI）可以在原子核振动的基础上构建更准确的大脑图像。由于 MRI 扫描仪以不同的速度向许多位置发送信号，它可以通过解码不同的频段来成像。不过在 MRI 成像时需要使用一种造影剂，这种造影剂可能对受试者的健康有危险。幸运的是，在注意到核磁共振信号对大脑中血液循环的含氧量敏感后，许多研究小组在 90 年代提出了检测大脑活动的功能性磁共振成像（fMRI）的概念。

神经科学家的传统方法是通过发现最活跃的信号区域来推断统计学上的选择性区域。现代研究目标则是推断出选择性区域的共性活动模式。研究人员发现，神经网络并不会对一个物体有特别的反应，但从统计学角度上分析，却分布着对许多物体的不同比例的反应。这是一种统计学上的相关关系。此外，现代神经科学家的另一个研究目标是通过训练一个计算模型，从更大的数据集中预测人类感知的物体。这种基于机器和统计学习的方法旨在根据神经模型的交叉验证来预测人们的思维。

但是，尽管取得了一些成功，但是对这些基于统计学的科学推论我们仍需要谨慎分析和讨论。fMRI 分析测量了数十万个称为体素（voxel）的小方块。为了从大脑的某个部分找到有意义的反应，而不是由于随机的变化，必须进行统计测试。因此，需要衡量真假阳性的风险，如研究人员在他们的一个实验中发现了一个重要的反应，但当这些实验被多次重复时，这一反应信号在一般的数据中却变得不明显。因此，人们必须能够将实验重复几百次甚至几千次，才能确定结果。使用 fMRI 统计的另一个问题是所谓的 "非独立性（non independence）" 统计错误。研究人员倾向于选择最适合他们研究的数据和结果。例如，在所有的统计测试中，他们可能会关注那些体素显示出最强关联性的实验，而这相对来说可以使他们的实验结果好得多。

我们在这篇文章中，围绕上面的主题，以三篇最新的研究型论文为基础，探讨基于统计学中 ML 的 fMRI 分析方法。

1、通过深度学习对人脑的任务状态进行解码和映射

本文是来自中科大和北大的研究人员 2020 年发表在 Human brain mapping 中的一篇文章[2]。本文重点讨论基于支持向量机（SVM）的多变量模式分析（multivariate pattern analysis，MVPA）在基于人脑功能磁共振成像（fMRI）的特定任务状态解码中的应用。本文作者提出了一个深度神经网络（DNN），用于从大脑的 fMRI 信号中直接解码多个大脑任务状态，无需人工进行特征提取。

关于根据脑功能成像数据解码和识别人脑的功能的问题，SVM-MVPA 是一种应用最为广泛的方法。SVM-MVPA 是一种监督学习技术，可同时考虑多个变量的信息。不过，SVM-MVPA 在高维数据中的表现欠佳，往往依赖于专家选择 / 提取特征的结果。因此，作者在本研究中探索了一种开放式的大脑解码器，它使用的是人类的全脑神经成像数据。相对应的，具有非线性激活函数的 DNN 的分层结构使其能够学习比传统机器学习方法更复杂的输出函数，并且可以进行端到端的训练。由此，本文提出了一个 DNN 分类器，通过读取与任务相关的 4D fMRI 信号，有效解码并映射个人正在进行的大脑任务状态。

1.1 方法介绍

1.1.1 数据介绍

本研究使用了 HCP S1200 最小预处理的 3T 数据版本，其中包含了大量年轻健康成年人的成像和行为数据[3]。作者使用了 1034 名 HCP 受试者的数据，他们共执行了七项任务：情绪、赌博、语言、运动、关系、社交和工作记忆（working memory，WM）。具体用于实验分析的是 HCP volume-based 的预处理 fMRI 数据，这些数据已经被归一到 Montreal Neurological Institute's(MNI) 152 空间。七项任务中的大部分是由控制条件（例如，WM 任务中的 0 - 回位和情感任务中的形状刺激）和任务条件（例如，WM 任务中的 2 - 回位和情感任务中的恐惧刺激）组成的。在每个任务中，只有一个条件被选为下一个步骤。对于只有两个条件的任务（情感、语言、赌博、社交和关系任务），与任务关联度大的条件优先于其他条件。WM 和运动任务包含一个以上的任务条件，作者则是从列表中随机选择一个（WM 的 2 个背部身体和运动的右手）（表 1）。

对于每个任务，输入样本是一个连续的 BOLD（Blood-oxygen-level-dependent imaging）序列，涵盖了整个区块和区块后的 8s 内的样本，包括血流动力学反应函数（hemodynamic response function，HRF）的后信号。此外，将每个 BOLD volume 从 91×109×91 剪裁到 75×93×81，以排除掉不属于大脑的区域。因此，输入数据的大小从 27×75×93×81 到 50×75×93×81（time × x × y × z，TR=0.72s）。在所有的任务和受试者中，总共获得了 34,938 个 fMRI 4D 数据项。

表 1. 每个任务所选择的 BOLD 时间序列的细节

1.1.2 模型介绍

图 1 为本文提出的网络模型的完整流程图。该网络由五个卷积层和两个全连接层组成。其中，27×75×93×81 的数据是通过节 1.1.1 的预处理和数据增强步骤产生的。第一层使用了 1×1×1 的卷积滤波器，即卷积神经网络（CNN）的结构中最普遍的设定，这些滤波器可以在不改变卷积层的感受野的情况下增加非线性。这些滤波器可以为 fMRI volume 中的每个体素生成时间描述符，而且它们的权重可以在训练中由 DNN 学习得到。因此，采用这种类型的过滤器后，数据的时间维度从 27 降到了 3。在这之后，堆叠一个卷积层和四个残差块以提取高层次（high-level）特征。本文使用的残差块是通过用一个三维卷积层替换原始残差块中的二维卷积层而得到的。四个残差块的输出通道分别为 2 的倍数 -----32、64、64 和 128。这些层的设计方式是：它们的尺寸可以迅速减少以平衡 GPU 内存的消耗。为了便于网络可视化分析，作者在最后一个卷积层中使用了全卷积，而不是常见的 CNN 中的池化操作。在卷积层堆叠之后，使用了两个全连接层；第一个有 64 个通道，第二个进行七路分类（每类一个）。在本文模型中，每个卷积层之后都引入了 ReLU 函数和 BN 层，而在最后一个全连接层中采用了 softmax 函数。

图 1. 深度神经网络。

该网络由五个卷积层和两个全连接层组成。该模型将 fMRI 扫描作为输入，并提供标记的任务类别作为输出

对人脑进行特定任务解码面临的一个最大问题是可用数据有限。在其他类似的应用中，可以采用数据增强的方式以基于有限的数据生成更多的数据样本。数据增强的主要目的是增加数据的变化，这可以防止过度拟合并提高神经网络的不变性。与传统图像相反，本实验中的输入图像已经与标准的 MNI152 模板对齐。因此，在空间域进行数据增强是多余的。考虑到输入数据的不同持续时间，作者在时间域中应用了数据增强，以提高神经网络在这种情况下的泛化能力。在训练阶段的每个 epoch 中，从每个输入数据项中随机分割出 k 个连续的 TR 片段（实验中 k=27）（图 2a）。为了避免报告的准确性出现波动，在验证和测试阶段只使用由每个数据的前 k 个 TR 组成的片段。

图 2. 模型训练和网络可视化的工作流程。

(a) 模型自动学习标记的 fMRI 时间序列的特征，并在验证的损失达到最小时停止训练。因此，模型训练时不需要手工提取特征。迁移学习的工作流程类似，只是使用训练后的模型取代未训练的模型。每个数据项的分类被反向传播到网络层，以获得对分类重要的部分的可视化。可视化的数据具有与输入数据相同的大小，然后在时间维度上缩小，并映射到 fsaverage 表面

1.1.3 迁移学习

与传统方法相比，深度学习方法，特别是 CNN 的一个重要优势是其可重复使用性，这意味着训练好的 CNN 可以直接在类似的任务中重复使用。作者对训练好的 CNN 使用了迁移学习策略来验证所提出的模型的适用性。迁移训练的工作流程与初始训练的工作流程基本相似（图 2a），只是它从一个前四层已经训练好的模型开始，而输出层是未训练的。作者采用了 HCP 的 TEST-RETEST 任务 - fMRI 组的 TEST 数据集（N = 43）训练深度模型来分类两个 WM 任务子状态 ----0bk body 和 2bk-body。作者采用了按主题划分的五重交叉验证，其中 60% 的数据（25 个主题的 100 个样本）用于训练，20%（9 个主题的 36 个样本）用于验证，20%（9 个主题的 36 个样本）用于测试（总共 172 个样本的规模与常用的 fMRI 研究数据集相当）。为了进一步验证，作者训练深度模型来分类四个运动任务子状态—左脚、左手、右脚和舌头运动。使用五重交叉验证，其中 60%（25 名受试者的 400 个样本）用于训练，20%（9 名受试者的 144 个样本）用于验证，20%（9 名受试者的 144 个样本）用于测试（共 688 个样本）。输入样本是一个连续的 BOLD 序列，涵盖了整个区块和区块后的 8 秒，包括 HRF 的后信号。

为了评估使用小样本量的 fMRI 研究的 DNN 的适用性，作者对来自 HCP TEST 扫描的 43 个对象的数据进行了深度分类器的训练。N = 1, 2, 4, 8, 17, 25, 34。为了避免准确性的差异，所有的测试都应用于 HCP TEST-RETEST 数据集中全部 43 名受试者的 RETEST 数据。深度学习在 120 个 epochs 后停止。此外，作者使用传统的搜索光和全脑 SVM-MVPA 方法进行实验比较。

1.1.4 性能评估

为了评估该模型在不同分类任务中的表现，作者首先定义了一组参数。每个任务条件的 F1 分数被计算为 TP、FP 和 FN 的函数：F1=（2×TP）/（2×TP + FP + FN）。其中，TP 是真阳性，FP 是假阳性，FN 是每个标签的假阴性。作者还通过一比一的方法计算每个标签的 ROC 曲线，参数灵敏度和特异性表示为：灵敏度 sensitivity=TP/（TP+FN），特异性 specificity=TN/(TN+FP)，其中 TN 是真阴性，等于其余标签的 TP 之和。准确率被定义为正确预测与分类总数的比率：准确率 accuracy=（TP + TN）/（TP + FP + TN + FN）。

1.1.5 网络可视化分析

本文使用引导反向传播（Guided back-propagation [4]），一种广泛使用的深度网络可视化方法，生成每个分类的模式图和输入 fMRI 4D 时间序列的任务加权表示。在标准的反向传播过程中，如果一个 ReLU 单元的输入是正的，那么该单元的偏导就向后复制，否则就设置为零。在引导式反向传播中，如果一个 ReLU 单元的输入和部分导数都是正数，则该单元的部分导数被向后复制。因此，引导式反向传播保持了对类别得分有积极影响的路径，并输出 CNN 检测到的数据特征，而不是那些它没有检测到的特征。如图 2b 所示，在向训练好的网络输入数据后，相对于输入数据产生了 27×75×93×81 的预测梯度。然后，每个体素的时域绝对最大值的符号值被抽出并建立在三维任务模式图中，然后被归一化为其最大值。最后，将 pattern map 映射到 fsaverage 表面。此外，测试组的归一化 pattern map 的 Cohen's d 效应被计算为每个任务的 pattern map 的平均值除以其 SD。

本文的可视化对比分析是在 AFNI[5]、Freesurfer[6]、HCP Connectome Workbench和 MATLAB（MathWorks, Natick, MA）中进行。为了比较传统的 GLM 图和模式图(pattern map)，作者还从 HCP 任务的 fMRI 分析包中获取了参数估计对比度（COPE）的 Cohen 效应。

1.2 实验结果分析

首先，作者完成了针对深度模型在一般分类任务中的实验。作者在实验中使用 NVIDIA GTX 1080Ti 板进行了约 30 个 epoch 的训练，所需时间大约 72 小时。本文所提出的模型成功地区分了七个任务，准确率为 93.7±1.9%（mean±SD）。根据 F1 得分，本文使用的模型 / 分类器在七个任务中的表现不同：情绪（94.0±1.6%）、赌博（83.7±4.6%）、语言（97.6±1.1%）、运动（97.3±1.6%）、关系（89.8±3.2%）、社交（96.4±1.0%）和 WM（91.9±2.3%，平均值 ±SD）。平均混淆矩阵（The average confusion matrix）显示，前两个混淆分别是由赌博与关系、WM 与关系引起的（图 3a）。图 3b 显示了 ROC 曲线，根据该曲线，运动、语言和社交任务具有最大的曲线下面积（area under the curve，AUC），而赌博具有最小的面积。在验证关键超参数的选择，即 1×1×1 核通道的数量（NCh1）时，模型记录的准确值分别为 93.2%、91.5% 和 92.7%，NCh1=3、9 和 27（图 3c）。在 NCh1=1 的情况下，该模型无法在 30 个 epoch 内收敛。

图 3. HCP S1200 任务 fMRI 数据集上的深度学习分类结果

然后，为了确定对每个分类贡献最大的体素（Voxel，指一段时间内多次测量大脑某块区域），作者使用引导式反向传播法生成了模式图，以可视化模型学习到的模式。图 4 给出了对任务 COPE 的 GLM 分析的 Cohen's d 效应大小的分组统计图（图 4a-g），以及 DNN 模式图的 Cohen's d（图 4h-n）。如图所示，DNN 模式图上的 Cohen's d 与 GLM COPEs 上的情感、语言、运动、社交和 WM 任务相似。例如，在语言条件下，GLMCOPEs（图 4c）和 DNN 模式图（图 4j）中的 bilateral Brodmann 22 区出现了较大的效应大小异常。同样，在运动任务的右手运动条件下，两个图（图 4d,k）显示在 Brodmann 4 和 bilateral Brodmann 18 区有类似的效应。

图 4. HCP S1200 数据集上的 HCP 组平均值（左栏）和 DNN 热图（右栏）的 Cohen's d 效应

最后，关于迁移学习的问题，经过五次交叉验证，本文提出的 DNN 在测试中达到了 89.0±2.0% 的平均准确率（图 5a），平均 AUC 为 0.931±0.032（图 5b）。如图 5c 所示，通过双样本 t 检验，DNN 的准确性明显高于 SVM-MVPA 全脑（t[8]=9.14，p=.000017；平均 ±SD=55.6±7.9%）和 SVM-MVPA ROI（t[8]=7.59，p=.000064；平均 ±SD=69.2±5.4%）。

图 5. 工作记忆任务分类的迁移学习结果（0bk-body 与 2bk-body）

经过五次交叉验证，本文提出的 DNN 的平均准确率为 94.7±1.7%（图 6a），平均 AUC 为 ROC 0.996±0.005（图 6b）。平均混淆矩阵显示，最主要的混淆是由左脚与右脚造成的（图 6a）。图 6c 显示，通过双样本 t 检验，DNN 的准确性（94.7±1.7%）明显高于 SVM-MVPA 全脑（t[8]=3.59，p=.0071；平均 ±SD=81.6±7.1%）和 SVM-MVPA ROI（t[8]=8.77，p=.000022；平均 ±SD=68.6±5.7%）。然后，作者验证了学习所需的数据量。所有三种方法在所有 N_Subj 中都报告了高于经典方法的准确性。N_Subj=8 足以使 DNN（80.3%）在准确性方面超过普通的 SVM-MVPA 全脑方法（41.7%）和 SVM-MVPA ROI（56.3%）（图 6d）。

图 6. 运动任务（左脚、左手、右脚和舌头）的分类迁移学习结果

小结：本文提出的方法能够直接从 4D fMRI 时间序列中对人正在进行的大脑功能进行分类和映射。本文方法允许从简短的 fMRI 扫描中解码受试者的任务状态，无需进行特征选择。这种灵活高效的大脑解码方法可以应用于神经科学的大规模数据和精细的小规模数据。此外，它的便利性、准确性和通用性的特点使得该深度框架可以很容易地应用于新的人群以及广泛的神经影像学研究，包括内部精神状态分类、精神疾病诊断和实时 fMRI 神经反馈等等。

2、使用深度生成神经网络从 fMRI 模式重建人脸

本文是发表在 Communications Biology 中的一篇文章[7]。由上一篇文章的介绍可以知道，目前，已经可以从功能磁共振成像的大脑反应中解码识别不同的类别。但是，针对视觉上相似的输入（例如不同的人脸）的分类和识别仍然是非常困难的。本文具体探讨的是应用深度学习系统从人类的功能磁共振成像重建人脸图像。作者基于一个大型名人脸部数据库使用一个生成对抗网络（GAN）的无监督过程训练了一个变分自动编码器（VAE）神经网络。自动编码器的潜在空间为每幅图像提供了一个有意义的、拓扑学上有组织的 1024 维描述。然后，向人类受试者展示了几千张人脸图像，并学习了多体素 fMRI 激活模式和 1024 个潜在维度之间的简单线性映射。最后，将这一映射应用于新的测试图像，将 fMRI 模式转化为 VAE 潜在编码，并将编码重建为人脸。

2.1 模型介绍

本文所使用的 VAE-GAN 模型如图 7（a）所示，其中的三个网络学习完成互补的任务。具体包括：编码器网络将人脸图像映射到一个潜在的表征（1024 维）上，显示为红色。生成器网络将其转换为一个新的人脸图像。鉴别器网络（只在训练阶段使用）为每张给定的图像输出一个二进制的判断，可以是来自原始数据集，也可以是来自生成器输出，即：该图像是真的还是假的？训练的过程具有 "对抗性"，因为判别器和生成器的目标函数相反，并交替更新：如果鉴别器能够可靠地确定哪些图像来自生成器（假的），而不是来自数据库（真的），就会得到奖励。如果生成器能够产生鉴别器网络不会正确分类的图像，就会得到奖励。训练结束后，丢弃鉴别器网络，编码器 / 生成器网络被用作标准（变分）自动编码器。

网络中的 "人脸潜在空间" 提供了对大量人脸特征的描述，可以近似于人脑中的脸部表现。在这个潜在空间中，人脸和人脸特征（例如，男性）可以被表示为彼此的线性组合，不同的概念（例如，男性，微笑）可以用简单的线性操作来处理（图 7b）。作者分析，这种深度生成神经网络潜在空间的多功能性表明它可能与人脑的人脸表征有同源性，这也使得它成为基于 fMRI 的人脸解码的理想候选方法。由此，作者推断，在对大脑活动进行解码时，学习 fMRI 模式空间和这种潜在空间之间的映射，而不是直接学习图像像素空间（或这些像素的线性组合，例如 PCA 等的处理方法），可能是非常有用的。此外，作者推测，VAE-GAN 模型能够捕捉人脸表征的大部分复杂性，使 "人脸流形" 变得平坦，就像人类大脑可能做的那样。因此，作者认为，采用简单的线性大脑解码方法就足够了。

图 7. 深度神经网络潜在空间。（a）VAE-GAN 网络架构。（b）潜在空间属性

作者首先使用无监督 GAN 在 202,599 张名人人脸标记数据库上训练了一个 VAE 深度网络（13 层）(CelebA[8])，共执行 15 个 epoch。使用编码器处理向人类受试者展示的人脸图像以生成 1024 维的潜在编码，这些编码作为设计矩阵后续会用于 fMRI GLM（一般线性模型）分析。作者使用 SPM12 处理 fMRI 数据（https://www.fil.ion.ucl.ac (https://www.fil.ion.ucl.ac/).uk/spm/software/spm12/）。接下来，作者对每份数据分别进行了切片时间校正和重新对齐。然后将每个时段的数据与第二个 MRI 时段的 T1 扫描数据进行联合登记。不过，作者并未对这些数据进行归一化或平滑化处理。具体的，作者将每个实验的开始和持续时间（固定、训练脸、测试脸、单人背影或意象）输入一般线性模型（general linear model，GLM）中作为回归因子；将用于训练脸部的 1024 - 维潜在向量（来自 VAE-GAN 或 PCA 模型）作为参数化的回归器来建模，并将运动参数作为滋扰回归器（nuisance regressors）输入用于消除滋扰信号。此外，在估计 GLM 参数之前，令整个设计矩阵与 SPM 的血流动力学反应函数（hemodynamic response function，HRF）进行卷积处理。

作者训练了一个简单的大脑 fMRI 的编码器（线性回归），将人脸图像的 1024 维潜在表征（通过 "编码器" 运行图像，或使用 PCA 变换获得）与相应的大脑反应模式联系起来，并将人类受试者在扫描仪中观看相同的人脸时记录下来。图 8（a）给出了这一过程的完整描述。每个受试者平均看到超过 8000 张人脸（每个人都有一个演示），使用 VAE-GAN 潜在维度（或图像在前 1024 个主成分上的投影）作为 BOLD 信号的 1024 个参数化回归因子。这些参数化的回归因子可以是正的，也可以是负的（因为根据 VAE 的训练目标，VAE-GAN 的潜在变量是近似正态分布的）。将一个额外的分类回归因子（"面部与固定" 对比）作为一个恒定的 "偏差" 项添加到模型中。作者验证了设计矩阵是 "full-rank" 的，也就是说，所有的回归因子都是线性独立的。作者分析，这一属性是因为 VAE-GAN（和 PCA）的潜在变量往往是不相关的。因此，由 SPM GLM 分析进行的线性回归产生了一个优化的权重矩阵 W，以预测大脑对训练人脸刺激的反应模式。

图 8. 基于 VAE-GAN 潜在表征的人脸图像的大脑解码。（a）训练训阶段。（b）测试阶段

假设在 1025 维的人脸潜在向量 X（包括了一个偏置项）和相应的大脑激活向量 Y 之间存在一个线性映射 W：

训练大脑解码器通过以下方式找到最佳映射 W：

为了在 "测试阶段" 使用这个大脑解码器，作者简单地反转了线性系统，如图 8b 所示。作者向同一受试者展示了 20 张新的测试人脸，这些人脸在训练阶段并没有向受试者展示过。每个测试人脸平均呈现 52.8 次以增加信噪比。所得的大脑活动模式简单地与转置的权重矩阵 W^T 及其反协方差矩阵相乘，以产生 1024 个潜在人脸维度估计值。然后，使用 GAN（如图 7a 所示）将预测的潜在向量转化为重建的人脸图像。对于基线 PCA 模型，方法的流程是相同的，但人脸的重建是通过解码的 1024 维向量的 inverse PCA 获得的。测试大脑解码器包括使用学到的权重 W 为每个新的大脑激活模式 Y 检索潜在的向量 X，利用下式求解 X：

作者已经将本文使用的预训练的 VAE-GAN 网络以及 Python 和 TensorFlow 源代码公布在了 GitHub 上：https://github.com/rufinv/VAE-GAN-celebA.

2.2 实验结果分析

本实验中，通过 Amazon Mechanical Turk (AMT)获得用于比较 VAE-GAN 和 PCA 人脸重建的图像质量的人类评价结果。四个受试者的 20 张测试图像中的每一张都标记为 "原始 ”，然后是 VAE-GAN 和基于 PCA 的重建图像，在" 选项 A "和" 选项 B "的字样下显示。实验中，向受试者发布的指示为：" 在两个修改过的人脸中，哪一个最像原来的人脸？选择 A 或 B"。每对图像总共被比较了 15 次，由至少 10 个不同的 AMT" 工作者 " 进行，每个反应分配（VAE-GAN/PCA 为选项 A/B）由至少 5 个工作者查看。因此，该实验在两个人脸重建模型之间总共进行了 1200 次（=4×20×15）比较。

作者首先对比了 VAE-GAN 和 PCA，将灰质体素的一个子集定义为 "兴趣区域" (ROI)。事实上，大脑的许多部分都在进行与人脸处理或识别无关的计算。作者的 ROI 只选择生理上的可能应激大脑区域，选择标准考虑了两个因素。(i) 预计体素会对人脸刺激作出反应（通过脸部和基线条件之间的 t 检验来确定，即固定在空屏幕上），(ii)将 1024 个潜在人脸特征作为回归因子输入线性模型时，体素的 BOLD 反应的解释方差有望改进（与只有二元人脸回归因子的基线模型相比：存在 / 不存在人脸）。所选的体素如图 9 描述，包括枕部、颞部、顶部和额部区域。作者对 PCA 人脸参数进行了单独的选择，并将这些参数用于基于 PCA 的 "大脑解码器"（所选体素的平均数量：106,685；范围：74,073-164,524）；两个模型所选区域几乎相同。

图 9. 为大脑解码选择的体素。

在大脑解码器训练阶段，体素的选择是基于其视觉反应性和 GLM 拟合度的综合考虑（图 8a）。颜色代码（红色到黄色）表示每个特定体素被选中的受试者的数量（1-4）。彩色的线表示标准皮质区域的边界

图 10（a）给出了人脸重建图像的示例。虽然 VAE-GAN 和 PCA 都能重建出与原始人脸相似的图像，但是由 VAE-GAN 重建的图像更真实，更接近原始图像。作者通过将 20 张测试人脸的大脑估计潜在向量与 20 张实际人脸的潜在向量相关联来量化大脑解码系统的性能，并使用成对相关值来测量正确分类的百分比。具体结果见图 10（b）。实验结果表明，从人脑激活到 VAE–GAN 潜在空间的线性映射比到 PCA 空间的映射更容易、更有效。作者认为，这与其 “深度生成神经网络更接近于人脸表征的空间” 的假设相吻合。此外，作者还进行了模型间的完全识别结果比较，即利用重建图像的感知质量作为指标衡量重建的人脸水平。实验要求人类观察者比较两种模型重建的人脸质量：四个受试者的原始测试图像与相应的 VAE-GAN 和 PCA 重建图像一起显示，受试者判断哪一个重建图像从感知角度判断更像原始图像。具体结果见图 10（c）。76.1% 的实验中受试者选择了 VAE-GAN 重建的图像，而 23.9% 的实验中受试者选择了 PCA 重建的图像。

图 10. 人脸重建。（a）重建人脸图像示例；（b）两两识别结果；（c）完全识别结果

进一步的，为了确定哪一个大脑区域对两个大脑解码模型的人脸重建能力贡献最大，作者将每个受试者的体素选择划分为三个大小相等的子集，如图 11a 所示。然后分别对这三个子集进行脑解码和面部重建。两两识别结果显示，枕骨体素和较小程度的颞体素提供了大脑解码所需的大部分信息（图 11b）。

图 11. 不同脑区的贡献情况。

（a）体素分割过程；（b）不同区域的两两识别结果，Full select 指的是图 9 中描述的体素集；它与图 10b 中的数据相同。圆圈代表个别受试者的表现。虚线是单个受试者表现的 p<0.05 的显著性阈值。在三个子集中，枕部体素的表现是最优的，其次是颞部体素。在所有情况下， VAE-GAN 模型的性能仍然高于 PCA 模型。

最后，作者通过创建一个简单的分类器以根据人脸属性为大脑解码的潜在向量贴标签的方式，研究人脑对于特定人脸属性的表征。具体的关于人脸 “性别” 属性的实验结果见图 12。将每个大脑解码的潜在向量投射到潜在空间的 "性别" 轴上（图 12a），投射的符号决定了分类输出（正数代表“男性”，负数代表“女性 ”）。由图 12b 的结果可以看出，这个单一衡量标准的分类器提供了足够的信息来对人脸性别进行分类，准确率达到了 70%。非参数 Friedman 检验表明，性别解码性能在三个体素子集中是不同的，而 post hoc 检验则显示枕叶体素的表现明显好于额顶叶体素，而颞叶体素介于两者之间。

图 12. 图 6 性别解码。（a）基本线性分类器；（b）解码准确度

3、AI 解码大脑神经反馈动力学 - 用于解码神经反馈实验的数据

本文是来自日本 ATR 国际学院计算神经科学实验室的研究人员发表在《Scientific Data》2021 上的一篇文章[9]，主要为利用 AI 解码大脑神经反馈以读取和识别大脑中特定信息的方法提供实验所需的数据。解码神经反馈（Decoded neurofeedback，DecNef）是一种闭环 fMRI 神经反馈与机器学习方法相结合的形式，意思是分析 fMRI 的状态改变外围不同设备（比如被测者面前的显示器）的刺激。这是对操纵大脑动力学表现或表征这一长期目标的更细化的呈现。本文针对 DecNef 实验，提供了可应用的数据来源。作者发布了一个大型的、可公开访问的神经影像学数据库，其中包括 60 多个接受 DecNef 训练的人。这个数据库由大脑的结构和功能图像、机器学习解码器和额外的处理数据组成。作者在文中描述了编译数据库时采用的协议，包括源数据中常见的和不同的扫描参数、元数据、结构，以及匿名化、清理、排列和分析等处理方式。

3.1 DecNef 背景分析

在单变量（univariate）方法中，人们具体测量一个感兴趣区域（ROI）的整体活动水平。与此不同，多体素模式分析（multivoxel pattern analysis，MVPA）则是学会对分布在活动模式中的信息进行解码。DecNef 利用了 MVPA 而不是使用单变量方法，因此它具有很高的目标特异性。此外，尽管受试者清楚解码神经反馈实验的存在，但他们并不知道具体的内容和目的，从而有助于减少由于认知过程或对被操纵维度的了解而产生的混淆。此外，解码神经反馈实验甚至可以通过一种称为 "超边界（hyperalignmen）" 的方法，根据受试者间接推断出目标神经表征。通过这样的功能排列方法，将不同受试者的神经活动模式通过一组线性变换构建了一个共同的、高维的空间。这些转换是有效的参数，可以用来将任何新的数据模式带入 / 带出个人的大脑坐标系统和模型空间坐标。上述特点使得 DecNef 成为了开发新的临床应用的一种有效工具，特别是在神经精神疾病方面。除了面向临床的研究外，DecNef 还可以作为系统和认知神经科学的一个重要范式来研究大脑的基本功能。

不同的 DecNef 实验探究的是不同的认知过程或心理表征，但所有研究都采用了相同的基本设计逻辑（如图 13a）。(1)最初的环节是获取 fMRI 数据，用于训练机器学习算法—MVPA 或解码器构建环节。（2）随后的神经反馈阶段，持续 2 到 5 天不等。在解码器构建环节，受试者完成了简单的动作，包括视觉（研究 2、3）、偏好（研究 1）、知觉（研究 4）或记忆任务（研究 5），在神经反馈环节，所有程序几乎都是相同的（图 13b）。在神经反馈训练中，要求受试者调节或操纵他们的大脑活动，以最大限度地扩大反馈盘（feedback disc）的大小。

图 13. 实验设计的示意性概述。

(a) 每项研究都包括一段 fMRI，用于获得构建 "解码器" 所需的数据，这是一个机器学习的大脑活动模式分类器。(b) 所有的研究都有相同的基本实验设计

到目前为止，全世界只有少数研究小组有机会完成这种技术上具有挑战性的实验。作者介绍，他们已经发表了关于如何运行解码神经反馈实验这部分工作的介绍[10]。不过，关于 DecNef（以及一般的神经反馈）的一个关键问题仍未解决：潜在神经机制究竟是什么？一些近期的研究工作已经开始聚焦于这个问题，并应用了元分析、计算模型、神经网络等工具。表 2 总结了已有的部分研究，包括相关出版物、神经反馈过程训练目标等内容。

表 2. 纳入数据收集的研究摘要

3.2 数据分析

关于本文提供的源数据，表 3 给出所有研究中使用的扫描参数的技术细节，以及不同研究之间的差异。

表 3. 不同研究之间的扫描参数

可通过机构存储库 "DecNef 项目大脑数据存储库（DecNef Project Brain Data Repository）"(https://bicr-resource.atr.jp/drmd/)，或从 Synapse 数据存储库 (https://doi.org/10.7303/syn23530650) 访问数据。数据是按照图 14 所示的结构来组织的。简而言之，对于每项研究，最上层的文件夹包含了每个受试者的文件夹（例如，"sub-01"）。其中有三个子文件夹，"anat" 包含与结构 / 解剖扫描有关的原始 Nifti 文件，"func"—进一步细分为特定会话文件夹（例如，"ses-0"：解码器，"ses-1"：神经反馈的第一个会话，等等），包含所有来自功能扫描的压缩 Nifti 文件。

图 14. 数据集结构和内容

对高分辨率的解剖学扫描进行涂抹处理，以确保结构数据的适当匿名化。使用统计参数映射（SPM）对图像进行了偏差校正。使用统计参数绘图（SPM）工具箱（https://www.fil.ion.ucl.ac.uk/spm/）对图像进行偏差校正，并使用 FreeSurfer 套件的自动涂抹工具进行涂抹。图 15 为一个受试者的图像结果示例。

图 15. 受试者结构扫描的匿名化（污损）处理示例

鉴于 DecNef 方法的细粒度、高空间分辨率的要求，用于在线反馈计算的大脑图像的功能排列需要具备非常高的会话间一致性。图像必须与原始解码器的结构对齐，而且这种对齐必须在（子）体素水平上是精确的。即使是微小的头部运动也很容易破坏这一前提条件，导致不完善的解码和反馈得分计算。为了满足这一要求，所有的研究都要求实时监测传入的大脑功能图像与原始解码器结构中的模板之间的对齐情况。尽管使用 Turbo BrainVoyager（TBV，Brain Innovation）实时校正头部运动，但并不能保证校正后的图像在解码方面是有意义的，尤其是在突然出现明显位移时。因此，在实时神经反馈实验中，对原始 DICOM 图像进行了以下处理步骤。首先，在诱导期测量的功能图像使用 TBV 进行三维运动校正。第二，从解码器识别的每个体素中提取信号强度的时间序列，并将其移位 6 秒以考虑到血流动力学延迟。第三，从时间过程中去除线性趋势，并使用从每次 fMRI 运行开始后 10 秒测量的信号强度对每个体素的信号时间过程进行 Z-score 归一化处理。第四，计算反馈分数的数据样本是通过平均每个体素在诱导期的 BOLD 信号强度来创建的。

在目标体素的激活模式方面，控制数据质量的一个有效方法是首先计算它们的平均激活（用初始解码器构建会话的数据）。然后，在实时会话中，计算平均模式和传入活动模式之间的逐个相关性。这种方法确保了当体素的反应模式由于例如头部或身体运动而发生重大变化时，相关度的降低会迅速发生，从而可以被检测到。最佳水平的相关性水平应该在 r∈[0.85 1.00]的区间内，或 Fisher 变换的 z∈[1.26 Inf]。作者证实，所有的研究确实都能满足此条件（图 16）。平均来说，只有不到 2% 的实验的 z 值小于 1.26（研究 1：0.13%，研究 2：3.17%，研究 3：0.91%，研究 4：0.36%，研究 5：3.74%）。

图 16. 平均活动模式和实时活动模式之间的费舍尔转换相关性（Fisher transformed correlation）。

较大值表明实时测量模式和解码器构造模式之间有更好的功能一致性。每个点代表一个实验的相关值。每个琴状图有 N（天）×M（受试者）×L（运行）×J（实验）个点。图中央的白圈代表中位数，粗灰线代表四分位数范围，细灰线代表相邻的数值。将 z<1.10 的数据点从图中删除

接下来，作者建立了头部运动和模式相关度之间的关系。作者使用 SPM12 计算了头部运动参数，得出了 3 个平移参数和 3 个旋转参数。为了这个分析的目的，作者通过对相关的 3 个参数进行平均化处理来计算平均绝对旋转和平均绝对平移，在神经反馈实验中使用的 3 个 TR 来计算解码器的可能性和模式的关联性。作者将这两个头部运动指数（以毫米为单位）与所有研究中汇集的 Fisher 转换后的相关系数（即模式相关度）进行了对比（如图 17 所示）。为了进行统计分析，作者串联单次实验数据，使用线性混合效应（linear mixed effects，LME）模型进行分析（按照 Wilkinson 符号，指定为 y ~ 1 + m + (1 | st) + (1 + st | prt)；其中 y：模式相关性，1：截距，m：运动参数，st：实验研究，prt：受试者）。具体来说，这些 LME 模型的设计是将运动作为固定效应，实验研究作为随机效应和协变量，个体受试者作为随机效应而嵌套在实验研究中。

图 17. 模式相关性与头部运动的关系。

头部运动被计算为三维方向上的旋转（a）或三维方向上的平移（b），并与 Fisher 转换后的模式相关系数成图。使用不同颜色绘制来自不同研究的数据点。每个数据点表征一个特定受试者、运行和实验

最后，其他的生理噪声源（如心跳或呼吸）也会影响用于实时解码的多体素活动模式。这些来源在本研究中没有直接测量，因此作者只能猜测它们的影响。如果它们对所有体素的影响是相对均匀的，作者预计对模式相关的测量几乎没有影响，因为体素之间的关系将保持基本不变。如果各体素之间存在不均匀的影响，作者认为模式相关性会受到类似于头部运动的影响。人们可能会担心，在第一种情况下，将无法检测到数据的噪声失真，从而有可能造成反馈给受试者的目标真实性失效。但由于所有体素的活动首先经过基线归一化处理，然后通过计算体素的活动模式与权重向量之间的点积来确定反馈似然，因此重要的是体素的模式（体素活动之间的 "差异"）。由此，作者指出，由于 MVPA 的特殊性，额外的噪声源不太可能在不影响模式相关度的情况下显著影响体素活动模式的信息内容。

4、小结

本文探讨了基于统计学中 ML 的 fMRI 分析方法。其中，第一篇文章介绍了基于 SVM 的多变量模式分析在基于人脑功能磁共振成像（fMRI）的特定任务状态解码中的应用。具体的，作者引入一个 DNN 分类器，通过读取与任务相关的 4D fMRI 信号，有效解码并映射个人正在进行的大脑任务状态。DNN 的分层结构使其能够学习比传统机器学习方法更复杂的输出函数，并且可以进行端到端的训练，进而提升了大规模数据集中 fMRI 解码的准确度水平。第二篇文章具体探讨的是应用深度学习系统从人类的功能磁共振成像（fMRI）重建人脸图像。利用 VAE-GAN 模型，学习多体素 fMRI 激活模式和 1024 个潜在维度之间的简单线性映射。然后将这一映射应用于新的测试图像，将 fMRI 模式转化为 VAE 潜在编码，并将编码重建为人脸。最后一篇文章发布了一个大型的、可公开访问的神经影像学数据库，该数据库中的数据是由解码神经反馈（Decoded neurofeedback，DecNef）实验训练得到的，除了面向临床的研究外，该数据库还可以作为系统和认知神经科学的一个重要范式来研究大脑的基本功能。这一数据库的发布为推动解码神经反馈的研究发展提供了良好的数据基础。

ML 已经证明在图像处理和识别的广泛用途。利用 ML 连接 fMRI 图像，可以分类人脑正在观察和思考的状态，甚至重建正在联想的人脸内容。神经科学家正在借助机器学习技术解码人类大脑的活动、理解人类大脑的趋势方兴未艾，帮助我们更好的了解我们的大脑迷宫。

本文参考引用的部分文献：

[1] https://uxdesign.cc/how-neuroscientists-are-reading-and-decoding-human-thoughts-380474d0e8c1

[2] Xiaoxiao Wang, etc al. Decoding and mapping task states of the human brain via deep learning. Hum Brain Mapp. 2020 Apr 15; 41(6): 1505–1519. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7267978/

[3] Van Essen, D. C., Smith, S. M., Barch, D. M., Behrens, T. E., Yacoub, E., Ugurbil, K., & Consortium, W.U.-M.H. (2013). The WU-Minn human connectome project: An overview. NeuroImage, 80, 62–79. https://doi.org/10.1016/j.neuroimage.2013.05.041

[4] Springenberg, J.T., Dosovitskiy, A., Brox, T., Riedmiller, M. (2014). Striving for simplicity: The all convolutional net. arXiv:1412.6806.

[5] Cox, R. W. (1996). AFNI: Software for analysis and visualization of functional magnetic resonance neuroimages. Computers and Biomedical Research, 29, 162–173. https://doi.org/10.1006/cbmr.1996.0014

[6] Fischl, B. (2012). FreeSurfer. NeuroImage, 62, 774–781. https://doi.org/10.1016/j.neuroimage.2012.01.021

[7] Rufin VanRullen &Leila Reddy, Reconstructing faces from fMRI patterns using deep generative neural networks, Communications Biology volume 2, Article number: 193 (2019) , https://www.nature.com/articles/s42003-019-0438-y

[8] Liu, Z., Luo, P., Wang, X. & Tang, X. Deep learning face attributes in the wild. In Proc. International Conference on Computer Vision (ICCV) (2015).

[9] Cortese A , Tanaka S C , Amano K , et al. The DecNef collection, fMRI data from closed-loop decoded neurofeedback experiments[J]. Scientific Data, 2021, 8(1):65.

[10] Taschereau-Dumouchel, V., Cortese, A., Lau, H. & Kawato, M. Conducting decoded neurofeedback studies. Soc. Cogn. Affect. Neurosci. nsaao63 (2020).

分析师介绍：

本文作者为Wu Jiying，工学博士，毕业于北京交通大学，曾分别于香港中文大学和香港科技大学担任助理研究员和研究助理，现从事电子政务领域信息化新技术研究工作。主要研究方向为模式识别、计算机视觉，爱好科研，希望能保持学习、不断进步。

你可能感兴趣的:(人工智能)

【人工智能】注意力机制深入理解问道飞鱼机器学习与人工智能人工智能注意力机制
文章目录**一、注意力机制的核心思想****二、传统序列模型的局限性****三、Transformer与自注意力机制****1.自注意力机制的数学公式****四、注意力机制的关键改进****1.稀疏注意力（SparseAttention）****2.相对位置编码（RelativePositionEncoding）****3.图注意力网络（GraphAttentionNetwork,GAN）****
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
高性能计算:GPU加速与分布式训练 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的飞速发展，深度学习模型的规模和复杂度不断提升，对计算能力的需求也越来越高。传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计
人工智能之数学基础：矩阵的范数每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能矩阵算法线性代数范数
本文重点在前面课程中，我们学习了向量的范数，在矩阵中也有范数，本文来学习一下。矩阵的范数对于分析线性映射函数的特性有重要的作用。矩阵范数的本质矩阵范数是一种映射，它将一个矩阵映射到一个非负实数。矩阵的范数前面我们学习了向量的范数，只有当满足几个条件的时候，此时才可以，那么矩阵也是一样的，当满足下面的条件的时候，才可以定义||A||为矩阵A的范数矩阵范数的性质连续性矩阵范数是连续的函数。即如果矩阵序
AI 大模型应用数据中心的数据清洗工具 SuperAGI2025 计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
1.背景介绍在人工智能大模型应用的浪潮中，数据清洗作为数据预处理的重要环节，对于提升模型性能和可靠性具有至关重要的作用。数据中心作为人工智能模型的运行环境，面临着海量数据流和多样化的数据类型，如何高效、准确地进行数据清洗，成为应用大模型的关键问题之一。本文将详细介绍AI大模型应用数据中心的数据清洗工具，包括核心概念、算法原理、具体操作步骤、应用场景等，旨在为AI大模型的实际应用提供参考。2.核心概
AI 大模型应用数据中心的数据迁移架构 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、数据迁移、架构设计、迁移策略、性能优化、安全保障1.背景介绍随着人工智能（AI）技术的飞速发展，大规模AI模型的应用日益广泛，涵盖了自然语言处理、计算机视觉、语音识别等多个领域。这些AI模型通常需要海量的数据进行训练和推理，因此数据中心作为AI应用的基础设施，显得尤为重要。然而，随着AI模型规模的不断扩大，数据中心面临着新的挑战：数据规模庞大:AI模型的训练和推理需要海量数据
使用LangChain与Amazon Bedrock构建JCVD风格的Chatbot scaFHIO langchain python
技术背景介绍在人工智能时代，构建一个智能化的聊天机器人不仅是一个趋势，更是提升与用户互动体验的关键之一。本文将向你展示如何使用LangChain和AmazonBedrock构建一个仿效让·克劳德·范·达美（JCVD）风格的聊天机器人。我们将借助于Anthropic提供的Claude模型，通过AmazonBedrock强大的基础设施来实现这一目标。核心原理解析LangChain作为一个强大的框架，简
Cursor 终极使用指南：从零开始走向AI编程芯作者 DD：日记人工智能机器学习深度学习 AI编程
在数字化浪潮席卷全球的今天，人工智能（AI）已不再是遥不可及的概念，而是逐渐融入我们日常生活的方方面面。作为未来技术的核心驱动力，AI编程成为了众多开发者和技术爱好者争相探索的领域。而在这场技术革命中，Cursor——这一看似简单却功能强大的编程工具，正悄然成为连接初学者与AI编程高手的桥梁。本文将带你从零开始，逐步解锁Cursor的终极使用指南，让你在AI编程的道路上越走越远。一、初识Curso
知识管理系统：构建企业智慧大脑 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
第一部分：知识管理概述与重要性第1章：知识管理的定义与基本概念1.1.1知识管理的起源与发展知识管理（KnowledgeManagement，KM）起源于20世纪80年代，当时企业在市场竞争中逐渐意识到知识作为一种战略资源的重要性。早期的知识管理实践主要集中在知识的收集、存储和传播上。随着信息技术的发展，知识管理逐渐融入了更先进的技术手段，如数据挖掘、人工智能和大数据分析，使其成为一个跨学科、多领
人工智能知识架构详解 CodeJourney. 数据库人工智能算法架构
人工智能（ArtificialIntelligence，简称AI）作为当今最具影响力和发展潜力的技术领域之一，正深刻地改变着我们的生活、工作和社会。从智能家居到自动驾驶，从医疗诊断到金融投资，人工智能的应用无处不在。要全面深入地理解和掌握人工智能，构建一个清晰、系统的知识架构至关重要。二、基础数学（一）线性代数线性代数是人工智能的重要数学基础之一。矩阵运算在数据表示和变换中起着核心作用。例如，在图
TypeScript语言的计算机视觉苏墨瀚包罗万象 golang 开发语言后端
使用TypeScript进行计算机视觉：一个现代化的探索引言随着人工智能和机器学习的快速发展，计算机视觉（ComputerVision）成为了一个极具活力的研究领域。计算机视觉旨在使计算机能够“看”和“理解”数字图像或视频中的内容。近年来，TypeScript作为一种现代化的编程语言，因其类型安全和更好的开发体验，逐渐在前端和后端开发中得到了广泛应用。本文将探讨如何使用TypeScript进行计算
DeepSeek混合专家架构赋能智能创作智能计算研究中心其他
内容概要在人工智能技术加速迭代的当下，DeepSeek混合专家架构（MixtureofExperts）通过670亿参数的动态路由机制，实现了多模态处理的范式突破。该架构将视觉语言理解、多语言语义解析与深度学习算法深度融合，构建出覆盖文本生成、代码编写、学术研究等场景的立体化能力矩阵。其核心优势体现在三个维度：精准化内容生产——通过智能选题、文献综述自动生成等功能，将学术论文写作效率提升40%以上；
AI推动地理信息系统（GIS）软件的创新发展与应用拓展酥脆可口 facebook
摘要地理信息系统（GIS）软件作为空间数据处理与分析的核心工具，在城市规划、资源管理、环境监测等领域发挥着关键作用。本文深入探讨人工智能（AI）如何推动GIS软件的创新发展，分析AI技术在提升空间数据分析能力、优化地图制图、拓展应用场景等方面的重要作用，剖析面临的挑战，并对未来发展趋势进行展望，旨在为GIS行业借助AI实现升级提供理论与实践参考。一、引言传统GIS软件主要依赖基于规则的分析方法和人
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
人工智能之数学基础：线性子空间每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习线性代数线性子空间线性空间
本文重点在前面的课程中，我们学习了线性空间，本文我们我们在此基础上学习线性子空间。在应用中，线性子空间的概念被广泛应用于信号处理、机器学习、图像处理等领域。子空间的性质子空间是线性空间的一部分，它需要满足下面的性质：设V是数域F上的线性空间，W是V的一个非空子集。如果W对于V中的加法运算和数乘运算也构成F上的一个线性空间，则称W为V的线性子空间（或称向量子空间）。具体来说，设V是一个线性空间，W是
AI驱动软件开发流程的智能化转型与效能提升我有些不开心开发语言
摘要在数字化快速发展的时代，软件开发行业面临着提升效率、保证质量与满足多变需求的挑战。本文聚焦人工智能（AI）如何驱动软件开发流程的智能化转型，探讨其在需求分析、代码编写、测试调试、项目管理等环节对效能的提升，分析转型中面临的挑战，并对未来发展趋势展开展望，为软件行业借助AI实现升级提供理论与实践参考。一、引言传统软件开发流程依赖大量人工操作，各环节易出现沟通不畅、效率低下、错误频发等问题。随着软
详解离线安装Python库爱编程的喵喵 Python基础课程 python 离线安装 requirements
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了详解离线安装Python库，希望能对
计算机视觉毕业设计选题推荐：选题技巧建议收藏 HaiLang_IT 毕业设计人工智能计算机视觉
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了人工智能专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇
【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练 Donvink 大模型 #AIGC stable diffusion AIGC 人工智能机器学习深度学习
目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
Java IDEA中Gutter Icons图标的含义路宇 java笔记 java intellij-idea 开发语言 gutter-icons 图标 Java开发工具
前些天发现了一个蛮有意思的人工智能学习网站,8个字形容一下"通俗易懂，风趣幽默"，感觉非常有意思,忍不住分享一下给大家。点击跳转到教程前言：很多人刚开始用IDEA来学习编程，会发现下面这些图标。但是我们有时候并不知道它的含义和设置显示与隐藏，下面给大家讲解一下装订线图标位于左侧编辑器中。它们调用一些基本操作以及其他特定于框架和技术的功能。设置步骤File->Setting进到idea的设置页面。接
【科研必备】EI/Scopus收录！2025年3-4月智能制造、自动化、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！努力毕业的小土博^_^ 学术会议推荐制造自动化人工智能深度学习神经网络算法
【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！文章目录【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等
图生视频技术的发展与展望：从技术突破到未来图景 Liudef06 Stable Diffusion 音视频人工智能深度学习 stable diffusion
一、技术发展现状图生视频（Image-to-VideoGeneration）是生成式人工智能（AIGC）的重要分支，其核心是通过单张或多张静态图像生成动态视频序列。近年来，随着深度学习、多模态融合和计算硬件的进步，图生视频技术经历了从基础研究到商业落地的快速演进。早期探索与GAN的奠基早期图生视频技术主要基于生成对抗网络（GAN），通过对抗训练生成低分辨率的视频片段。例如，DeepMind的DVD
【SoC基础】单片机之寄存器解析望闻问嵌 #SoC 单片机嵌入式硬件
：如果你也对机器人、人工智能感兴趣，看来我们志同道合✨：不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】：文章若有幸对你有帮助，可点赞收藏⭐不迷路：内容若有错误，敬请留言指正！原创文，转载注明出处文章目录1、寄存器位置2、寄存器种类2.1通用用途寄存器2.2CPU执行相关寄存器2.3外设控制寄存器3.寄存器在CPU访问外设过程中起到的作用1、寄
大模型时代的知识焦虑机载软件与适航机器学习-建模算法-代理模型人工智能大数据
引言：浪潮之巅，焦虑暗涌大模型时代已经浩荡而来，如同奔腾的浪潮，以令人惊叹的速度重塑着世界的面貌。从智能客服的温声细语，到AI绘画的妙笔生花，再到自动驾驶的日趋成熟，大型语言模型、图像模型等人工智能技术以前所未有的姿态，渗透进我们生活的方方面面。信息获取前所未有的便捷，知识创造空前高效，人机交互焕然一新，一个充满无限可能的智能化未来似乎触手可及。然而，在这令人眼花缭乱的技术盛景之下，一股无形的焦虑
近期计算机领域的热点技术 0dayNu1L 云计算量子计算人工智能
随着科技的飞速发展，计算机领域的新技术、新趋势层出不穷。本文将探讨近期计算机领域的几个热点技术趋势，并对它们进行简要的分析和展望。一、人工智能与机器学习人工智能（AI）和机器学习（ML）是近年来计算机领域最为热门的话题之一。AI和ML技术已经广泛应用于图像识别、自然语言处理、智能推荐等领域，并取得了显著的成果。随着技术的不断进步，AI和ML将更深入地渗透到各个行业，为人类社会带来更多便利和效益。在
谷歌准备斥资 230 亿收购网络安全初创公司 Wiz 网络研究观网络研究观谷歌
Alphabet正在就收购Wiz进行深入谈判，这将显著增强其安全能力。这将是谷歌母公司有史以来最大规模的收购。这是路透社根据匿名消息来源撰写的内容。目标收购金额为230亿美元，即211亿欧元。Wiz拥有实时检测和响应网络威胁的技术。通过实施人工智能，Wiz能够在短时间内吸引许多公司作为客户。Alphabet的收购目标定于2020年初。到2023年，Wiz的收入将达到3.5亿美元。当时，全球40%的
数学领域的跨时代进化与升级：从公理化到智能化的破茧之路夏末之花算法
作者：夏末之花|发布时间：2025-03-16|阅读量：10万+|点赞数：5.6万引言：数学的“破茧时刻”与文明跃迁人类历史上，数学的每一次重大突破都像一次“破茧时刻”，推动文明跨越式发展。从古希腊的几何公理化到牛顿的微积分，再到20世纪的计算机理论，数学始终是科学革命的基石。而在21世纪的今天，随着量子计算、人工智能、生物信息等技术的爆发，数学正迎来新一轮的进化与升级——从纯粹的逻辑工具，演变为
精准测试：软件开发中的高效质量保障利器霍格沃兹软件测试开发精准化测试测试用例安全性测试测试覆盖率模块测试 selenium 测试工具压力测试
全面解析软件测试开发：人工智能测试、自动化测试、性能测试、测试左移、测试右移到DevOps如何驱动持续交付在现代软件开发中，测试效率与测试质量直接影响产品竞争力。精准测试作为一项兼具效率与精度的创新测试方法，已经成为众多企业提升软件质量的重要手段。本篇文章围绕精准测试的落地实施、对质量指标的提升、数据统计与效果评估方法以及如何提高投入产出比进行全面解读，帮助企业掌握精准测试的价值与实践路径。精准测
提升敏感力，“工具人”破圈的唯一解！技能咖 GAI认证生成式人工智能认证人工智能
在当今这个日新月异的数字化时代，个人与组织面临着前所未有的挑战与机遇。随着科技的飞速发展，尤其是生成式人工智能（GenerativeAI）的兴起，职场生态正在发生深刻变革。如何在这场变革中提升敏感力，实现从“工具人”到行业佼佼者的跨越，成为了众多职场人士关注的焦点。本文将探讨提升敏感力的重要性，并引入生成式人工智能认证（GAI认证），为您揭示“工具人”破圈的唯一解。提升敏感力：职场竞争的关键什么是
新浪财经App喜娜AI助手通过大模型登记，已上线AI摘要和个股公告AI解读量子位
3月14日，官方发布的信息显示，新浪财经App喜娜AI助手近日已通过北京市生成式人工智能服务登记。目前，喜娜AI助手已上线两项创新功能：喜娜AI摘要和个股公告AI解读。这两项功能旨在通过先进的人工智能技术，提升用户对财经资讯和上市公司公告的理解与分析效率，这标志着AI技术在信息服务领域的又一重大突破。喜娜AI摘要：快速提炼财经资讯核心要点AI时代，资讯信息迎来爆炸性增长，用户每天都要面对海量资讯，
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户