夏目友人不还账

[CVPR2022] 用于 3D 医学图像分析的 Swin Transformers 的自监督预训练

Self-Supervised Pre-Training of Swin Transformers for 3D Medical Image Analysis

摘要

Vision Transformer(ViT)在全局和局部表示的自监督学习方面表现出了出色的性能，这些表示它可以转移到下游任务的应用中。
提出模型：提出一种新的自监督学习框架Swin UNETR，它具有定制的代理任务，用于医学图像分析。
模型介绍：

(1)一种新的基于3D变压器的模型，称为Swin UNEt Transformer (Swin UNETR)，具有用于自我监督前训练的分层编码器;

(2)为学习人体解剖学的基本模式定制代理任务。
取得成绩：

（1）在来自各种身体器官的5050个公开的计算机断层扫描(CT)图像上成功地演示了所提出的模型的预训练。

（2）通过使用13个腹部器官和来自医学分割十项athlon (MSD)数据集的分割任务对预训练的模型进行微调，验证了方法的有效性。

（3）模型目前在MSD1和BTCV 2数据集的公共测试排行榜上是最先进的。

引言

背景：

Vision Transformer(ViT)的在计算机视觉和医学图像分析中开创了一种革命性的趋势。Transformer在学习文本前任务方面表现出非凡的能力，在跨层学习全局和局部信息方面非常有效，并提供大规模训练的可扩展性。与接受域有限的卷积神经网络(CNN)不同，ViT对来自一系列补丁的视觉表示进行编码，并利用自注意块来建模远程全局信息。
最近，移位窗口(Swin)变压器提出了一个层次化的ViT，允许本地计算自注意与重叠的窗口。相对于ViT中自注意层的二次复杂度，该体系结构实现了线性复杂度，从而提高了ViT的效率。此外，由于Swin transformer的层次性，它们非常适合于需要多尺度建模的任务。
与基于CNN的模型相比，基于Transformer的模型在预训练期间学习更强的特征表示，因此在下游任务的微调上表现良好。最近在ViT方面的一些努力通过在ImageNet等大规模数据集上进行自监督的预训练，取得了最新的结果。
医学图像分析还没有从通用计算机视觉的这些进步中受益，这是因为:

(1)自然图像和医学成像模式之间的巨大领域差距，如计算机断层扫描(CT)和磁共振成像(MRI);

(2)应用于体积(3D)图像(如CT或MRI)时，缺乏跨平面上下文信息。后者是二维Transformer模型的一个限制，用于各种医学成像任务，如分割。

之前的研究已经证明了医学成像中有监督的预培训对不同应用的有效性。但是大规模创建专家注释的3D医疗数据集是一项重要且耗时的工作。

提出模型：

提出了一种新的自监督学习框架用于三维医学图像分析。

首先，提出了一种名为Swin UNEt Transformer (Swin UNETR)的新架构，该架构带有Swin Transformer编码器，直接利用3D输入补丁。
随后，利用各种代理任务，如图像嵌入、3D旋转预测和对比学习(如下图是培训前框架概述，输入CT图像被随机裁剪成子卷，并通过随机的内部切割和旋转增强，然后输入到Swin UNETR编码器中作为输入。我们使用掩蔽体积嵌入、对比学习和旋转预测作为代理任务来学习输入图像的上下文表示)，使用定制的自监督任务对Transformer编码器进行预训练。
具体来说，由于人体所描绘的解剖结构，人体在CT等放射图像中呈现自然一致的上下文信息。因此，代理任务被用来学习人体解剖学的基本模式。为此，本文从不同的身体组成(如头、颈、肺、腹和骨盆)提取了大量的补丁查询，以从各种解剖环境、器官、组织和形状中学习健壮的特征表示。
本文的框架使用对比学习，掩蔽体积嵌入和3D旋转预测作为训练前代理任务。对比学习用于区分不同身体组成的各种ROIs，而嵌入学习允许学习纹理、结构和掩蔽区域与周围环境的对应关系。旋转任务作为学习图像结构内容的机制，生成各种子卷，可用于对比学习。本文利用这些代理任务对从各种公开数据集获得的5050个CT图像集合进行预训练。
为了验证预训练的有效性，使用三维医学图像分割作为下游任务，并将其重新定义为一维序列到序列的预测任务。为此，我们利用Swin UNETR编码器与分层特征编码和移位窗口，以四种不同分辨率提取特征表示。然后将提取的表示连接到一个基于CNN的解码器。在解码器的末端附加分割头，用于计算最终的分割输出。使用预先训练的权重对Swin UNETR进行微调，这两个公共基准分别是医疗分割十项全能(MSD)和颅外Vault (BTCV)。本文模型目前在各自的公开测试排行榜上是最先进的。

本文创新点：

设计了一种新的自监督学习框架，该框架具有定制的代理任务，用于CT图像数据集的预训练。为此，本文提出了一种新的基于3DTransformer的架构，称为Swin UNETR，由一个编码器组成，该编码器可以在多个分辨率下提取特征表示，并用于预训练。
本文使用提出的编码器和代理任务，对来自各种任务的5050个公开可用CT图像进行了成功的预训练。这产生了一个强大的预训练模型，具有鲁棒的特征表示，可用于各种医学图像分析下游任务。
通过对预先训练的Swin UNETR在MSD和BTCV两个公共基准上进行微调，本文验证了拟议框架的有效性，并在两个数据集的测试排行榜上取得了最先进的成绩。

Swin UNETR

Swin UNETR包括一个Swin Transformer编码器，该编码器直接利用3D补丁，并通过不同分辨率的跳跃式连接连接到基于CNN的解码器。

网络架构模型：

当给定一个输入，首先将数据切割为多个小的体素块，将每个体素块进行两次不同的数据增强后分别输入到网络编码器中，计算自监督损失。

三维分割网络是 U-Net 结构，网络的编码器为 Swin Transformer，解码器为卷积网络。

编码器部分首先是一个Patch Partition层来创建一个3D的token序列，通过线性嵌入层投影到C维空间中，为了对token交互进行有效建模，输入卷划分到不重叠的窗口中，并在每个区域内计算局部自注意。编码器使用patch大小为2x2x2,特征维度2x2x2x1=8(即单输入通道CT图像)和C=48维嵌入空间，编码器的整体架构由4级构成，每一级包括两个Transformer块（L=8),在每个阶段之间，使用一个Patch Merge层来降低两倍的分辨率。

Swin UNETR的编码器通过跳跃连接在每个分辨率上连接到基于CNN的解码器，为下游任务(如分段)创建一个“U型”网络。将每个阶段提取的表示形式输入到一个残块中，该残块由两个后归一化的3x3x3卷积层组成，实例归一化。然后使用反卷积层对每个阶段处理过的特征进行上采样，并与前一阶段处理过的特征进行连接。将连接的特征输入到具有上述描述的残块中。

对于分割，将编码器的输出(即Swin Transformer)与经过处理的输入体积特征连接起来，并将它们输入到一个残块中，然后是最后一个具有适当激活函数(即softmax)的1x1x1卷积层，以计算分割概率。

预训练时在编码器的输出端链接了三个任务头，微调时去掉三个任务头，添加分割头，微调全部网络参数。

Inpainting 预测头为一个卷积层；旋转头和对抗头为 MLP 。

Inpainting 损失为 L1 损失；旋转损失为交叉熵，对抗损失是InfoNce。

Inpainting 从二维扩展到了三维；旋转是沿 Z 轴旋转。

三个损失组合成了混合损失来指导训练，三个损失之间的权重均为 1。

编码器

假设编码器的输入的子卷X属于R^HxWxDxS,一个patch的分辨率为（）的数据维度为：H’x

W’xD’xS。

Patch Partition层：创建一个3D令牌序列，大小为H/H’xW/W’xD/D’,通过线性嵌入层投影到C维空间中，为了对令牌交互进行有效建模，将输入卷划分到不重叠的窗口中，并在每个区域内计算局部自注意。
具体来说，在第一层使用一个MxMxM大小的窗口，最终将一个3D令牌序列划分成H’/MxW’/MxD’/M大小的窗口，在随后的层中使用我们用（M/2,M/2,M/2）体素来移动分区的窗口。移位的开窗机构如下图所示：
l和l+1层的计算输出公式如下:
其中W-MSA和SW-MSA分别表示规则分区和窗口分区的多头自注意模块,z^^l是W-MSA和SW-MSA的输出,LN和MLP分别表示层归一化和多层感知器(见图2)。采用了3D循环移位来进行移位窗口的高效批量计算:

其中Q、K、V分别表示查询、键和值，d为查询和键的大小。

编码器使用patch大小为2x2x2,特征维度2x2x2x1=8(即单输入通道CT图像)和C=48维嵌入空间，此外，编码器的整体架构由4级构成，每一级包括两个Transformer块（L=8),在每个阶段之间，使用一个Patch Merge层来降低两倍的分辨率，阶段1是一个线性嵌入层和Transformer块组成，维持令牌的数量为H/2xW/2xD/2,一个Patch Merge将分辨率为2x2x2的补丁分组，并将它们连接起来，形成一个4C维的特征嵌入。然后使用线性层通过将尺寸降低到2C来降低分辨率。相同的过程仍在第二阶段,第三阶段和第四阶段中:H/4xW/4xD/4,H/8xW/8xD/8,H/16xW/16xD/16,编码器在不同阶段的层次表示用于下游任务，如多尺度特征提取的分割。

解码器

Swin UNETR的编码器通过跳跃式连接在每个分辨率上连接到基于CNN的解码器，为下游任务(如分段)创建一个“U型”网络。

具体来说，提取编码器中每个阶段i (i属于0,1,2,3,4）以及瓶颈(i=5)的输出序列表示形式，并将其重塑为大小为H /2ⁱx W /2ⁱx D/ 2ⁱ的特征。然后将每个阶段提取的表示形式输入到一个残块中，该残块由两个后归一化的3x3x3卷积层组成，实例归一化。然后使用反卷积层对每个阶段处理过的特征进行上采样，并与前一阶段处理过的特征进行连接。将连接的特征输入到具有上述描述的残块中。对于分割，将编码器的输出(即Swin Transformer)与经过处理的输入体积特征连接起来，并将它们输入到一个残块中，然后是最后一个具有适当激活函数(即softmax)的1x1x1卷积层，以计算分割概率(参见图2所示的体系结构细节)。

预训练

用多个代理任务对Swin UNETR编码器进行了预训练，并用多目标损耗函数对其进行了描述，自监督表示学习的目标是对人体感兴趣区域(ROI)感知信息进行编码。受之前关于上下文重建和对比编码的工作的启发，本文开发了三个代理任务用于医学图像表示学习。

在预训练期间，另外三个投影头附加到编码器上。此外，下游任务，例如分割，微调完整的Swin UNETR模型，去掉投影头。在训练中，子体积是裁剪的随机区域的体积数据。然后，随机数据增强与随机旋转和切割应用于一个小批内的每个子体积两次，得到每个数据的两个视图。

Masked Volume Inpainting

Masked Volume Inpainting是由先前专注于2D图像的工作所激发的。我们将其扩展到三维领域，以展示其在体医学图像表示学习中的有效性。

图像旋转

为了简单起见，采用沿z轴的0、90、180、270旋转的R级。采用MLP分类头来预测旋转类别的最大概率。

旋转预测任务使用交叉熵损失:

对比编码

自监督对比编码在转移到下游任务时，在视觉表征学习方面表现出很好的性能。在给定一批增强子卷的情况下，对比编码通过最大化正对(来自同一子卷的增强样本)之间的互信息，同时最小化负对(来自不同子卷的视图)之间的互信息，允许更好的表示学习。对比编码是通过在Swin UNETR编码器上附加一个线性层来获得的，该层将每个增强子体积映射到一个潜在表示v，使用余弦相似度作为定义的编码表示的距离测量。形式上，对v_i和v_j之间的三维对比编码损失定义为:

损失函数

通过使用掩蔽体嵌入、3D图像旋转和对比编码的多个预训练目标训练Swin UNETR的编码器来最小化总损耗函数，如下所示:

通过网格搜索超参数优化，得到了λ1=λ2=λ3=1的最优值。

实验

数据集

预训练数据集:共有5个公共CT数据集，包含5050个受试者，用于构建训练前数据集。胸部、腹部和头颈的3D体积分别为2018、1520和1223。收集资料和来源详情载于补充材料。在预训练阶段，不会从这些数据集中利用现有的注释或标签。
BTCV: BTCV (Beyond The Cranial V ault)腹部挑战数据集包含30名患者CT扫描，13个器官在V anderbilt大学医学中心放射科医生的监督下由翻译人员注释。每次门静脉增强期CT扫描共80 ~ 225片，512 ~ 512像素，片厚1 ~ 6mm。多器官分割问题被表述为13类分割任务：Spl:脾，RKid:右肾，LKid:左肾，Gall:胆囊，Eso:食管，Liv:肝脏，Sto:胃，Aor:主动脉，IVC:下腔静脉，V eins:门静脉和脾静脉，Pan:胰腺，AG:左、右肾上腺。
MSD:医疗分割十项全能(MSD)数据集由来自不同器官和图像模式的10个分割任务组成。这些任务设计的特点是跨越医学图像的困难，如小训练集、不平衡类、多模态数据和小对象。因此，MSD挑战可以作为评价医学图像分割方法可泛化性的综合基准。

实现细节

对于训练前的任务，(1)掩模体积嵌入:ROI下降率设置为30%;丢弃的区域是随机生成的，它们的总和达到体素的总数量;(2)三维对比编码:采用512特征尺寸作为嵌入尺寸;(3)旋转预测:旋转度可配置为0、90、180、270。使用AdamW优化器和500次迭代的热身余弦调度程序来训练模型。

预训练实验使用每个GPU的批处理大小为4(使用96x96x96的补丁)，初始学习率为4e^-4，动量为0.9，衰减为1e^-5。本文模型在PyTorch和MONAI中实现。五倍交叉验证策略用于训练所有BTCV和MSD实验的模型。在每个折叠中选择最好的模型，并集成它们的输出进行最终的分割预测。

详细的训练超参数微调BTCV和MSD任务可以在补充材料中找到。所有模型都在NVIDIA DGX-1服务器上训练。

评价指标

Dice系数和豪斯多夫距离95%

实验结果

BTCV多器官分割挑战

广泛地比较了模型的基准和基线。公布的排行榜评价如表1所示。与其他提交的最佳作品相比，Swin UNETR的表现最好。得到了最先进的Dice为0.908，在13个器官上分别比排名第二、第三和第四的基线平均高出1.6%、2.0%和2.4%。对于较小的器官，可以特别观察到明显的改善，如脾和门静脉的3.6%，比之前的先进方法，胰腺1.6%，肾上腺3.8%。其他器官也有中度改善。

图4中的代表性样本表明Swin UNETR成功地识别了器官细节。本文方法检测到胰腺尾部(第1行)和图4门静脉中的分支(第2行)，其中其他方法在每个组织的分割部分。此外，我们的方法在肾上腺分割方面有明显的改善(第3行)。

MSD分割结果

每项任务的整体MSD结果和挑战排行榜的排名如表2所示。该Swin UNETR在Task01脑瘤、Task06肺、Task07胰腺和Task10结肠中达到了最先进的性能。Task02心脏，Task03肝脏，Task04海马，Task05前列腺，Task08肝血管和Task09脾脏的结果是相似的。总的来说，Swin UNETR在所有10个任务中呈现了最佳的平均Dice(78.68%)，并在MSD排行榜中排名第一。

多个任务的详细数量如表3所示。

定性可视化可以在图5中观察到。Swin UNETR与自监督预训练在CT任务中显示了更好的视觉分割结果。预先训练的权重仅用于微调CT任务，包括肝脏、肺、胰腺、肝血管、脾脏和结肠。对于MRI任务:脑瘤，心脏，海马，前列腺，由于CT和MRI图像之间的领域差距，实验从零开始训练。由于篇幅所限，在补充材料中给出了剩余三个MRI任务的MSD测试基准。

消融实验

预训练效果

所有使用预训练模型的MSD CT任务与从零开始训练的对比如图6所示。

Task03肝脏、骰子的改善明显，分别为77.77%和75.27%。Task08肝V血管达到68.52%对64.63%。Task10 Colon的改进最大，从34.83%提高到43.38%。

Task07胰腺和Task09脾脏的改善率分别为67.12% ~ 67.82%和96.05% ~ 97.32%。

减少手工标记的工作量

图7展示了使用BTCV数据集子集进行微调的比较结果。用了10%的有标记的数据，训练前权重的实验与从零开始的训练相比，获得了大约10%的改进。在使用所有标记数据时，自监督预训练的平均Dice提高了1.3%。使用预训练的Swin UNETR在60%的数据下可以实现整个数据集从头学习的骰子数83.13。图7表明，本文方法可以为BTCV任务减少至少40%的注释工作量。

预训练数据集大小

对BTCV数据集进行器官方面的研究，使用预先训练的较小的未标记数据的权重。在图8中，预训练100、3000和5000次扫描的微调结果。观察到Swin UNETR相对于训练的CT扫描总数是稳健的。如图8所示，提出的模型可以从更大的预训练数据集中受益，且未标记数据的大小不断增加。

自监督目标的效能

对不同自监督目标组合的预培训进行了实证研究。如表4所示，在BTCV测试集上，通过inpainting使用预训练的权值在单个任务建模中取得了最高的改进。

在配对任务中，inpainting和contrast learning的Dice为84.45%，Hausdorff Distance (HD)为24.37。总的来说，使用所有的代理任务可以获得84.72%的最佳Dice。

讨论与局限性

在MSD和BTCV数据集的测试排行榜上的最新结果验证了所提出的自监督学习框架在利用大量可用医学图像而不需要注释工作方面的有效性。随后，对预训练的Swin UNETR模型进行微调，与从头随机初始化权重训练相比，可以获得更高的精度，提高收敛速度，并减少注释工作量。本文框架是可伸缩的，可以通过更多的代理任务和扩展转换轻松地进行扩展。同时，经过预训练的编码器可以用于各种医学图像分析任务的迁移学习，如分类和检测。

在MSD胰腺分割任务中，经过预训练权重的Swin UNETR算法的性能优于AutoML算法，如DiNTS和C2FNAS，这两种算法专为在同一分割任务中搜索最优网络架构而设计。目前，Swin UNETR仅使用CT图像进行预训练，实验在直接应用于其他医学成像模式(如MRI)时还没有证明足够的可移植性。这主要是由于明显的领域差距和不同数量的输入通道特定于每种模式。因此，这是未来工作中应该研究的一个潜在方向。

结论

在这项工作中，提出了一个新的框架的自我监督预训练三维医学图像。受到按比例合并特征图的启发，通过将Transformer编码的空间表示形式利用到基于卷积的解码器中，构建了Swin UNETR。通过提出第一个基于Transformer的3D医学图像预训练，利用Swin Transformer编码器的能力进行微调分割任务。Swin UNETR具有自监督的预训练，在BTCV多器官分割挑战和MSD挑战中实现了最先进的性能。特别是，通过结合多个公开数据集和解剖roi的多样性，展示了5050卷的大规模CT预训练。

MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
反向传播神经网络极简入门自信哥
单个神经元神经网络是多个“神经元”（感知机）的带权级联，神经网络算法可以提供非线性的复杂模型，它有两个参数：权值矩阵{Wl}和偏置向量{bl}，不同于感知机的单一向量形式，{Wl}是复数个矩阵，{bl}是复数个向量，其中的元素分别属于单个层，而每个层的组成单元，就是神经元。神经元神经网络是由多个“神经元”（感知机）组成的，每个神经元图示如下：这其实就是一个单层感知机，其输入是由和+1组成的向量，其
1.线性神经网络--线性回归温柔济沧海深度学习神经网络线性回归 python
1.1从零实现线性回归importrandomimporttorch#fromd2limporttorchasd2limportmatplotlib.pyplotaspltdeftrain_data_make(batch_size,X,y):num_examples=len(X)idx=list(range(num_examples))#生成0-999random.shuffle(idx)#样本需
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
跨平台ZeroMQ：在Rust中使用zmq库的完整指南涵树_fx 架构设计 Rust 实战 rust 开发语言后端
“消息就像神经元间的电信号，而ZeroMQ就是那个让系统思考的神经网络”——某个深夜调试zmq的程序员当你需要轻量级、高性能的进程间通信时，ZeroMQ就像代码世界里的瑞士军刀。今天我们一起探索如何在Rust生态中使用这把利器，感受它如何在不同操作系统间架起通信的桥梁。安装ZeroMQ：三大操作系统的通关秘籍Linux(Debian/Ubuntu)sudoaptupdatesudoaptinsta
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
使用 C++ 实现 MFCC 特征提取与说话人识别系统 whoarethenext c++开发语言 mfcc 语音识别
使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。本文将引导你了解如何使用C++库计算核心的音频特征——梅尔频率倒谱系数(MFCCs)，并进一步利用这些特征构建一个说话人识别（声纹识别）系统。Part1:在C/C++中计算MFCCs直接从零开始实现MFCC的所有计算
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
【机器学习笔记Ⅰ】13 正则化代价函数
正则化代价函数（RegularizedCostFunction）详解正则化代价函数是机器学习中用于防止模型过拟合的核心技术，通过在原始代价函数中添加惩罚项，约束模型参数的大小，从而提高泛化能力。以下是系统化的解析：1.为什么需要正则化？过拟合问题：当模型过于复杂（如高阶多项式回归、深度神经网络）时，可能完美拟合训练数据但泛化性能差。解决方案：在代价函数中增加对参数的惩罚，抑制不重要的特征权重。2.
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
网络安全相关专业总结（非常详细）零基础入门到精通，收藏这一篇就够了网络安全工程师教学兼职副业黑客技术网络安全 web安全安全人工智能网络运维
一、网络工程专业专业内涵网络工程是指按计划进行的以工程化的思想、方式、方法，设计、研发和解决网络系统问题的工程，一般指计算机网络系统的开发与构建。该专业培养具备计算机科学与技术学科理论基础，掌握网络技术领域专业知识和基本技能，在计算机、网络及人工智能领域的工程实践和应用方面受到良好训练，具有深厚通信背景、可持续发展、能力较强的高水平工程技术人才。学生可在计算机软硬件系统、互联网、移动互联网及新一代
OpenCV 图像操作：颜色识别、替换与水印添加
目录引言代码实现1.导入必要的库2.图像加法3.图像直接相加4.颜色加权加法5.HSV颜色空间转换概念作用6.查找颜色范围对应的像素点7.与运算-生成掩膜8.添加水印9.主函数总结引言在计算机视觉领域，OpenCV是一个强大的库，提供了丰富的图像操作功能。本文将详细介绍如何使用OpenCV进行图像加法、颜色加权加法、HSV颜色空间转换、颜色范围查找、与运算生成掩膜以及添加水印等操作，并给出相应的P
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
PyTorch 的 torch.nn 模块学习
torch.nn是PyTorch中专门用于构建和训练神经网络的模块。它的整体架构分为几个主要部分，每部分的原理、要点和使用场景如下：1.nn.Module原理和要点：nn.Module是所有神经网络组件的基类。任何神经网络模型都应该继承nn.Module，并实现其forward方法。使用场景：用于定义和管理神经网络模型，包括层、损失函数和自定义的前向传播逻辑。主要API和使用场景：__init__
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
《北京市加快推动“人工智能+医药健康“创新发展行动计划（2025-2027年）》深度解读
引言随着新一轮科技革命和产业变革的深入推进，人工智能技术与医药健康的深度融合已成为全球科技创新的重要方向。北京市于2025年7月正式发布《北京市加快推动"人工智能+医药健康"创新发展行动计划（2025-2027年）》，旨在充分发挥北京在人工智能技术策源、头部医疗资源汇聚、健康数据高度富集等方面的突出优势，构建形成"人工智能+医药健康"创新和应用并举的产业生态体系，打造具有国际影响力的创新策源地、应
李宏毅2025《机器学习》第四讲-Transformer架构的演进
Transformer架构的演进与替代方案：从RNN到Mamba的技术思辨Transformer作为当前AI领域的标准架构，其设计并非凭空而来，也并非没有缺点。本次讨论的核心便是：新兴的架构，如MAMA，是如何针对Transformer的弱点进行改进，并试图提供一个更优的解决方案的。要理解架构的演进，我们必须首先明确一个核心原则：每一种神经网络架构，都有其存在的技术理由。CNN（卷积神经网络）：为
「源力觉醒创作者计划」_文心大模型开源：开启 AI 新时代的大门小黄编程快乐屋人工智能
在人工智能的浩瀚星空中，大模型技术宛如一颗璀璨的巨星，照亮了无数行业前行的道路。自诞生以来，大模型凭借其强大的语言理解与生成能力，引发了全球范围内的技术变革与创新浪潮。百度宣布于6月30日开源文心大模型4.5系列，这一消息如同一颗重磅炸弹，在AI领域掀起了惊涛骇浪，其影响之深远，意义之重大，足以改写行业的发展轨迹。百度这次放大招，直接把文心大模型4.5开源了，这操作就像往国内AI圈子里空投了一个超
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
AI智能体原理及实践：从概念到落地的全链路解析 you的日常人工智能大语言模型人工智能机器学习深度学习神经网络自然语言处理
AI智能体正从实验室走向现实世界，成为连接人类与数字世界的桥梁。它代表了人工智能技术从"知"到"行"的质变，是能自主感知环境、制定决策、执行任务并持续学习的软件系统。在2025年，AI智能体已渗透到智能家居、企业服务、医疗健康、教育和内容创作等领域，展现出强大的生产力与创造力。然而，其发展也伴随着技术挑战、伦理困境和安全风险，需要从架构设计到落地应用的全链条思考与平衡。一、AI智能体的核心定义与技
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
深度学习篇---简单果实分类网络
下面我将提供一个使用Python从零实现果实分类模型的完整流程，包括数据准备、模型构建、训练和部署，不依赖任何深度学习框架，仅使用NumPy进行数值计算。1.数据准备与预处理首先需要准备果实图像数据集，将其分为好果和坏果两类，并进行预处理：importosimportnumpyasnpfromPILimportImagefromsklearn.model_selectionimporttrain_
YOLO学习笔记｜从YOLOv5到YOLOv11：技术演进与核心改进北斗猿 YOLO学习从零到1 YOLO 目标检测算法 python 计算机视觉
从YOLOv5到YOLOv11：技术演进与核心改进深度解析一、YOLO系列发展概述YOLO（YouOnlyLookOnce）目标检测算法自2016年诞生以来，凭借其"单次检测"的独特理念和卓越的实时性能，持续引领着计算机视觉领域的技术革新。从JosephRedmon的初代YOLO到AlexeyBochkovskiy的YOLOv4，再到Ultralytics团队的YOLOv5及后续系列，这一算法家族
Python深度学习：3步实现AI人脸识别，效果堪比专业软件！小筱在线 python 人工智能 python 深度学习
引言：AI人脸识别的时代已经到来在当今数字化时代，人脸识别技术已经从科幻电影走进了我们的日常生活。从手机解锁到机场安检，从银行身份验证到智能门禁系统，这项技术正以前所未有的速度改变着我们的生活方式。而令人振奋的是，借助Python和深度学习技术，普通人也能构建出专业级的人脸识别系统。本文将带领您通过三个关键步骤，使用Python深度学习技术实现一个准确率高达99%的人脸识别系统。这个系统不仅原理简
Teacher Forcing--------一种用于序列生成任务的训练技巧 AI扶我青云志自然语言处理人工智能
好的，我们来详细介绍一下TeacherForcing，这是一种在训练序列生成模型（如循环神经网络RNN、长短期记忆网络LSTM、门控循环单元GRU、以及后来的Transformer）时常用的重要技术。核心概念目标：训练一个模型，使其能够根据给定的输入序列（如前一个词、图像编码、时间步数据等）预测下一个输出元素（如下一个词、下一个音符、下一个时间点的值等）。这在机器翻译、文本摘要、对话生成、语音合成
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&