Amusi（CVer）

当Transformer遇见U-Net！

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

作者：Amusi | 来源：CVer

前言

留给Transformer + U-Net 组合命名的缩写不多了...

之前盘点了目前已公开的5篇MICCAI 2021上的Transformer+医学图像分割的工作，详见：Transformer一脚踹进医学图像分割！看5篇MICCAI 2021有感

没想到大家这么喜欢这篇文章，收藏量高的可怕...

那么本文将盘点Tranformer + U-Net组合的论文工作，其中Transformer作为大热的发论文神器，U-Net作为医学图像分割的霸主，两者碰撞已然成为目前医学图像分割领域研究的大热点。

一、TransUNet：用于医学图像分割的Transformers强大编码器

TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation

作者单位：JHU, 电子科大, 斯坦福大学等

代码：https://github.com/Beckschen/TransUNet

论文：https://arxiv.org/abs/2102.04306

一句话总结：同时具有Transformers和U-Net的优点，表现SOTA！性能优于AttnUNet、V-Net等网络，代码刚刚开源！

医学图像分割是开发医疗保健系统（尤其是疾病诊断和治疗计划）的必要先决条件。在各种医学图像分割任务中，U形架构（也称为U-Net）已成为事实上的标准，并取得了巨大的成功。但是，由于卷积运算的固有局部性，U-Net通常在明确建模远程依赖关系方面显示出局限性。设计用于序列到序列预测的transformer已经成为具有先天性全局自注意力机制的替代体系结构，但由于low-level细节不足，可能导致定位能力受到限制。

在本文中，我们提出了TransUNet，它同时具有Transformers和U-Net的优点，是医学图像分割的强大替代方案。

一方面，Transformer将来自卷积神经网络（CNN）特征图的标记化图像块编码为提取全局上下文的输入序列。另一方面，解码器对编码的特征进行上采样，然后将其与高分辨率的CNN特征图组合以实现精确的定位。

我们认为，借助U-Net的组合，通过恢复localized 空间信息，可以将Transformers用作医学图像分割任务的强大编码器。TransUNet在各种医疗应用（包括多器官分割和心脏分割）上均比各种竞争方法具有更高的性能。

二、MedT：用于医学图像分割的Transformer

Medical Transformer: Gated Axial-Attention for Medical Image Segmentation

代码（已开源）：

https://github.com/jeya-maria-jose/Medical-Transformer

论文：https://arxiv.org/abs/2102.10662

一句话总结：表现SOTA！并提出局部-全局训练策略(LoGo)，进一步提高性能，优于Res-UNet、U-Net++等网络，代码刚刚开源！作者单位：JHU, 新泽西州立大学

在过去的十年中，深度卷积神经网络已被广泛用于医学图像分割，并显示出足够的性能。但是，由于卷积架构中存在固有的inductive biases，因此他们对图像中的远程依存关系缺乏了解。最近提出的利用自注意力机制的基于Transformer的体系结构对远程依赖项进行编码，并学习高度表达的表示形式。

这促使我们探索基于Transformer的解决方案，并研究将基于Transformer的网络体系结构用于医学图像分割任务的可行性。提出用于视觉应用的大多数现有的基于Transformer的网络体系结构都需要大规模的数据集才能正确地进行训练。但是，与用于视觉应用的数据集相比，对于医学成像而言，数据样本的数量相对较少，从而难以有效地训练用于医学应用的Transformer。

为此，我们提出了Gated Axial-Attention模型，通过在自注意力模块中引入附加的控制机制来扩展现有体系结构。

此外，为了有效地在医学图像上训练模型，我们提出了局部-全局训练策略（LoGo），可以进一步提高性能。

具体来说，我们对整个图像和patch进行操作以分别学习全局和局部特征。在三个不同的医学图像分割数据集上对提出的Medical Transformer（MedT）进行了评估，结果表明，与基于卷积和其他基于transformer的其他架构相比，它具有更好的性能。

三、SpecTr：用于高光谱病理图像分割的光谱Transformer

SpecTr: Spectral Transformer for Hyperspectral Pathology Image Segmentation

作者单位：华东师范, JHU, 上海交大

代码：https://github.com/hfut-xc-yun/SpecTr

论文：https://arxiv.org/abs/2103.03604

一句话总结：表现SOTA！性能优于UNet++、Attn UNet等网络，代码即将开源！

高光谱成像（HSI）为依赖于高精度病理图像分割的各种应用（例如计算病理学和精密医学）释放了巨大的潜力。由于高光谱病理图像甚至可以从可见光谱中受益于丰富而详细的光谱信息，因此实现高精度高光谱病理图像分割的关键是沿高光谱光谱带对背景进行建模。

受Transformer强大的上下文建模能力的启发，我们在此首次将跨光谱带的上下文特征学习公式化为高光谱病理图像分割，作为transformer的逐序列预测程序。

为了辅助频谱上下文学习过程，我们引入了两个重要的策略：

（1）稀疏方案使学习的上下文关系变得稀疏，从而消除了对冗余频带的干扰；

（2）频谱归一化，即每个频谱带的单独组归一化，减轻了由频带的不均匀底层分布引起的麻烦。

我们将我们的方法命名为Spectral Transformer（SpecTr），它具有两个好处：

（1）具有对光谱带之间的长期依赖性建模的强大能力，

（2）它共同探索了HSI的空间光谱特征。

实验表明，在高光谱病理图像分割基准测试中，SpecTr优于其他竞争方法，而无需进行预训练。

四、TransBTS：基于Transformer的多模态脑肿瘤分割

TransBTS: Multimodal Brain Tumor Segmentation Using Transformer

作者单位：北京科技大学, 北卡等

代码：https://github.com/Wenxuan-1119/TransBTS

论文：https://arxiv.org/abs/2103.04430

一句话总结：我们提出了在3D CNN中利用Transformer进行3D MRI脑肿瘤分割的首次尝试：TransBTS，与TransUNet不同的是，本网络基于3D CNN，可一次处理image slices，表现SOTA！优于Attention U-Net、V-Net等，代码刚刚开源！

可以受益于使用自注意力机制进行全局（远程）信息建模的Transformer最近在自然语言处理和2D图像分类中获得了成功。但是，局部和全局特征对于密集的预测任务至关重要，尤其是对于3D医学图像分割而言。

在本文中，我们首次利用3D CNN中的Transformer进行MRI脑肿瘤分割，并提出了一种基于编码器-解码器结构的新型网络TransBTS。

为了捕获本地3D上下文信息，编码器首先使用3D CNN提取体积空间特征图。同时，对用于映射tokens的特征图进行了精心的改进，这些tokens被馈送到Transformer中进行全局特征建模。解码器利用Transformer嵌入的功能并执行渐进式上采样以预测详细的分割图。

BraTS 2019数据集上的实验结果表明，TransBTS优于3D MRI扫描中脑肿瘤分割的最新方法。

五、U-Net Transformer：用于医学图像分割的自注意力和交叉注意力

U-Net Transformer: Self and Cross Attention for Medical Image Segmentation

作者单位：法国国立工艺学院等

论文：https://arxiv.org/abs/2103.06104

一句话总结：U-Transformer 可还行！使用自注意力和交叉注意力模块来建模远程交互和空间依赖性，性能优于Attn U-Net等网络。

对于复杂和低对比度的解剖结构，医学图像分割仍然特别具有挑战性。在本文中，我们介绍了U-Transformer网络，该网络将U形结构与来自Transformers的自注意力和交叉注意力相结合，用于图像分割。

U-Transformer克服了U-Net无法建模远程上下文交互和空间依赖性的问题，这对于在具有挑战性的上下文中进行精确分割至关重要。为此，注意力机制在两个主要级别上合并：自注意模块利用编码器特征之间的全局交互，而跳跃连接中的交叉注意力通过滤除非语义来实现U-Net解码器中的精细空间恢复特征。

在两个腹部CT图像数据集上进行的实验表明，与U-Net和local Attention U-Net相比，U-Transformer带来了巨大的性能提升。我们还强调了同时使用自注意力和交叉注意力的重要性，以及U-Transformer带来的出色的可解释性功能。

六、UNETR：用于3D医学图像分割的Transformer

UNETR: Transformers for 3D Medical Image Segmentation

作者单位：NVIDIA

论文：https://arxiv.org/abs/2103.10504

一句话总结：将3D医学图像分割任务重新设计为1D 序列到序列的预测问题，表现SOTA！性能优于SegResNet、Att-UNet等网络，

近年来，具有收缩路径和扩展路径（例如，编码器和解码器）的全卷积神经网络（FCNN）在各种医学图像分割应用中表现出突出的地位。在这些体系结构中，编码器通过学习全局上下文表示形式扮演着不可或缺的角色，而全局上下文表示形式将被解码器进一步用于语义输出预测。尽管取得了成功，但作为FCNN的主要构建模块的卷积层的局限性限制了在此类网络中学习远程空间相关性的能力。

受自然语言处理（NLP）Transformer在远程序列学习中的最新成功的启发，我们将volumetric（3D）医学图像分割的任务重新设计为序列到序列的预测问题。特别是，我们介绍了一种称为UNEt TRansformers（UNETR）的新颖体系结构，该体系结构使用纯Transformers作为编码器来学习输入量的序列表示并有效地捕获全局多尺度信息。

转换器编码器通过不同分辨率的跳跃连接直接连接到解码器，以计算最终的语义分割输出。

我们已经使用医学分割MSD数据集广泛验证了我们提出的模型在不同成像方式（即MR和CT）上对体积脑肿瘤和脾脏分割任务的性能，并且我们的结果始终证明了良好的基准。

七、Swin-Unet：Unet形状的纯Transformer的医学图像分割

Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation

单位：慕尼黑工业大学, 复旦大学, 华为(田奇等人)

代码：https://github.com/HuCaoFighting/Swin-Unet

论文：https://arxiv.org/abs/2105.05537

一句话总结：首个基于纯Transformer的U-Net形的医学图像分割网络，其中利用Swin Transformer构建编码器、bottleneck和解码器，表现SOTA！性能优于TransUnet、Att-UNet等，代码即将开源！

在过去的几年中，卷积神经网络（CNN）在医学图像分析中取得了里程碑式的进展。尤其是，基于U形架构和跳跃连接的深度神经网络已广泛应用于各种医学图像任务中。但是，尽管CNN取得了出色的性能，但是由于卷积操作的局限性，它无法很好地学习全局和远程语义信息交互。

在本文中，我们提出了Swin-Unet，它是用于医学图像分割的类似Unet的纯Transformer。

标记化的图像块通过跳跃连接被馈送到基于Transformer的U形En-Decoder架构中，以进行局部全局语义特征学习。具体来说，我们使用带有偏移窗口的分层Swin Transformer作为编码器来提取上下文特征。

并设计了具有patch扩展层的基于对称Swin Transformer的解码器来执行上采样操作，以恢复特征图的空间分辨率。在对输入和输出进行4倍的直接下采样和上采样的情况下，对多器官和心脏分割任务进行的实验表明，基于纯Transformer的U形编码器/解码器网络优于那些全卷积或者Transformer和卷积的组合。

八、DS-TransUNet：医学图像分割的双Swin Transformer U-Net

DS-TransUNet:Dual Swin Transformer U-Net for Medical Image Segmentation

作者单位：哈工大（深圳）

论文：https://arxiv.org/abs/2106.06716

一句话总结：将Swin Transformer作为编码器、解码器，再引入U型设计结构，表现SOTA！性能优于TransFuse、PraNet和FANet等网络。

得益于深度学习的发展，自动医学图像分割取得了长足的进步。然而，现有的大多数方法都基于卷积神经网络（CNN），由于卷积运算中感受野的限制，无法建立远程依赖关系和全局上下文连接。受到 Transformer 在对远程上下文信息建模的成功启发，一些研究人员在设计基于 Transformer 的 U-Net 的强大变体方面付出了相当大的努力。此外，视觉Transformer中使用的patch划分通常会忽略每个patch内部的像素级内在结构特征。

为了缓解这些问题，我们提出了一种称为双 Swin Transformer U-Net (DS-TransUNet) 的新型深度医学图像分割框架，这可能是首次尝试将分层 Swin Transformer 的优点同时纳入标准的编码器和解码器U 形架构，以提高不同医学图像的语义分割质量。

与许多先前基于 Transformer 的解决方案不同，所提出的 DS-TransUNet 首先采用基于 Swin Transformer 的双尺度编码器子网络来提取不同语尺度的粗粒度和细粒度特征表示。作为我们 DS-TransUNet 的核心组件，我们提出了一个精心设计的 Transformer Interactive Fusion (TIF) 模块，通过自注意力机制有效地建立不同尺度特征之间的全局依赖关系。

此外，我们还将 Swin Transformer 块引入解码器，以在上采样过程中进一步探索远程上下文信息。跨越四个典型医学图像分割任务的大量实验证明了 DS-TransUNet 的有效性，并表明我们的方法明显优于最先进的方法。

九、UTNet：用于医学图像分割的混合Transformer架构

UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation

作者单位：罗格斯大学等

论文：https://arxiv.org/abs/2107.00781

一句话总结：表现SOTA！性能优于ResUNet等网络。

Transformer 架构已经在许多自然语言处理任务中取得成功。然而，它在医学视觉中的应用在很大程度上仍未得到探索。

在这项研究中，我们提出了 UTNet，这是一种简单而强大的混合 Transformer 架构，它将自注意力集成到卷积神经网络中，以增强医学图像分割。

UTNet 在编码器和解码器中应用自注意力模块，以最小的开销捕获不同规模的远程依赖。为此，我们提出了一种有效的自注意力机制以及相对位置编码，将自注意力操作的复杂性从 O(n2) 显著降低到近似 O(n)。还提出了一种新的自注意力解码器，以从编码器中跳过的连接中恢复细粒度的细节。

我们的方法解决了 Transformer 需要大量数据来学习视觉归纳偏差的困境。我们的混合层设计允许在不需要预训练的情况下将 Transformer 初始化为卷积网络。我们已经在多标签、multi-vendor 心脏磁共振成像队列上评估了 UTNet。UTNet 展示了对最先进方法的卓越分割性能和鲁棒性，有望在其他医学图像分割上很好地泛化。

十、PNS-Net：用于视频息肉分割的渐进归一化自注意力网络

Progressively Normalized Self-Attention Network for Video Polyp Segmentation

作者单位：IIAI, 武汉大学, SimulaMet

论文：https://arxiv.org/abs/2105.08468

代码：https://github.com/GewelsJI/PNS-Net

一句话总结：表现SOTA！性能优于PraNet、ResUNet等网络。

现有的视频息肉分割 (VPS) 模型通常采用卷积神经网络 (CNN) 来提取特征。然而，由于其有限的感受野，CNNs 不能充分利用连续视频帧中的全局时间和空间信息，导致假阳性分割结果。

在本文中，我们提出了新颖的 PNS-Net（渐进归一化自注意力网络），它可以在单个 RTX 2080 GPU 上以实时速度（~140fps）有效地从息肉视频中学习表示，无需后处理。

我们的 PNS-Net 完全基于基本的归一化自注意力块，完全配备了递归和 CNN。在具有挑战性的 VPS 数据集上进行的实验表明，所提出的 PNS-Net 实现了最先进的性能。我们还进行了大量实验来研究通道拆分、软注意力和渐进式学习策略的有效性。我们发现我们的 PNS-Net 在不同的设置下运行良好，使其成为 VPS 任务的一个有前途的解决方案。

上述10篇医学图像分割论文下载
后台回复：医学图像分割，即可下载上述论文PDF
CVPR和Transformer资料下载

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集
后台回复：Transformer综述，即可下载最新的两篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手，可申请加入CVer-Transformer 微信交流群，方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注：研究方向+地点+学校/公司+昵称（如Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群
▲长按加小助手微信，进交流群▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

AI原生应用中的用户画像构建：从理论到实践全解析
AI原生应用中的用户画像构建：从理论到实践全解析关键词：用户画像、AI原生应用、特征工程、机器学习、个性化推荐、数据隐私、模型优化摘要：本文全面解析AI原生应用中用户画像构建的全过程，从基础概念到核心技术，再到实际应用和未来趋势。我们将用通俗易懂的方式讲解用户画像如何像"数字身份证"一样工作，深入探讨特征提取、模型构建等关键技术，并通过实际案例展示用户画像在推荐系统、精准营销等场景中的应用。文章还
阴谋爆仓！社科院课堂朱民ST-balance节能风电被骗揭秘！受害者亲述不能出金真相！正义青天
随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁。因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局若你也不幸被骗遇到此类平台一定不要打草惊蛇，早期不
人工神经网络的拓扑结构,神经网络的神经元结构快乐的小蓝猫神经网络深度学习人工智能 rnn
bp神经网络BP（BackPropagation）网络是1986年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。BP神经
Deepoc大模型重构核工业智能基座：混合增强架构与安全增强决策技术 Deepoch 人工智能创业创新科技自动化学习
面向复杂系统的高可靠AI赋能体系构建Deepoc大模型通过多维度技术突破，显著提升核工业知识处理与决策可靠性。经核能行业验证，其生成内容可验证性提升68%，关键参数失真率99.999%）。动态可信度评估系统：基于贝叶斯神经网络实时量化模型不确定性，为关键决策提供置信度评分（如堆芯功率控制置信区间±0.05%）。二、核心突破：物理增强型智能算法创新机理与数据双驱动建模神经微分方程求解器：将中子输运方
对标ChatGPT，「文心一言」今日亮相！AI人机时代来临，未来在何方？ AI医学
本文由「AI医学er」提供医海无涯，AI同舟。关注我们，助力高效科研。3月15日，OpenAI公布了其大型语言模型的最新版本——GPT-4。3月16日，百度文心一言人工智能聊天机器人正式上线。一个时代开始了。OpenAI在官网表示，GPT-4是一个能接受图像和文本输入，并输出文本的多模态模型，是OpenAI在扩展深度学习方面的最新成果。此前的ChatGPT，只能通过向其输入文字提问才能生成文字回答
旋转目标检测：Deep Spatial Feature Transformation for Oriented Aerial Object Detection【方法解析】沉浸式AI 《AI与SLAM论文解析》人工智能计算机视觉旋转目标检测
DeepSpatialFeatureTransformationforOrientedAerialObjectDetection目录DeepSpatialFeatureTransformationforOrientedAerialObjectDetection摘要关键词引言相关工作旋转对齐模块特征对齐方法旋转对齐模块特征选择模块摘要航空图像中的目标检测在计算机视觉领域引起了广泛关注。不同于自然图像
飞算科技：以原创技术为翼，赋能产业数字化转型
在数字经济浪潮席卷全球的当下，一批专注于技术创新的中国企业正加速崛起，飞算数智科技（深圳）有限公司（简称“飞算科技”）便是其中的佼佼者。作为一家国家级高新技术企业，飞算科技以自主创新为核心驱动力，凭借互联网科技、大数据、人工智能等前沿技术，为各行业客户插上数字化转型的翅膀。飞算科技的定位清晰而坚定——自主创新型数字科技公司。这一定位不仅体现在其技术研发的方向上，更融入到为客户服务的每一个环节。无论
警惕!北恒私募高级班周一丰，马建军不正规。不让出金,不能提现,大家远离骗局! 昌龙律法
随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁。因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局，广大市民对此要提高警惕，若你也不幸被骗遇到此类平
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
计算机发展史：人工智能时代的智能变革与无限可能 jdlxx_dongfangxing 计算机发展史计算机发展史
在计算机发展的漫长进程中，人工智能时代的到来无疑是最具革命性的篇章之一。它使计算机从单纯的数据处理工具，进化为能够模拟、延伸和拓展人类智能的强大系统，对科学研究、经济发展、社会生活乃至人类文明的走向，都产生了深远且不可逆转的影响。从早期对智能机器的设想，到如今人工智能技术在全球范围内的广泛应用，这一领域经历了无数次理论突破、技术迭代与实践探索，正以前所未有的速度重塑着我们的世界。人工智能的起源与早
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
走进区块城市，开启你的元宇宙之旅！口碑信息传播者
随着科技的飞速发展，虚拟现实、区块链、人工智能等前沿技术逐渐融入我们的生活。在这个大背景下，元宇宙概念应运而生，成为全球关注的焦点。本文将带领读者走进区块城市，一探元宇宙的究竟，感受这个未来世界的魅力。探索未来，触碰无限可能！国内区块链元宇宙正引领一场前所未有的科技革命，现在正是您加入这场盛宴的最佳时机！在这里，您将亲身体验到一个全新的虚拟世界，感受与现实世界无缝对接的震撼体验。加入国内区块链元宇
AI人工智能领域知识图谱在文本分类中的应用技巧 AI天才研究院 AI大模型企业级应用开发实战人工智能知识图谱分类 ai
AI人工智能领域知识图谱在文本分类中的应用技巧关键词：知识图谱、文本分类、图神经网络、实体关系抽取、深度学习、自然语言处理、特征融合摘要：本文深入探讨了知识图谱在文本分类任务中的应用技巧。我们将从知识图谱的基本概念出发，详细分析如何将结构化知识融入传统文本分类流程，介绍最新的图神经网络方法，并通过实际案例展示知识增强型文本分类系统的构建过程。文章特别关注知识表示学习与文本特征的融合策略，以及在不同
大学专业科普 | 人工智能、物联网和云计算技术鸭鸭鸭进京赶烤人工智能物联网云计算 5G 信号处理信息与通信网络
一、专业概述人工智能专业是一门融合计算机科学、数学、信息学等多学科知识的交叉学科。它旨在培养学生掌握人工智能领域的基本理论、方法和技能，以应对人工智能在各个领域的应用需求和发展挑战。二、主要课程基础课程：包括高等数学、线性代数、概率论与数理统计、离散数学等数学基础课程，为人工智能算法提供理论支撑；以及数据结构、算法设计与分析、计算机组成原理、操作系统、计算机网络等计算机科学基础课程，帮助学生理解人
解读一个大学专业——信号与图像处理
专业定义与核心内容维度内容定义研究如何采集、处理、分析和理解一维信号（语音、雷达、脑电）和二维/三维图像（医学、遥感、工业视觉）。关键词数字信号处理（DSP）、图像处理、计算机视觉、模式识别、压缩感知、深度学习、GPU加速、嵌入式系统。技术栈MATLAB/Python+OpenCV/PyTorch+DSP/FPGA+GPU（CUDA）第五届先进算法与信号、图像处理国际学术会议（AASIP2025）
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全苏柒 web安全计算机网络网络安全运维转业程序员编程
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
万字长文，解读大模型技术原理（非常详细）零基础入门到精通，收藏这一篇就够了
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的发展历程出发，对大模型领域的各个技术细节进行详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。一、大模型的定义大语言模型作为一个被验证可行的方向，其“大”体现在训练数据集广，模型参数和层数大，计算量大，其价值体现在通用性上，并且有更好的泛化能力。这些模型通常由深度神经网络构建而成，拥有数十亿甚至数千亿个参数。大模型的设
转行网络安全需要学什么？（非常详细）从零基础到精通，收藏这篇就够了！～小羊没烦恼～黑客技术黑客网络安全 web安全安全学习运维网络
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全k叔 web安全计算机网络网络安全编程计算机转业信息安全
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
从零开始构建AI原生应用的认知架构 AI原生应用开发 AI-native 架构 ai
从零开始构建AI原生应用的认知架构关键词：AI原生应用、认知架构、机器学习、知识图谱、神经网络、智能决策、系统设计摘要：本文深入探讨如何从零开始构建AI原生应用的认知架构。我们将从基本概念出发，逐步解析认知架构的核心组件，包括知识表示、推理机制和学习能力等。通过生动的比喻和实际代码示例，帮助读者理解如何设计一个能够模拟人类认知过程的AI系统。文章还将介绍当前最先进的认知架构模型，并展望未来发展趋势
MATLAB在工业缺陷检测中的应用
本文还有配套的精品资源，点击获取简介：缺陷检测、伤痕检测、瑕疵检测和划痕检测是工业自动化和质量控制中至关重要的环节，MATLAB作为一种高级编程环境，在图像处理和计算机视觉任务中扮演了重要角色。本文详细介绍了如何使用MATLAB实现这些检测过程，包括图像采集、预处理、特征提取和决策制定等步骤。通过介绍内置图像处理工具箱中的应用，色彩转换技术、边缘检测算法以及形态学操作等方法，我们阐述了如何识别和处
【缺陷检测】基于计算机视觉实现电路板智能检测系统附Matlab代码 matlab科研助手计算机视觉 matlab 人工智能
✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。往期回顾关注个人主页：Matlab科研工作室个人信条：格物致知,完整Matlab代码及仿真咨询内容私信。内容介绍随着信息技术的飞速发展和电子产品的日益普及，印刷电路板（PCB）作为电子产品的核心组件，其质量直接关系到整个系统的性能和可靠性。传统的电路板检测主要依赖人工目检，存在效率低下
Orange3实战教程：图像分析---图像嵌入 err2008 Orange3 实战教程数据挖掘神经网络自然语言处理机器学习计算机视觉深度学习 orange3中文版
图像嵌入通过深度神经网络实现图像嵌入。输入图像：图像列表。输出嵌入向量：用数字向量表示的图像。跳过的图像：未计算嵌入向量的图像列表。图像嵌入功能读取图像并将其上传至远程服务器或本地计算。深度学习模型用于为每张图像计算特征向量。该功能返回一个增强的数据表，包含额外的列（图像描述符）。图像可以通过导入图像小部件导入，也可以通过电子表格中的图像路径导入。在这种情况下，包含图像路径的列需要一个三行表头，第
宗毅说 | 乌卡瑟时代的生存思考裂变学院
今天，互联网经济、人工智能、全球化发展对我们的影响，要比我们想象得大得多。在多股合力的相互作用下，这个时代的社会特征、商业特征与之前相比显著不同，我称之为乌卡瑟“VUCASE”。备注：乌卡瑟（VUCASE）这个术语是我自创的，来自于乌卡(VUKA）。VUCA是Volatility(易变性)，Uncertainty(不确定性)，Complexity(复杂性)、Ambiguity（模糊性）这四个英文单
[论文阅读] 人工智能 + 软件工程 | 单会话方法论：一种以人类为中心的人工智能辅助软件开发协议张较瘦_ 前沿技术论文阅读人工智能软件工程
单一对话法（SCM）：AI辅助软件开发的“全局对话”新思路SingleConversationMethodology:AHuman-CenteredProtocolforAI-AssistedSoftwareDevelopmentarXiv:2507.12665SingleConversationMethodology:AHuman-CenteredProtocolforAI-AssistedSo
如何安全使用人工智能大模型
人工智能大模型的安全漏洞在推送，你只要有不一样的解决方案他就会通过学习学会，在别人讨论相同问题时，就会作为解决问题的推荐方案。这种机制是没办法防的。鉴于此我们只能采取如下措施:1.绝对本地部署，就是部署好以后断网，因为你使用时他还是会手机数据往后台传送，我本地部署的大模型在推理时看性能，网络也是有数据流的。也不知道在交换什么。2.既然搞不清楚那就彻底不相信，断网。那么我们要加快进度，快速完成任务，
PyTorch生成式人工智能（18）——循环神经网络详解与实现盼小辉丶 pytorch rnn 自然语言处理
PyTorch生成式人工智能（18）——循环神经网络详解与实现0.前言1.文本生成的挑战2.循环神经网络2.1文本数据2.2循环神经网络原理3.长短期记忆网络3.自然语言处理基础3.1分词3.2词嵌入3.3词嵌入在自然语言处理中的应用小结系列链接0.前言我们已经学习了如何生成数字和图像等内容。从本节开始，我们将主要聚焦于文本生成。人类语言极其复杂且充满细微差别，不仅仅涉及语法和词汇的理解，还包括上
【人工智能99问】卷积神经网络（CNN）的结构和原理是什么？(10/99)
文章目录卷积神经网络（CNN）的结构及原理一、CNN的核心结构1.输入层（InputLayer）2.卷积层（ConvolutionalLayer）2.卷积层的核心机制：局部感受野与权值共享3.池化层（PoolingLayer）4.全连接层（FullyConnectedLayer）5.输出层（OutputLayer）6.辅助层二、CNN的工作原理三、CNN的使用场景1.计算机视觉（最核心场景）2.其
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep

当Transformer遇见U-Net！

你可能感兴趣的:(卷积,神经网络,计算机视觉,机器学习,人工智能)