自动驾驶之心

大盘点！自动驾驶中基于Transformer的单目BEV感知

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

今天自动驾驶之心很荣幸邀请到Garfield，为大家分享自动驾驶中基于Transformer的单目BEV感知！如果您有相关工作需要分享，请在文末联系我们！

>>点击进入→自动驾驶之心【BEV感知】技术交流群

后台回复【3D检测综述】获取最新基于点云/BEV/图像的3D检测综述！

基于多视角摄像头的3D目标检测在鸟瞰图下的感知（Bird's-eye-view Perception, BEV Perception) 吸引了越来越多的注意力。一方面，将不同视角在BEV下统一与表征是很自然的描述，方便后续规划控制模块任务；另一方面，BEV下的物体没有图像视角下的尺度(scale)和遮挡(occlusion)问题。如何优雅的得到一组BEV下的特征描述，是提高检测性能的关键。量产级自动驾驶需要可扩展的三维世界推理。当自动驾驶汽车和其他交通代理在道路上移动时，大多数时候推理不需要考虑高度，使鸟瞰图 (Birds-Eye-View) 足以表示。

传统的自动驾驶堆栈的架构如上图所示

上图展示了一个传统的自动驾驶堆栈（为简单起见，此处省略了本地化等许多方面）。在此图中，圆圈代表功能模块，并根据它们所在的空间进行颜色编码。绿色模块出现在 2D 中，蓝色模块出现在 BEV 中。只有相机感知发生在 2D 空间中，或者更准确地说，是获取机载相机图像的透视空间。它依靠具有大量手工制作规则的传感器融合将 2D 检测提升到 3D，可选择借助雷达或激光雷达的 3D 测量。

在这里，之所以把这些东西定义为传统，至少有两个原因。首先，相机感知仍然发生在透视空间中，与最近的单目 3D 物体检测趋势相反，来自多模式传感器的结果以后期融合方式融合（与早期融合相反，早期融合将传感器数据输入神经网络以进行数据驱动关联和几何推理）。

BEV Perception的意义

对于相机感知，转向 BEV 将是非常有益的。首先，直接在 BEV 中执行相机感知可以直接与来自其他模式（例如雷达或激光雷达）的感知结果相结合，因为它们已经在 BEV 中表示和使用。BEV 空间中的感知结果也很容易被预测和规划等下游组件使用。其次，纯粹依靠手工制定的规则将 2D 观察提升到 3D 是不可扩展的。BEV 表示有助于过渡到早期融合pipelines，使融合过程完全由数据驱动。最后，在纯视觉系统（没有雷达或激光雷达）中，在 BEV 中执行感知任务几乎成为强制，因为在传感器融合中没有其他 3D 提示可用于执行此视图转换。

这里也推荐自动驾驶之心出品的BEV感知系列课程：卷感知还要看BEV！首个详细入门BEV感知的学习路线（纯视觉+多传感器融合）

单目BEV（Bird's Eye View）感知是指利用一台单独的摄像机来获取BEV图像，对车辆周围环境进行感知和理解。它是自动驾驶、智能辅助驾驶等领域中常用的感知方法之一，具有以下一些优点：

提供更全面的视角：相较于前置摄像头等单向摄像头的拍摄角度，单目BEV感知可以提供更全面的视角。因为它在顶部高处拍摄，能够捕捉到车辆周围更广阔的区域，并能够提供更多的特征信息，包括车辆、人行道、街道名称、草坪、游泳池等特征，而这些特征对于自主驾驶和场景理解非常重要。
提高辨识度：BEV图像能够对场景进行透视变换，将平面上的车辆或物体映射到图像上，从而提高了辨识度。并且相对于车辆摄像头等其他感知方法，BEV感知所获取的图像场景更为独特，因此具有较高的判别性。
降低成本：相对于使用多个摄像头的方法，单目BEV感知能够降低整个系统的成本。因为多个摄像头需要更多的硬件开销，并且需要进行多个摄像头间的图像校准和融合，增加了系统的复杂度和成本。
适用广泛：BEV相机拍摄的图像可以提供更全面的观察角度，因此被广泛应用于无人驾驶、自动驾驶、智能停车、交通管理等场景中。综上所述，单目BEV感知在自动驾驶领域中非常重要，具有提供全面视角、提高辨识度、降低系统成本等优点，随着计算机视觉技术的不断发展和进步，其应用范围和意义也将不断扩大和深入。

在过去的一年里，单目 BEV 感知主要出聚焦于以下三种方法：

IPM：这是基于平坦地面假设的简单基线。Cam2BEV 可能不是第一项这样做的工作，而是一项相当近期的相关工作。它使用 IPM 进行特征变换，并使用 CNN 校正不在 2D 路面上的 3D 物体的变形。
Lift-splat：在 BEV 上使用单深度估计和 splat 提升到 3D。这一趋势由 Lift-Splat-Shoot 发起，许多后续工作如 [BEV-Seg](https://arxiv.org/abs/ 2006.11436)、CaDDN 和 FIERY。
MLP：使用 MLP 对视图转换进行建模。主要的代表方法有VPN、Fishing Net、HDMapNet。
Transformers：使用基于自注意力的Transformer对视图转换进行建模。或者更具体地说，基于 cross-attention 的 transformer 模块。自 2020 年年中以来，并且至少到 2021 年底，Transformers 席卷了Computer Vision领域，这一趋势开始显示出最初attention。

在这篇评论博文中，我将重点关注最新的趋势——使用 Transformers 进行视图转换。

View transformation with Transformers

Transformers 的一般架构大家了解的一般也比较多了，因此我们在此不再重点介绍。由于global的attention机制，Transformers 更适合执行view转换的工作。目标的domain中的每个位置都具有相同的距离来访问源域中的任何位置，克服了 CNN 中卷积层局部受限的receptive fields。

Cross-attention vs self-attention

视觉Transformer是一种基于自注意力机制的神经网络模型，被广泛用于计算机视觉领域中的图像处理任务。与传统的卷积神经网络(CNNs)不同，视觉Transformer在不使用卷积操作的情况下对图像进行处理。

视觉Transformer模型由多个层次组成，每个层次都包括多头自注意力模块和前馈神经网络模块。自注意力模块是模型的核心组件，它能够自适应地关注输入的不同区域，并学习到区域之间的关系。前馈神经网络模块则用于对每个位置的特征进行非线性变换和扩展。

与传统的CNNs相比，视觉Transformer具有以下几个优点：

更好的全局视野：自注意力机制能够关注整个图像，而不是像卷积神经网络一样只能关注固定大小的局部区域。因此，视觉Transformer在处理图像中的长程依赖性问题时表现更好。
更好的可解释性：由于自注意力机制能够对不同位置之间的关系进行建模，因此视觉Transformer模型的特征映射可以被解释为输入图像中的不同部分之间的关系。这使得模型的预测结果更容易被理解和解释。
更好的灵活性：视觉Transformer模型可以适用于不同大小的输入图像，而不像卷积神经网络那样需要预定义的固定大小的卷积核。这使得视觉Transformer更适合处理尺寸不一的图像数据，如遥感图像和医学图像等。

目前，视觉Transformer已被应用于多个计算机视觉任务，如图像分类、目标检测和图像分割等。在许多任务中，视觉Transformer已经取得了与或超过传统CNNs的性能，并成为了计算机视觉领域中的研究热点之一。

Cross-attention is all you need

CV 中 Transformers 的许多最新进展实际上只利用了 self-attention 机制，例如被大量引用的 ViT（[An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale]（https ://arxiv.org/abs/2010.11929), ICLR 2021) 或 Swin Transformer (Hierarchical Vision Transformer using Shifted Windows, Arxiv 2021/03）。它们充当对骨干特征提取器的增强。然而，考虑到在大规模生产车辆上典型的资源受限嵌入式系统中部署通用 Transformer 架构的困难，self-attention 相对于得到良好支持的 CNN 的增量收益可能很难证明是合理的。在我们看到 self-attention 在 CNN 上的一些突破性优势之前，将 CNN 用于工业应用（例如量产自动驾驶）将是一个明智的选择。

另一方面，交叉注意力有更可靠的案例。将交叉注意力应用于计算机视觉的一项开创性研究是 DETR（End-to-End Object Detection with Transformers，ECCV 2020）。DETR 最具创新性的部分之一是基于称为对象查询的固定数量槽的交叉注意解码器。不同于原始的 Transformer 论文，其中每个查询被一个接一个地输入解码器（自动回归），这些查询被并行（同时）输入到 DETR 解码器中。查询的内容也是学习的，在训练前不必指定，除了查询的数量。这些查询可以看作是一个空白的、预先分配的模板来保存对象检测结果，交叉注意力解码器负责填充空白。

如上图所示，DETR 的 Cross-Attention Decoder 部分可以看作是一个跨域生成器 (source)

这激发了使用交叉注意力解码器进行视图转换的想法。输入视图被送入特征编码器（基于自注意力或基于 CNN），编码后的特征作为 K 和 V。目标视图格式的Q可以学习，只需要光栅化为Q 的值可以与网络的其余部分一起学习。

在接下来的介绍中，我们将回顾这方面的一些最相关的工作。

PYVA (CVPR 2021)

PYVA (Projecting Your View Attentively: Monocular Road Scene Layout Estimation via Cross-view Transformation, CVPR 2021) 是第一个明确提到交叉注意解码器可用于视图转换以将图像特征提升到 BEV 空间的人之一。与早期的单目 BEV 感知工作类似，PYVA 对转换后的 BEV 特征执行道路布局和车辆分割。

PYVA 首先使用 MLP 将透视空间中的图像特征 X 提升到（声称的）BEV 空间中的 X'。第二个 MLP 将 X' 映射回图像空间 X''，并使用 X 和 X'' 之间的循环一致性损失来确保此映射过程保留尽可能多的相关信息。PYVA使用的Transformer是一个cross-attention模块，query Q映射到BEV空间中的BEV特征X'，V和K都是透视空间中的输入X（如果我们忽略两者的区别 X 和 X”在透视空间中）。请注意，在 BEV 空间中没有对 X' 的显式监督，并且在 BEV 空间中受到下游任务损失的隐式监督。在 PYVA 中，似乎是 MLP 完成了 View Transform 的繁重提升，而在 BEV 中交叉注意力被用来增强提升的特征。然而，由于在 BEV 空间中没有对生成的查询的明确监督，从技术上讲，很难将这两个组件的贡献分开。对此进行消融研究有助于澄清这一点。

NEAT (ICCV 2021)

NEAT (Neural Attention Fields for End-to-End Autonomous Driving, ICCV 2021) 在使用基于 MLP 的迭代注意力将图像特征提升到 BEV 空间之前，使用 Transformers 增强图像特征空间中的特征。本文的目标是可解释的、高性能的、端到端的自动驾驶，但我们在这里只关注可解释的中间 BEV 表示的生成。

如上图所示NEAT的结构。Encoder 块中使用的 Transformer 是基于自注意力的。作者还承认，“可以在不改变输出维度的情况下从我们的编码器中移除转换器，但我们将其包括在内，因为它根据我们的消融研究提供了改进”。正如我们上面所讨论的，配备自注意力模块的编码器可以被视为一个美化的主干，它不是本研究的重点。

最有趣的部分发生在神经注意域 (NEAT) 模块中。对于给定的输出位置（x，y），MLP用于将输出位置和图像特征作为输入，生成与输入特征图像具有相同空间维度的注意力图。然后使用注意力图对原始图像特征进行点积，以生成给定输出位置的目标 BEV 特征。如果我们遍历所有可能的 BEV 网格位置，那么我们可以将 NEAT 模块的输出平铺到 BEV 特征图。

这个 NEAT 模块与交叉注意力机制非常相似。主要区别在于 Q 和 K 之间的相似性测量步骤被 MLP 取代。我们在这里忽略了其他一些次要细节，例如 Softmax 操作和值 V 的线性投影。在数学上，我们有以下用于 MLP、交叉注意力和 NEAT 的公式。

Decoder部分还使用 MLP 生成查询位置 (x, y) 的所需语义。如果我们将 NEAT 输出平铺到 BEV 特征图中，MLP 将特定位置的特征和位置坐标作为输入，相当于在 BEV 特征图上进行 1x1 卷积，将 (x, y) 连接到特征图 . 此操作与 CoordConv(NeurIPS 2018) 非常相似。这是将 BEV 特征图用于下游 BEV 感知任务的相当标准的做法。我们甚至可以超越 1x1 卷积，通过堆叠 3x3 卷积进一步提高性能，以增加 BEV 空间中的感受野。

总之，NEAT 使用交叉注意的变体（MLP 来代替相似性测量）将相机图像提升到 BEV 空间。

STSU (ICCV 2021)

STSU (Structured Bird’s-Eye-View Traffic Scene Understanding from Onboard Images, ICCV 2021) 遵循 DETR 的做法，使用稀疏查询进行对象检测。STSU 不仅可以检测动态物体，还可以检测静态道路布局。由于作者相同，本文follow了 BEV Feature Stitching 。

STSU 使用两组查询向量，一组用于中心线，一组用于对象。最有趣的是它对结构化道路布局的预测。车道分支包括几个预测头。

检测的head来预测是否存在由某个查询向量编码的车道。
控制的head来预测 R 贝塞尔曲线控制点的位置。
关联的head来预测用于聚类的嵌入向量。
关联分类器接受2个嵌入向量并判断中心线对是否关联。

贝塞尔曲线非常适合中心线，因为它允许我们使用固定数量的 2D 点对任意长度的曲线进行建模。这也是这份工作取得如此大成就的原因之一。

DETR3D (CoRL 2021)

DETR3D (3D Object Detection from Multi-view Images via 3D-to-2D Queries, CoRL 2021) 遵循 DETR 的做法，也使用稀疏查询进行对象检测。与 STSU 类似，但 DETR3D 侧重于动态对象。查询在 BEV 空间中，它们使 DETR3D 能够直接在 BEV 空间中操作预测，而不是对图像特征进行密集转换。

BEV 感知优于 mono3D 的一个优势是在相机重叠区域，在该区域中，对象更有可能被相机视野裁剪。Mono3D 方法必须根据来自每个摄像机视点的有限信息来预测每个摄像机中的裁剪对象，并依靠全局 NMS 来抑制冗余框。DETR3D 专门评估了图像边界处的此类裁剪对象（约占整个数据集的 9%），发现 DETR3D 比 mono3D 方法有显着改进。Tesla AI Day 也报道了这一点。

DETR3D 使用多种技巧来提高性能。首先是对象查询的迭代细化。本质上，BEV 中的 bbox 中心预测被重新投影回具有相机变换矩阵（内部和外部）的图像，并且对多相机图像特征进行采样和集成以优化查询。这个过程可以重复多次以提高性能。第二个技巧是使用预训练的 mono3D 网络主干来提高性能。对于基于 Transformers 的 BEV 感知网络，初始化似乎非常重要。

Translating Images into Maps (CVPR 2022)

Translating Images into Maps 注意到，无论图像像素的深度如何，图像中的垂直扫描线（图像列）与穿过 BEV 图中相机位置的极光之间存在 1–1 的对应关系。这类似于 OFT (BMVC 2019) 和 PyrOccNet (CVPR 2020) 的想法，其中沿投射回 3D 空间的射线在像素位置涂抹特征。

在列方向使用axial cross-attention Transformer，在行方向使用卷积，显着节省了计算量。

Tesla的方法

在 2021 年的 Tesla AI Day 上，Tesla 揭示了为 Tesla FSD 提供动力的神经网络的许多复杂内部工作原理。最有趣的构建块之一是一个被称为“图像到 BEV 变换 + 多相机融合”的构建块。这个块的中心是一个 Transformer 模块，或者更具体地说，是一个 cross-attention 模块。

虽然特斯拉提到他们用的是multi-headed self-attention，但是他描述的很明显是一个cross-attention机制，而且他slides右边的图表也指向了原来的cross-attention block。

这个视图转换中最有趣的部分是 BEV 空间中的查询。它是从 BEV 空间中的栅格（空白、预分配模板，如 DETR 中）生成的，并与位置编码 (PE) 连接。还有一个 Context Summary 与位置编码拼贴。该图没有显示上下文摘要是如何生成和与位置编码一起使用的细节，但我认为有一个全局池可以折叠透视空间中的所有空间信息，还有一个平铺操作可以将这个 1x1 张量平铺在预定义的BEV 网格。

Transformers和MLP的对比

在BEV任务中，Transformer和MLP是两种常用的网络结构。它们都可以用于实现对BEV图像的处理和特征提取，但具有不同的特点和适用场景。

Transformer是一种基于自注意力机制的网络结构，旨在处理序列数据，其主要优点是能够根据输入数据的内部关系来计算其特征表示。因此它非常适合处理具有明显空间结构的BEV图像数据。Transformer模型通常由多个encoder和decoder模块组成，每个模块都包含了多头自注意力和前向神经网络等子模块，可以对输入数据进行有效地编码和解码。此外，Transformer还具有较高的并行性，能够处理大规模的数据集。

MLP是多层感知机的缩写，通常用于处理结构化数据和图像数据。它通过一系列全连接层对输入数据进行非线性变换和处理，从而得到高层次的特征表示。相比之下，MLP的结构比较简单，但通常具有更高的表达能力。在BEV图像处理任务中，MLP可以作为特征提取器，从BEV图像中提取出关键的特征，同时还可以与其他结构（例如卷积层）结合使用，以更好地适应不同的任务需求。

总的来说，Transformer适用于处理具有明显空间结构的BEV图像数据，而MLP适用于提取高层次特征并与其他结构组合使用以适应不同的任务需求。

对于BEV的展望

随着自动驾驶技术的发展和普及，BEV（Bird's Eye View）将会变得越来越重要。BEV在自动驾驶中的应用将会越来越广泛，成为一个核心技术之一。通过BEV，车辆可以全方位地观察周围环境，更为精准地规划路线和行驶路径，并最终实现高度自动驾驶。同时，其精度和分辨率将会得到进一步提高。通过不断地改进计算机视觉技术、图像判断技术和深度学习算法，BEV技术将会更加精细和高分辨，能够提取更多的环境信息和细节。进一步的， BEV的智能的解析和理解将会得到更好的支持。随着自动驾驶技术的发展，系统对于环境信息的解析和理解能力需要不断提高。未来的BEV技术将会结合更多的智能科技，比如机器学习、人工智能等，以更好地理解和识别环境中的各种物体和障碍物。BEV技术的应用场景将会越来越多样化。BEV技术不仅可以应用于自动驾驶，还可以广泛应用于交通管制、城市管理、路况监控等领域。例如，在城市管理中，BEV技术可以用来监控城市道路建设和交通拥堵情况，为城市规划和交通调控提供数据支持。

BEV技术在未来将会得到广泛应用和发展，而随着核心技术的不断加强，它将会在自动驾驶领域等多个领域中发挥越来越重要的作用。

国内首个自动驾驶学习社区

近1000人的交流社区，和20+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向；

添加汽车人助理微信邀请入群

备注：学校/公司+方向+昵称

学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
计算机发展史：人工智能时代的智能变革与无限可能 jdlxx_dongfangxing 计算机发展史计算机发展史
在计算机发展的漫长进程中，人工智能时代的到来无疑是最具革命性的篇章之一。它使计算机从单纯的数据处理工具，进化为能够模拟、延伸和拓展人类智能的强大系统，对科学研究、经济发展、社会生活乃至人类文明的走向，都产生了深远且不可逆转的影响。从早期对智能机器的设想，到如今人工智能技术在全球范围内的广泛应用，这一领域经历了无数次理论突破、技术迭代与实践探索，正以前所未有的速度重塑着我们的世界。人工智能的起源与早
走进区块城市，开启你的元宇宙之旅！口碑信息传播者
随着科技的飞速发展，虚拟现实、区块链、人工智能等前沿技术逐渐融入我们的生活。在这个大背景下，元宇宙概念应运而生，成为全球关注的焦点。本文将带领读者走进区块城市，一探元宇宙的究竟，感受这个未来世界的魅力。探索未来，触碰无限可能！国内区块链元宇宙正引领一场前所未有的科技革命，现在正是您加入这场盛宴的最佳时机！在这里，您将亲身体验到一个全新的虚拟世界，感受与现实世界无缝对接的震撼体验。加入国内区块链元宇
AI人工智能领域知识图谱在文本分类中的应用技巧 AI天才研究院 AI大模型企业级应用开发实战人工智能知识图谱分类 ai
AI人工智能领域知识图谱在文本分类中的应用技巧关键词：知识图谱、文本分类、图神经网络、实体关系抽取、深度学习、自然语言处理、特征融合摘要：本文深入探讨了知识图谱在文本分类任务中的应用技巧。我们将从知识图谱的基本概念出发，详细分析如何将结构化知识融入传统文本分类流程，介绍最新的图神经网络方法，并通过实际案例展示知识增强型文本分类系统的构建过程。文章特别关注知识表示学习与文本特征的融合策略，以及在不同
大学专业科普 | 人工智能、物联网和云计算技术鸭鸭鸭进京赶烤人工智能物联网云计算 5G 信号处理信息与通信网络
一、专业概述人工智能专业是一门融合计算机科学、数学、信息学等多学科知识的交叉学科。它旨在培养学生掌握人工智能领域的基本理论、方法和技能，以应对人工智能在各个领域的应用需求和发展挑战。二、主要课程基础课程：包括高等数学、线性代数、概率论与数理统计、离散数学等数学基础课程，为人工智能算法提供理论支撑；以及数据结构、算法设计与分析、计算机组成原理、操作系统、计算机网络等计算机科学基础课程，帮助学生理解人
解读一个大学专业——信号与图像处理
专业定义与核心内容维度内容定义研究如何采集、处理、分析和理解一维信号（语音、雷达、脑电）和二维/三维图像（医学、遥感、工业视觉）。关键词数字信号处理（DSP）、图像处理、计算机视觉、模式识别、压缩感知、深度学习、GPU加速、嵌入式系统。技术栈MATLAB/Python+OpenCV/PyTorch+DSP/FPGA+GPU（CUDA）第五届先进算法与信号、图像处理国际学术会议（AASIP2025）
Pad Token技术原理与实现指南 Takoony AI
目录概述理论基础：第一性原理分析技术实现机制工程最佳实践性能优化策略常见问题与解决方案技术发展趋势附录1.概述1.1文档目的本文档旨在深入阐述深度学习中PadToken的技术原理、实现机制及工程应用，为算法工程师提供全面的理论指导和实践参考。1.2适用范围自然语言处理模型开发序列数据批处理优化深度学习系统架构设计高性能计算资源管理1.3核心问题研究问题:为什么深度学习模型需要将变长序列统一到固定长
深度学习分布式训练：并行策略与通信机制的系统性分析 Takoony 深度学习分布式人工智能
1.引言随着深度学习模型规模的指数级增长，单一计算设备已无法满足训练需求。以GPT-3为例，其1750亿参数在FP16精度下需要约350GB存储空间（每个参数2字节），远超当前主流GPU的显存容量（如NVIDIAA100的80GB）。根据OpenAI的技术报告[1]，即使使用最先进的硬件，单卡训练GPT-3需要355年。这一计算瓶颈催生了分布式训练技术的快速发展。本文将从理论基础出发，系统性地分析
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全苏柒 web安全计算机网络网络安全运维转业程序员编程
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
转行网络安全需要学什么？（非常详细）从零基础到精通，收藏这篇就够了！～小羊没烦恼～黑客技术黑客网络安全 web安全安全学习运维网络
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全k叔 web安全计算机网络网络安全编程计算机转业信息安全
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
「Tokens是胡扯」？Mamba作者炮轰Transformer，揭秘AI模型致命缺陷 | AI早报未来世界2099 AI日报人工智能 transformer 深度学习业界资讯
1、OpenAI疯狂挖角反击！Meta华人科学家+马斯克三员大将集体跳槽2、清华&NTU突破性研究：仅需2张图，AI即可重构3D空间认知3、极智嘉港股上市首日破发！清华系机器人公司市值153亿引关注4、星海图融资超1亿美金！美团、今日资本领投，估值暴涨3倍5、华人团队用RL打造AIAgent，种子轮狂揽1200万美元融资6、Skywork-R1V3.0震撼开源：高考数学142分，多学科推理能力直逼
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
MATLAB在工业缺陷检测中的应用
本文还有配套的精品资源，点击获取简介：缺陷检测、伤痕检测、瑕疵检测和划痕检测是工业自动化和质量控制中至关重要的环节，MATLAB作为一种高级编程环境，在图像处理和计算机视觉任务中扮演了重要角色。本文详细介绍了如何使用MATLAB实现这些检测过程，包括图像采集、预处理、特征提取和决策制定等步骤。通过介绍内置图像处理工具箱中的应用，色彩转换技术、边缘检测算法以及形态学操作等方法，我们阐述了如何识别和处
【缺陷检测】基于计算机视觉实现电路板智能检测系统附Matlab代码 matlab科研助手计算机视觉 matlab 人工智能
✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。往期回顾关注个人主页：Matlab科研工作室个人信条：格物致知,完整Matlab代码及仿真咨询内容私信。内容介绍随着信息技术的飞速发展和电子产品的日益普及，印刷电路板（PCB）作为电子产品的核心组件，其质量直接关系到整个系统的性能和可靠性。传统的电路板检测主要依赖人工目检，存在效率低下
Orange3实战教程：图像分析---图像嵌入 err2008 Orange3 实战教程数据挖掘神经网络自然语言处理机器学习计算机视觉深度学习 orange3中文版
图像嵌入通过深度神经网络实现图像嵌入。输入图像：图像列表。输出嵌入向量：用数字向量表示的图像。跳过的图像：未计算嵌入向量的图像列表。图像嵌入功能读取图像并将其上传至远程服务器或本地计算。深度学习模型用于为每张图像计算特征向量。该功能返回一个增强的数据表，包含额外的列（图像描述符）。图像可以通过导入图像小部件导入，也可以通过电子表格中的图像路径导入。在这种情况下，包含图像路径的列需要一个三行表头，第
宗毅说 | 乌卡瑟时代的生存思考裂变学院
今天，互联网经济、人工智能、全球化发展对我们的影响，要比我们想象得大得多。在多股合力的相互作用下，这个时代的社会特征、商业特征与之前相比显著不同，我称之为乌卡瑟“VUCASE”。备注：乌卡瑟（VUCASE）这个术语是我自创的，来自于乌卡(VUKA）。VUCA是Volatility(易变性)，Uncertainty(不确定性)，Complexity(复杂性)、Ambiguity（模糊性）这四个英文单
[论文阅读] 人工智能 + 软件工程 | 单会话方法论：一种以人类为中心的人工智能辅助软件开发协议张较瘦_ 前沿技术论文阅读人工智能软件工程
单一对话法（SCM）：AI辅助软件开发的“全局对话”新思路SingleConversationMethodology:AHuman-CenteredProtocolforAI-AssistedSoftwareDevelopmentarXiv:2507.12665SingleConversationMethodology:AHuman-CenteredProtocolforAI-AssistedSo
Hadoop与图像识别与处理 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Hadoop与图像识别与处理作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在大数据时代，数据的爆炸性增长对数据处理技术提出了新的挑战。图像数据作为一种重要的数据形式，其处理和分析在许多领域中具有重要意义，如医疗影像分析、自动驾驶、安防监控等。然而，传统的图像处理方法在面对海量图像数据时显得力不从心。Hadoop作为一种分
如何安全使用人工智能大模型
人工智能大模型的安全漏洞在推送，你只要有不一样的解决方案他就会通过学习学会，在别人讨论相同问题时，就会作为解决问题的推荐方案。这种机制是没办法防的。鉴于此我们只能采取如下措施:1.绝对本地部署，就是部署好以后断网，因为你使用时他还是会手机数据往后台传送，我本地部署的大模型在推理时看性能，网络也是有数据流的。也不知道在交换什么。2.既然搞不清楚那就彻底不相信，断网。那么我们要加快进度，快速完成任务，
PyTorch生成式人工智能（18）——循环神经网络详解与实现盼小辉丶 pytorch rnn 自然语言处理
PyTorch生成式人工智能（18）——循环神经网络详解与实现0.前言1.文本生成的挑战2.循环神经网络2.1文本数据2.2循环神经网络原理3.长短期记忆网络3.自然语言处理基础3.1分词3.2词嵌入3.3词嵌入在自然语言处理中的应用小结系列链接0.前言我们已经学习了如何生成数字和图像等内容。从本节开始，我们将主要聚焦于文本生成。人类语言极其复杂且充满细微差别，不仅仅涉及语法和词汇的理解，还包括上
【人工智能99问】卷积神经网络（CNN）的结构和原理是什么？(10/99)
文章目录卷积神经网络（CNN）的结构及原理一、CNN的核心结构1.输入层（InputLayer）2.卷积层（ConvolutionalLayer）2.卷积层的核心机制：局部感受野与权值共享3.池化层（PoolingLayer）4.全连接层（FullyConnectedLayer）5.输出层（OutputLayer）6.辅助层二、CNN的工作原理三、CNN的使用场景1.计算机视觉（最核心场景）2.其
Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring 论文阅读钟屿论文阅读计算机视觉人工智能
用于动态场景去模糊的深度多尺度卷积神经网络摘要针对一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题，因为模糊不仅来源于多个物体运动，还来源于相机抖动和场景深度变化。为了去除这些复杂的运动模糊，传统的基于能量优化的方法依赖于简单的假设，例如模糊核是部分均匀或局部线性的。此外，最近的基于机器学习的方法也依赖于在这些假设下生成的合成模糊数据集。这使得传统的去模糊方法在模糊核难以近似或参数化的
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成 YOLO实战营深度学习 YOLO ui 人工智能目标检测计算机视觉
1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
【人工智能艺术革命：科技灵感与艺术创新的交融纪元】陈辰学长人工智能科技
【人工智能艺术革命：科技灵感与艺术创新的交融纪元】在21世纪的科技浪潮中，人工智能（AI）作为一股不可忽视的力量，正以前所未有的速度渗透并重塑着我们的生活、工作乃至艺术创作领域。其中，AI绘画作为科技与艺术深度融合的产物，不仅挑战了传统艺术的边界，更开启了一个充满无限想象与可能的新时代。本文将从AI绘画的定义与发展历程、技术原理、对艺术创作的影响、面临的挑战与机遇以及未来展望等多个维度，深入探讨这
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
智能体学习记录一罗同学213 学习
智能体是什么智能体（IntelligentAgent）是一种能够感知周围环境、自主决策并执行行动以实现特定目标的智能化系统或程序。它可以是软件（如聊天机器人）、硬件（如机器人），或两者结合的实体，核心特征包括：自主性：无需人工实时干预，独立运行（如自动驾驶车辆避障）。反应性：实时感知环境变化并快速响应（如智能家居调节温度）。目标导向：基于预设目标优化行动（如推荐系统最大化用户点击率）。学习能力：通
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo