自动驾驶之心

超全 | 基于纯视觉Multi-Camera的3D感知方法汇总！

近两年，基于纯视觉BEV方案的3D目标检测备受关注，all in one方式，确实能将基于camera的3D检测算法性能提升一大截，甚至直逼激光雷达方案，这次整理了领域中一些备受关注的multi-camera bev纯视觉感知方案，包括DETR3D、BEVDet、ImVoxelNet、PETR、BEVFormer、BEVDepth、BEVDet4D、BEVerse等！

1.DETR3D（CoRL 2021）

DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

在自动驾驶的环视相机图像中做3D目标检测是一个棘手的问题，比如怎么去从单目相机2D的信息中预测3D的物体、物体形状大小随离相机远近而变化、怎么融合各个不同相机之间的信息、怎么去处理被相邻相机截断的物体等等。

将Perspective View转化为BEV表征是一个很好的解决方案，主要体现在以下几个方面：

BEV是一个统一完整的全局场景的表示，物体的大小和朝向都能直接得到表达；
BEV的形式更容易去做时序多帧融合和多传感器融合；
BEV更有利于目标跟踪、轨迹预测等下游任务。

DETR3D是21年非常经典的多视角图像3D目标检测工作，论文介绍了一种多camera三维目标检测框架。与直接从单目图像估计3D box或使用深度预测网络从2D信息生成3D目标检测输入数据的现有工作不同，论文的方法直接在3D空间中操纵预测。DETR3D从多个camera图像中提取2D特征，然后使用稀疏的3D对象查询集索引到这些2D特征，使用相机变换矩阵将3D位置链接到多视图图像。最后，模型对每个对象查询进行边界框预测，使用一个set-to-set的损失来计算GT和预测之间的差异。这种自顶向下的方法优于自底向上的方法，其中对象边界框预测遵循逐个像素深度估计，因为它不受深度预测模型引入的复合误差的影响。此外，DETR3D不需要后处理，如非最大值抑制，大大提高了推理速度，在nuScenes基准上实现了SOTA！

如上图所示，object queries是类似DETR那样，即先随机生成 M个bounding box，类似先生成一堆anchor box，只不过这里的box是会被最后的loss梯度回传的。（蓝线）然后通过一个子网络，来对query预测一个三维空间中的参考点 cℓi （实际上就是3D bbox的中心）。通过角标我们可以看出，这个操作是layer-wise、query-wise的。绿线利用相机参数，将这个3D参考点反投影回图像中，找到其在原始图像中对应的位置。黄线从图像中的位置出发，找到其在每个layer中对应的特征映射中的部分。红线利用多头注意力机制，将找出的特征映射部分对queries进行refine。这种refine过程是逐层进行的，理论上，更靠后的layer应该会吸纳更多的特征信息。（黑色虚线框之后）得到新的queries之后，再通过两个子网络分别预测bounding box和类别，然后就进入loss部分，性能提升如下图所示：

2.BEVDet（2021）

High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

自主驾驶感知周围环境进行决策，这是视觉感知中最复杂的场景之一。在解决2D目标检测任务方面的成功创新激励领域寻求一种优雅、可行和可扩展的范式，从根本上推动该领域的性能边界。为此，论文贡献了BEVDet范式，BEVDet在鸟瞰图（BEV）中执行3D对象检测，其中定义了大多数目标值，并且可以方便地执行路线规划。论文仅仅重用现有的模块来构建其框架，但通过构建独占数据增强策略和升级非最大抑制策略来大幅提高其性能。在实验中，BEVDet在精度和时间效率之间提供了一个很好的平衡。作为一个fast版本，BEVDet Tiny在nuScenes val集上的mAP和NDS得分分别为31.2%和39.2%。它与FCOS3D相当，但只需要11%的计算预算，即215.3 GFLOPs，并以15.6 FPS的速度运行（9.2倍）。另一个被称为BEVDet的高精度版本的基础分数为39.3%的mAP和47.2%的NDS，大大超过了所有公布的结果。在相当的推理速度下，它大大超过FCOS3D，+9.8%的mAP和+10.0%的NDS。BEVDet整体结构如下所示：

如上所示，BEVDet采用模块化设计，由四个模块组成：图像视图编码器，包括主干（Resnet+swin-transformer）和neck（FPN-LSS），首先用于图像特征提取，视图转换器将特征从图像视图转换为BEV（网络将图像视图特征作为输入，并通过分类方式密集预测深度。然后，分类分数和导出的图像视图特征用于渲染预定义的点云。最后，可以通过沿垂直方向（即，如上图示的Z坐标轴）应用汇集操作来生成BEV特征）。BEV编码器进一步编码BEV特征。最后，基于BVE特征构建任务特定头部，并预测3D对象的目标值。下图为各个模块的详细参数！

BEVDet在nuscenes上的性能对比如下：

3.ImVoxelNet（WACV 2022）

Image to Voxels Projection for Monocular and Multi-View General-Purpose 3D Object Detection

论文基于多视图RGB的3D对象检测任务引入端到端优化问题，为了解决这个问题，提出了ImVoxelNet，这是一种新的基于单视点或多视点RGB图像的三维目标检测的全卷积方法。在训练和推理期间，每个多视图输入中的单目图像的数量可以变化；实际上，对于每个多视图输入，这个数字可能是唯一的。ImVoxelNet成功地处理了室内和室外场景，这使其具有通用性。在RGB图像的所有方法中，它在KITTI（单目）和nuScenes（多视图）基准上实现了最先进的机动车检测结果。而且,在SUN RGB-D数据集上优于现有的基于RGB的3D对象检测方法。在ScanNet上，ImVoxelNet为多视图3D对象检测设定了新的基准。ImVoxelNet网络结构如下所示：

论文的方法接受一组任意大小的RGB输入以及相机姿态。首先使用2D卷积主干从给定图像中提取特征，然后将获得的图像特征投影到三维体素体。对于每个体素，来自多个图像的投影特征通过简单的元素平均聚合。接下来，将具有指定特征的体素体积传递到称为颈部的3D卷积网络。颈部的输出用作最后几个卷积层（头部）的输入，预测每个锚的边界框特征。生成的边界框被参数化为（x，y，z，w，h，l，θ），其中（x，y，z）是中心坐标，w，h，l表示宽度、高度和长度，θ是围绕z轴的旋转角。

针对户外场景，论文将3D目标检测重新表述为BEV平面中的2D对象检测，遵循常规做法。使用了在KITTI和nuScenes数据集上似乎有效的2D anhcor-head。由于室外3D检测方法是在汽车上评估的，因此所有物体都具有相似的尺度，属于同一类别。对于单尺度和单类检测，Head由两个平行的二维卷积层组成。一层估计类概率，而另一层回归边界框的七个参数。

针对室内场景：论文提出现代室内3D对象检测方法都对稀疏点云表示执行深度霍夫投票，相反，论文使用中间特征的密集体素表示。据我们所知，没有用于3D对象检测的密集3D多尺度头部。受二维检测方法FCOS的启发，论文构建了这样的头部。原始FCOS头部接受来自FPN的2D特征，并通过2D卷积层估计2D边界框，为了使FCOS适用于3D检测，将2D卷积替换为3D卷积来处理3D输入。遵循FCOS和ATSS，应用中心采样来选择候选对象位置。在这些工作中，选择了9名（3×3）候选目标；由于论文在3D空间中操作，将每个对象的候选位置限制为27个（3×3×3）。生成的头部由三个三维卷积层组成，分别用于分类、定位和中心度，权重在所有对象尺度上共享。

室外性能对比分析：

室内性能对比分析：

4.PETR（ECCV2022）

Position Embedding Transformation for Multi-View 3D Object Detection

看到了孙剑老师，致敬！！！

PETR开发了用于多视图3D对象检测的位置嵌入变换（PETR）。PETR将3D坐标的位置信息编码为图像特征，产生3D位置感知特征，对象查询可以感知3D位置感知特征并执行端到端对象检测。PETR在标准nuScenes数据集上实现了最先进的性能（50.4%的NDS和44.1%的mAP），并在基准测试中排名第一。它可以作为未来研究的简单而有力的基线。整体结构如下所示：

PETR中多视图图像被输入到主干网络（ResNet）以提取多视图2D图像特征。在3D坐标生成器中，所有视图共享的相机截头体空间被离散化为3D网格。网格坐标由不同的摄像机参数变换，从而生成三维世界空间中的坐标。然后将2D图像特征和3D坐标注入所提出的3D位置编码器以生成3D位置感知特征。从查询生成器生成的对象查询通过与transformer解码器中的3D位置感知特征交互来更新，更新的查询还用于预测3D边界框和对象类。Nuscenes上结果对比如下所示：

5.BEVFormer（ECCV 2022 ）

BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

3D视觉感知任务，包括基于多摄像机图像的3D检测和地图分割，对于自动驾驶系统至关重要。BEVFormer提出了一个新的框架，它使用时空transformer学习统一的BEV表示，以支持多个自主驾驶感知任务。BEVFormer通过预定义的网格形状的BEV查询与空间和时间空间交互，利用空间和时间信息。为了聚合空间信息，论文设计了空间cross-attention，每个BEV查询从摄像机视图的感兴趣区域提取空间特征。对于时间信息，提出了时间self-attention来递归地融合历史BEV信息。BEVFormer在nuScenes测试集上实现了新的最先进的NDS度量56.9%，比以前的最佳技术高9.0个点，与基于激光雷达的基线性能相当。论文进一步表明，在低能见度条件下，BEVFormer显著提高了速度估计的准确性和目标的召回率。BEVFormer网络结构如下：

其中：（a） BEVFormer的编码器层包含网格形状的BEV查询、时间self-attention和空间cross-attention。（b）在空间cross-attention中，每个BEV查询仅与感兴趣区域中的图像特征交互。（c）在时间self-attention中，每个BEV查询与两个特征交互：当前时间戳的BEV查询并且BEV特征在先前的时间戳。

因为BEV具有Bt∈ H×W×C的通用2D特征图，可用于各种自动驾驶感知任务，3D目标检测和地图分割任务头可基于2D感知方法开发，只需稍加修改。对于3D目标检测，论文设计了基于2D检测器可变形DETR的端到端3D检测头。修改包括使用单尺度BEV特征Bt作为解码器的输入，预测3D边界框和速度，使用L1损失来监督3D边界框回归。除此之外，该检测头可以端到端预测3D边界框和速度，而无需NMS后处理。对于地图分割，论文设计了基于二维分割方法全景分割器的地图分割头。由于基于BEV的地图分割与普通语义分割基本相同，论文利用掩码解码器和类固定查询来针对每个语义类别，包括汽车、车辆、道路（可驾驶区域）和车道。

nuscenes测试集上性能对比：

6.BEVDepth（arxiv2022）

BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection

BEVDepth提出了一种新的具有可信深度估计的3D对象检测器，称为BEVDepth，用于基于camera的鸟瞰视图（BEV）3D目标检测。通过对最近方法的深入分析，论文发现深度估计是在没有摄像机信息的情况下隐式学习的。BEVDepth利用编码的内在和外在参数获得显式深度监控，进一步引入深度校正子网络，以抵消深度地面真相中的投影诱导干扰。为了减少使用估计深度将特征从图像视图投影到BEV时的速度瓶颈，论文提出了一种快速视图变换操作。此外，BEVDepth可以很容易地扩展多帧输入。BEVDeph在具有挑战性的nuScenes测试集上实现了最新的60.0%NDS，同时保持了高效率。camera和激光雷达之间的性能差距首次在10%的NDS内大幅缩小！！模型网络结构如下所示：

上一次划时代的性能增长来自于BEVDet4D和BEVFormer提出的时序建模，在mAP和mAVE指标上取得显著突破。这次BEVDepth通过优化深度估计，在mAP上取得了显著突破！整体精度已经逼近基于点云算法，但由于大家用的高分辨率和大模型，在推理速度方面还有很大的提升空间！论文的创新点主要有以下几个部分：

论文利用LiDAR对深度估计进行监督，使得深度估计结果接近LiDAR精度，下图显示了优化前后depth性能对比：

深度的预测和context分离，并使用使用额外的Resnet block增加区分度，如下如图所示：

引入相机参数作为深度估计的先验，通过类SE的方式对输入特征进行调整，如上图所示！除此之外，还优化了Voxel Pooling，论文将多个视角的feature集成到最终的BEV feature上。一般就是把Bev Feature分成多个grid，然后把落在相应位置上的截头圆锥体feature累加起来。论文把每个feature放到CUDA的一个线程上来加速。

BEVDepth还可以应用到sequence modeling上，如下图所示：

BEVdepth在nuscene上的性能对比：

7.BEVDet4D（2022)

BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection

单帧数据包含有限的信息，这限制了现有基于视觉的多camera 3D目标检测范式的性能。为了从根本上推动这一领域的性能边界，论文提出了一种称为BEVDet4D的新范式，将可伸缩BEVDet范式从仅3D空间提升到时空4D空间。论文升级了朴素BEVDet框架，只做了一些修改，将前一帧中的特征与当前帧中的相应特征融合。这样，在可忽略的额外计算预算的情况下，使BEVDet4D能够通过查询和比较两个候选特征来访问时间线索。除此之外，通过去除学习目标中的ego-motion和时间因素来简化速度预测任务。因此，具有鲁棒泛化性能的BEVDet4D将速度误差降低了高达-62.9%。这使得基于视觉的方法首次在这方面与依赖激光雷达或雷达的方法相比较。在基准nuScenes上，论文报告了54.5%的NDS的新记录，其高性能配置被称为BEVDet4D Base，超过了之前领先的方法BEVDet Base+7.3%的NDS。BEVDet4D网络结构如下图所示：

BEVDet4D 在BEVDet基础上添加了少量的改动，以最大限度地保持原有范式的优雅性，主要的目的是完成两帧BEV特征的融合。具体而言就是把前一帧的BEV特征根据自车的运动信息进行特征在世界坐标系中的对齐，融合时使用的是最简单的特征Concat。这里其实是把真正的特征融合推理过程留给BEV Encoder来完成。下图为Nuscenes验证集上的性能：速度和精度权衡！

8.BEVerse

BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving

论文提出了一个基于多camera系统的三维感知和预测的统一框架BEVerse。与专注于改进单任务方法的现有研究不同，BEVerse在从多camera视频中生成时空鸟瞰图（BEV）表示以及联合推理以视觉为中心的自动驾驶的多任务方面具有优势。BEVerse首先执行共享特征提取和提升，以从多时间戳和多视图图像生成4D BEV表示。在自运动对准之后，空间-时间编码器被用于BEV中的进一步特征提取。最后，附加多个任务解码器用于联合推理和预测。在解码器中，论文提出了网格采样器，用于为不同任务生成具有不同范围和粒度的BEV特征。此外，还设计了用于记忆有效未来预测的迭代流方法。论文表明，时间信息改善了3D对象检测和语义图构建，而多任务学习可以隐式地有利于运动预测。通过在nuScenes数据集上的大量实验，多任务BEVerse在3D目标检测、语义地图构建和运动预测方面优于现有的单任务方法。模型整体结构如下图所示：

相比于其它SOTA方法，BEVerse在nuscenes上的表现：

基于均值偏移算法的动态目标跟踪研究 Zoiny_楠算法均值算法目标跟踪
摘要：目标跟踪技术是计算机视觉领域中重要研究课题之一,在人类生活、军事侦察、工业生产、医疗诊断、交通管理等多方面,都有广泛的应用,研究目标跟踪对人类生活、工程应用等具有现实的指导意义。在基于视觉的目标跟踪算法中,经典的Mean-Shift算法以其理论科学有效、操作简单易实现,跟踪性能较好等优势,一直是众多学者研究的热点。可算法也存在着许多缺陷。例如目标模型中混有背景信息的干扰,给目标定位带来了偏差
SpringBoot生态全景图：从SpringCloud到云原生技术栈演进 fanxbl957 Web spring boot spring cloud 云原生
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot生态全景图：从S
利用大数据领域Doris提升企业数据决策效率大数据洞察大数据网络 ai
利用大数据领域Doris提升企业数据决策效率关键词：大数据、Doris、企业数据决策、数据处理、效率提升摘要：本文围绕利用大数据领域的Doris来提升企业数据决策效率展开。首先介绍了背景，包括目的、预期读者、文档结构和相关术语。接着阐述了Doris的核心概念、架构以及与其他系统的联系。详细讲解了Doris的核心算法原理和具体操作步骤，并给出Python代码示例。同时介绍了相关的数学模型和公式。通过
燕大《Python机器学习》实验报告：探索机器学习的奥秘温冰礼
燕大《Python机器学习》实验报告：探索机器学习的奥秘【下载地址】燕大Python机器学习实验报告下载这份实验报告是燕山大学软件工程专业的学生在进行机器学习实验时所编写的，内容详实，结构清晰，可以直接下载使用。报告中的实验数据和代码均经过验证，确保下载后可以直接应用于实际项目或作为学习参考项目地址:https://gitcode.com/Open-source-documentation-tut
（转）优秀的 python 机器学习库 patrick75 python 机器学习 python 机器学习
优秀的python机器学习库IntroductionThereisnodoubtthatneuralnetworks,andmachinelearningingeneral,hasbeenoneofthehottesttopicsintechthepastfewyearsorso.It’seasytoseewhywithallofthereallyinterestinguse-casestheys
day39 心落薄荷糖 Python训练营 python
#先继续之前的代码importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库，
DAY 10 机器学习建模与评估心落薄荷糖 Python训练营机器学习人工智能
知识点：1.数据集的划分2.机器学习模型建模的三行代码3.机器学习模型分类问题的评估今日代码比较多，但是难度不大，仔细看看示例代码，好好理解下这几个评估指标。作业：尝试对心脏病数据集采用机器学习模型建模和评估#一、导入库importpandasaspdimportpandasaspd#用于数据处理和分析，可处理表格数据。importnumpyasnp#用于数值计算，提供了高效的数组操作。impor
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
Python机器学习元学习库higher 音程机器学习人工智能 python 机器学习
higher是一个用于元学习（Meta-Learning）和高阶导数（Higher-ordergradients）的Python库，专为PyTorch设计。它扩展了PyTorch的自动微分机制，使得在训练过程中可以动态地计算参数的梯度更新，并把这些更新过程纳入到更高阶的梯度计算中。一、主要用途higher主要用于以下场景：元学习（Meta-Learning）比如MAML（Model-Agnosti
基于迁移学习的ResNet50模型实现石榴病害数据集多分类图片预测深度学习乐园深度学习实战项目迁移学习分类人工智能
完整源码项目包获取→点击文章末尾名片！番石榴病害数据集背景描述番石榴（Psidiumguajava）是南亚的主要作物，尤其是在孟加拉国。它富含维生素C和纤维，支持区域经济和营养。不幸的是，番石榴生产受到降低产量的疾病的威胁。该数据集旨在帮助开发用于番石榴果实早期病害检测的机器学习模型，帮助保护收成并减少经济损失。数据说明该数据集包括473张番石榴果实的注释图像，分为三类。图像经过预处理步骤，例如钝
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
解锁阿里云E-MapReduce：大数据处理的超能力秘籍云资源服务商阿里云云计算人工智能云原生
一、引言在数字化浪潮汹涌澎湃的当下，大数据已然成为推动各行业创新发展的核心驱动力。从电商平台精准的个性化推荐，到金融机构严密的风险评估，再到医疗领域高效的疾病预测，大数据的应用场景无处不在，深刻地改变着我们的生活与工作方式。在这片充满机遇与挑战的大数据领域中，阿里云E-MapReduce宛如一颗璀璨的明星，占据着举足轻重的地位。它凭借强大的大数据处理能力、卓越的性能表现以及丰富的功能特性，为企业和
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
探秘阿里云Tair KVCache：大模型推理的加速引擎云资源服务商阿里云云计算人工智能
一、引言近年来，人工智能领域发展迅猛，大语言模型（LLM）不断取得突破，其应用场景也日益广泛。从智能客服到内容生成，从智能写作到智能翻译，大语言模型正在深刻地改变着我们的生活和工作方式。随着模型规模的不断扩大和推理需求的日益增长，大模型推理过程中的显存瓶颈问题逐渐凸显，成为制约其发展和应用的关键因素。在大模型推理中，KVCache技术作为一种优化手段，通过缓存历史Token的Key/Value向量
AI正在偷偷取代这10种职业，你的工作安全吗？
近年来，人工智能（AI）的飞速发展正在悄然改变我们的工作方式。从自动化客服到AI生成内容，许多传统职业正面临被取代的风险。虽然AI带来了更高的效率和便利，但也让不少人开始担忧：我的工作会被AI抢走吗？今天，我们就来盘点10种最容易被AI取代的职业，并探讨如何在这个AI时代保持竞争力。1.客服代表取代指数：★★★★★AI驱动的聊天机器人（如ChatGPT、GoogleBard）已经能够处理大部分基础
直播预告！探讨生成模型中的极简概念擦除青稞社区. 青稞Talk 人工智能图像处理
主页：http://qingkeai.online/原文：https://mp.weixin.qq.com/s/yc4whKbnVY8ho1w7rgFVGg6月16日20:00，青稞Talk第55期，新加坡国立大学博士生张扬，将直播分享《生成模型中的极简概念擦除》。分享嘉宾张扬，慕尼黑工业大学计算机专业硕士，新加坡国立大学人工智能专业博士。曾于牛津大学进行学术访问，并在微软亚洲研究院及美国运通新加
机器学习5——非参数估计平和男人杨争争山东大学机器学习期末复习机器学习概率论算法
非参数估计在参数估计中我们已经提到，想要估计后验概率P(ωi∣x)=p(x∣ωi)p(ωi)p(x)P\left(\omega_i\midx\right)=\frac{p\left(x\mid\omega_i\right)p\left(\omega_i\right)}{p(x)}P(ωi∣x)=p(x)p(x∣ωi)p(ωi)，就需要估计类条件概率p(x∣ωi)p\left(x\mid\omega
机器学习4——参数估计之贝叶斯估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能
贝叶斯估计问题建模：后验概率公式：P(ωi∣x,D)=P(x∣ωi,Di)P(ωi)∑j=1cP(x∣ωj,Dj)P(ωj)P\left(\omega_i\mid\mathbf{x},\mathcal{D}\right)=\frac{P\left(\mathbf{x}\mid\omega_i,\mathcal{D}_i\right)P\left(\omega_i\right)}{\sum_{j=1
【DeepSeek实战】3、Ollama实战指南：LobeChat+多网关架构打造高可用大模型集群无心水 Ollama实战指南 LobeChat实战 DeepSeek实战 DeepSeek全栈应用开发 AI入门大模型 CSDN技术干货
一、企业级大模型集群架构全景解析在人工智能落地应用的过程中，大模型服务的高可用性、成本控制和灵活扩展能力成为企业关注的核心痛点。本方案通过LobeChat前端、AI网关层和Ollama模型集群的三层架构设计，实现了无需复杂运维即可部署的生产级大模型服务体系。该架构不仅支持负载均衡、故障转移和模型热切换等企业级特性。还通过量化技术将硬件成本降低60%以上，为中小企业提供了与商业云服务相当的性能体验。
生成式人工智能实战 | 深度卷积生成对抗网络（Deep Convolutional Generative Adversarial Network, DCGAN）盼小辉丶生成式人工智能实战150讲人工智能生成对抗网络神经网络
生成式人工智能实战|深度卷积生成对抗网络0.前言1.模型与数据集分析1.1模型分析1.2数据集介绍2.构建DCGAN生成人脸图像2.1数据处理2.2模型构建2.3模型训练0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)是基于生成对抗网络(ConvolutionalGenerativeAdversarialNet
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
机器学习3——参数估计之极大似然估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能算法
参数估计问题背景：P(ωi∣x)=p(x∣ωi)P(ωi)p(x)p(x)=∑j=1cp(x∣ωj)P(ωj)\begin{aligned}&P\left(\omega_i\mid\mathbf{x}\right)=\frac{p\left(\mathbf{x}\mid\omega_i\right)P\left(\omega_i\right)}{p(\mathbf{x})}\\&p(\mathbf
2024年AI 智能助手（大模型）产品市场分析｜商派徐礼昭｜商派软件市场负责人人工智能
一、引言人工智能的浪潮不断向前推进，智能助手作为其中的重要应用，已经逐渐渗透到我们生活的各个方面。它们以其便捷性和个性化的特点，改变了我们与世界的互动方式。本报告将对AI智能助手进行全面的行业分析，包括行业概况、主要玩家、用户数据、发展要素以及未来趋势等方面，并通过具体案例分享，帮助读者深入了解这一领域的现状和未来发展潜力。二、行业概览（一）智能助手的定义和发展阶段智能助手是利用人工智能技术为用户
基于OpenCv的图片倾斜校正系统详细设计与具体代码实现 AI大模型应用之禅人工智能数学基础计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于OpenCv的图片倾斜校正系统详细设计与具体代码实现1.背景介绍1.1图像处理的重要性在当今数字时代,图像处理技术在各个领域都扮演着重要角色。无论是在计算机视觉、模式识别、医学影像、遥感探测还是多媒体处理等领域,图像处理都是不可或缺的核心技术。通过对图像进行预处理、增强、分割、特征提取等操作,可以从图像中获取有价值的信息,为后续的分析和决策提供支持。1.2图像倾斜问题及其影响在实际应用中,由于
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出