点云PCL公众号博客

occNeRF：使用神经辐射场进行多摄像头自监督占据预测

文章：OccNeRF: Self-Supervised Multi-Camera Occupancy Prediction with Neural Radiance Fields

作者：Chubin Zhang, Juncheng Yan , Yi Wei ,Jiaxin Li, Li Liu, Yansong Tang , Yueqi Duan, Jiwen Lu

编辑：点云PCL

欢迎各位加入知识星球，获取PDF论文，欢迎转发朋友圈。文章仅做学术分享，如有侵权联系删文。

摘要

作为基于视觉感知的基本任务，3D占据预测重建周围环境的3D结构，它为自动驾驶规划和导航提供详细信息。然而大多数现有方法严重依赖于LiDAR点云生成占据的地面真实性，而这在基于视觉的系统中是不可用的。本文提出了一种用于自监督多摄像头占据预测的OccNeRF方法，与有界的3D占据标签不同，需要考虑带有原始图像监督的无界场景。为了解决这个问题，我们对重建的占据场进行参数化并重新组织采样策略。采用神经渲染将占据场转换为多摄像头深度图，通过多帧光度一致性进行监督。此外对于语义占据预测，我们设计了几种策略来优化提示并过滤经过预训练的开放词汇2D分割模型的输出。在nuScenes数据集上进行的自监督深度估计和语义占据预测任务的大量实验证明了我们方法的有效性。代码开源

https://github.com/LinShan-Bin/OccNeRF。

图1. OccNeRF的概述，为了表示无界场景提出了一个参数化坐标，将无限空间缩小到有界的占据场。在不使用任何注释标签的情况下，利用时间光度约束和预训练的开放词汇分割模型来提供几何和语义监督。

主要贡献

本文提出了一种OccNeRF方法，旨在进行自监督的多摄像头占据预测。首先利用2D主干提取多摄像头的2D特征，为了节省内存，直接插值2D特征以获取3D体积特征，而不是使用繁重的跨视图注意力。在先前的工作中，体积特征由有界占据标签（例如50米范围）监督，它们只需以有限分辨率预测占据情况。不同的是对于自监督训练，我们应考虑无界场景，因为RGB图像感知的范围是无限的。为此对占据场进行参数化以表示无界环境。具体而言，将整个3D空间分为内部和外部区域。内部区域保持原始坐标，而外部区域采用收缩坐标。此外，设计了一种特定的采样策略，以将参数化的占据场转换为具有神经渲染的多摄像头深度图。

监督预测占据的一种直接方式是计算渲染图像与训练图像之间的损失，这与NeRF中使用的损失函数相同。不幸的是实验结果显示这种方式效果不佳。相反利用时间光度损失作为监督信号。为更好地利用时间线索，我们执行多帧光度约束。对于语义占据，提出了三种策略将类别名称映射到提示，这些提示被馈送到预训练的开放词汇分割模型以获取2D语义标签。然后使用额外的语义信息来渲染语义图像，并由这些标签进行监督。为验证我们方法的有效性，在进行了自监督的多摄像头深度估计和语义占据预测任务的实验证明。实验结果显示，我们的OccNeRF在nuScenes数据集上相对其他深度估计方法表现优异，并且在与一些全监督占据方法相比实现了可比较的性能。

内容概述

概述

图2展示了我们方法的流程。使用多相机图像作为输入，我们首先利用2D主干提取 N 个相机的特征。然后将2D特征插值到3D空间以获取具有已知内参和外参的体素特征。为了表示无界场景，本文提出了一个坐标参数化来将无限范围缩小到有限的占据场。体素渲染用于将占据场转换为多帧深度图，这些深度图通过光度损失进行监督，最后将展示了我们如何使用预训练的开放词汇分割模型获取2D语义标签。

图2. OccNeRF的流程，首先使用2D主干提取多相机特征，然后将其插值到3D空间以获取体素特征。通过参数化的占据场对场景进行重建以描述无界场景。为了获取渲染的深度和语义图，我们使用重新组织的采样策略执行体素渲染，多帧深度通过光度损失进行监督，对于语义预测，我们采用了预训练的Grounded-SAM模型，绿色箭头表示监督信号。

参数化占据场

在自监督设置中，考虑到无界场景，需要处理高分辨率的内部区域和收缩空间内表示的外部区域。通过引入可调的兴趣区域和收缩阈值的变换函数，对每个体素网格的坐标进行参数化。这个函数采用了两个部分，分别用于内部和外部区域，以表示无界环境。通过特定的采样策略将参数化的占据场转换为多摄像头深度图，利用神经渲染进行监督。在获取3D体素特征时，我们通过投影和双线性插值，将体素映射回车体坐标系统，再投影到2D图像特征平面，最后通过平均多摄像头2D特征，使用3D卷积网络提取特征并预测占据输出。

原始空间和参数化空间的比较，原始空间利用传统的欧几里得空间，强调线性映射，参数化空间分为两部分：内部空间和外部空间，前者具有线性映射以保留高分辨率细节，后者的点分布与距离成反比，便于表示有限空间域内的无限范围。

多相机深度估计

多相机深度估计的方法旨在将占据场投影到多相机深度图中。这种方法使用了体素渲染，该技术在基于 Neural Radiance Fields (NeRF) 的方法中得到了广泛应用。对于给定像素的深度值，通过从相机中心沿着指向像素的方向投射射线，并在3D空间中对射线进行采样来获取密度信息。通过体素渲染，将这些密度信息转换为深度图。关键问题之一是如何在作者提出的坐标系统中进行采样，以避免不平衡的点分布。作者通过在参数化坐标上进行均匀采样，然后使用坐标系统的逆函数计算采样点在车辆坐标系中的值来解决这个问题。此外，为了更好地利用时间信息，作者采用了光度损失的方法，通过投影相邻帧到当前帧，并计算渲染图像与原始图像之间的差异来进行监督学习。这种方法的优点在于能够适应大规模场景和少数视图的监督，使得NeRF在复杂的视图合成任务中更容易收敛。

开放的词汇语义监督

通过使用多相机图像的2D语义标签，为语义3D占据预测提供了像素级别的监督。这有助于网络更好地捕捉体素之间的几何一致性和空间关系。相较于先前通过将3D LiDAR点投影到图像空间以获取2D标签的方法，该方法的目标是在完全以视觉为中心的系统中预测语义占据，且仅利用2D数据。

为了获取2D语义标签，研究者使用了预训练的开放词汇模型GroundedSAM，而不依赖于2D或3D的地面真实数据。这种方法具有高效性和可推广性，适用于各种数据集。在处理不同类别时，采用了三种提示生成策略，包括同义词替换、将单词拆分为多个实体以增强区分性，以及整合附加信息。这些提示用于Grounding DINO，生成检测边界框、logits和短语，通过SAM生成M个精确的分割二进制掩码。接着，通过将Grounding DINO logits与二进制掩码相乘，为每个像素生成{li}。最终的像素标签Spix通过映射函数ψ(·)将li的索引映射到与给定类别名称语义密切匹配的标签。如果像素未被分配到任何类别且得到M个零logits，则将其标记为“uncertain”。这一系列生成的检测边界框和语义标签在图中呈现。为了充分利用2D语义监督，首先使用了一个具有c输出通道的语义头将提取的体素特征映射到语义输出，表示为S(x)。再次使用体素渲染，将体素特征映射到语义输出，得到每像素的语义渲染输出Sˆpix。为提高效率，未渲染标记为“uncertain”的像素，且仅渲染中央帧并减少采样比率。总损失函数包括光度损失和语义损失，其中语义损失受到权重λ的调控。生成的检测边界框和语义标签如图3所示。

图3，在我们的方法中，由我们的Grounding DINO生成的检测边界框和由SAM预测的语义标签显示出与LiDAR点投影标签相当的精度。

实验

数据集：在nuScenes数据集上进行了实验，包括600个训练场景、150个验证场景和150个测试场景。该数据集共有大约40000帧图像，涵盖17个类别。为了自监督深度估计，通过将激光雷达点云投影到每个视图中，获得深度地面真值进行评估。深度预测和地面真值被剪裁为0.1m到80m。语义占据预测的评估使用了Occ3D-nuScenes基准，每个样本的范围为[-40m, -40m, -1m, 40m, 40m, 5.4m]，体素大小为0.4m。在17个类别中，'other'和'other flat'类别未被考虑，因为开放词汇模型难以识别语义模糊的文本。

实现细节：采用ResNet-101作为2D骨干网络，使用ImageNet预训练权重提取多摄像头特征。输入图像和渲染深度图的分辨率分别设置为336x672和180x320。预测的占据场形状为300x300x24，其中中央的200x200x16个体素表示内部区域，范围为-40m到40m（X和Y轴），-1m到5.4m（Z轴），与Occ3D-nuScenes定义的范围相同。进行了3帧深度图的渲染，由5帧原始图像序列（1个关键帧和4个相邻的非关键帧）进行监督。α值设置为0.667。预测语义占据采用Grounded-SAM作为预训练开放词汇模型，文本和框的阈值设置为0.2，损失权重λ为0.05。所有实验在8个A100上进行。

评估指标：对于深度估计，使用Abs Rel、Sq Rel、RMSE、RMSE log和δ < t等深度评估指标。其中，Abs Rel是主要指标，评估过程中不执行中值缩放，因为该方法可以预测实际世界的比例。对于语义占据预测，采用了所有类别的平均交并比（mIoU）进行评估。评估仅在摄像头视图中的'observed'体素上执行，遵循Occ3D-nuScenes中的评估工具。整体而言，实验设计详尽，采用了流行的数据集和标准评估指标，实现细节清晰，并在实验中取得了令人满意的结果。

自监督深度估计

表1显示了在nuScenes数据集上进行的自监督多摄像头深度估计实验结果。在这个实验中没有使用预训练的分割模型。结果是在6个摄像头上平均的。我们可以看到，该方法在性能上远远优于其他最先进的方法，展示了OccNeRF的有效性。与深度估计方法相比，该方法直接在3D空间中预测占据情况，自然地保证了多摄像头的一致性。此外无需使用后处理将2D深度图提升为3D点云。

表1，nuScenes数据集上自监督多摄像机深度估计的比较

语义占据预测

在Occ3D-nuScenes数据集上进行语义占据预测实验，由于预训练的开放词汇模型无法识别模糊的提示，比如'other'和'other flat'，在评估中移除了这两个类别。对于另一种自监督方法SimpleOcc，使用相同的2D语义标签，这是从预训练模型中获取的，以进行公平比较。

表2，Occ3D nuScenes数据集上的3D占用预测性能。由于“other”和“other flat”类是开放词汇模型的无效提示，因此我们在评估过程中不考虑这两个类mIoU*是原始结果，mIoU是忽略类的结果。

如表2所示，我们的方法在性能上远远优于SimpleOcc，甚至与一些全监督方法具有可比性的性能。对于一些类别，比如'drivable space'和'manmade'，我们的方法令人惊讶地超越了所有监督方法。然而注意到对于一些小物体类别（例如自行车和行人），我们的方法与最先进的监督方法之间存在较大差距。可能的原因是当前的开放词汇模型通常会忽略小物体，并且无法提供强有力的监督。

消融研究

监督方法：一个直接的监督信号是渲染和真实像素颜色之间的差异，这与NeRF中使用的损失函数相同。

表3，监督方法的消融研究“深度”表示是否使用时间光度约束来训练模型。如果没有，我们直接使用NeRF]中的监督方法。”Multi表示我们是否使用多帧渲染和监督。

如表3所示，这种监督方法导致了糟糕的性能。我们将此归因于NeRF在仅有六个视图的情况下学习场景结构所面临的挑战。相反，时间光度损失可以更好地利用相邻帧中的几何线索，这是自监督深度估计方法中的黄金指标。此外，多帧训练提供更强的监督，进一步提升了模型的性能。

表4，坐标参数化的消融研究CC意味着我们是否采用合同坐标“重新采样”表示我们是否利用了所提出的采样策略。

坐标参数化：表4显示了坐标参数化的消融研究。与占据标签不同，光度损失假设图像感知的范围是无限的。收缩坐标的目的是在有界占据中表示无界场景。从表中我们可以看到，缩小的坐标极大地提升了模型的性能。此外，由于参数化坐标不是欧几里得3D空间，所提出的采样策略比原始自车坐标中的常规均匀采样效果更好。

语义标签生成：对Occ3d-nuScenes数据集上的语义标签生成进行了消融研究。首先将Grounding DINO 的对数更改为SAM的对数以获取语义标签。如图5所示，发现SAM的对数更嘈杂且不连续。然后还将原始类别名称提供给开放词汇模型，而不使用提出的提示策略。然而这种方法导致了更差的结果，因为原始类别名称无法提供精细的语义指导并引入了歧义。

图5，不同语义标签生成方法的比较，与用SAM logits生成语义标签或输入原始类别名称相比，我们的语义标签更精确，具有更好的连续性。

可视化

为了进一步展示我们方法的优越性，我们在图6和7中提供了一些定性结果。

图6。nuScenes数据集的定性结果，我们的方法可以预测具有纹理细节和细粒度占用的视觉吸引力的深度图。

图7。nuScenes数据集上语义占用的定性结果。我们的方法可以预测具有良好几何对应关系的视觉吸引力的语义占用。

从图6可以看出该方法能够生成具有细致细节的高质量深度图和占据图。对于语义占据预测，如图7所示OccNeRF能够重建周围场景的稠密结果，特别是对于大范围的类别，如“可驾驶空间”和“人造物体”。

局限性和未来工作

在推断过程中，我们研究了单帧占据预测，没有考虑多帧信息作为输入，因此该方法无法预测占据流。在未来的工作中将尝试使用预训练的光流模型监督占据流，并采用多帧多相机图像作为输入。此外另一个限制是我们方法的性能受限于开放词汇分割模型的输出，这些模型通常忽略小物体。

总结

在本文提出了OccNeRF用于自监督的多相机3D占据预测。为了解决无边界场景的问题，我们提出了参数化占据场，将无限空间缩小到有界的体素。为了利用时间光度损失，在参数化坐标上执行体素渲染，以获得多帧多相机深度图。对于语义占据预测，我们利用开放词汇模型使用提出的提示清理策略获取2D语义伪标签，在nuScenes数据集上的实验结果展示了我们方法的有效性。

资源

自动驾驶及定位相关分享

【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法

自动驾驶中基于光流的运动物体检测

基于语义分割的相机外参标定

综述：用于自动驾驶的全景鱼眼相机的理论模型和感知介绍

高速场景下自动驾驶车辆定位方法综述

Patchwork++：基于点云的快速、稳健的地面分割方法

PaGO-LOAM:基于地面优化的激光雷达里程计

多模态路沿检测与滤波方法

多个激光雷达同时校准、定位和建图的框架

动态的城市环境中杆状物的提取建图与长期定位

非重复型扫描激光雷达的运动畸变矫正

快速紧耦合的稀疏直接雷达-惯性-视觉里程计

基于相机和低分辨率激光雷达的三维车辆检测

用于三维点云语义分割的标注工具和城市数据集

ROS2入门之基本介绍

固态激光雷达和相机系统的自动标定

激光雷达+GPS+IMU+轮速计的传感器融合定位方案

基于稀疏语义视觉特征的道路场景的建图与定位

自动驾驶中基于激光雷达的车辆道路和人行道实时检测（代码开源）

用于三维点云语义分割的标注工具和城市数据集

更多文章可查看：点云学习历史文章大汇总

SLAM及AR相关分享

TOF相机原理介绍

TOF飞行时间深度相机介绍

结构化PLP-SLAM：单目、RGB-D和双目相机使用点线面的高效稀疏建图与定位方案

开源又优化的F-LOAM方案：基于优化的SC-F-LOAM

【论文速读】AVP-SLAM：自动泊车系统中的语义SLAM

【点云论文速读】StructSLAM:结构化线特征SLAM

SLAM和AR综述

常用的3D深度相机

AR设备单目视觉惯导SLAM算法综述与评价

SLAM综述(4)激光与视觉融合SLAM

Kimera实时重建的语义SLAM系统

易扩展的SLAM框架-OpenVSLAM

基于鱼眼相机的SLAM方法介绍

算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI产品经理需要了解的算法知识 AI劳模人工智能产品经理 AI产品经理 AI产品经理入门零基础入门产品经理算法语言模型
1、自然语言生成（NLG）自然语言生成（NaturalLanguageGeneration，简称NLG）是一种人工智能技术，它的目标是将计算机的数据、逻辑或算法产生的信息转换成人类可读的自然语言文本。换句话说，NLG能让机器“学会”写文章、报告、故事或者其他任何形式的文字，就像人类作家那样。这项技术使得机器能够理解复杂的数据并将其转化为易于理解的语言，以适应不同的受众和情境。应用实例：金融报告自动
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

occNeRF：使用神经辐射场进行多摄像头自监督占据预测

你可能感兴趣的:(自动驾驶,人工智能,计算机视觉,点云,机器学习)