飞大圣

雾天条件下 SLS 融合网络的三维目标检测

论文地址：3D Object Detection with SLS-Fusion Network in Foggy Weather Conditions
论文代码：https://github.com/maiminh1996/SLS-Fusion

论文摘要

摄像头或激光雷达（光检测和测距）等传感器的作用对于自动驾驶汽车的环境意识至关重要。然而，在雾、雨、雪等极端天气条件下，从这些传感器收集的数据可能会出现失真。这个问题可能会导致在操作自动驾驶车辆时出现许多安全问题。
论文的研究目的是分析雾对驾驶场景中目标的影响，然后提出改进方法。在恶劣天气条件下收集和处理数据通常比在良好天气条件下收集和处理数据更困难。因此，可以模拟恶劣天气条件的合成数据集是验证方法的一个不错的选择，因为在使用真实数据集之前它更简单、更经济。
论文中，在公共 KITTI 数据集上应用雾合成来生成图像和点云的 Multifog KITTI 数据集。在处理任务方面，测试了之前基于 LiDAR 和摄像头的 3D 目标检测器，名为 Spare LiDAR 立体融合网络（SLS-Fusion），看看它如何受到雾天条件的影响。建议使用原始数据集和增强数据集进行训练，以提高雾天条件下的性能，同时在正常条件下保持良好的性能。
论文在 KITTI 和提出的 Multifog KITTI 数据集上进行了实验，结果表明，在进行任何改进之前，雾天气条件下中等物体的 3D 目标检测性能下降了 42.67%。通过使用特定的训练策略，结果显着提高了 26.72%，并且在原始数据集上保持了很好的表现，仅下降了 8.23%。综上所述，雾往往会导致行车场景 3D 目标检测失败。通过使用增强数据集进行额外训练，显着提高了所提出的雾天条件下自动驾驶汽车 3D 目标检测算法的性能。

论文背景

如今的趋势是将自动化应用带入生活，以降低成本、人力并提高工作效率。人类使用眼睛、耳朵、鼻子和触觉等感觉器官来感知周围的世界，而工业应用则使用相机、雷达（无线电探测和测距）、Kinect、LiDAR（光探测和测距）、IMU 等传感器（惯性测量单元）在通过复杂算法处理之前收集数据。这项研究主要集中在自动驾驶汽车上，其中摄像头和激光雷达在环境感知中发挥着至关重要的作用。
摄像头、激光雷达和雷达、GPS/IMU等其他传感器的融合为自动驾驶汽车带来了感知环境并做出操作决策的能力。
Waymo、Uber、Lyft、Tesla 等大型科技公司已经将自动驾驶汽车投入了不同自动化程度的测试甚至商业用途，但这些汽车尚未达到全环境、全天气的性能水平状况。许多因素会影响自动驾驶汽车的感知能力，从而可能对其他道路使用者的生活造成严重后果。原因之一是从这些传感器收集的数据因环境影响而失真，可能直接影响自动驾驶汽车的意识。

虽然使用这些传感器的应用在受控照明或不受天气影响的室内环境中表现良好，但户外应用面临许多问题。例如，使用摄像头感知环境的应用程序在极端照明条件下（例如晒伤、弱光或夜间条件）通常会失败。自动驾驶汽车在雾、雨或雪等恶劣天气条件下会遇到重大挑战，其中摄像头和 LiDAR 都受到严重影响，如图所示。
因此，论文重点关注使用摄像头和激光雷达在雾天条件下运行进行 3D 目标检测。

产生最佳结果的方法大多基于深度学习架构，通过使用与标签相关的大量数据（监督学习）来训练模型。虽然在白天或晴朗天气等良好条件下标记和收集数据需要时间，但在极端天气下则需要更多的时间和精力。因此，与正常条件下记录的数据量相比，极端天气条件下记录的数据量存在不平衡。此外，在收集数据时，不同级别的雾、雨或雪可能会出现不平衡。大多数数据仅在给定时间和地点收集，因此数据无法完全覆盖所有情况，因此使用有限数据范围训练的模型可能会出错。因此，除了真实数据之外，创建可以在许多受控参数下进行模拟的合成数据也同样重要。
论文旨在在白天和温和阳光条件下收集的著名数据集上生成基于物理的雾数据，以在雾天条件下提供改进。

论文贡献

1.提出了一个从 KITTI 数据集增强的新公共数据集，用于通过 20 到 80 m 的不同可见度范围（雾中）的图像和点云，以尽可能接近真实的雾环境。
2.发现从相机和激光雷达收集的数据在雾天场景下明显失真。正如我们的实验所证实的，它直接影响自动驾驶汽车 3D 目标检测算法的性能。
3.从论文之前对原始数据的工作[1]延伸，提出了一种特定的训练策略，使用正常和有雾的天气数据集作为训练数据集。实验表明，该模型在雾天条件下可以更好地运行，同时保持性能接近正常天气条件下的性能。

[1] Mai, N.A.M.; Duthon, P.; Khoudour, L.; Crouzil, A.; Velastin, S.A. Sparse LiDAR and Stereo Fusion (SLS-Fusion) for Depth Estimation and 3D Object Detection. arXiv 2021, arXiv:2103.03977.

论文相关

3d 目标检测

根据用作输入的传感器，自动驾驶汽车的 3D 目标检测算法通常分为基于摄像头的方法、基于 LiDAR 的方法和基于融合的方法等类别。由于图像不提供深度信息，因此在尝试预测 3D 空间中目标的位置时，使用 RGB 图像的方法会遇到许多困难和模糊性。 Mono3D 是单目 3D 目标检测的开创性工作。它基于 Fast RCNN，这是一种流行的 2D 目标检测器，加上许多 handcrafted 特征来预测 3D 边界框。这些方法尝试预测 RGB 图像上的 2D 关键点，然后通过结合每个特定车辆的一些约束，它可以推断 3D 中的其他点以获得最终的 3D 边界框。伪激光雷达提出了一种表示数据的新方法。它通过简单地转换图像的预测深度图来生成伪点云。然后它可以利用任何基于激光雷达的方法在伪点云上进行检测。相比之下，LiDAR 提供 3D 点云数据，从中可以获得从自我车辆到物体的非常准确的深度信息。基于激光雷达的方法通常在感知任务中给出非常好的结果，并且近年来受到了广泛的关注。
PointRCNN 是一个两级检测器，尝试将 Faster RCNN 和 Mask RCNN 扩展到点云表示。 VoxelNet 和 PointPillars 尝试将点云编码为 3D 单元（体素或柱），类似于图像但具有高度通道，然后使用 3D CNN 提取特征。与此同时，尝试结合图像和点云的方法尽管吸收了两种信息流，但尚未真正从激光雷达方法中脱颖而出。 FPointNet 或 F-ConvNet 首先使用从图像中检测到的目标的 2D 边界框来查找 3D 空间中的截锥体区域。然后，使用 PointNet 分割来查找每个视锥体中的对象。 MV3D 使用点云生成 3D 建议框，加上传感器融合层来细化最终的 3D 边界框。点云表示为图像（鸟瞰图和前视图）。这些方法通常相当麻烦并且还不能实时运行。

恶劣天气条件下的数据集

大多数常见的现有数据集都是在良好的条件下收集的，例如 KITTI、Cityscape，或在不同的光照条件下收集，例如 BDD100K、Waymo、NuScenes。最近的注意力集中在自动驾驶汽车在恶劣天气条件下的感知能力，因为这种条件会对摄像头和激光雷达传感的质量产生负面影响，导致性能下降。因此，一些数据集是在雾天条件下收集的，包括 Foggy Driving、Foggy Zurich、SeeingThroughFog、nuscenes、BDD100k、Oxford 数据集、雨或雪条件。
然而，在这种条件下收集数据并不容易，并且可能会导致后处理问题，例如不平衡问题或标签错误。相比之下，合成数据集越来越接近真实数据，可以避免此类问题。合成数据集可以分为两类：基于物理的，例如 Foggy Cityscapes 、RainCityscapes、Foggy Cityscapes、Rain Augmented 和基于生成对抗网络（基于 GAN）。
尽管上述这些数据集很有用，但 KITTI 数据集在文献中很常用，而且很容易处理。论文决定使用该数据集作为基础数据集，以对其进行进一步的雾渲染。虽然大多数合成数据集仅关注图像，但这项工作旨在从良好的天气数据集开始考虑图像和点云的雾。论文使用 [2] 中提出的基于物理的程序来保留像真实雾一样的物理属性。

[2] Bijelic, M.; Gruber, T.; Mannan, F.; Kraus, F.; Ritter, W.; Dietmayer, K.; Heide, F. Seeing Through Fog Without Seeing Fog: Deep Multimodal Sensor Fusion in Unseen Adverse Weather. In Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 13–19 June 2020; pp. 11679–11689. [CrossRef]

恶劣天气条件下的感知

虽然室外感知算法在不同的照明条件下通常比室内更敏感，但极端天气条件下的感知更具挑战性，因为传感器退化、对比度较低、可见度有限，从而导致错误在预测中
。事实上，之前的研究已经表明分割、2D 目标检测和深度估计中的性能如何下降。一些研究还表明，通过学习合成数据[、去雾或使用基于后期的融合可以提高性能。
与之前的工作一样，论文旨在分析雾天场景下自动驾驶汽车的感知算法，特别强调3D模板检测任务。事实上，雾场景中 3D 目标检测的性能会大大降低，但通过使用正常数据集和合成数据集进行训练，性能可能会得到提高。

论文内容

雾现象

雾是水蒸气凝结成微小的云状颗粒的现象，这些颗粒出现在地面上和附近，而不是天空中。地球上的水分慢慢蒸发，当蒸发时，它会向上移动、冷却并凝结形成雾。雾可以看作低云的一种形式。
从物理上讲，雾是一种引起分散的现象。光线在落入图像传感器之前被悬浮的水滴散射。这种散射现象有两个主要影响。 首先，主光线在落入传感器之前会衰减，其次，存在散射光的信号层 。这些效果会降低对比度，如图 2 所示，强度范围充满强度值（每个像素的灰度图像的单个值），这些值随着雾的强度（清晰、80、50、20 m）而减小）。因此，图像的对比度与雾浓度成反比，这可能会给人类驾驶员和基于传感器的自动系统或驾驶辅助设备带来驾驶困难。

气象光学范围 (MOR)，也称为能见度，用 V 表示，是在白色和黑色目标上不再区分对比度的距离（以米为单位）。当白色和黑色的目标在雾中移开时，人眼会看到均匀的灰色。标准中定义了 5% 的对比度限制水平。 MOR 越低，雾越浓。根据国际协议，当能见度 V 小于 1 公里时，使用术语“雾。

雾渲染

极端天气条件下的数据集数量少于正常条件（晴朗天气）下的数据集。首先，恶劣天气条件并不经常发生。其次，这类数据的清理和标注难度较大。它会导致不同类型天气条件之间的真实数据集出现不平衡问题。因此，合成数据集的生成对于开发在恶劣天气条件下工作的系统很有用。
在雾天条件下生成人工数据有不同的方法：（a）在受控条件下获取或（b）在正常条件数据集上进行增强。对于第二种类型，也有不同的方法来建模雾，例如基于物理的或基于GAN的建模。在论文文中，我们使用基于物理的方法，因为它可以保持天气的物理特性，并且已经研究了很长时间。
虽然雷达不会受到雾的显着影响，但从 LiDAR 和相机收集的数据却相当失真。

Camera in Fog

[3] Sakaridis, C.; Dai, D.; Van Gool, L. Semantic Foggy Scene Understanding with Synthetic Data. Int. J. Comput. Vis. 2018, 126, 973–992. [CrossRef]

Sakaridis 等人根据 1924 年的 Koschmieder Law。 [3]制定了方程以获得像素 $(u, v)$ 处的观测雾图像 $I_{foggy}(u,v)$ 如下：
$\tag1 I_{foggy}(u,v) = t(u,v)I_{clear}(u,v)+(1-t(u,v))L$

其中 $I_{clear}(u, v)$ 表示潜清晰图像， $L$ 表示大气光，假设全局恒定（通常仅对白天图像有效），在均匀介质的情况下，透射系数为：
$\tag2 t(u,v) = exp(-\beta D(u,v))$

其中 $β$ 是雾密度（或衰减）系数， $D (u, v)$ 是像素 $(u, v)$ 处的场景深度。
雾的厚度由 $β$ 控制。使用 Koschmieder 定律，可见度 $V$ 可以通过下面方程中的一个描述：
$\tag3 C_T=exp(-\beta V)$

$\tag4 V= {-}\frac{\ln(C_T)}{\beta}$
其中 $C_T$ 是对比度阈值。根据国际照明委员会（CIE）的数据，CT 的白天能见度估计值为 $0.05$ 。还可以将 $t (u, v)$ 表示为对可见性 $V$ 和深度图 $D$ 的依赖关系，如下所示：
$\tag5 t(u,v) = exp(\frac{\ln(C_T)D(u,v)}{V})$

LiDAR in Fog

Gruber et al. 假设光束发散度不受雾的影响。在此模型中，只要接收到的激光强度大于有效本底噪声，就会始终记录返回的脉冲回波。然而，雾的严重反向散射可能会导致散射雾体积内点的直接反向散射，这通过透射率 $t (u, v)$ 进行量化。然后，观测到的雾状激光雷达 $L_{foggy}(u, v)$ 可以使用以下方程进行建模：
$\tag 6 L_{foggy}(u,v) = t(u,v)L_{clear}(u,v)$

其中 $L_{clear}(u, v)$ 和 $L_{foggy}(u, v)$ 分别是 LiDAR 发射的光脉冲的强度和接收到的信号强度。
现代扫描激光雷达系统采用自适应激光增益来增加给定本底噪声的信号，从而产生最大距离：
$\tag7 d_{max} = \frac{1}{2\beta}\ln(\frac{n}{L_{clear}+g})，$

其中 $n$ 是可检测的本底噪声。

3D 目标检测算法

在这里，使用之前的 3D 目标检测算法，称为 SLS-Fusion，其灵感来自 Qiu 等人的工作。图 3 显示了该 3D 探测器的框图。它以一对立体图像和模拟 4 光束 LiDAR 在左右图像上的重新投影深度图作为输入。它使用后期融合，分为 3 部分：深度估计、转换数据表示和基于 LiDAR 的 3D 目标检测。

[4] Mai, N.A.M.; Duthon, P.; Khoudour, L.; Crouzil, A.; Velastin, S.A. Sparse LiDAR and Stereo Fusion (SLS-Fusion) for Depth Estimation and 3D Object Detection. arXiv 2021, arXiv:2103.03977.

该模型通过投射 4 束 LiDAR 来拍摄左侧和右侧的立体图像 $I_l , I_r)$ 和相应的模拟立体图像 $S_l, S_r)$ 。 $S_l$ 和 $S_r$ 使用[5]中提出的公式进行模拟。编码器-解码器网络用于从图像和点云中提取特征。

[5] You, Y.; Wang, Y.; Chao, W.L.; Garg, D.; Pleiss, G.; Hariharan, B.; Campbell, M.; Weinberger, K.Q. Pseudo-LiDAR++: Accurate Depth for 3D Object Detection in Autonomous Driving. In Proceedings of the 2020 International Conference on Learning Representations (ICLR), Virtual Conference, 26 April–1 May 2020.

所提出的网络具有针对 LiDAR 和图像 $I_l,S_l)$ 和 $I_r,S_r)$ 的权重共享管道，而不是仅使用左右图像。一旦从解码阶段获得左右特征，它们就会被传递到 Depth Cost Volume（DeCV）以学习深度信息。这里，使用平滑的 L1loss函数：
$\tag8 \sum_{(u,v)\in I_l}|d(u,v)-D(u,v)|$

其中 $d (u, v)$ 表示有效深度地面事实。预测的深度图是 $D$ ，其中 $D (u, v)$ 是对应于左图像 $I_l$ 中的像素 $(u, v)$ 的深度。然后，使用针孔相机模型生成伪点云。给定深度 $D (u, v)$ 和相机固有矩阵，每个像素 $(u, v)$ 在相机坐标系中的 3D 位置 $X_c, Y_c, Z_c)$ 由下式给出：
$\tag9 (depth)Z_c = D(u,v)\\ (width)X_c=\frac{(u-c_U)\times Z_c}{f_U}\\ (height) Y_c = \frac{(v-c_V)\times Z_c}{f_V}$

其中 $c_U$ 和 $c_V$ 是主点的坐标， $f_U$ 和 $f_V$ 分别是像素宽度和高度的焦距。使用四光束激光雷达来增强伪点云的质量。然后将每个点 $X_c,Y_c,Z_c,1)$ 变换为LiDAR坐标系（现实世界坐标系）中的 $X_l,Y_l,Z_l,1)$ 。
通过添加反射率 1 来填充伪点云。给定相机外在矩阵 $=\begin{bmatrix} R & t \\ 0 & 1 \end{bmatrix}$ ，其中 $R$ 和 $t$ 分别是旋转矩阵和平移向量。伪点云可以通过如下方式获得：
$\tag{10} \begin{bmatrix} X_l \\ Y_l \\ Z_l \\ 1 \end{bmatrix} = C^{-1}\begin{bmatrix} X_c \\ Y_c \\ Z_c \\ 1 \end{bmatrix}$

一旦获得伪点云，就可以将其视为普通点云，尽管其准确性取决于预测深度的质量。与 PseudoLiDAR++ 类似，输入（4 光束点云）用于纠正伪点云中的错误。这是获得更准确点云的细化步骤。然后，将深度图转换为伪点云。这个想法是利用当前领先的基于 LiDAR 的方法的性能来检测目标。

论文结论

论文研究的主要目的是分析雾对 3D 目标检测算法的影响。为此，论文为雾天驾驶场景创建了一个新颖的合成数据集。它被称为 Multifog KITTI 数据集。该数据集是通过在不同能见度（20 至 80 m）级别应用雾从原始数据集 KITTI 数据集生成的。该数据集涵盖了左右图像、4 光束 LiDAR 数据和 64 光束 LiDAR 数据，尽管有雾的 64 光束数据尚未被利用。
这项工作发现，在图像和 LiDAR 数据中添加雾会导致图像不规则（对比度较低）以及 LiDAR 目标的 3D 点云失真。然后的目的是测试 SLS-Fusion 算法在处理图像和 LiDAR 数据退化方面的鲁棒性。第一个测试列表包括验证雾对检测算法的负面影响。将雾数据作为输入并在训练中使用正常数据会导致结果下降。因此，观察到 3D 物体检测性能下降（中等水平物体的检测率从 63.90% 下降到 21.23%）。第二个主要发现是，即使不去雾，也可以通过直接使用 KITTI 数据集和合成 Multifog KITTI 数据集进行训练来提高 3D 对象检测算法的性能。这些结果增加了在恶劣天气条件下，特别是在雾天场景中快速扩大的感知范围。
另一项测试是将 SLS-Fusion 算法与领先的基于低成本传感器的方法（伪 LiDAR++）进行比较。结果发现，我们的方法在所提出的 Multifog KITTI 数据集的不同指标上都优于 Pseudo-LiDAR++ 方法。这个结果非常令人满意，因为它显示了该方法在处理有雾数据集时的鲁棒性。
这项研究的范围在点云的影响方面受到限制。由于实验中使用的数据是4束点云，其特征不如图像或64束点云的特征丰富。这些发现为未来的研究提供了以下见解：在 Multifog KITTI 数据集上测试基于 64 束 LiDAR 的 3D 物体检测算法，以更清楚地显示雾对点云的影响。我们还计划处理相机或激光雷达因天气影响而损坏的情况。

开源模型应用落地-OpenAI Agents SDK-集成MCP与Qwen3-8B模型的创新应用探索（七）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言在人工智能技术飞速发展的今天，如何将先进的模型和技术无缝结合，成为推动行业变革的关键。OpenAIAgents通过集成模型上下文协议（MCP）和阿里巴巴推出的Qwen3-8B模型，正开启一场智能应用的革命。这种创新的结合不仅提升了AI代理与外部工具之间的通信能力，还在多模态任务处理、个性化服务等领域展现出巨大潜力。本文将深入探讨这一技术组合的实际应用场景，揭示其在改善客户体验和提升运营效率
开源模型应用落地-OpenAI Agents SDK-集成Qwen3-8B-探索output_guardrail的创意应用（六）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言随着人工智能技术的迅猛发展，大语言模型（LLM）在各行各业的应用日益广泛。然而，模型生成的内容是否安全、合规、符合用户预期，成为开发者和企业不可忽视的问题。为此，OutputGuardrail应运而生，作为一种关键的安全机制，它在模型生成结果之后进行内容审核与过滤，确保输出不偏离道德、法律和业务规范。通过检测不当的内容，不仅提升了AI系统的可信度，也为构建更加稳健和负责任的人工智能应用提供
开源模型应用落地-让AI更懂你的每一次交互-Mem0集成Qdrant、Neo4j与Streamlit的创新实践（四）开源技术探险家开源模型-实际应用落地 neo4j 开源人工智能语言模型
一、前言在人工智能迅速发展的今天，如何让AI系统更懂“你”？答案或许藏在个性化的记忆管理之中。Mem0作为一个开源的记忆管理系统，正致力于为AI赋予长期记忆与个性化服务能力。通过结合高性能向量数据库Qdrant、图数据库Neo4j的强大关系分析能力以及Streamlit的高效可视化交互，我们可以打造出一个既能存储用户历史行为、又能实时推理并展示结果的智能记忆助手。本文将带您一步步探索这一技术组合的
【优秀文章】7月优秀文章推荐
优秀文章智能自主运动体与人工智能技术——环境感知、SLAM定位、路径规划、运动控制、多智能体协同作者：fpga和matlabC++之红黑树认识与实现作者：zzh_zao【手把手带你刷好题】–C语言基础编程题(十)作者：草莓熊Lotso飞算JavaAI：从“码农”到“代码指挥官”的终极进化论作者：可涵不会debug前端网页开发学习（HTML+CSS+JS）有这一篇就够！作者：一颗小谷粒
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
使用 C++ 实现 MFCC 特征提取与说话人识别系统 whoarethenext c++开发语言 mfcc 语音识别
使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。本文将引导你了解如何使用C++库计算核心的音频特征——梅尔频率倒谱系数(MFCCs)，并进一步利用这些特征构建一个说话人识别（声纹识别）系统。Part1:在C/C++中计算MFCCs直接从零开始实现MFCC的所有计算
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
网络安全相关专业总结（非常详细）零基础入门到精通，收藏这一篇就够了网络安全工程师教学兼职副业黑客技术网络安全 web安全安全人工智能网络运维
一、网络工程专业专业内涵网络工程是指按计划进行的以工程化的思想、方式、方法，设计、研发和解决网络系统问题的工程，一般指计算机网络系统的开发与构建。该专业培养具备计算机科学与技术学科理论基础，掌握网络技术领域专业知识和基本技能，在计算机、网络及人工智能领域的工程实践和应用方面受到良好训练，具有深厚通信背景、可持续发展、能力较强的高水平工程技术人才。学生可在计算机软硬件系统、互联网、移动互联网及新一代
OpenCV 图像操作：颜色识别、替换与水印添加
目录引言代码实现1.导入必要的库2.图像加法3.图像直接相加4.颜色加权加法5.HSV颜色空间转换概念作用6.查找颜色范围对应的像素点7.与运算-生成掩膜8.添加水印9.主函数总结引言在计算机视觉领域，OpenCV是一个强大的库，提供了丰富的图像操作功能。本文将详细介绍如何使用OpenCV进行图像加法、颜色加权加法、HSV颜色空间转换、颜色范围查找、与运算生成掩膜以及添加水印等操作，并给出相应的P
《北京市加快推动“人工智能+医药健康“创新发展行动计划（2025-2027年）》深度解读
引言随着新一轮科技革命和产业变革的深入推进，人工智能技术与医药健康的深度融合已成为全球科技创新的重要方向。北京市于2025年7月正式发布《北京市加快推动"人工智能+医药健康"创新发展行动计划（2025-2027年）》，旨在充分发挥北京在人工智能技术策源、头部医疗资源汇聚、健康数据高度富集等方面的突出优势，构建形成"人工智能+医药健康"创新和应用并举的产业生态体系，打造具有国际影响力的创新策源地、应
「源力觉醒创作者计划」_文心大模型开源：开启 AI 新时代的大门小黄编程快乐屋人工智能
在人工智能的浩瀚星空中，大模型技术宛如一颗璀璨的巨星，照亮了无数行业前行的道路。自诞生以来，大模型凭借其强大的语言理解与生成能力，引发了全球范围内的技术变革与创新浪潮。百度宣布于6月30日开源文心大模型4.5系列，这一消息如同一颗重磅炸弹，在AI领域掀起了惊涛骇浪，其影响之深远，意义之重大，足以改写行业的发展轨迹。百度这次放大招，直接把文心大模型4.5开源了，这操作就像往国内AI圈子里空投了一个超
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
AI智能体原理及实践：从概念到落地的全链路解析 you的日常人工智能大语言模型人工智能机器学习深度学习神经网络自然语言处理
AI智能体正从实验室走向现实世界，成为连接人类与数字世界的桥梁。它代表了人工智能技术从"知"到"行"的质变，是能自主感知环境、制定决策、执行任务并持续学习的软件系统。在2025年，AI智能体已渗透到智能家居、企业服务、医疗健康、教育和内容创作等领域，展现出强大的生产力与创造力。然而，其发展也伴随着技术挑战、伦理困境和安全风险，需要从架构设计到落地应用的全链条思考与平衡。一、AI智能体的核心定义与技
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
YOLO学习笔记｜从YOLOv5到YOLOv11：技术演进与核心改进北斗猿 YOLO学习从零到1 YOLO 目标检测算法 python 计算机视觉
从YOLOv5到YOLOv11：技术演进与核心改进深度解析一、YOLO系列发展概述YOLO（YouOnlyLookOnce）目标检测算法自2016年诞生以来，凭借其"单次检测"的独特理念和卓越的实时性能，持续引领着计算机视觉领域的技术革新。从JosephRedmon的初代YOLO到AlexeyBochkovskiy的YOLOv4，再到Ultralytics团队的YOLOv5及后续系列，这一算法家族
Spring AI 第二讲之 Chat Model API 第八节ZhiPu AI Chat 疼死老夫了人工智能
SpringAI支持知普人工智能的各种人工智能语言模型。您可以与知普人工智能语言模型互动，并基于知普人工智能模型创建多语言对话助手。先决条件您需要与ZhiPuAI创建一个API，以访问ZhiPuAI语言模型。在ZhiPuAI注册页面创建账户，并在APIKeys页面生成令牌。SpringAI项目定义了一个名为spring.ai.zhipuai.api-key的配置属性，你应将其设置为从APIKeys
Chat Model API 虾条_花吹雪 Spring AI java
聊天模型API为开发人员提供了将人工智能聊天完成功能集成到应用程序中的能力。它利用预训练的语言模型，如GPT（生成预训练转换器），以自然语言对用户输入生成类似人类的响应。API通常通过向人工智能模型发送提示或部分对话来工作，然后人工智能模型根据其训练数据和对自然语言模式的理解生成对话的完成或继续。然后将完成的响应返回给应用程序，应用程序可以将其呈现给用户或用于进一步处理。Spring人工智能聊天模
mediapipe流水线分析三江太翁 Android NDK 人工智能 mediapipe android
目标检测Graph一流水线上游输入处理1TfLiteConverterCalculator将输入的数据转换成tensorflowapi支持的TensorTfLiteTensor并初始化相关输入输出节点，该类的业务主要通过interpreterstd::unique_ptrtflite::Interpreterinterpreter_=nullptr;实现类完成数据在cpu/gpu上的推理1.1Tf
巅峰对决，超三十万奖金等你挑战！第十届信也科技杯全球AI算法大赛火热开赛！中杯可乐多加冰前沿资讯分享科技人工智能算法计算机视觉机器学习深度学习
信也科技今年跟IJCAI和CIKM这两大全球顶级AI会议合作，这场比赛被全球人工智能顶会CIKM收录为官方赛事单元，获奖选手有机会全球人工智能顶会创造更大的影响力。一、赛事概况随着深度伪造技术的高度发展，人工智能产业走深向实，生成合成技术开始呈现工具化和普及化趋势。在生成合成内容质量显著提升的当下，基于换脸攻击的身份冒用和欺诈事件在全球范围内激增，严重威胁个人隐私和公共数据安全。第十届信也科技杯全
OPENAI中Assistants API的实现原理及示例代码python实现 dzend aigc python ai
OPENAI中AssistantsAPI的实现原理及示例代码前言OPENAI是一家人工智能公司，致力于研究和开发人工智能技术。其中，AssistantsAPI是OPENAI推出的一项人工智能服务，可以帮助开发者快速构建智能助手。本文将介绍AssistantsAPI的实现原理，并提供使用Python实现的示例代码。AssistantsAPI实现原理AssistantsAPI的实现原理主要包括以下几个
初始CNN(卷积神经网络) 超龄超能程序猿机器学习 cnn 人工智能神经网络
卷积神经网络（ConvolutionalNeuralNetwork，简称CNN）作为深度学习的重要分支，在图像识别、目标检测、语义分割等领域大放异彩。无论是手机上的人脸识别解锁，还是自动驾驶汽车对道路和行人的识别，背后都离不开CNN的强大能力一、CNN诞生的背景与意义在CNN出现之前，传统的图像识别方法主要依赖人工提取特征，例如使用SIFT（尺度不变特征变换）、HOG（方向梯度直方图）等算法。这些
使用大模型预测胃穿孔的全流程系统技术方案大纲
目录一、项目概述二、项目背景三、建设目标四、建设内容（一）建设架构（二）核心功能（三）核心技术（四）预期成效（五）方案总结五、系统架构方案流程图六、实验验证证据七、健康教育与指导一、项目概述本项目旨在构建一套基于大模型的胃穿孔预测及全流程管理系统，通过整合术前、术中、术后各环节数据，利用先进的人工智能技术，实现对胃穿孔疾病的精准预测、手术方案优化、并发症风险预警以及术后护理指导等功能，为医疗决策提
深度学习相关指标工作笔记 Victor Zhong AI 框架深度学习笔记人工智能
这里写目录标题检测指标iou/Ｇou/Ｄiou/ＣiouMSE(MeanSquaredError)(均方误差)(回归问题)交叉熵损失函数(CrossEntropyErrorFunction)(分类问题)检测指标iou/Ｇou/Ｄiou/ＣiouIntersectionoverUnion(IoU)是目标检测里一种重要的评价值交并比令人遗憾的是IoU无法优化无重叠的bboxes如果用IoU作为loss
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http