Tom Hardy

RP-VIO：面向动态环境的基于平面的鲁棒视惯融合里程计（IROS2021）

RP-VIO: Robust Plane-based Visual-Inertial Odometry for Dynamic Environments

来源：Ram K, Kharyal C, Harithas S S, et al. RP-VIO: Robust Plane-based Visual-Inertial Odometry for Dynamic Environments[J]. IROS 2021

单位：印度海得拉巴机器人研究中心；

代码开源：https://github.com/karnikram/rp-vio

针对问题：

面向动态场景的鲁棒视惯融合里程计

提出方法：

充分利用场景中的平面约束，在初始化、滑窗优化中对自身位姿进行优化

达到效果：

相较于VINS-Mono、VINS-Mask，RP-VIO在论文自建数据集、VIODE、OpenLORIS-Scene、ADVIO数据集上实现了鲁棒且准确的定位效果。

Abstract

VINS系统在实际部署中面临着一个关键的挑战：它们需要在高度动态的环境中可靠而鲁棒地运行。目前最好解决方案根据物体的语义类别将动态物体作为外点剔除。这样的方法无法扩展，因为它要求语义分类器包含所有可能移动的物体类别；这很难定义，更不用说部署了。另一方面，许多实际环境以平面的形式表现出强烈的结构规律性，如墙壁和地面。文章提出了RP-VIO，系统利用这些平面信息，在具有挑战性的动态环境中提升了系统鲁棒性和准确性。由于现有数据集的动态元素数量有限，文章还提出了一个高度动态、逼真的仿真数据集，以便更有效地评估VINS系统的能力。文章在这个数据集和来自标准数据集的三个不同序列（包括两个实际场景的动态序列）上评估了文章的方法，相较于最先进的单目视觉里程计，系统表现出在鲁棒性和准确性上得到显著的改善。

Introduction

现有VIO系统具有一些局限性，首先除了需要精确同步和校准的额外硬件外而且该系统还需要进行足够的旋转和加速运动以保持重力和尺度的可观察性。另一个重要的限制是他们在有多个独立运动物体的动态环境中的表现。基本的多视角几何约束只适用于静态点，当应用于动态点时就会导致错误。这个问题在单目VINS的初始化阶段尤其重要，在这个阶段，来自视觉SFM的姿态估计通常直接与IMU预积分结果测量一致，以初始化尺度和IMU参数。在这个阶段，不正确的视觉姿态估计会导致完全的跟踪失败。

一个可行的方法是通过语义信息，直接识别场景中的静态部分，以进行特征跟踪。我们注意到，平面是日常人造环境中最丰富的静态区域。重要的是，平面还提供了一个简单的几何形状，可以进一步利用它来改善估计。基于这一观点，文章提出了RP-VIO，一个为动态环境定制的基于平面的单目视觉里程计。RP-VIO只使用场景中一个或多个平面的特征，由一个平面分割模型识别，并使用平面单应性进行运动估计。我们用我们提出的单应性约束增强了最先进的单目VIO系统，并在仿真以及实际场景数据集上显著提高了性能。

Main Contributions

RP-VIO是一个在初始化和滑动窗口估计过程中只使用平面特征及其导出的单应性约束的单目VIO系统，以提高动态环境中的鲁棒性和准确性。

构建了一个逼真的包含视觉以及IMU信息的数据集，与现有的数据集不同，它包含了整个序列（包括初始化）中的动态人物，并有足够的IMU激励。

在自建数据集上对所提出方法进行了广泛的评估，一个来自最近发布的VIODE数据集的户外模拟序列，以及来自OpenLORIS-Scene和ADVIO的两个具有挑战性的真实世界序列，使用了一个基于CNN的平面分割模型。

Method

我们提出的方法足够通用，可以集成到任何视惯融合里程计或SLAM系统中，在这项工作中，我们以VINS-Mono为基础。VINSMono是一个最先进的单目VIO，它是基于预集成的IMU测量和视觉特征的紧耦合的滑动窗口优化。我们认为它是一个纯粹的VIO系统，忽略了它的重新定位和闭环模块。我们在其前端的基础上，只检测和跟踪场景中的平面特征，并在初始化和优化模块中引入平面单应性约束。

1.符号定义

2.前端

我们的系统将灰度图像、IMU测量值和平面分割掩码作为输入。这些平面分割遮罩是从一个基于CNN的模型中获得的，我们在第三章E节中描述。我们在原始图像上应用获得的平面实例分割掩码，只检测和跟踪属于场景中（静态）平面区域的特征，同时还保持每个被跟踪特征属于哪个平面的信息。为了避免检测到可能属于动态物体的面具边缘的任何特征，我们对原始面具进行了侵蚀操作。此外，我们使用RANSAC对每个平面的特征进行单独的平面同构模型，以抛弃任何异常值。这些离群值可能是由KLT光流算法的不正确匹配产生的特征，或者是不属于更大的父平面的不准确的片段。图像帧之间的原始IMU测量值被转换为预集成测量值，具有足够视差和特征轨迹的图像帧被选作关键帧。

3.初始化

视觉-惯性滑窗优化在给定状态初值下通过迭代求解。为了获得一个良好的初始估计，而不对起始配置做任何假设，使用了一个单独的松耦合初始化程序，其中视觉测量和惯性测量被分别处理成各自的位姿估计，然后对齐求解其中未知参数。我们首先求解相机位姿、三维点和平面参数。从一个初始图像帧的窗口中，选择两个具有足够视差的基本帧。在它们之间的所有关联上的特征中，我们选择产生于场景中最大平面的匹配点对。我们将具有最多特征的平面确定为最大的平面。利用这些对应关系，我们使用RANSAC拟合了一个与两个相机位姿和最大平面相关的平面单应性矩阵H。将单应性矩阵H归一化后使用OpenCV中已经实现的Malis和Vargas的分析方法将其分解为旋转、平移和平面法向量。然而，该方法最多可以返回四个不同的解，这些解必须进行条件判断筛选。我们首先通过强制执行正深度约束将这个解集减少到两个，也就是说，所有的平面特征必须位于相机的前面。这个约束实现为：

即使IMU预积分旋转内部的陀螺仪偏置还没有被估计出来，但因为其幅度通常很小，不会特别影响结果。分解出的位姿用来对两个基本帧之间的对应特征点进行三角化，获得一个初始点云。窗口内其余帧的位姿使用PnP进行估计。在此注意到由于两个基准帧之间的位姿是以平面距离d为尺度的，所以三角化的点云和推导出的位姿也具有相同的尺度。所有的位姿随后被送入一个BA优化中，除了标准的3D-2D重投影残差外，我们还包括以下由平面单应性产生的2D-2D重投影残差。

用平面单应性矩阵从第一帧中映射其对应的图像位置u_l得到的。BA的输出是按尺度（d）得到的相机位姿和三维点，以及平面法向量。这些经过BA调整的视觉估计仍然不足以初始化，因为还需要估计未知的尺度、重力矢量、速度和IMU的偏置。这些参数的估计方法与VINS-Mono中一致。视觉估计和IMU预积分之间尺度因子是到最大平面的距离d。加速计的偏置，通常需要更多的测量，为了将初始化时间限制在2秒以内，没有进行解算。一旦所有的惯性量被估计出来，相机位姿和三维特征点被重新缩放为公制单位，世界坐标系被重新对齐，使其Z轴处于重力方向。对于场景中除最大平面外的其他平面，包括操作过程中可能新观察到的平面，我们同样计算它们各自的平面单应性矩阵并对其进行分解。但我们避免重新进行视觉BA，以及用IMU测量值重新调整它们的位姿，以及估计它们的尺度dp。我们直接将dp估计为每个分解的平移tp与对应公制平移tp的反比，这在之前已经用最大的平面和惯性测量进行了估计。有了这个结果，当前状态下的所有视觉和惯性量都已进行求解，这些估计值被送入滑窗内作为优化的初始种子点。

4.滑窗优化

批量优化位姿、地图点、惯性测量和平面参数的整个历史结果不能保证实时性，所以采用一个固定大小的滑窗进行优化。优化目标函数如下所示：

系统构建的因子图如上图所示，整个非线性目标函数通过使用Ceres Solver中实现的Dogleg算法和Dense-Schur线性求解器迭代求解。在优化结束时，窗口向前移动一帧以纳入最新帧。最新帧的状态是通过传播前一帧的惯性测量值进行初始化。如同VINS-Mono中的做法，丢弃的帧被边缘化。而优化后的平面参数并没有被丢弃或边缘化，而是在再次观察到该平面时重新使用。

5.平面分割

为了从每个输入的RGB图像中分割出平面，文章基于Pane-Recover实施。他们的模型使用结构约束进行训练，以同时预测平面分割掩码和它们的三维参数，只有语义标签，没有明确的三维标注。该模型在单个Nvidia GTX Titan X (Maxwell)GPU上能以30 FPS运行适合于实时VIO。尽管他们的模型很有效，但我们在实验中注意到，预测的片段往往不连续，单一的大平面被分割成多个独立的平面。为了克服这个问题，我们引入了一个额外的损失函数，将之间相对方向小的平面约束为一个平面。

有了这个新增的损失函数，我们用他们提供的来自SYNTHIA的训练数据重新训练网络，另外我们还对室内ScanNet数据集的两个序列（00，01）进行训练。为了进一步改善分割的边界细节，我们采用随机场模型来完善网络的分割结果。下图显示了我们在评估中使用的一个未见过的实际场景的分割结果。

在这一节中，我们描述了如何从场景中检测和跟踪平面特征，如何利用IMU将平面单应性矩阵分解成各自的运动和平面估计，以及如何将平面参数作为附加约束引入初始化和滑窗优化中。在下一节中，我们展示了这种方法在动态环境中的有效性。

Experiments

1.自建仿真数据集

RPVIO模拟数据集是我们生成仿真数据集，其中有准确的轨迹帧值，并且在整个序列中有足够的IMU激励。我们逐步在这些序列中加入动态元素，并使它们在序列的所有部分都可见，甚至在初始化期间也是如此。这使我们能够分离出它们对整个系统精度的影响。四旋翼飞机被控制沿着半径为15米的圆圈移动，同时沿着垂直方向的正弦波移动。沿着高度的正弦激励是为了确保非恒定的加速度，并保持尺度的可观性。我们进一步命令它在开始运动时，进行垂直加速，以帮助初始化。总的轨迹长度为200米，持续时间为80秒，最大速度为3米/秒。在四旋翼飞机形成的圆圈内，我们引入了正在进行重复性舞蹈运动的动态人物。我们在每个序列中逐步加入更多的动态角色，其他都是固定的，从静态场景开始，到8个动态物体，总共记录了6个序列。四旋翼飞机的偏航方向也是固定的，以保持相机指向圆心，这样，在整个序列中，人物都在相机的视野范围内。四旋翼飞机和人物是通过程序控制的，以确保他们的运动在所有序列中都是同步的。

VINS-Mono、Mask-VINS和RP-VIO在静态和存在一个动态物体的序列上表现相似。因为静态点的数量远远大于动态点的数量，RANSAC的效果与应用Mask相同。在存在两个动态物体序列中，我们注意到VINS-Mono的精度比Mask-VINS和RP-VIO低得多，而Mask-VINS和RP-VIO的精度相似。当其中一个动态物体太相机时，VINS-Mono在初始化过程中积累了大部分的误差，如下图所示，

然而，在存在4(C4)个、6(C6)个和8(C8)个动态物体的序列中，VINS-Mono完全跟丢。在C4和C6中，Mask-VINS和RP-VIO仍然能够成功跟踪，但RP-VIO-Single是精度较高，这表现出了增加的单应性约束在改善鲁棒性方面的作用。在C8序列中，我们的仍然能够像其他序列一样成功跟踪，但Mask-VINS完全跟丢。这可能是因为场景非常杂乱，剩下的少数特征只来自初始化时的单一平面，这对VINS-Mono的基于基本矩阵的SfM初始化来说是一种退化的情况。在这个序列中，RP-VIO-Multi显示出比RP-VIO-Single更好的准确性，这可能是RP-VIO-Multi相较于RP-VIO-Single有更多的观测。

2.标准数据集

我们在VIODE、OpenLORIS-Scene、ADVIO三个序列上评估了我们系统的鲁棒性。第一个数据集使用AirSim生成的，是一个有许多移动车辆的户外城市环境中拍摄的，由一架正在进行包括急剧旋转在内的无人机拍摄。我们使用他们提供的分割图像，只沿着道路追踪特征。第二个数据集是在现实世界的超市里从一个扫地机器人上采集的，其中包含许多动态的人物，如移动的人、手推车等。第三个数据集是在一个真实世界的地铁站里用手持智能手机拍摄的，是三个序列中视觉上最有挑战性的一个，它的视野很窄，动作很快，动态人物的形式是一辆移动的火车和移动的人。其中VIODE序列的总长度为166米，OpenLORIS序列为145米，而ADVIO序列为136米。

我们对三个序列使用我们方法的单平面版本进行测试。我们使用了与仿真实验相同的特征参数，没有进行任何调整。其与GT和其它方法相比得到的RMSE误差如下表所示：

在这里，由于在所有三个序列中，所有被遮挡的特征主要来自一个平面，我们没有与先前评估中使用的Mask-VINS进行比较，因为来自一个平面的特征对VINS-Mono初始化来说形成了一个退化情况。没有一个现成的语义分类器可以准确地分割两个序列中的所有动态物体，这也使得不能近似公平的对比。ADVIO序列中的图像具有非常高的分辨率1280×720，采集频率为60HZ，这导致了VINS前端的大量丢帧。出于这个原因，对这个序列的评估是在一个更强大的CPU上运行的，它有32GB内存和一个SSD。

讨论：我们的方法在所有三个序列上都比VINS-Mono有明显的提升。在OpenLORIS和VIODE序列中，我们的方法使用了比VINS-Mono更少的特征但得到了更高的准确性。这使我们相信，与跟踪所有可能的特征相比，跟踪少数稳定的特征可能就足够了，因为其中许多特征可能是有噪声的。在这两个真实世界的序列中，尽管使用的是没有经过图像训练的通用平面检测网络，但该网络和CRF能够提供可靠的平面分割，足以让我们的方法准确跟踪。如果有训练数据，我们希望能有更准确的分割和更好的整体轨迹估计。对于包含动态平面的场景，如车辆，必须训练并使用特定的地面或墙壁表面分类器。但对特定的平面进行训练仍然比对所有可能移动的物体类别进行语义分类器的训练更可行。我们的方法应该被认为是对通用的基于点的系统的补充，而不是作为一个完全的替代。

Conclusion

我们提出了一个单目VIO系统，该系统只使用环境中的一个或多个平面以及它们的结构规律性来进行动态环境中的精确位姿估计。我们在不同的仿真和实际动态环境中验证了其提升性能，同时在静态场景中评估了它与baseline相同性能。对于现实世界的环境，只使用一个通用的平面分割模型，我们得到比最先进的单目VIO系统精度提高了45%。在我们与Mask-VINS的比较中，我们的方法比简单的动态特征剔除方法取得了更好的准确性，这意味着了增加的结构约束在提高鲁棒性方面的作用。这项工作的未来范围是将其扩展到一个完整的SLAM系统中，以获得干净和一致的基于平面的地图，没有任何平面外的噪声特征，这反过来可以用来进一步改善运动估计。此外，还可以研究来自分割模型预测的三维平面参数是否可以直接用于改进初始化。该方法还可以扩展到包括从分割的平面中产生的相应的线特征约束融合到系统中。

备注：作者也是我们「3D视觉从入门到精通」特邀嘉宾：一个超干货的3D视觉学习社区

原创征稿

初衷
3D视觉工坊是基于优质原创文章的自媒体平台，创始人和合伙人致力于发布3D视觉领域最干货的文章，然而少数人的力量毕竟有限，知识盲区和领域漏洞依然存在。为了能够更好地展示领域知识，现向全体粉丝以及阅读者征稿，如果您的文章是3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、硬件选型、求职分享等方向，欢迎砸稿过来~文章内容可以为paper reading、资源总结、项目实战总结等形式，公众号将会对每一个投稿者提供相应的稿费，我们支持知识有价！

投稿方式

邮箱：[email protected] 或者加下方的小助理微信，另请注明原创投稿。

▲长按加微信联系

▲长按关注公众号

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
android去除gps漂移代码,GPS漂移过滤算法扇贝君
GPS漂移过滤算法基本思想：逐点过滤，再经过基础过滤后，进行判断运动状态，静止状态和运动中。如果静止，则使用电子围栏；如果运动，则先过滤大速度，再过滤加速度，然后过滤距离(包括超大距离，和速度相关距离)。对于要过滤的点，采用之前最近的可靠点，进行替换，同时，无效次数+1，如果后面是有效点，则无效次数-1，如果无效次数归0，认为这个点才是真正可靠点(无效次数为正时，都为要被替换的点)。如果遇到不定点
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =