SCH0

Dynamic-SLAM2019论文翻译

Dynamic-SLAM:动态环境下基于深度学习的语义单目视觉定位与建图

摘要-传统SLAM框架在动态环境下工作时，由于受到动态对象的干扰，性能较差。为了解决动态环境下的SLAM问题，利用深度学习在目标检测中的优势，提出了一种语义同步定位与建图框架dynamic -SLAM。首先，在卷积神经网络的基础上，构建了一种结合先验知识的SSD对象检测器，在语义层面对新检测线程中的动态对象进行检测;然后，针对现有SSD目标检测网络召回率低的问题，提出了一种基于相邻帧速度不变性的缺失检测补偿算法，大大提高了检测的召回率。最后，构建了基于特征的视觉SLAM系统，该系统通过跟踪线程中的选择性跟踪算法对动态目标的特征点进行处理，显著降低了由于不正确匹配导致的位姿估计误差。与原SSD网络相比，系统召回率由82.3%提高到99.8%。实验结果表明，动态slam的定位精度高于现有系统。该系统利用移动机器人在真实动态环境中成功定位并构建了精确的环境地图。总之，我们的实验证明，与动态环境下最先进的SLAM系统相比，动态SLAM系统在机器人定位和映射方面具有更高的准确性和鲁棒性。

特点

构造了一个SSD对象检测器，用于在新检测线程中检测具有先验知识的动态对象
提出了基于相邻帧速度不变性的漏检补偿算法
为了消除动态目标，提高系统的鲁棒性和精度，提出了选择跟踪算法
为实现机器人定位与制图中动态环境的检测，构建了基于特征的结合语义信息的动态slam系统

1.引言

同步定位与地图绘制(Simultaneous Localization and Mapping, SLAM)[1]经过近三十年的发展，已经成为机器人、自动化和计算机视觉领域的一项关键技术。在不同的传感器模式中，相机更便宜，并提供丰富的视觉和环境信息，这在未来有巨大的增长空间。当前微型飞行器(Micro Aerial Vehicle, MAV)、无人地面飞行器(Unmanned Ground Vehicle, UGV)、自动驾驶、虚拟现实(Virtual Reality, VR)、增强现实(Augmented Reality, AR)等应用都需要SLAM技术提供可靠的定位和制图结果。然而，在视觉SLAM中，特别是在动态环境下(visual SLAMIDE)，姿态估计的鲁棒性和准确性仍然存在许多关键的挑战。
为了使视觉SLAM系统在动态环境下正常工作，通常的方法是避免使用动态对象上的特征点。因此，有必要提前计算动态物体的位置。同时，基于深度学习的目标检测和语义分割在这方面也取得了显著的成果。在动态环境下将深度学习技术应用于SLAM是解决该问题的关键。

在本研究中，基于ORB-SLAM2[2]构建的dynamic -SLAM是动态环境下基于深度学习的语义单目视觉SLAM系统。动态slam主要包括一个视觉测程前端，该前端包括两个线程和一个模块，即跟踪线程、目标检测线程和语义校正模块;SLAM后端，主要包括本地建图线程和闭环线程。该框架如图1所示，将在第3节中详细介绍。动态slam可以在复杂的室内和室外动态环境中成功地实时运行。它解决了行人和车辆存在时的定位、BA、闭环、稀疏重建等问题。它可以满足正常真实环境下的定位和建图分配。本文的主要贡献如下:

针对现有SSD目标检测网络召回率低的问题，针对SLAM系统提出了一种基于相邻帧速度不变性的漏检补偿算法，大大提高了检测召回率，为后续模块的工作提供了良好的基础。
提出了一种简单有效地消除动态目标的选择跟踪算法，提高了系统的鲁棒性和准确性。
构建了一个基于特征的可视化动态slam系统。在SSD卷积神经网络的基础上，将深度学习技术构建为一个新的目标检测线程，结合先验知识实现机器人定位与测绘中语义层面的动态目标检测。

2.相关工作

2.1 视觉slam

近十年来，Visual SLAM取得了飞速的发展。由于其成本低、体积小等优点，引起了研究人员的广泛关注。Davison等人是视觉SLAM的先驱。2007年，他首次提出Mono-SLAM[3]，实现单目实时SLAM系统。随后，Klein等人提出了PTAM [4] (Parallel Tracking and Mapping)，创造性地将整个系统划分为两个线程：跟踪和绘图，成为后续SLAM研究人员的基准。2014年，Engel等[5]提出的LSD-SLAM明确了像素梯度与直接法之间的关系。同时，Forster等[6,7]提出了一种结合特征点和直接跟踪光流法的快速半直接单目视觉测速(Semi-direct monocular Visual Odometry, SVO)方法。后来，DSO[8]、VINS-Mono[9]等框架也采用了直接法。该方法在跟踪和匹配方面节省了计算资源，但对特征的不敏感是其在SLAM中进一步应用的致命弱点。
为了构建一个完整且健壮的SLAM框架，使用特征点是必不可少的。一方面，特征提取和匹配可以保证SLAM跟踪中姿态估计的准确性;另一方面，特征方法可以从视觉图像中提取更有效的信息，如语义、物体识别、特征定位等。实际上，Leutenegger提出的OKVIS[10]视觉惯性测程框架、mr - artal等人提出的ORB-SLAM[11]和ORB-SLAM2[2]都是基于特征跟踪的SLAM的成功应用。
ORB-SLAM2框架是经典SLAM线程模型的继承者。为了完成SLAM系统，它使用ORB[12]特征点和三个主要的并行线程:跟踪线程用于实时跟踪特征点，局部建图线程用于构建局部束调整(Bundle adjustment, BA)图，闭环线程用于校正累积漂移并形成姿态图优化。它可以使系统在大场景、大循环下长时间运行，从而保证轨迹和地图的全局一致性。ORB-SLAM2是性能最好的定位和建图框架之一。但是，在处理动态环境问题方面还存在许多不足，值得进一步探索。

2.2 SSD目标检测网络

目前，基于卷积神经网络的目标检测和语义分割方法在速度和精度上都取得了不断的突破。深度学习在相关任务上的表现已经逐渐超越其他方法，成为主流。
与图像识别相比，对象检测更加困难，因为它不仅需要对图片中的不同对象进行分类，而且还需要给出每个观察的位置。由R-CNN [13]领导的神经网络方法，例如spp-net [14]，快速R-CNN [15]，更快的R-CNN [16]等，使用卷积神经网络自动学习功能和避免手动设计功能的限制。它们通过候选帧提取、特征提取和分类等操作获得目标检测结果。虽然这些方法具有较高的精度，但由于候选帧提取和目标识别分两步进行，因此非常耗时。相比之下，YOLO (You Only Look Once)[17]算法省略了生成候选区域的中间步骤，直接通过单个卷积神经网络处理每个边界框的回归问题，并预测相应类别的概率，从而达到了较快的速度并保持了较好的准确率。Liu等[18]提出的SSD (Single Shot MultiBox Detector)，利用Faster-RCNN中的锚盒来适应不同形状的物体。它是Dynamic-SLAM中的特征点识别器，它使用VGG16的基本网络结构，前五层保持不变，而fc6和fc7层使用 trous[19]算法转换为两个卷积层，然后在后面增加三个卷积层和一个平均池化层。最后，通过非最大抑制(NMS)得到最终检测结果。该算法省去了初始候选框的生成步骤，使得整个目标检测过程在单个网络中完成，从而实现了较高的检测效率(46 fps, Ti- tan X)和检测精度(77.2%)。在保证速度的前提下，SSD获得了足够的精度，超过了基于候选框的方法。

2.3 SLAMIDE问题和深度学习

早在2003年[20]，就有一些关于SLAM in Dynamic Environments (SLAMIDE)问题的研究。传统的动态环境下SLAM方法可分为两类:一类是动态目标的检测与跟踪[20];另一个是动态目标的检测和滤波[21]。前者可以概括为移动物体检测和跟踪(DATMO)[22]方法。一些研究人员[23]认为，在获得一组合理的检测特征集后，处理slam问题至少有四种相关的数据关联技术，包括GNN[24]、JPDA[25]、MHT[26]和RANSAC[27]。Charles等人[28]提出了一种将最小二乘与滑动窗口优化和广义期望最大化相结合的框架。Chen等[29]提出了一种仅依赖地标而不依赖先验信息的动态环境系统SLAM。Walcott-Bryant等人[30]提出了动态环境下的动态姿态图(Dynamic Pose Graph, DPG)模型。2018年，Bahraini等人[31]提出了一种利用MultiLevel-RANSAC对多个运动目标进行分割和跟踪的方法。一般来说，大多数视觉研究者仍然关注如何利用特征检测方法从相邻帧中提取动态目标。特征检测方法的一个潜在缺点是，当动态对象移动太慢或太快时，它将失败。Muhamad等[32]对动态环境下的视觉SLAM和Structure from Motion (SfM)问题进行了研究。根据分类，动态SLAM是一种鲁棒的视觉SLAM。
SLAMIDE一直是SLAM领域中一个难以克服的难题。究其原因，传统的SLAM理论完全建立在静态环境假设的基础上。它的挑战主要来自两个方面:一是难以从平面像素定义动态目标;二是动态目标不易被检测和跟踪。

由于深度学习在目标检测方面取得了良好的性能，许多研究者将深度学习与SLAMIDE问题相结合[32]。Zhang等[33]集成了深度CNN模型，提高了地形分割的精度，使其对野生环境的鲁棒性更强。一些类似的RGB-D SLAMIDE研究[34 37]已经通过将最先进的SLAM框架与深度学习网络相结合而发展起来，并取得了可观的成果。由于激光雷达SLAM和RGB-D SLAM传感器可以直接获取深度信息来估计动态物体的位置，因此大多数SLAM研究人员都集中在激光雷达SLAM和RGB-D SLAM上[38]。相比之下，在单目视觉系统中对SLAMIDE的研究非常有限。Barnes等人[39]提出了一种自监督方法来忽略单目摄像机图像中的干扰物，从而在城市动态环境中稳健地估计车辆运动。Bescos等人[40]采用了与我们相似的方法。他们将ORB-SLAM2与Mask RCNN相结合[41]实现动态环境下的单目和立体系统，并结合多视图几何模型和深度学习算法实现RGB-D系统。

3.系统概述和方法

本研究在ORB-SLAM2[2]的基础上构建了dynamic - slam，增加了包含语义的动态目标决策模块，并利用特征点对视觉里程计算法进行了优化。动态slam的鲁棒性是通过分割图像中的静态和动态特征，并将动态部分作为离群值来实现的。基于选择跟踪算法计算的静态特征点进行姿态估计和非线性优化，以避免动态环境目标的干扰。针对现有SSD目标检测网络召回率低的问题，提出了一种基于基本运动模型的漏检补偿算法，大大提高了目标检测模块的准确率。图2绘制了Dynamic-SLAM的简要框架。

3.1漏检补偿算法

在实验过程中发现，神经网络对SLAM的检测精度还不够，还可以进一步提高。由于图像之间不存在显著的相关性，在常规的目标检测任务中，无法通过上下文信息来提高检测精度。但是在SLAM中，视频帧是以时间序列的形式到达的，可以利用前一帧的检测结果来预测下一帧的检测结果，从而避免下一关键帧的漏检或误检。在目标检测任务的准确性评估中，研究人员通常更关注两个方面:精确度和召回率。对于slamIDE问题中的动态目标检测任务，后者更为重要。在漏检或误检的情况下，相邻两幅图像之间的差异会导致特征点正确匹配的数量急剧变化，从而导致系统的不稳定。根据Davis等人[42]的工作，Recall rate和Miss rate可以定义为：

在SSD中，将 $\chi ^p_{ij} = \{1，0\}$ 作为默认框 $i$ 与对象类别 $p$ 的ground truth框 $j$ 是否匹配的指示器。当漏检发生时， $\widehat{\chi} ^p_{ij} = \{1，0\}$ 等于0，预测框(l)和地面真值框(g)之间的平滑L1定位损失[15]会增加
其中 $D (c u, c v, w, h)$ 给出了边界框(d)的中心点坐标 $(c u, c v)$ 及其宽度和高度。
提出了相邻帧的漏检补偿模型，该模型基于一个合理的假设:动态物体的运动速度在短时间内趋于恒定(即加速度趋于0)。像素平面中的动态对象速度用 $\overrightarrow{v}$ 表示，其中 $a_{max}$ 也表示动态物体在像素平面上的速度变化率阈值。它们之间应满足以下关系:

运动速度用来描述动态物体在几帧之间的运动位移。在实际应用中，视频序列中相邻两帧的时间差很短，动态物体在运动位移中的变化量变化不大。该模型可用于确定是否发生漏检，并在漏检事件中提供补偿策略。前一帧与当前帧K在短时间内对应的边界框可以用 $\Delta \overrightarrow{v}$ 来确定。如果它大于 $a_{max}$ ，则认为是不匹配，即漏检。当前关键帧K进入SSD网络，输出检测到的对象列表。列表中的每一项为边界框的定位，即被检测物体的位置坐标 ${}^KD_i$ ( $0 < i < N K 0，其中 N K N^K 为第K帧中的边界框编号)。对于前一帧的每一个检测结果 K − 1 D i {}^{K-1}D_i ，如果在当前帧中由 a m a x a_{max} 确定的区域 K A i ( K a i , u , K a i , v , k − 1 w ^ , k − 1 h ^ ) {}^KA_i({}^Ka_{i,u},{}^Ka_{i,v},{}^{k-1}\widehat w,{}^{k-1}\widehat h) 未检测到，它被认为是漏检。需要将 K D i ( K c ^ i , u , K c ^ i , v , k − 1 w ^ , k − 1 h ^ ) {}^KD_i({}^K\widehat{c}_{i,u},{}^K\widehat{c}_{i,v},{}^{k-1}\widehat w,{}^{k-1}\widehat h) 加入到帧K的检测表中，其中其中k是用于对当前帧进行漏检和补偿的前一帧的个数。算法处理如下漏检补偿算法的效果如图3所示。它在动态目标的选择和跟踪中起着至关重要的作用。上式中k和 a m a x a_{max} 的选择会影响漏检补偿的灵敏度。如果k过小，会导致灵敏度过高和误差补偿。通常在确定帧K之前选择3-5帧。同时，如果检测到连续两帧以上的对象缺失，则放弃补偿。这可能会引入少量的误差补偿，但可以显著减少漏检的发生。此外，当 a m a x a_{max} 过小时，正确的检测结果可能被视为漏检。如果该值太大，系统将不敏感，其中多个动态目标检测区域可能重叠。$

3.2基于先验知识的动态目标确定

环境对象的语义学是人们基于经验对环境的解释。在记忆陌生环境的过程中，人们会借助先验知识自动忽略车辆、行人等动态物体。如果SLAM系统不能从语义层面理解周围环境，就不能真正区分动态和静态环境。它只能在短时间内发现移动的物体，无法保证长期的一致性。因此，结合先验知识的目标检测结果可以在语义层面上执行动态目标决策模型。对于Dynamic-SLAM，前端SSD对象检测模块输出的信息是冗余的。它只需要知道检测到的特征点是静态的还是动态的。根据人类的先验知识，物体的动态特性可以从0分(静态)到10分(动态)进行评分。该分数应与预先定义的阈值进行比较。因此，对特征点进行了静态和动态的区分。在此区间内，常见目标的近似得分如图4所示。
实际上，这是一个最大化后验问题。当前一帧的边界框被检测为动态对象时，当前一帧的边界框也被判断为同一点并重新检测，然后进入漏检补偿回路。将 $\mathbb{C}={}^Kc_i:K=1,2,...,K,...,N$ 和 $\mathbb{Z}={}^Kd_i:K=1,2,...,K,...N$ 作为边界框的实际情况和测量值，根据贝叶斯法则：

$P(\mathbb{C} \mid \mathbb{Z})=\frac{P(\mathbb{Z} \mid \mathbb{C}) \mathrm{P}(\mathbb{C} \mid)}{P(\mathbb{Z})} \propto P(\mathbb{Z} \mid \mathbb{C}) \mathrm{P}(\mathbb{C} \mid) \quad (7)$
然后

在动dynamic-slam框架中，帧k的确定结果会受到过去多帧的干扰。根据帧k-1展开条件概率：

基于先验知识的动态目标确定解决了神经网络获得的冗余语义信息，在特征点处理中更加实用。

3.3 目标检测模块和选择性跟踪

特征跟踪并不麻烦，但并不是所有的特征都可以用于跟踪，也不是所有动态对象的特征都不能用于跟踪。这里有两种特殊情况:1.一个对象被归类为动态对象，但它在场景中是静态的(例如，停车场中的汽车)。2. 动态对象占据了摄像机的大部分视场(例如，在一个非常拥挤的购物中心)。区分不同场景下的前景动态特征点和背景静态特征点至关重要。
Dynamic-SLAM的具体系统结构如图2所示。对象检测线程通过SSD对象检测网络计算对象的类别和位置。之后，通过语义校正模块将对象进一步划分为动态对象或静态对象，然后将动态对象的位置提供给跟踪线程。跟踪线程对每个关键帧图像进行ORB特征提取，然后将结果与参考帧进行匹配，得到两幅图像特征点之间的对应关系，用于估计相机姿态。
初始化完成后，姿态估计是PnP (Perspective-n-Point)问题。采用以Bundle Adjustment为代表的非线性优化方法[43]来解决该问题。该方法可以充分利用所有匹配结果，得到姿态的最优估计。非线性优化的代价函数定义如下
最小重投影误差是观测到的像素坐标ui与当前姿态ξ下三维点Pi的重投影坐标之差。优化的目标是找到一个姿态，使重投影误差最小。
在动态环境下，动态目标上特征点的重投影误差会过高，导致相机姿态不能收敛到最优值。dynamic - slam的语义校正模块的决策结果表示为一个mask图像mask(u,v) ={0,1}，它是一个与原始图像宽度和高度相同的二维矩阵，元素值为0的点表示静态像素点，元素值为1的点表示动态像素点。
同时，前端视觉里程计将随时读取掩模图像，并根据掩模图像值对特征点进行选择性跟踪操作。
图5给出了选择性跟踪算法的实现过程。动态特征点的像素坐标 ${}^Kp_{di}$ 由语义校正模块获得。然后，计算像素区域L内静态特征点的平均像素位移 $\bar{S}_L(u,v)$ ，该像素区域 $L$ 围绕边界框 ${}^KD_i$ 的距离为 $l$ 。最后，计算动态特征点的像素位移并进行确定。

其中ρ为决策系数， $\bar{S}_L$ 为决策阈值，其计算公式如下

如果动态特征点与静态特征点之间的相对位移在可接受范围内，则允许用于跟踪，否则将被剔除。
选择性跟踪算法可以充分利用深度学习的检测结果。该方法能很好地解决动态对象处于静态状态或动态对象占据大部分视场时的特征点问题，保证了系统的鲁棒性。该策略在一定程度上牺牲了空间信息，但在机器人低速时是有效的。
为了保证动态SLAM系统的实时性，将目标检测和跟踪分为两个线程。同时，设计了一种新的数据结构类Detection，安全高效，支持并发操作通过检测结果。此外，还使用了一个名为unique lock的互斥锁，以确保两个线程不会发生访问冲突。由于对象检测线程和跟踪线程的处理速度不同步，采用异步读写共享变量的方式实现线程间通信，最大限度地利用CPU时间。

4.实验结果

5.结论

本文构建了一个完整的SLAM框架Dynamic- SLAM，这是一个利用深度学习来提高动态环境下的性能的语义单目视觉同步定位与映射系统。这个框架有三个主要贡献。首先，针对现有SSD目标检测网络召回率较低的问题，针对SLAM系统提出了一种基于相邻帧速度不变的漏检补偿算法，大大提高了检测召回率，为后续模块的工作提供了良好的基础。其次，提出了一种选择性跟踪算法，以简单有效的方式消除动态目标，提高了系统的鲁棒性和准确性;最后，构建了基于特征的可视化动态SLAM系统。在SSD卷积神经网络的基础上，将深度学习技术构建为新的目标检测线程，结合先验知识实现机器人定位与测绘中语义层面的动态目标检测。
为了评估该框架，设计了六个实验来验证动态slam的优越性、准确性、鲁棒性和可移植性。与原有的SSD检测网络相比，该系统将TUM数据集的检测召回率从82.3%提高到99.8%。在TUM室内动态环境数据集的测试中，dynamic - slam的定位精度比目前最先进的ORB- SLAM2系统提高了7.48% ~ 62.33%，运行性能提高了约10%，也优于PTAM、LSD-SLAM、SVO、DynaSLAM框架。在KITTI室外大尺度动态环境测试中，dynamic - slam成功定位并构建了更精确的环境图，性能优于ORB-SLAM2和DynaSLAM。为了进一步验证算法的实用性，将dynamic - slam移植到嵌入式机器人平台上，成功地实现了实际动态环境下的定位和映射，而orb - slam则失败了。实验结果表明，动态slam在动态环境下具有可靠的优越性、精度和鲁棒性。
综上所述，本文是对SLAM技术在真实动态环境中的探索，成功展示了基于深度学习的人工智能与SLAM融合的广阔前景。在进一步的研究中，深度学习可以更广泛地应用于SLAM，而不仅仅是前端。与此同时，应该挑战更复杂的环境。

AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
导致格式错误的 Lambda 代理响应的原因以及如何修复它 zqhdz米时空汇编
当人们尝试使用AWSAPIGateway和AWSLambda构建无服务器应用程序时，经常出现的一个问题是_由于配置错误而执行失败：Lambda代理响应格式错误。_没有什么比通用错误消息更糟糕的了，它们不会告诉您解决问题所需的任何内容，对吧？AWS并不是以其错误消息设计而闻名，如果甚至可以这样称呼它的话，更不用说为您提供解决问题的方法了。那么如何修复这个Lambda错误以及是什么原因造成的呢？花椒壳
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
ROS yaml参数文件的使用 Sun Shiteng ROS
举个例子，若在params.yaml文件中定义如下参数LidarImageFusion:points_src:"/hilbert_h/deskew/cloud_info"image_src:"/usb_cam0/image_raw"camera_info_src:"/home/hdj/fusion_slam/Color_SLAM_ws/src/hilbert_h/config/firefly_8s
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
DIODE：超高分辨率室内室外数据集（猫脸码客第186期）猫脸码客: catCode2024 开源数据集猫脸码客开源数据集超高分辨率室内室外数据集
亲爱的读者们，您是否在寻找某个特定的数据集，用于研究或项目实践？欢迎您在评论区留言，或者通过公众号私信告诉我，您想要的数据集的类型主题。小编会竭尽全力为您寻找，并在找到后第一时间与您分享。在计算机视觉和深度学习领域，深度信息作为三维空间感知的重要组成部分，对于实现高级视觉任务如场景理解、机器人导航、增强现实等具有至关重要的作用。然而，获取准确且密集的深度数据一直是一个挑战，尤其是在同时涵盖室内和室
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
计算机视觉—照相机（下） zidea
封面焦距(FieldofView)同一位置相机用不同焦距，28mmFieldofView就变小，85mm时候的Fieldofview也就是只有28度视野，每一个物体在通常尺寸的胶片上像素也就是越多，chromaticAberration焦距和是波长相关，不同颜色光聚焦在不同位置。这种现象在物体边缘尤为明显。颜色颜色说简单也简单，说复杂也复杂，我们在高中物理已经知道可见光是电磁波，不同颜色对应不同波
Python OpenCV精讲系列 - 高级图像处理技术（五）极客代码 Python OpenCV精讲 python opencv 图像处理开发语言人工智能计算机视觉
⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计，从基础概念入手，逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解，更有实战代码示例，助力读者快速将所学应用于实际项目中，提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进
xwiki html和css,MediaWiki vs. XWiki Ake阿科多语言信息技术编程数据库操作系统
140Afar,Abkhazian,Afrikaans,Amharic,Arabic,Assamese,Aymara,Azerbaijani,Bashkir,Byelorussian,Bulgarian,Bihari,Bislama,Bengali;Bangla,Tibetan,Breton,Catalan,Corsican,Czech,Welsh,Danish,German,Bhutani,Gr
2021-07-07 潇洒二爷
一辆特斯拉“花格子S型”小车，突然起火，电子技术的车门也失灵TeslaModelSPlaidbrokeintofirewithfailureofelctronicdoors一辆“花格子牌”（ModelSPlaid）特斯拉轿车，在6月29日这天，车主正在路上行驶，突然烈焰腾飞，他的代理律师说，他被短时间困在车内，因为几个电动门都打不开。事情在几天前发生于费城外，这名男子拿到这款特斯拉之后，号称是世界
计算机视觉中的数据增强方法总结 CV技术指南(公众号) CV技术总结计算机视觉深度学习卷积神经网络
前言：在计算机视觉方向，数据增强的本质是人为地引入人视觉上的先验知识，可以很好地提升模型的性能，目前基本成为模型的标配。最近几年逐渐出了很多新的数据增强方法，在本文将对数据增强做一个总结。本文介绍了数据增强的作用，数据增强的分类，数据增强的常用方法，一些特殊的方法，如Cutout，RandomErasing，Mixup，Hide-and-Seek，CutMix，GridMask，FenceMask
计算机视觉中，什么是Hide-and-Seek？ Wils0nEdwards 计算机视觉人工智能
是的，Hide-and-Seek技术主要是在弱监督学习领域中使用的，它的核心思想是通过随机遮掩输入图像的一部分，强迫模型学习更全面的特征，而不是仅仅依赖显著的局部信息。由于弱监督场景下的监督信号有限，例如只有少量的点标注、粗略标注或没有任何标注，模型容易过度依赖于图像中最显著的部分，而忽略其他信息。这种现象会导致模型只关注容易识别的局部特征，而无法理解物体的整体结构或捕捉更多的背景信息。1.Hid
计算机视觉——第三章图像拼接 JMU15980999055 python 计算机视觉人工智能
计算机视觉——第三章图像拼接1.图像全景拼接的原理和过程的简要介绍1.1特征点提取和匹配1.2图像配准1.3图像拼接2.实现多图像拼接2.1图片集说明2.2实验代码2.3实验结果及其分析3.两张不同角度的图像拼接3.1图片集说明3.2实验代码3.3实验结果及其分析总结1.图像全景拼接的原理和过程的简要介绍在同一位置拍摄的两幅或者多幅图片是单应性相关的，我们经常使用该约束将很多图像缝补起来，拼成一个
论文翻译：arxiv-2022 Ignore Previous Prompt: Attack Techniques For Language Models CSPhD-winston-杨帆论文翻译 LLMs-安全 prompt 语言模型人工智能
IgnorePreviousPrompt:AttackTechniquesForLanguageModelshttps://arxiv.org/pdf/2211.09527忽略之前的提示：针对语言模型的攻击技术文章目录忽略之前的提示：针对语言模型的攻击技术摘要1引言摘要基于Transformer的大型语言模型（LLMs）为大规模面向客户的应用程序中的自然语言任务提供了强大的基础。然而，探索恶意用户
计算机视觉学习路线不会代码的小林计算机视觉
计算机视觉学习路线是一个系统而全面的过程，涵盖了从基础知识到高级应用的多个方面。以下是一个详细的计算机视觉学习路线，供您参考：一、基础知识学习编程语言与基础库学习Python语言，掌握基础语法、函数、面向对象编程等概念。Python是计算机视觉领域广泛使用的编程语言，因其简洁易读和丰富的库支持而受到青睐。学习Numpy库，用于科学计算和多维数组操作，这是计算机视觉中数据处理的基础。学习OpenCV
【Python第三方库】OpenCV库实用指南墨辰JC Python opencv python 人工智能学习
文章目录前言安装OpenCV读取图像图像基本操作获取图像信息裁剪图像图像缩放图像转换为灰度图图像模糊处理边缘检测图像翻转图像保存视频相关操作方法讲解读取视频从摄像头读取视频前言OpenCV（OpenSourceComputerVisionLibrary）作为一个强大的计算机视觉库，提供了丰富的图像处理和计算机视觉功能，尤其在图像识别、对象检测、视频分析等领域有着广泛的应用。本文将带领读者使用Pyt
ESRGAN——老旧照片、视频帧的修复和增强，提高图像的分辨率爱研究的小牛 AIGC——图像 AIGC—视频 AIGC 人工智能深度学习音视频自动化
ESRGAN（EnhancedSuper-ResolutionGAN）：用于提高图像的分辨率，将低质量图像升级为高分辨率版本，常用于老旧照片、视频帧的修复和增强。一、ESRGAN介绍1.1背景超分辨率问题是计算机视觉中的一个重要研究领域，其目标是通过增加像素数量来提高图像的分辨率，恢复出更加细腻的图像。传统的算法（如双三次插值）通常导致放大后的图像模糊、不自然。而深度学习特别是**生成对抗网络（G
计算机视觉之旅-进阶-图像滤波处理撸码猿计算机视觉图像处理人工智能
1.基本概念1.1.数字图像图像处理的对象是数字图像,它是由像素点阵列表示的图像。需要了解像素、图像分辨率、灰度级、RBG等图像表示方法。用numpy数组表示,每个元素为像素值。例如RGB图像 importnumpyasnp img=np.array([[[255,0,0],[0,255,0]],[[0,0,255],[255,255,255]]]) 1.2.采样和量化数字图像是通过采样和量化得到
探秘3D UNet-PyTorch：高效三维图像分割利器鲍凯印Fox
探秘3DUNet-PyTorch：高效三维图像分割利器在医学影像处理、计算机视觉和自动驾驶等领域，三维图像的理解与分析至关重要。而是一个基于PyTorch实现的深度学习模型，专为三维图像分割任务设计。本文将深入剖析该项目的技术细节，应用场景及特性，以期吸引更多的开发者和研究人员参与其中。项目简介3DUNet是2DUNet的三维扩展，其结构保持了卷积神经网络的对称性，采用跳跃连接的方式保留了不同尺度
论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
深度学习计算机视觉中 feature modulation 操作是什么？ Wils0nEdwards 深度学习计算机视觉人工智能
什么是特征调制（FeatureModulation）？在深度学习与计算机视觉领域，特征调制（FeatureModulation）是一种用于增强模型灵活性和表达能力的技术，尤其是最近几年，它在许多任务中变得越来越重要。特征调制通过动态调整神经网络中间层的特征，使模型能够根据不同的上下文、输入或任务自适应地调整自身的行为。特征调制的核心概念特征调制的基本思想是通过某种形式的参数调节来改变特征表示的性质
计算机视觉中，如何理解自适应和注意力机制的关系？ Wils0nEdwards 计算机视觉人工智能
自适应和注意力机制之间的关系密切相关，注意力机制本质上是一种自适应的计算方法，它能够根据输入数据的不同特点，自主选择和聚焦于输入的某些部分或特征。以下是两者之间的具体关系和如何理解它们：1.注意力机制的自适应特性注意力机制的核心功能是为不同输入元素（如特征、位置、通道等）分配不同的权重。这些权重是通过学习动态生成的，表示模型对不同输入元素的关注程度。由于这些权重是根据具体的输入数据动态计算的，因此
解锁Python中的人脸识别：Face Recognition库详解与应用码上飞扬 Recognition 人脸识别
在当今的人工智能时代，人脸识别技术已经成为了计算机视觉领域的一项重要应用。无论是在安全监控、社交媒体还是智能设备中，人脸识别都扮演着不可或缺的角色。在众多的人脸识别工具和库中，Python的FaceRecognition库以其简单易用和高效性而备受青睐。本文将深入探讨FaceRecognition库的使用方法、工作原理及其应用场景，帮助你快速掌握这一强大的工具。一、什么是FaceRecogniti
OpenCV3最常用的基本操作 HeoLis
OpenCV介绍OpenCV的全称是OpenSourceComputerVisionLibrary，是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发，以BSD许可证授权发行，可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。该程序库也可以使用英特尔公司的IPP进行加速处理。以上是维基百科关于OpenCV的介绍，简单来说它就是处理图
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http