1998@逆风生长

6D姿态估计算法汇总

文章目录

- 标题 6D姿态估计的算法
- - - 1、GDR-Net: Geometry-Guided Direct Regression Network for Monocular 6D Object Pose Estimation（CVPR 2021）（基于几何信息指导的单目6D物体姿态直接回归算法）
    - - 算法思想
    - 2、EPOS: Estimating 6D Pose of Objects with Symmetries（估算具有对称性的物体的 6D 姿势）（CVPR2020）
    - - 算法思想
    - 3、G2L-Net: Global to Local Network for Real-time 6D Pose Estimation with Embedding Vector Features（实现实时 6D 姿势估计，并嵌入矢量功能）
    - - 算法思想
    - 4、HybridPose: 6D Object Pose Estimation under Hybrid Representations（混合姿态：混合表示下的6D目标姿态估计）
    - - 算法思想
    - 5、Self6D:Self-Supervised Monocular 6D Object Pose Estimation（ECCV 2020）自监督学习单目6D目标姿态估计
    - - 算法思想
    - 6、Single-Stage 6D Object Pose Estimation（2020CVPR）（单阶段6D目标物体姿态估计）
    - 背景
    - - 主要创新点
    - 7、DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion (CVPR2019)（密集融合：迭代密集融合的6D目标姿态估计）
    - - 算法思想
      - 主要贡献点
    - 8、PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation（2018）
    - - 算法思想
      - 主要贡献点
    - 9、Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation(CVPR2019)
    - - 算法思想
      - 主要贡献点
    - 10、Pix2Pose: Pixel-Wise Coordinate Regression of Objects for 6D Pose Estimation（ICCV2019）（Pix2Pose：用于6D姿态估计的对象逐像素坐标回归）
    - - 算法思想
      - 主要贡献点
    - 11.Deep-6DPose: Recovering 6D Object Pose from a Single RGB Image（2018）
    - - 算法思想
    - 12、Multi-Task Template Matching for Object Detection, Segmentation and Pose Estimation Using Depth Images（ICRA2019）
    - - 算法思想
      - 主要贡献点
    - 13、Real-Time Seamless Single Shot 6D Object Pose Prediction（CVPR2018）
    - - 算法思想
      - 主要贡献
    - 14、SSD-6D: Making RGB-Based 3D Detection and 6D Pose Estimation Great Again（2017）
    - - 算法思想
      - 主要贡献
    - 15、Pose-RCNN: Joint object detection and pose estimation using 3D object proposals（2016 IEEE）
    - - 算法思想
    - 16、PoseNet：A Convolutional Network for Real-Time 6-DOF Camera Relocalization
    - - 算法思想
      - 主要贡献
    - 17、6-PACK: Category-level 6D Pose Tracker with Anchor-Based Keypoints
    - - 算法思想
      - 主要贡献
    - 18、Multi-view 6D Object Pose Estimation and Camera Motion Planning using RGBD Images（2017 IEEE International Conference on Computer Vision Workshops）
    - - 算法思想
      - 主要创新点
    - 19、Going further with point pair features （2016 ECCV）
    - - 算法思想
      - 主要创新点

标题 6D姿态估计的算法

1、GDR-Net: Geometry-Guided Direct Regression Network for Monocular 6D Object Pose Estimation（CVPR 2021）（基于几何信息指导的单目6D物体姿态直接回归算法）

算法思想

从单个RGB图像中进行6D姿态估计是计算机视觉中的一项重要任务。目前最先进的基于深度学习的方法依赖于一种间接的策略，即首先在图像平面坐标系和目标坐标系之间建立2D-3D的对应关系，然后应用PnP/RANSAC算法的变体。然而，这种两级pipeline不是端到端可训练的，因此很难用于许多需要微分姿态的任务。另一方面，目前基于直接回归的方法不如基于几何的方法。在这项工作中，我们对直接和间接方法进行了深入的研究，并提出了一种简单而有效的几何引导直接回归网络（GDR-Net）来从基于密集对应的中间几何表示中以端到端的方式学习6D姿态。大量实验表明，在LM、LM-O和YCB-V数据集上，我们的方法明显优于最先进的方法。
关键点：是利用关于二维-三维对应的中间几何特征定期组织的二维补丁，这有利于我们利用一个简单而有效的2维卷积Patch-PnP网络去直接从几何引导下恢复6D姿态

2、EPOS: Estimating 6D Pose of Objects with Symmetries（估算具有对称性的物体的 6D 姿势）（CVPR2020）

算法思想

提出了一种新方法，用于从单个 RGB 输入图像中使用可用的 3D 模型来估计刚性对象的 6D 姿势。该方法适用于广泛的对象，包括具有全球或部分对称性的具有挑战性的对象。物体由紧凑的表面碎片表示，这些碎片允许系统地处理对称性。使用编码器解码器网络预测密集采样像素和碎片之间的通信。在每个像素中，网络预测：（i）每个对象存在的概率，（ii）给定对象存在的片段的概率，以及（iii）每个片段上的确切 3D 位置。每个像素选择相应的 3D 位置的数据依赖数，并且使用 PnP-RANSAC 算法的强大高效变体估计可能多个对象实例的姿势。在 2019 年 BOP 挑战赛中，该方法优于 T-LESS 和 LM-O 数据集上的所有 RGB 和大多数 RGB-D 和 D 方法。在 YCB-V 数据集中，它优于所有竞争对手，比第二好的 RGB 方法具有较大的优势

3、G2L-Net: Global to Local Network for Real-time 6D Pose Estimation with Embedding Vector Features（实现实时 6D 姿势估计，并嵌入矢量功能）

算法思想

本文提出了一个新的实时6D对象姿势估计框架，名为G2L-Net。我们的网络以分而治之的方式在 RGB-D 检测点云上运行。具体来说，我们的网络由三个步骤组成。首先，我们通过二维检测从 RGB-D 图像中提取粗对象点云。其次，将粗对象点云馈送至翻译本地化网络，以执行 3D 细分和对象转换预测。第三，通过预测的细分和转换，我们将精细的对象点云传输到本地规范坐标中，在该坐标中，我们训练一个旋转本地化网络来估计初始对象旋转。在第三步中，我们定义了点位嵌入矢量功能，以捕获观点感知信息。为了计算更准确的自转，我们采用旋转残余估计器来估计初始旋转和地面真理之间的残留物，从而提高初始姿势估计性能。我们提议的 G2L-Net 是实时的，尽管通过提议的粗到细框架堆放了多个步骤。对两个基准数据集的广泛实验表明，G2L-Net在精度和速度方面都达到了最先进的性能。

4、HybridPose: 6D Object Pose Estimation under Hybrid Representations（混合姿态：混合表示下的6D目标姿态估计）

算法思想

HybridPose利用hybrid intermediate representation在输入图像中表达不同的几何信息，包括keypoints，edge vectors和symmetry correspondences。与单一表示相比，当一种类型的预测表示不准确时（存在遮挡），hybrid representation允许姿势回归利用更多不同的特征。HybHybridPose利用强大的回归模块来过滤预测的中间表示中的异常值。本文通过证明可以通过相同的简单神经网络预测所有中间表示而无需牺牲整体性能来展示HybridPose的鲁棒性。与最新的位姿估计方法相比，HybridPose在运行时间上具有可比性，并且准确性更高。例如，在Occlusion Linemod数据集上，本文的方法实现了30 fps的预测速度，平均ADD（-S）精度为79.2％，比当前的最新方法提高了67.4％。
它利用多个中间表示来表达输入图像中的几何信息以进行位姿估计。除关键点外，HybridPose还集成了一个预测网络，该网络可以输出相邻关键点之间的边缘矢量，如图1所示。由于大多数对象都具有（部分）反射对称性，因此HybridPose还利用了预测的密集逐像素对应关系，这些对应关系反映了像素之间的基本对称关系。
方法：
HybridPose的输入是一个图像I，其中包含一个已知类的对象，该图像由针孔照相机以已知的固有参数拍摄。假设对象类别具有标准坐标系Σ（即3D点云），HybridPose在Σ下输出图像对象的6D相机姿态（RI∈SO（3），tI∈R3），其中RI是旋转组件，而tI是平移组件。
HybridPose由预测模块和位姿回归模块组成
方法概述。HybridPose由中间表示预测网络和位姿回归模块组成。预测网络将图像作为输入，并输出预测的关键点，边缘矢量和对称对应关系。姿态回归模块由初始化子模块和优化子模块组成。初始化子模块使用预测的中间表示法求解线性系统以获得初始姿态。改进子模块利用GM鲁棒范数进行优化（9），以获得最终的姿态预测

5、Self6D:Self-Supervised Monocular 6D Object Pose Estimation（ECCV 2020）自监督学习单目6D目标姿态估计

算法思想

Step1: 利用有标记的合成数据进行完全监督，即给出真实的旋转量R、平移量T、掩膜MP；

Step2: 利用未标记的真实数据进行自监督，即仅给出物体的3D模型M、掩膜MP、通过传感器得到的RGB图像IS、深度图像DS。
6D物体的位姿估计是计算机视觉中的基本问题。卷积神经网络（CNN）最近被证明甚至能够从单眼图像中预测可靠的6D位姿估计。尽管如此，CNN被认为是高度数据驱动的，获取足够的标注数据通常非常耗时且劳动密集。为了克服这个缺点，本文提出了通过自监督学习来实现单目6D姿势估计的想法，从而消除了对标注样本的需求。在用合成RGB数据对本文提出的网络进行完全监督之后，本文利用神经渲染的最新进展对未标注的真实RGB-D数据进行进一步的自监督，以寻求视觉和几何上的最佳对齐方式。实验结果表明，本文提出的自监督方法能够显着提高模型的性能，胜过依赖于合成数据或采用领域适应领域的其他方法。

6、Single-Stage 6D Object Pose Estimation（2020CVPR）（单阶段6D目标物体姿态估计）

背景

对于6D姿态估计，近期的很多工作，都是先检测出2D图片上的一些关键点，然后建立2D-3D的correspondings，最后通过RANSAC-based Pnp算法，求出最后的6D姿态。但是这种方法，有如下缺陷：

损失函数的设计没有针对到最后的6D姿态，只是建立在中间步骤。例如对2D投影的误差建立损失函数
这些工作都没有考虑一个实际情况：当知道其中一个关键点的投影坐标时，会对其他的关键点的位置造成影响
不能end-to-end的训练，inference的速度也会比较慢

主要创新点

1、End-to-end
这篇文章的主要贡献就是把基于 RANSAC 的 Pnp 算法，设计到了网络中，完成了end-to-end的结构。
作者做出了如下假设：把生成的Correspondences都输入到网络后，网络会自动选择一组最优的对应，生成Pose。即网络选择代替了RANSAC，MLP部分代替了PnP计算。

2、 Ordering
针对每一个cluster内的点，是无序的，作者在这里使用了Max pooling。
对于不同的cluster，作者通过实验证明，如果提供一个不同的产生顺序，会产生不同的结果，因此作者在这里固定了他们的提供次序。
3、生成关键点
作者通过实验发现，对每种物体生成相同的关键点集合，或者根据各个物体的Bouding box生成关键点，准确度上并没明显差别，因此使用了通用的关键点生成方法。

7、DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion (CVPR2019)（密集融合：迭代密集融合的6D目标姿态估计）

算法思想

用于RGB-D图像中估计一组已知对象的6D位姿，分别处理两个数据源，并使用一种新的dense fusion network来提取像素级的dense feature embedding，并从中估计姿态。实验结果表明，该方法在YCB-Video和Linemod两种数据集上均优于现有的方法。论文还将所提出的方法应用到一个真实的机器人上，根据所估计的姿态来抓取和操纵物体。

主要贡献点

提出了一种将RGB-D输入的颜色和深度信息融合起来的基础方法。利用嵌入空间中的2D信息来增加每个3D点信息，并使用这个新的颜色深度空间来估计6D位姿
在神经网络架构中集成了一个迭代的微调过程，消除了之前后处理IPC步骤的依赖性

8、PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation（2018）

算法思想

本文提出采用Pixel-wise Voting Network（PVNet）来回归指向关键点的像素单位向量，并通过这些向量使用RANSAC对关键点进行投票，从而可以抗遮挡或截断。进一步地，这种表示提供了关键点位置的不确定性，PNP解算器又可以进一步利用这些不确定性。

主要贡献点

提出PVNet（pixel-wise voting network），它可以学习到一个指向2Dkeypoint的向量场表示，即便在遮挡和截断的情况下，还能够学习到十分robust的2Dkeypoints
基于PVNet得到的稠密预测，作者用了一种基于关键点分布的PnP算法来从2D keypoints分布求取（R，t）位姿。

9、Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation(CVPR2019)

算法思想

本文目标是估计RGB-D图像中从未见过的物体实例的6D位姿和尺寸。与“实例级”6D位姿估计任务相反，作者假设在训练或测试期间没有精确的CAD模型可用。为了处理给定类别中不同的和从未见过的物体实例，作者引入了标准化物体坐标空间（NOCS），即同一个类别中的所有物体实例使用一个共享的标准模型来表示。再通过训练神经网络来推断观察到的像素与共享标准模型的对应关系以及其他信息，例如类别标签mask。通过将预测图象与深度图像相结合，共同估计杂乱场景中多个物体的6D位姿和尺寸。为了训练网络，作者提出一种新的上下文感知技术来生成大量带注释的混合现实数据。为了进一步改进模型并评估它在真实数据上的性能，作者还提供了一个完全注释的真实场景下的数据集。大量实验表明，该方法能够鲁棒性的估计真实场景中从未见过物体的位姿和大小。

主要贡献点

使用一个共享的标准坐标空间（NOCS）作为参考系来表示同一类别中的所有物体实例
提出一个可以同时预测物体类别标签、mask、NOCS图的CNN，将NOCS图与深度图进行对应来估计从未见过物体的位姿和大小。
使用空间上下文感知的混合现实方法来自动生成大量数据用来训练和测试。

10、Pix2Pose: Pixel-Wise Coordinate Regression of Objects for 6D Pose Estimation（ICCV2019）（Pix2Pose：用于6D姿态估计的对象逐像素坐标回归）

算法思想

由于遮挡和对称性等问题，仅使用RGB图像估计物体的6D姿态任然具有挑战性（难构建具有精确纹理的三维模型）Pix2Pose可以在没有纹理模型的情况下预测每个目标像素的三维坐标。
设计了一种自动编码器结构来估计三维坐标和每个像素的期望误差。然后将这些像素级预测用于多个阶段，形成2D-3D对应关系，用RANSAC迭代的PnP算法直接计算姿态。我们的方法通过利用最近在生成性对抗训练中的成果来精确地恢复被遮挡的部分，从而对遮挡具有鲁棒性。此外提出了一种新的损耗函数变压器损耗，通过将预测引导到最接近地对称姿态来处理对称目标，对包含对称和遮挡目标的三个不同基准数据集的计算表明，我们的方法优于仅仅使用RGB图像的最新方法。

主要贡献点

提出了一种新的6D姿态估计框架Pix2Pose，该框架在训练过程中使用无纹理的3D模型从RGB图像中稳健地回归出目标的像素级3D坐标
一种新的损耗函数：transformer loss，用于处理具有有限个模糊视图的对称对象
在LineMOD、LineMOD Occlusion和TLess三个不同的数据集上的试验结果表明，即使对象是被遮挡或对称的，Pix2Pose也优于最新的方法。

11.Deep-6DPose: Recovering 6D Object Pose from a Single RGB Image（2018）

算法思想

仅从RGB图像中检测物体及其6D姿态是许多机器人应用的重要任务。端到端的深度学习框架deep-6DPose，它可以从单个RGB图像中联合检测、分割和恢复对象实例的6D姿态。将最新的实例分割网络Mask R-CNN扩展到一个新的姿态估计分支，直接回归6D目标姿态，而不需要任何后处理。关键技术是将姿态参数解耦为平移和旋转，以便通过代数表示来回归旋转。由此产生的姿态回归损失是微分的，不受约束的，使训练变得更容易处理。（由于是端到端的架构，Deep 6DPose比竞争对手的多阶段方法快得多，提供了10fps的推理速度，非常适合机器人的应用）

12、Multi-Task Template Matching for Object Detection, Segmentation and Pose Estimation Using Depth Images（ICRA2019）

算法思想

在有限样本数下，模板匹配可以准确估计新目标的姿态，然而遮挡物体的姿态估计仍然是一个挑战。本文提出一种新的多任务模板匹配（MTTM）框架，该框架在预测分割掩膜的同时，从深度图像中找到目标物体最近的模板，并利用目标区域的相同特征映射实现模板与被检测物体在场景中的位姿变换。提出的特征比较网络通过比较模板的特征映射和场景的裁剪特征来计算分割遮罩和姿态预测。该网络的分割结果通过排除不属于目标的点，提高了姿态估计的鲁棒性。

主要贡献点

提出一个新的基于深度的框架：MTTM，通过与模板进行近邻匹配，使用共享的特征图来预测分割mask和物体的位姿
不需要将物体与场景对齐来生成mask
这种方法优于使用RGB的baseline方法

13、Real-Time Seamless Single Shot 6D Object Pose Prediction（CVPR2018）

算法思想

提出了一种单阶段方法来同时检测RGB图像中的一个物体并预测其6D姿态，不需要多个阶段或检查多个假设，它只预测一个近似6D的姿势，然后必须细化，我们足够精确的，不需要额外的后处理。它的速度非常快，在GPU上每秒50帧，因此更适合实时处理。我们的方法的关键部分是一个新的CNN架构，直接预测对象的3D边界框的投影点的2D图像位置，然后用PnP算法估计物体的6D姿态。

主要贡献

提出一个新的网络架构，即一个快速和准确的单阶段6D姿势预测网络，不需要任何后处理，以无缝和自然的方式扩展了用于二维检测的单阶段CNN结构去执行6D检测任务。实现基于YOLO，但该方法适用于其他单阶段检测器。

14、SSD-6D: Making RGB-Based 3D Detection and 6D Pose Estimation Great Again（2017）

算法思想

提出了一种新的基于RGB数据的三维模型实例检测和6D姿态估计方法。为此，我们扩展了流行的SSD范式，以覆盖完整的6D姿势空间，并仅对合成模型数据进行训练。我们的方法可以与当前最先进的方法在多个具有挑战性的RGBD数据集上竞争或超越。此外，我们的方法在10Hz左右，要比相关的其它方法快很多倍。

主要贡献

一个仅利用合成三维模型信息的训练阶段
模型位姿空间的分解，便于对称性的训练和处理
SSD的一种扩展，产生2D检测并推断出正确的6D姿势

15、Pose-RCNN: Joint object detection and pose estimation using 3D object proposals（2016 IEEE）

算法思想

本文提出了一种利用三维数据计算出的方案在单阶段深层卷积神经网络中进行联合目标检测和方向估计的新方法。对于方位估计，我们通过几个精心设计的层来扩展R-CNN结构。介绍了两种新的目标proposals方法，即利用立体数据和激光雷达数据。我们在KITTI数据集上的实验表明，通过合并两个领域的proposal，可以在保持低proposal数量下的同时实现高召回率。此外，在KITTI测试数据集的cyclists简单测试场景中，我们的联合检测和方向估计方法优于最新方法。

16、PoseNet：A Convolutional Network for Real-Time 6-DOF Camera Relocalization

算法思想

本文提出了一个鲁棒性且可以实时运行的重定位系统，该系统利用一个CNN实现了输入为RGB图像，输出为相机位姿的端到端定位系统。该系统在室内和室外都能够以每帧5ms的计算速度实时运行。此外，本文提出了23层深度卷积网络PoseNet，利用迁移学习将分类问题的数据库用于解决复杂的图像回归问题。其训练得到的特征相比较于传统局部视觉特征，对不同的光照、运动模糊以及不同的相机内参等具有更强的鲁棒性。同时，该论文展示了PoseNet基于已有的分类数据库可以在很少训练样本的情况下取得很好的性能。

主要贡献

提出了一种自动标注的方法，利用SfM自动生成训练样本的标注（相机位姿），可以仅利用视频生成用于训练PoseNet的训练样本和标注，不需要人工标注每一幅图像的位姿信息，极大的节约了人力成本。
提出迁移学习，利用训练好的分类器以及少量的训练样本训练得到用于重定位的回归器，可以有效解决训练样本不足的问题。

17、6-PACK: Category-level 6D Pose Tracker with Anchor-Based Keypoints

算法思想

本文提出了一种基于RGB-D数据的类别级6D目标姿态跟踪的深度学习方法-6-PACK算法。论文中的方法可以实时跟踪已知对象类别的新对象实例。6-PACK学习通过少量的3D关键点来紧凑的表示对象，在此基础上通过关键点匹配来估计对象实例的帧间运动。这些关键方法在没有人工监控的情况下端到端学习，以便最有效的跟踪。实验表明，这种方法大大优于现有方法上的NOCS类别6D姿态估计基准，并支持物理机器人执行简单的基于视觉的闭锁循环操作任务。

主要贡献

该方法不需要已知的三维模型。它避免了通过类似于2D对象检测中使用的proposals方法的新的anchor机制来定义和估计绝对6D姿势的需要
这些anchor为生成三维关键点提供了基础。与以往需要手动标注关键点的方法不同，提出了一种无监督的学习方法，该方法可以发现用于跟踪的最佳三维关键点集。
这些关键点作用对象的紧凑表示，从中可以有效的估计两个相邻帧之间的姿态差。这种基于关键点的表示方法可以实现鲁棒的实时6D姿态跟踪。

18、Multi-view 6D Object Pose Estimation and Camera Motion Planning using RGBD Images（2017 IEEE International Conference on Computer Vision Workshops）

算法思想

在主动场景中，当观察者无法从当前视点恢复目标的姿态时，观察者可以确定下一个视点的位置，并从另一个视点捕获新的场景，以提高对环境的认识，从而降低6D姿态估计的不确定性。本文提出一个完整的主动多视图框架来识别拥挤场景中多个物体实例的6自由度姿态。在主动视觉设置中加入几个部分以提高准确性：假设积累和验证结合了先前观点估计的基于单镜头的假设，并提取了最可能的假设集**；基于熵的次优视角预测生成下一个摄像机位置**以捕获新数据以提高性能；摄像机运动规划基于视角熵和运动代价规划摄像机的运动轨迹。对每个组件的不同方法进行了实现和评估，以显示性能的提高。

主要创新点

集成不同的组件，建立一个完整的主动系统，对多个目标进行检测和姿态估计。
无监督下一个最佳视图（NBV）预测算法，通过基于当前对象假设的场景渲染来预测下一个最佳摄像机姿态，用于目标检测和姿态估计
使用物理引擎生成具有真实多对象配置的合成数据集

19、Going further with point pair features （2016 ECCV）

算法思想

点对特征是一种广泛应用的点云三维目标检测方法，但在存在传感器噪声和背景杂波的情况下容易失败。我们引入了新的采样和投票方案，大大减少了杂波和传感器噪声的影响。实验表明，随着我们的改进，PPF变得比最先进的方法更具有竞争力，计算成本低。

主要创新点

提出了一种更好、更有效的抽样策略，加上对前处理和后处理步骤的小修改，使得文中的方法与最先进的方法相比具有竞争力，计算成本低

> All is well !!!

你可能感兴趣的:(python,计算机视觉)

Python多线程vs多进程：一场关于效率的“宫斗戏“，谁才是你的真命天子？
清晨的咖啡还冒着热气，你盯着监控面板上飙升的CPU使用率，键盘敲出的代码在"多线程"和"多进程"之间反复横跳——这可能是每个Python开发者都会经历的"效率抉择时刻"。当项目从"能跑就行"进化到"必须快跑"，多线程与多进程这对"欢喜冤家"就会跳出来，用各自的"十八般武艺"让你挑花眼。今天咱们就来扒开表象，从底层机制到实战案例，彻底搞懂这对CP的爱恨纠葛。一、GIL：多线程头顶的"紧箍咒"要聊多线
【mongodb】mongodb数据备份与恢复向往风的男子运维日常 DBA mongodb 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》暂未更新《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》运维日常《l
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
数据存储：使用Python存储数据到redis详解数据知道爬虫和逆向教程 python redis 数据库非关系型数据库
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录一.安装相关库和进行连接二、存储数据到Redis2.1存储字符串2.2存储列表2.3存储集合2.4有序集合类型2.5存储哈希三、数据的持久化与过期设置3.1持久化3.2过期设置四、其它操作4.1删除操作4.2关闭连接4.3使用连接池4.4处理异常五、总结在Python中，我们可以使用redis-py库来与Redis数据库进行交互。以下是如何将数据
Python 中的循环小羊苏八 python 开发语言
目录前言一.for循环二.while循环三.break与continue四.循环与else总结前言Python中的循环：for、while、break、continue与循环中的else。在Python中，循环是控制程序流程的重要结构之一。它允许我们重复执行一段代码，直到满足特定条件为止。Python提供了两种主要的循环结构：for循环和while循环。此外，break和continue语句可以用
Python——pyautogui打地鼠游戏自动化脚本（基于图片定位）
以4399小游戏为例：4399游戏网importpyautoguiimportkeyboardimporttimeimportrandomimportloggingfromPILimportImageGrabimportos#配置日志logging.basicConfig(level=logging.INFO,format='%(asctime)s-%(levelname)s-%(message)
最小二乘法(OLS)python 实践
参考链接：1，基本原理：https://zhuanlan.zhihu.com/p/1492809412，python实现：https://zhuanlan.zhihu.com/p/22692029实现结果线性回归：#--coding:utf-8--#简单线性回归demoimportnumpyasnpimportmatplotlib.pyplotaspltimportstatsmodels.apia
【Statsmodels和SciPy介绍与常用方法】机器学习司猫白 scipy statsmodels 统计
Statsmodels库介绍与常用方法Statsmodels是一个强大的Python库，专注于统计建模和数据分析，广泛应用于经济学、金融、生物统计等领域。它提供了丰富的统计模型、假设检验和数据探索工具，适合进行回归分析、时间序列分析等任务。本文将介绍Statsmodels的核心功能，并通过代码示例展示其常用方法。Statsmodels简介Statsmodels建立在NumPy和SciPy的基础上，
（五)PS识别：压缩痕迹挖掘-压缩量化表与 DCT 系数分析超龄超能程序猿机器学习 python 图像处理人工智能计算机视觉
（一)PS识别：Python图像分析PS识别之道（二）PS识别：特征识别-直方图分析的从原理到实现（三)PS识别：基于噪声分析PS识别的技术实现（四)PS识别：基于边缘纹理检测分析PS识别的技术实现一介绍本文将介绍一种基于量化表分析和DCT系数分析的图片PS检测方法，帮助你判断图片是否经过处理。二实现原理量化表分析在JPEG图片的压缩过程中，量化表起着关键作用。不同的软件或处理操作可能会改变量化表
Python高频面试题（四） Irene-HQ 测试 python 自动化测试 python 开发语言面试测试工具 github pycharm
以下是Python研发和自动化测试面试中‌更高阶的专项考点及典型问题‌一、并发与异步编程（高级）‌GIL全局解释器锁的应对策略‌问题：GIL如何影响Python多线程性能？如何绕过GIL限制？答案：GIL使同一时刻仅一个线程执行字节码，CPU密集型任务性能受限绕过方案：使用多进程（multiprocessing）、C扩展（如Cython）、异步IO（asyncio）‌46‌协程异步调用示例‌问题：
Python常考面试题汇总（附答案） TT图图面试职场和发展
写在前面本文面向中高级Python开发，太基本的题目不收录。本文只涉及Python相关的面试题，关于网络、MySQL、算法等其他面试必考题会另外开专题整理。不是单纯的提供答案，抵制八股文！！更希望通过代码演示，原理探究等来深入讲解某一知识点，做到融会贯通。部分演示代码也放在了我的github的该目录下。语言基础篇Python的基本数据类型Python3中有六个标准的数据类型：Number（数字）(
Python 编程基础作业总结
本周主要围绕Python基础编程展开了学习，通过一系列的作业题来巩固所学知识。这些题目涵盖了输入输出、条件判断、循环结构等多个基础知识点，下面将对每道作业题进行详细分析。1.计算指定月份第一天是星期几题目描述编写一个程序，接受用户输入的一个年份和一个月份，输出该月份的第一天是星期几。使用蔡乐公式计算星期。提示：使用蔡乐公式计算星期。W=((26*M-2)/10+D+Y+Y/4+C/4-2*C)%7
交叉编译Python-3.6.0到aarch64/aarch32 —— 支持sqlite3
参考https://datko.net/2013/05/10/cross-compiling-python-3-3-1-for-beaglebone-arm-angstrom/平台主机：ubuntu14.0464bit开发板：qemu+aarch64（参考：http://www.cnblogs.com/pengdonglin137/p/6442583.html）工具链：aarch64-linux-
python# python:3.5 aarch64构建镜像 Ling丶落 centos
构建失败从ubuntu中尝试构建FROMpython:3.5-slimLABELMAINTAINER="[email protected]"#installrelatedpackagesENVENVIRONMENTDOCKER_PRODWORKDIR/workCOPY./dataset.py/work/dataset.pyCOPY./model.py/work/model.pyCOPY./PyA
opencv-python与opencv-contrib-python的区别联系剑心缘零碎小知识 python opencv
opencv-python包含基本的opencvopencv-contrib-python是高配版，带一些收费或者专利的算法，还有一些比较新的算法的高级版本,这些算法稳定之后会加入上面那个。官网对contrib模块的简介（点击链接跳转）参考链接
【计算机毕业设计】基于Springboot的办公用品管理系统+LW 枫叶学长(专业接毕设) Java毕业设计实战案例课程设计 spring boot 后端
博主介绍：✌全网粉丝3W+,csdn特邀作者、CSDN新星计划导师、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：
两步移动搜索法（2SFCA）python 我在北京coding python python 开发语言
实现两步移动搜索法（Two-StepFloatingCatchmentAreaMethod,2SFCA）是一种广泛应用于地理信息系统（GIS）领域的方法，用于评估设施的空间可达性。以下是基于Python和GeoPandas的一种实现方式。准备工作为了实现2SFCA方法，需要准备以下数据集：供给点：表示服务提供方的位置及其服务能力。需求点：表示潜在使用者的位置及其需求量。距离矩阵：描述供给点与需求点
Java、python中高级开发工程师岗位框架要求统计爱吃土豆的马铃薯ㅤㅤㅤㅤㅤㅤㅤㅤㅤ java python 开发语言
一、主流框架使用频率框架/技术出现频率说明SpringBoot89%几乎成为Java后端开发的标配，用于快速构建微服务和独立应用。SpringCloud76%微服务架构必备，提供服务发现、配置管理、网关等核心组件。MyBatis/MyBatis-Plus72%最流行的ORM框架，MyBatis-Plus进一步简化开发。Spring68%基础框架，中高级岗位要求深入理解IoC、AOP原理。Hiber
PPOCRLabel 环境配置教程 ysh9888 人工智能算法计算机视觉 opencv
PPOCRLabel环境配置教程_哔哩哔哩_bilibili1安装conda2新建环境condacreate--nameppocrpython=3.8--channelhttps://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/condaactivateppocrpipinstall-rrequirements.txt-ihttps://pypi
response.split(“\n“)[0].strip() 是什么 ZhangJiQun&MXP 教学 2021 AI python python 机器学习人工智能语言模型自然语言处理
response.split(“\n”)[0].strip()是什么returnresponse.split("\n")[0].strip()这行代码在Python中通常用于对字符串进行处理并返回处理后的结果response.split("\n")：split()是Python字符串对象的一个方法，用于根据指定的分隔符将字符串拆分成一个列表。在这行代码中，"\n"作为分隔符，表示按照换行符来拆分字
Python函数 python知识
1文档字符串函数定义下的第一个字符串是文档字符串，用于解释函数。可以通过help(function_name)或function_name.__doc__来查看。2函数返回单个返回值：return一个值无返回值：函数执行完毕没有return语句，或者return后面没有值，会隐式地返回None返回多个值：实际上是返回一个包含所有值的元组(tuple)3参数函数声明：使用def关键字来创建函数默认参
Python-selenium爬取藏在歌词里 python selenium 开发语言
selenium前言使用python的requests模块还是存在很大的局限性，例如：只发一次请求；针对ajax动态加载的网页则无法获取数据等等问题。特此，本章节将通过selenium模拟浏览器来完成更高级的爬虫抓取任务。什么是seleniumSelenium是一个用于自动化Web应用程序测试的开源工具集。它提供了一组API和工具，可以与多种编程语言一起使用，如Java、Python、C#等，用于
python --飞浆离线ocr使用/paddleocr
依赖#python==3.7.3paddleocr==2.7.0.2paddlepaddle==2.5.2loguru==0.7.3frompaddleocrimportPaddleOCRimportcv2importnumpyasnpif__name__=='__main__':OCR=PaddleOCR(use_doc_orientation_classify=False,#检测文档方向use
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
说话人识别python_基于各种分类算法的说话人识别（年龄段识别） weixin_39673184 说话人识别python
基于各种分类算法的语音分类(年龄段识别)概述实习期间作为帮手打杂进行了一段时间的语音识别研究，内容是基于各种分类算法的语音的年龄段识别，总结一下大致框架，基本思想是：获取语料库TIMIT提取数据特征，进行处理MFCC/i-vectorLDA/PLDA/PCA语料提取，基于分类算法进行分类SVM/SVR/GMM/GBDT...用到的工具有HTK(C,shell)/Kaldi(C++,shell)/L
llama-cpp-python使用教程 try2find llama python 开发语言
以下是llama-cpp-python的完整使用教程，涵盖安装、基础用法、高级功能（如GPU加速、多模态等）和常见问题解决。1.安装1.1基础安装（CPU版）pipinstallllama-cpp-python-ihttps://pypi.tuna.tsinghua.edu.cn/simple1.2启用GPU加速（CUDA）CMAKE_ARGS="-DGGML_CUDA=ON"pipinstall
【Python】列表嵌套字典多规则排序魔都吴所谓 Python 算法工具 python 服务器 java
数据a=[{"project":"pro_613","branchList":[]},{"project":"pro_614","branchList":[]},{"project":"pro_612","branchList":[]},{"project":"pro_631","branchList":[]},{"project":"pro_617","branchList":[]},{"pro
Redis存储Cookie实现爬虫保持登录 requests | selenium
前言前面已经介绍了requests和selenium这两种方式的基础知识和模拟登录,但是我们需要每次都进行登录,这明显是很麻烦并且不合理的,所以这次我分享一下怎么可以让我们的程序进行一次登录之后,和普通浏览器一样下次不进行登录直接进行对网站数据的爬取下面的我分享的内容需要前置知识,如果同志有知识不理解,可以查看我以前写的文章Python爬虫request三方库实战-CSDN博客Python爬虫XP
Requestium - 将Requests和Selenium合并在一起的自动化测试工具测试界晓晓软件测试测试工具 selenium 自动化软件测试功能测试自动化测试程序人生
Requests是Python的第三方库，主要用于发送http请求，常用于接口自动化测试等。Selenium是一个用于Web应用程序的自动化测试工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。本篇介绍一款将Requests和Selenium结合在一起的自动化测试工具-Requestium简介Requestium是一个Python库，它将Requests、Selenium和P
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include