mysticalwing

三维点匹配(Surface Matching)

- - - 参考资料
    - 3D面匹配算法简介
      - 1. 参考资料
      - 2. 问题定义
      - 3. 多模态特征(Multimodal Feature)
        
        (1) 投影矫正(Perspective Correction)
        
        (2) 几何边缘检测(Geometric Edge Detection)
        
        (3) 多模态特征的计算(Calculate Multimodal Feature)
      - 4. 模型描述(Model Description)
      - 5. 投票方法(Voting Scheme)
        
        (1) Voting
        
        (2) Pose Clustering
        
        (3) Pose Refinement:
    - ICP算法
      - 1. 参考资料
      - 2. 问题定义
      - 3. 算法流程
        
        (1) 选取控制点(selection of control point)
        
        (2) 计算对应点对(computation of point pair)
        
        (3) 删除离群点(reject outliers)
        
        (4) 迭代计算模型参数(computation of motion)
        
        (5) 迭代停止条件
    - 运行效果截图
    - 重要API
      - 1. 参考资料
        
        (1) OpenCV PPF3DDetector API
        
        (2) OpenCV ICP API
        
        (3) OpenCV Compute Normals API
      - 2. PPF3DDetector API
        
        (1) 创建PPF特征检测器
        
        (2) 建立对模型的模型描述
        
        (3) 匹配
      - 3. ICP API
        
        (1) 创建ICP对象
        
        (2) 使用ICP算法对齐场景和模型
      - 4. ComputeNormals API
        
        (1) 计算3D坐标的法向量

参考资料

1. 论文: 3D Object Detection and Localization using Multimodal Point Pair Features 2012
2. 论文: Model Globally, Match Locally: Efficient and Robust 3D Object Recognition 2010
3. 论文：A refined icp algorithm for robust 3-d correspondence estimation 2003
4. 论文：Efficient Variants of the ICP Algorithm 2001
5. PPF3DDetector API
6. ICP API

3D面匹配算法简介

1. 参考资料

1. 论文: 3D Object Detection and Localization using Multimodal Point Pair Features 2012
2. 论文: Model Globally, Match Locally: Efficient and Robust 3D Object Recognition 2010
3. PPF3DDetector API

2. 问题定义

输入 :

(1) 要检测目标的3D模型数据 M 。可以通过CAD或者从多张RGBD图像中重建。每个数据项应包含3D点的坐标以及其法向量。

(2) 要检测的场景的3D数据。通过RGBD传感器获得，即我们有目标场景的RGB(灰度)图 IC 和深度图 IR 。分别由域 ΩC 和 ΩR 定义。

目标 :

当场景中存在目标时，准确定位到目标的位置并求得在场景中目标相对于相机的姿态 p 。

方法 :

根据目标的3D模型数据 M ，训练一个目标的模型–>在场景中检测3D特征点–>匹配特征点，求得姿态 p0 的一个初始估计–>利用ICP(iterative closest point)算法，将 p0 作为初始输入，对求得的姿态进行进一步的精炼(refine)操作以得到一个更准确的结果 p –>输出最后的结果 p 。

3. 多模态特征(Multimodal Feature)

参考资料：

论文: 3D Object Detection and Localization using Multimodal Point Pair Features 2012

参考论文[1]将边缘点分为两类。第一类是纹理边缘(texture edge)，第二类是几何边缘(geometric edge)。所谓的纹理边缘即场景内由于目标内部的纹理所产生的边缘，相对的，几何边缘就是场景内由目标到背景的突变所产生的边缘。作者论文中提到：对于3D匹配而言，几何边缘点是一种比较好的特征点，而纹理边缘点对于匹配并没有多少用处，相反反而会带来更大的计算量。因此论文中提到了一种高效的几何边缘点提取方法。所谓的多模态特征，便是基于几何边缘点 e 和参考点(reference point) r 进行定义和计算的。其中参考点 r 通过对模型进行均匀采样获得。
多模态特征对于尺度(scale)变化、沿着视点方向的旋转(rotations of the object around the viewing direction)、以及透视畸变(perspective distortions)具有不变性。因而对于不同的视点，只需要一个模板图片就够了。下面是计算多模态特征的步骤

(1) 投影矫正(Perspective Correction)

示意图如下：

将边缘点 e∈ΩE 和参考点 r∈ΩR 及其法向量 nr 重投影到一个新的平面 I′ 上( e 是从 IC 上选取的点， r 是从 IR 上选取的点)。新的投影平面 I′ 定义为垂直于向量 vr=r|r| 且焦距与原投影平面具有相同的焦距的平面。重投影之后，参考点 r 位于新的投影平面的中心。通过重投影这一预处理，使得多模态特征具有上面提到的：沿着视点方向的旋转(rotations of the object around the viewing direction)不变形，以及透视畸变(perspective distortions)不变性。后文中出现的 r 和 e 都是重投影之后的点。

(2) 几何边缘检测(Geometric Edge Detection)

几何边缘点检测基于两步进行：
a. 在RGB图 IC 中利用Canny边缘算子进行边缘检测，求得所有几何边缘的候选点。
b. 对第一步得到的所有候选点，计算其在深度图 IR 中沿着该点边缘梯度方向的一条线段上的最大和最小深度值。如果两者深度差值大于一定阈值，则认为该点为几何边缘点，否则为纹理边缘点。(论文中给出深度阈值一般1-3即可)

经过这一步操作后，我们已经得到了场景中经过重投影后的所有几何边缘点 e 、参考点 r 、 r 的法线方向 nr 以及 r 的单位向量 vr=r|r| ，下面开始进入多模态特征的计算。(注意，对于所有边缘梯度向外的边缘点，我们将其边缘梯度方向进行重定向，使得所有的边缘梯度方向都是指向物体内部的)

(3) 多模态特征的计算(Calculate Multimodal Feature)

多模态特征是一种4维的点对特征(point pair feature)，定义如下：

$F (e, r) = (d (e, r), α d, α n, α v) > (1)$
其中每个特征维度定义如下：
$d (e, r) = Z (r) | e - r | f > (2)$
其中 f 为相机焦距， Z(r) 为参考点 r 的深度。这样的定义，使得 F(e,r) 具有缩放不变形。
$α d = ∠ (e d, e - r) > (3)$
其中 ed 为边缘的梯度方向。
$α n = ∠ (n r, e - r) > (4)$

$α v = ∠ (n r, v r) > (5)$

示意图如下：

4. 模型描述(Model Description)

参考资料：

论文: Model Globally, Match Locally: Efficient and Robust 3D Object Recognition 2010

这一步，作者参考了上面参考论文中 3.2 Global Model Description 小节的内容，但是特征描述符使用作者自己提出的PPF多模态特征描述符。在离线阶段，我们需要对目标模型在不同视点下显示出来的可见部分的表面进行一个描述。这种描述通过一个hash表来完成。该hash表将每一个量化(离散化)后的多模态特征向量映射到一个具有相似特征向量的特征点对列表中。示意图如下：

其中左边为模型表面上具有相近特征向量的点对，右边为对应的hash表，这些点对被放在同一个hash slot中。

5. 投票方法(Voting Scheme)

参考资料：

论文: Model Globally, Match Locally: Efficient and Robust 3D Object Recognition 2010

论文使用一种类似于广义霍夫变换(GHT)的方法，对所有可能的结果进行投票，得到所有满足条件的结果。再对这些结果进行聚类操作得到最好的结果。最后，利用ICP算法对结果进行Refinement操作。

(1) Voting

首先说一下参考论文中提到的一个局部坐标系 (mi,α) :

如上图所示。其定义为:

$s i = T - 1 s \to g R x (α) T m \to g m i > (6)$
其中 Tm→g 将 mi 变换到以原点为起点且法向量 nm 被旋转到 x 轴上， Ts→g 对 si 执行同样的操作。这个局部坐标系的意义在于：对于场景中的每一个参考点( sr∈S )，确定一个位于模型上的与参考点 sr 满足最佳匹配的条件的点 mi 以及它们之间的一个沿 x 轴的旋转角度 α ，那么场景中的模型的姿态便能由 (mi,α) 唯一确定。因此，对每一个参考点 sr 而言，它的投票空间即是以所有可能角度 α 为横轴，以模型上的所有点 mi 为纵轴的一个2D平面。

投票过程便是对每一个参考点 sr ，计算它与场景中每一个几何边缘点 ei 的PPF特征 F(sr,ei) ，再通过模型描述中建立的hash表，找到所有可能的模型上的对应点对 (mi,mj) ，计算对应的参数 αi 并在投票空间中点 (mi,αi) 上进行累加。所有点对 (sr,ei) 投票完成后，找到投票空间中所有满足阈值条件的点 (mi,αi) ，作为下一步操作的输入。投票过程示意图如下：

(2) Pose Clustering

投票完成后，对于每一个参考点 sr 我们都到了一组满足条件的姿态 pi 。对于所有的姿态 P ，通过聚类将之分成多个组。对于每一个，计算组内所有姿态的分数加权和作为该组的一个评分。每个姿态的分数即为该姿态在投票环节所得的票数。选取分数最高的组的所有姿态的均值作为最终的结果。

(3) Pose Refinement:

仅仅通过上述步骤得到结果，通常还具有一定的误差，一般旋转角度误差在 10。内，平移距离误差在模型直径的 0.005 内都算正常范围。因此，对于聚类得到的结果，还需要利用ICP算法进行Refinement操作，从而得到最终的最佳匹配结果。ICP算法细节见下一节。

ICP算法

1. 参考资料

1. 论文：A refined icp algorithm for robust 3-d correspondence estimation 2003
2. 论文：Efficient Variants of the ICP Algorithm 2001
3. ICP API

2. 问题定义

输入：

(1) 场景的3D点的坐标集合 A

(2) 模型的3D点的坐标集合 B

目标：

求解一个点对集合 C={(i,j)|ai∈A　and　bj∈B} ，或者使得两个点集间对应点对某种误差最小的运动模型的参数 R,t 。

方法：

Picky ICP 算法。

3. 算法流程

Picky ICP 算法不同于其他ICP算法，该算法采用分层的思想，每次只对输入点集 A 中的一部分点进行迭代计算，当算法收敛时，再对下一层的点进行同样的计算，并将当前计算结果作为下次计算的初始值。

(1) 选取控制点(selection of control point)

对输入场景点集，将其分为 h+1 层。第一次选取下标为 2h 的倍数的点作为控制点。此后逐层选取下标为 2h−1,2h−2,...,20 的点作为控制点，直到所有点都被选为控制点。

(2) 计算对应点对(computation of point pair)

对每一个控制点，计算模型点集 B 中的最近点，作为其对应点。可以采用k-d树进行加速。同时，对于存在多个对应点对的情况，只保留距离最近的点对。

(3) 删除离群点(reject outliers)

对第二步得到的所有点对，通过点对距离阈值判断的方法，删去一些离群点对，增强算法的鲁棒性。

首先计算所有点对的标准差 σ ，当 dist(ai,bj)>SCALE∗σ 时，该点对被认为是离群值，在后续的计算中，该点对被忽略。

(4) 迭代计算模型参数(computation of motion)

利用误差平法和作为误差度量：

$> (R', t') = arg min (R, t) \sum (i, j) \in C | | b j - R a i - t | | 2 > (7)$
求解使得该误差最小的 (R,t) 。可以利用迭代的方法进行求解。

(5) 迭代停止条件

当 (R,t) 的参数变化小于某个阈值或者迭代次数达到最大迭代次数时，停止计算。

运行效果截图

测试平台配置：

内存：8G

处理器：Intel Core i5-7500 3.40GHz x 4

操作系统：Ubuntu 64-bit

输入模型点集大小： 28291

输入场景点集大小：114373

测试结果：

Training costs: 329.72 s
Matching costs: 2.10481 s
Number of matching poses: 20
Performing ICP on 2 poses…
ICP costs: 1.57771 s

截图：

其中绿色点云为模型，红色点云为场景，蓝色点云为使用Pose result 0 将模型变换到场景中得到的结果。

重要API

1. 参考资料

(1) OpenCV PPF3DDetector API

(2) OpenCV ICP API

(3) OpenCV Compute Normals API

2. PPF3DDetector API

(1) 创建PPF特征检测器

/**
 * @brief: 创建3D PPF 特征检测器，并指定相关参数
 * @param relativeSamplingStep: 相对于模型直径的采样步长。在对模型进行模型描述建模时，用于
 在模型上采样的步长。值越小，模型越稠密，姿态估计越准确，但是内存要求以及训练时间越长。值越大，
 模型越稀疏，姿态估计精度降低，但是内存要求以及训练时间和匹配时间更短。
 * @param relativeDistanceStep: 相对于模型直径的离散步长。在对模型进行模型描述建模时，用
 于对PPF特征向量进行离散化的步长。值越小，则离散化越精细，哈希表越大，但是哈希表每个bin之间的
 关系越模糊。值越大，细化越粗糙，哈希表越小，但是两个不同PPF特征向量可能会因为过大的步长而被放
 入相同的哈希槽中。默认该值与 'relativeSamplingStep'相同。对于存在较多噪声的场景，该参数可
 以设得较大以提高对噪点的鲁棒性。
  *@param numAngles: 在PPF特征检测的'voting scheme' 步骤中，需要对角度进行离散化，从而得
  以使用GHT算法。角度离散化的区间数即为 'numAngles'。参考论文中建议值为'30'，对于存在较多噪
  声的场景，可以将该参数设为 '25' 或 '20' 以提高对噪点的鲁棒性。
 */
cv::ppf_match_3d::PPF3DDetector::PPF3DDetector ( 
    const double  relativeSamplingStep,
  const double    relativeDistanceStep = 0.05,
  const double    numAngles = 30 )

Pyhon: 无 Python 接口

(2) 建立对模型的模型描述

/**
 * @brief: 使用输入的 'Model' 数据，建立一个新的模型
 * @param Model: 模型的3D坐标+法向量点集(Nx6, CV_32F)
 */
void cv::ppf_match_3d::PPF3DDetector::trainModel (const Mat &Model)

Python: 无 Python 接口

(3) 匹配

/**
 * @brief: 在提供的场景 'scene' 中，使用以训练的模型进行匹配，并返回匹配得到的所有可能姿态
 * @param scene: 目标场景的3D坐标+法向量点集(Nx6, CV_32F)
 * @param results: 最终求得的姿态列表。
 * @param relativeSceneSampleStep: 相对于场景点集数量的采样步长。如果设为 1.0/5.0，则场
 景点集中的 5-th 的点被用于计算。该参数提供了一种调整算法速度和精度的方法。较大的值可以提高速
 度，但是降低精度。反之，较小的值会提高精度，但降低速度。
 * @param relativeSceneDistance: 相对于模型直径的距离阈值。参数作用类似于训练过程中的 
 'relativeSamplingStep' 参数的作用。
 */
void cv::ppf_match_3d::PPF3DDetector::match   (   
    const Mat &   scene,
  std::vector< Pose3DPtr > &  results,
  const double    relativeSceneSampleStep = 1.0/5.0,
  const double    relativeSceneDistance = 0.03 )  

Python: 无 Python 接口

3. ICP API

(1) 创建ICP对象

/**
 * @brief: 创建ICP对象
 * @param iterations: 最大迭代次数
 * @param tolerence: 控制ICP算法每次迭代的精度
 * @param rejectionScale: 在ICP算法的 '删除离群点(reject outliers)' 步骤中的scale系数
 * @param numLevels: 金字塔的层数。太深的金字塔层数可以提高计算速度，但最终的精度会降低。过
 于粗略的金字塔，虽然会提高精度，但是在第一次计算时，会带来计算量的问题。一般设在[4, 10]之间内
 较好。
 * @param sampleType: 目前该参数被忽略。
 * @param numMaxCorr: 目前该参数被忽略。
 */
cv::ppf_match_3d::ICP::ICP    (   
    const int     iterations,
  const float tolerence = 0.05f,
  const float rejectionScale = 2.5f,
  const int   numLevels = 6,
  const int   sampleType = ICP::ICP_SAMPLING_TYPE_UNIFORM,
  const int   numMaxCorr = 1 )        

Python:
 =   cv.ppf_match_3d_ICP( iterations[, tolerence[, rejectionScale[, numLevels[, sampleType[, numMaxCorr]]]]] )

(2) 使用ICP算法对齐场景和模型

/**
 * @brief: 使用 'Picky ICP' 算法对齐场景和模型点，同时返回残差和姿态 
 * @param srcPc/dstPc: 模型/场景3D坐标+法向量集合。大小为(Nx6)，且目前只支持 CV_32F 类型。
 场景和模型点数量不用相同。
 * @param residual: 最终的残差
 * @param pose: 'srcPc' 到 'dstPc' 点集 的变换矩阵
 */
int cv::ppf_match_3d::ICP::registerModelToScene   (   
    const Mat &   srcPC,
  const Mat &     dstPC,
  double &    residual,
  Matx44d &   pose )

Python:
retval, residual, pose = cv.ppf_match_3d_ICP.registerModelToScene(srcPC, dstPC)

4. ComputeNormals API

(1) 计算3D坐标的法向量

/**
 * @brief: 使用平面拟合的方法，计算一个3D点云中任意点的法向量。
 * @param PC: 输入的3D点云。必须为 (Nx3) 或 (Nx6)
 * @param PCNormals: 输出点云。(Nx6)
 * @param NumNeighbors: 平面拟合时考虑的点的数量
 * @param FlipViewpoint: 如果为 'true'，则计算得到的法向量会被翻转到指向 'viewpoint' 的
 方向。为 'fasle' 则不进行任何操作
 * @param viewpoint: 视点位置
 */
int cv::ppf_match_3d::computeNormalsPC3d ( 
    const Mat &   PC,
  Mat &   PCNormals,
  const int   NumNeighbors,
  const bool  FlipViewpoint,
  const Vec3f &   viewpoint )

Python:
retval, PCNormals = cv.ppf_match_3d.computeNormalsPC3d(   PC, NumNeighbors, FlipViewpoint, viewpoint[, PCNormals] )

【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
摄像头技术OpenCV yzx991013 计算机视觉项目机器学习人工智能 python
进一步添加功能：运动检测、调整亮度对比度、截图时添加日期水印、保存视频时可选择不同编码格式完整代码：importcv2importtimeimportdatetimedefcamera_system():#打开摄像头cap=cv2.VideoCapture(0)ifnotcap.isOpened():print("无法打开摄像头")return#获取摄像头的宽度和高度frame_width=int
消融实验（Ablation Study） xwhking 深度学习机器学习深度学习消融实验
消融实验（AblationStudy）定义：消融实验是一种科学研究方法，通过逐步移除模型、算法或系统中的某个组件（如模块、层、特征、数据等），观察其对整体性能的影响，从而验证该组件的必要性和有效性。其名称来源于医学领域的“消融术”（切除部分组织以研究功能），在计算机视觉、机器学习和深度学习中被广泛用于分析模型设计。为什么要做消融实验？1.验证组件的有效性核心目的：确认模型中某个设计（如注意力机制、
高亮动态物体——前景提取与动态物体检测器（opencv实现） WenJGo AI学习之路 Python之路 opencv 计算机视觉人工智能深度学习神经网络
目录代码说明1.导入库2.创建背景建模对象3.打开视频源4.逐帧处理视频5.应用背景建模获得前景掩码6.形态学操作去除噪声6.1定义形态学核6.2开运算去除噪点6.3膨胀操作填补前景区域空洞7.轮廓检测识别动态物体8.绘制轮廓和边界框9.显示处理结果10.退出控制与资源释放整体代码效果展示代码说明主要功能是通过背景建模检测视频中的运动目标。其工作流程如下：读取视频帧；利用MOG2算法生成前景掩码；
RAG 在多模态数据处理中的应用探索：结合图像与文本生成 hy098543 AIGC
目录引言多模态数据处理的挑战与需求数据异质性与融合难题多样化应用场景的需求RAG在图像与文本生成中的应用架构图像检索与文本生成协同跨模态特征融合与生成关键技术与实现细节图像特征提取与表示文本检索与语义理解跨模态生成模型训练应用案例分析智能设计辅助医疗影像报告生成结论引言随着信息技术的飞速发展，数据呈现出多模态的特性，即包含文本、图像、音频、视频等多种形式。在自然语言处理（NLP）和计算机视觉（CV
OpenCV-Python实战（1）——OpenCV简介与图像处理基础数字化转型2025 AI人工智能方向 opencv python 图像处理
OpenCV介绍Python安装OpenCV：对于Linux和Windows操作系统，首先需要在shell或cmd中运行以下命令安装NumPy：pipinstallnumpy。然后再安装OpenCV，可以选择仅安装主模块包：pipinstallopencv-python，或者安装完整包（包括主模块和附加模块）：pipinstallopencv-contrib-python。OpenCV主要模块：O
OpenCV图像拼接（2）特征查找与图像匹配之基于仿射变换的图像匹配的一个类cv::detail::AffineBestOf2NearestMatcher 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::AffineBestOf2NearestMatcher是OpenCV库中用于实现基于仿射变换的图像匹配的一个类。这个类主要用于在图像拼接流程中，寻找图像间的对应关系，并假设图像间存在仿射变换（即考虑缩放、旋转和平移的变换）。它通过使用“最佳
OpenCV多分辨率模板匹配与容错优化实战指南追寻向上 opencv 人工智能计算机视觉
第一章：问题背景与挑战1.1传统模板匹配的局限性模板匹配（TemplateMatching）是计算机视觉中基础且广泛使用的技术，其核心思想是通过滑动窗口在目标图像中寻找与模板最相似的位置。然而，传统方法（如OpenCV的cv2.matchTemplate）在实际应用中存在以下问题：尺寸敏感性当目标的实际尺寸与模板不一致时，匹配结果会严重偏离。例如，在工业检测中，摄像头与物体的距离变化会导致目标缩放
AI API：快速集成智能化功能的开发利器桂花饼 AIGC AI API 人工智能 AIGC 语言模型 AI作画
AIAPI（ArtificialIntelligenceApplicationProgrammingInterface，人工智能应用程序接口）是应用程序接口的一种，专门用于提供人工智能相关功能的开发接口。它允许开发者利用现有的AI模型、工具或服务，将这些功能集成到自己的应用程序中，并为用户带来智能化的体验。AIAPI的核心功能主要与AI技术相关，比如自然语言处理（NLP）、计算机视觉、语音处理、机
OpenCV计算摄影学（23)艺术化风格化处理函数stylization() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述风格化的目的是生成不以照片写实为目标的多种多样数字图像效果。边缘感知滤波器是风格化处理的理想选择，因为它们能够弱化低对比度区域，同时保留或增强高对比度特征。该函数通过艺术化风格化处理，将输入图像转换为具有油画或卡通风格的图像，增强边缘和纹理的对比度，同时保留主要颜
python使用importlib进行动态导入py文件 *Major* python 开发语言 opencv
python动态导入py文件importimportlibdefdynamic_import(module):returnimportlib.import_module(module)实例importimportlibimportcv2defdynamic_import(module):returnimportlib.import_module(module)classOpenCVAlgo:def
图像分割基础：使用Python和scikit-image库 0dayNu1L 机器学习项目实战 python 人工智能机器学习
大家好，今天我们将一起探讨图像分割的基础知识，并使用Python编程语言以及scikit-image库来实现一个简单的图像分割示例。图像分割是图像处理中的一项重要技术，它允许我们将图像划分为多个部分或对象，这对于图像分析和计算机视觉任务至关重要。0dayNu1L-CSDN博客目录一、环境准备二、图像分割示例1.导入必要的库2.读取并显示图像3.创建标签数组并进行阈值分割4.使用颜色表示标签三、结果
LVI-SAM、VINS-Mono、LIO-SAM算法的阅读参考和m2dgr数据集上的复现（留作学习使用）再坚持一下！！！学习
ROS一键安装参考：ROS的最简单安装——鱼香一键安装_鱼香ros一键安装-CSDN博客opencv官网下载4.2.0参考：https://opencv.org/releases/page/3/nvidia驱动安装:ubuntu18.04安装显卡驱动-开始战斗-博客园cuda搭配使用1+2cuda安装1：Ubuntu18.04下安装CUDA_ubuntu18.04安装cuda-CSDN博客cuda
【人工智能基础2】Tramsformer架构、自然语言处理基础、计算机视觉总结 roman_日积跬步-终至千里人工智能习题人工智能自然语言处理计算机视觉
文章目录七、Transformer架构1.替代LSTM的原因2.Transformer架构：编码器-解码器架构3.Transformer架构原理八、自然语言处理基础1.语言模型基本概念2.向量语义3.预训练语言模型的基本原理与方法4.DeepSeek基本原理九、计算机视觉七、Transformer架构1.替代LSTM的原因处理极长序列时，效率下降：虽然LSTM设计的初衷是解决长期依赖问题，即让模型
【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试? 努力毕业的小土博^_^ AI算法题库人工智能计算机视觉算法深度学习神经网络目标检测
【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试?前言多尺度训练核心思想：优点与注意点：多尺度测试核心思想：优点与注意点：综合作用参考示例总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上
AI 大模型应用数据中心建设：高性能计算与存储架构 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、高性能计算、存储架构、分布式训练、GPU加速、数据管理1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，特别是深度学习模型的突破性进展，催生了一系列基于大规模数据训练的强大AI模型，例如GPT-3、BERT、DALL-E等。这些AI大模型在自然语言处理、计算机视觉、语音识别等领域展现出强大的应用潜力，但也对计算资源和数据存储提出了极高的要求。传统的计算架构难以满足AI大
AI大模型学习路线：从入门到精通的完整指南【2025最新】 AI大模型-大飞人工智能学习大模型 LLM AI 程序员大模型学习
引言近年来，以GPT、BERT、LLaMA等为代表的AI大模型彻底改变了人工智能领域的技术格局。它们不仅在自然语言处理（NLP）任务中表现卓越，还在计算机视觉、多模态交互等领域展现出巨大潜力。本文旨在为开发者、研究者和技术爱好者提供一条清晰的学习路径，帮助读者逐步掌握大模型的核心技术并实现实际应用。一、基础阶段：构建知识体系数学与理论基础线性代数：矩阵运算、特征值与奇异值分解是大模型参数优化的基础
YOLOv5+UI界面在车辆检测中的应用与实现深度学习&目标检测实战项目 YOLOv5实战项目 YOLO ui 分类数据挖掘目标跟踪人工智能
1.引言随着智能交通系统（ITS）的快速发展，车辆检测已成为计算机视觉领域的重要研究方向。车辆检测技术广泛应用于交通流量监控、车辆违章抓拍、无人驾驶等场景中。近年来，深度学习技术的突破，特别是卷积神经网络（CNN）的崛起，使得目标检测技术取得了显著进展。其中，YOLO（YouOnlyLookOnce）系列模型以其高效的实时检测能力和出色的性能成为车辆检测领域的首选方法之一。在本文中，我们将基于YO
热门AI创作助手推荐【第一期】量子星澜文心一言 AI写作 chatgpt
星游AI创作助手人工智能在现代科技中的应用非常广泛，涵盖了诸多领域，包括但不限于以下几个方面：1.语音识别和自然语言处理：人工智能技术被广泛应用于语音识别和自然语言处理领域，例如智能助手、翻译系统、语音交互系统等。2.机器学习和数据分析：人工智能的机器学习算法被用于数据分析、预测建模、用户个性化推荐等领域，帮助企业做出更准确的商业决策。3.计算机视觉：人工智能在计算机视觉领域的应用包括图像识别、视
计算机视觉入门 109702008 人工智能 #深度学习计算机视觉人工智能
计算机视觉（ComputerVision）是一门涉及使机器能够从图像或者多维数据中提取信息，解释、理解并对物体或场景进行处理的学科。以下是一个基本的计算机视觉入门学习路线，旨在为刚刚接触这一领域的学习者提供指导。1.基础知识储备数学基础：线性代数、概率论和数理统计、微积分、优化理论。编程语言：掌握至少一门编程语言，Python是目前在计算机视觉领域最流行的语言，其次是C++。2.计算机视觉基础数字
计算机视觉（Computer Vision, CV）的入门到实践的详细学习路线云梦优选计算机数据库大数据计算机视觉学习人工智能
一、基础准备1.数学基础线性代数深入矩阵运算，理解矩阵乘法、转置、逆等基本概念。掌握特征值与特征向量的几何意义，理解其在图像压缩、特征提取中的应用。学习奇异值分解（SVD）及其在降维和数据压缩中的具体应用。概率与统计熟悉贝叶斯定理及其在分类任务中的应用，如朴素贝叶斯分类器。理解常见概率分布（如正态分布、二项分布）及其性质。学习统计推断方法，如假设检验、置信区间估计，以评估模型性能。微积分掌握梯度、
利用 OpenCV 库进行实时目标物体检测欣然～ opencv 人工智能计算机视觉
一、代码概述此代码利用OpenCV库实现了基于特征匹配的实时物体检测系统。通过摄像头捕获实时视频帧，将其与预先加载的参考图像进行特征匹配，从而识别出视频帧中是否存在与参考图像匹配的物体。二、环境依赖OpenCV：用于图像处理、特征提取和匹配等操作。NumPy：用于数值计算，OpenCV依赖于NumPy进行数组操作。可以使用以下命令安装所需库：bashpipinstallopencv-pythonn
OpenCV | 图像读取与显示 ToBeCertain OpenCV opencv 人工智能计算机视觉
OpenCV对图像进行处理时，常用API如下：API描述cv.imread根据给定的磁盘路径加载对应的图像，默认使用BGR方式加载cv.imshow展示图像cv.imwrite将图像保存到磁盘中cv.waitKey暂停一段时间，接受键盘输出后，继续执行程序cv.destroyAllWindows释放所有资源目录一.OpenCV基本操作函数1.cv.imread()图像读取2.cv.imshow()
机器视觉|手势识别：基于YOLOv5的手部检测与MediaPipe的关键点估计 RockLiu@805 机器视觉 YOLO
手势识别：基于YOLOv5的手部检测与MediaPipe的关键点估计在实时计算机视觉应用中，手部检测与关键点估计是实现手势识别的重要基础。本文将介绍一种基于深度学习的手势识别技术方案，通过结合YOLOv5物体检测网络和MediaPipe关键点检测框架，实现实时的手部定位与关键点提取。技术背景gesturerecognition作为计算机视觉领域的重要研究方向，在HCI（人机交互）、遥控行为分析、虚
opencv图像视频的加载和显示 NDNPOMDFLR opencv python
opencv图像视频的加载和显示基于上篇文章，在开始之前需要在上级目录里打开jupyternotebook首先需要进入scrips目录里进行激活，然后如果在该目录下输入jupyternotebook的话，不太好所以需要进入上级目录创建和显示窗口需要牢记的命令namedWindow()创建命令窗口imshow()显示窗口destroyAllwindows()摧毁窗口resizeWindow()改变窗
Python 在人工智能领域的实际6大案例 Solomon_肖哥弹架构人工智能机器学习 python
Python作为一种功能强大且易于学习的编程语言，在人工智能（AI）领域得到了广泛的应用。从机器学习到深度学习，从自然语言处理到计算机视觉，Python提供了丰富的库和框架，使得开发者能够快速实现各种AI应用。本文将通过多个实际案例，展示Python在人工智能领域的强大功能和应用前景。二、案例一：手写数字识别（MNIST）1.背景介绍手写数字识别是机器学习领域的经典入门项目，MNIST数据集包含了
《Python深度学习》第四讲：计算机视觉中的深度学习 earthzhang2021 2025讲书课专栏 python 深度学习计算机视觉 1024程序员节 numpy 算法人工智能
计算机视觉是深度学习中最酷的应用之一，它让计算机能够像人类一样“看”和理解图像。想象一下，计算机可以自动识别照片中的物体、人脸，甚至可以读懂交通标志。这一切听起来是不是很神奇？其实，这一切都离不开深度学习中的卷积神经网络（CNN）。今天，我们就来深入了解一下CNN是如何工作的。5.1卷积神经网络简介先来看下卷积神经网络（CNN）是什么。CNN是一种专门用于处理图像数据的神经网络。它的灵感来源于人类
cv2.imshow报错残影飞雪 Python python
pipinstallopencv-contrib-pythoncv2.error:OpenCV(4.1.0)C:\projects\opencv-python\opencv\modules\highgui\src\window.cpp:627:error:(-2:Unspecifiederror)Thefunctionisnotimplemented.RebuildthelibrarywithWi
解决OpenCV读取目标图像，cv2.imshow出现闪退的问题写python的鑫哥 OpenCV入门与进阶 opencv 人工智能计算机视觉 python 图像显示闪退
前言本文是该专栏的第17篇，后面将持续分享OpenCV计算机视觉的干货知识，记得关注。最近有粉丝朋友询问到OpenCV读取目标图像出现的一个问题，在基于python语言“使用OpenCV读取目标图像的时候，利用cv2.imshow函数出现闪退”的情况。而本文，笔者将详细介绍针对上述问题，给出一个详细的应对思路以及解决方法。废话不多说，具体的细节部分以及详细的解决方案，跟着笔者直接往下看正文详细内容
windows python opencv imshow图片报错解决热爱生活热爱你 python3 opencv 人工智能计算机视觉
importcv2#检查版本print(cv2.__version__)#加载一张图片（确保你有一个名为'test.jpg'的文件在当前目录）image=cv2.imread('C:\\test1.jpg')#显示图片cv2.imshow('image',image)cv2.waitKey(0)cv2.destroyAllWindows()cv2意思是opencvc++o(*￣︶￣*)o建议使用A
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

三维点匹配(Surface Matching)

参考资料

3D面匹配算法简介

1. 参考资料

2. 问题定义

3. 多模态特征(Multimodal Feature)

(1) 投影矫正(Perspective Correction)

(2) 几何边缘检测(Geometric Edge Detection)

(3) 多模态特征的计算(Calculate Multimodal Feature)

4. 模型描述(Model Description)

5. 投票方法(Voting Scheme)

(1) Voting

(2) Pose Clustering

(3) Pose Refinement:

ICP算法

1. 参考资料

2. 问题定义

3. 算法流程

(1) 选取控制点(selection of control point)

(2) 计算对应点对(computation of point pair)

(3) 删除离群点(reject outliers)

(4) 迭代计算模型参数(computation of motion)

(5) 迭代停止条件

运行效果截图

重要API

1. 参考资料

(1) OpenCV PPF3DDetector API

(2) OpenCV ICP API

(3) OpenCV Compute Normals API

2. PPF3DDetector API

(1) 创建PPF特征检测器

(2) 建立对模型的模型描述

(3) 匹配

3. ICP API

(1) 创建ICP对象

(2) 使用ICP算法对齐场景和模型

4. ComputeNormals API

(1) 计算3D坐标的法向量

你可能感兴趣的:(OpenCV,计算机视觉)