FesianXu

基于匹配点集对单应性矩阵进行估计

2020/4/28 FesianXu

前言

在立体视觉中，对单应性矩阵进行估计是一个很重要的任务，我们在之前的博文[1,2,3]中的讨论中都或多或少地涉及到了单应性矩阵，我们知道它是在投影变换中保持共线性的一种性质。在本文中，我们将讨论如何通过匹配点的关系，对单应性矩阵进行估计。如有谬误，请联系指出，转载请联系作者并注明出处，谢谢。

注：本文参考[7]的内容。

$\nabla$ 联系方式：
e-mail: [email protected]
QQ: 973926198
github: https://github.com/FesianXu

估计问题

估计（estimation）是什么？这个词我们在统计学中经常听到，估计指的是基于观测数据的基础上，对一个模型的参数进行估计，在立体视觉中，一般有以下几种估计问题：

2D 单应性(2D homography)：给定一系列点 $\mathbf{x}_i \in \mathbb{P}^2$ ，并且给定其对应的匹配点 $\mathbf{x}_i^{\prime} \in \mathbb{P}^2$ ，我们的估计的目标是根据这些对应点，估计出能够将 $f:\mathbf{x}_i \rightarrow \mathbf{x}_i^{\prime}$ 的投影变换。在实际中， $\mathbf{x}_i$ 和 $\mathbf{x}_i^{\prime}$ 通常是两张不同的图片上的对应/匹配点(match points)，每个图片都可以看成是投影空间 $\mathbb{P}^2$ 。在本路问题中，其实就是根据2D匹配点进行单应性矩阵 $\in \mathbb{R}^{3 \times 3}$ 的估计。
3D到2D的相机投影(3D to 2D camera projection)：给定在三维空间中的点 $\mathbf{X}_i$ ，并且给定这些3D点在平面图像上的对应的2D点 $\mathbf{x}_i$ 。在这里的估计指的就是估计这里的3D到2D的投影变换 $f:\mathbf{X}_i \rightarrow \mathbf{x}_i$ ，这里的投影通常是由投影相机模型得到的，参考[4]的讨论内容。
基础矩阵的计算(Fundamental matrix computation)：给定在一张图像上的一系列点 $\mathbf{x}_i$ 和其在另一张图像上的对应点集 $\mathbf{x}_i^{\prime}$ ，计算根据这些对应关系计算出来的基础矩阵，我们在[5]中介绍过本征矩阵和基础矩阵，我们知道基础矩阵 $\mathcal{F}$ 是一个对所有的 $i$ 都满足 ${\mathbf{x}_i^{\prime}}^{\mathrm{T}} \mathcal{F} \mathbf{x}_i = 0$ 的 $\times 3$ 的矩阵。
三焦张量计算(Trifocal tensor computation)：给定三张图片中的对应关系： $\mathbf{x}_i \leftrightarrow \mathbf{x}_i^{\prime} \leftrightarrow \mathbf{x}_i^{\prime\prime}$ ，计算其三焦张量(Trifocal tensor)，三焦张量对三张图像的对应点或者对应线进行了关系联系。

这些问题都是考虑到了“对应性”（correspondance），或者说是“匹配性”，然后对某种变换进行参数估计，因此这四个问题或多或少有着关联。在此，我们仅讨论第一种问题，其中提出的解法，能对其他三种问题的解决提供思路。

估计单应性矩阵

重申下问题：

我们考虑两个图像之间的匹配点集 $\mathbf{x}_i \leftrightarrow \mathbf{x}_i^{\prime}$ ，我们需要估计出单应性矩阵 $H$ ，使得对于所有的 $i$ 都有 $\mathbf{x}_i^{\prime} = H \mathbf{x}_i$ 。

首先我们需要确定至少需要多少对匹配点集才足以确定一个单应性矩阵，我们知道单应性矩阵有9个元素，但是其可以进行尺度归一化[6]，因此2D的单应性矩阵只有8个自由度（同理，3D的单应性矩阵为15的自由度）。每一对匹配点集提供了两个自由度的约束（也就是x和y），因此最少需要四对匹配点集才足以确定一个单应性矩阵。

自然地，给定了4对匹配点集（其中不能是三点共线的，我们后续讨论），我们可以确定一个单应性矩阵，这个是最小解。然而在实际中，我们通常能得到两张图片的很多对匹配点集，如Fig 1.1所示，而通常在这很多的匹配点集中，存在有误匹配的情况，这些误匹配称之为噪声（noise），通常我们会采用类似于RANSAC的鲁棒估计减少噪声的干扰（我们将在以后的博文中讨论RANSAC鲁棒估计）。除了鲁棒估计，我们也可以通过设置一个损失函数（cost function），尝试最小化损失函数，我们能找到一个最佳的单应性矩阵估计。一般来说，有两大类的损失函数：

基于代数损失的（algebraic error），也就是不考虑图像的几何上的因素，只考虑代数形式上的损失。
基于几何损失（geometric error）或统计上的图像距离的（statistical image distance），这种损失函数通常带有图像几何上的意义。

Fig 1.1 在实际中，通常会有很多对的匹配点集，其中会存在有误匹配的点对，称之为噪声，可以通过例如RANSAC的鲁棒估计以减少噪声干扰。

通常在对同一个平面上的点进行多视角摄像时，如Fig 1.2，图像中的像素点可以视为是投影变换的，可以用单应性矩阵对应，在进行弱透视摄像时[9]，同样也可以这样认为。

Fig 1.2 在对现实中平面的物体进行成像时（或者弱透视情况下），可以视为是投影变换，用单应性矩阵进行对应。

DLT算法

我们首先考虑一个简单的线性算法。在给定了4对2D到2D的匹配点集时 $\mathbf{x}_i \leftrightarrow \mathbf{x}_i^{\prime}$ ，我们有 $\mathbf{x}_i^{\prime} = H\mathbf{x}_i$ （我们在齐次坐标系下进行处理[8]）。因为我们在齐次坐标系下，因此严格上说 $\mathbf{x}_i^{\prime}$ 和 $H\mathbf{x}_i$ 在尺度（scale）上并不相同，而是有着同样的方向。因此为了更加精确，我们可以把这个线性关系表示为：
$\mathbf{x}_i^{\prime} \times H \mathbf{x}_i = 0 \tag{1.1}$
如果我们 $H$ 的第 $j$ 行表示为 ${\mathbf{h}^{j}}^{\mathrm{T}}$ ，那么我们有：
$H\mathbf{x}_i = \left( \begin{matrix} {\mathbf{h}^1}^{\mathrm{T}}\mathbf{x}_i \\ {\mathbf{h}^2}^{\mathrm{T}}\mathbf{x}_i \\ {\mathbf{h}^3}^{\mathrm{T}}\mathbf{x}_i \end{matrix} \right) \tag{1.2}$
将 $\mathbf{x}_i^{\prime} = (x^{\prime}_i,y^{\prime}_i,w^{\prime}_i)^{\mathrm{T}}$ ，那么式子(1.1)可以写成：
$\mathbf{x}_i^{\prime} \times H \mathbf{x}_i = \left( \begin{matrix} y^{\prime}_i {\mathbf{h}^3}^{\mathrm{T}}\mathbf{x}_i-w^{\prime}_i{\mathbf{h}^2}^{\mathrm{T}} \mathbf{x}_i \\ w^{\prime}_i {\mathbf{h}^1}^{\mathrm{T}}\mathbf{x}_i-x^{\prime}_i{\mathbf{h}^3}^{\mathrm{T}} \mathbf{x}_i \\ x^{\prime}_i {\mathbf{h}^2}^{\mathrm{T}}\mathbf{x}_i-y^{\prime}_i{\mathbf{h}^1}^{\mathrm{T}} \mathbf{x}_i \end{matrix} \right) = 0 \tag{1.3}$
又因为有 ${\mathbf{h}^j}^{\mathrm{T}}\mathbf{x}_i = \mathbf{x}_i^{\mathrm{T}}\mathbf{h}^j, j=1,\cdots,3$ ，所以(1.3)可以写成：
$\left[ \begin{matrix} \mathbf{0}^{\mathrm{T}} & -w^{\prime}_i\mathbf{x}_i^{\mathrm{T}} & y^{\prime}_i\mathbf{x}_i^{\mathrm{T}} \\ w^{\prime}_i\mathbf{x}_i^{\mathrm{T}} & \mathbf{0}^{\mathrm{T}} & x^{\prime}_i\mathbf{x}_i^{\mathrm{T}} \\ y^{\prime}_i\mathbf{x}_i^{\mathrm{T}} & x^{\prime}_i\mathbf{x}_i^{\mathrm{T}} & \mathbf{0}^{\mathrm{T}} \end{matrix} \right] \left( \begin{matrix} \mathbf{h}^1 \\ \mathbf{h}^2 \\ \mathbf{h}^3 \end{matrix} \right) = \mathbf{A}_i \mathbf{h} = 0, \mathbf{A}_i \in \mathbf{R}^{3 \times 9} \tag{1.4}$
我们发现，对于未知量 $\mathbf{h}$ 而言，其是线性的，而且我们也可以发现这里的 $\mathbf{A}_i$ 的秩为2，只有两个方程式是线性无关的，将 $\mathbf{A}_i$ 的第 $j$ 行表示为 $\mathbf{A}_i^j$ ，我们有：
$\mathbf{A}_i^3 = x^{\prime}_i\mathbf{A}^1_i+y^{\prime}_i\mathbf{A}_i^2 \tag{1.5}$
因此，我们可以将(1.4)去掉最后一行，得到
$\left[\begin{matrix}\mathbf{0}^{\mathrm{T}} & -w^{\prime}_i\mathbf{x}_i^{\mathrm{T}} & y^{\prime}_i\mathbf{x}_i^{\mathrm{T}} \\w^{\prime}_i\mathbf{x}_i^{\mathrm{T}} & \mathbf{0}^{\mathrm{T}} & x^{\prime}_i\mathbf{x}_i^{\mathrm{T}} \end{matrix}\right]\left(\begin{matrix}\mathbf{h}^1 \\\mathbf{h}^2 \\\mathbf{h}^3 \end{matrix}\right) = \mathbf{A}_i \mathbf{h} = 0\tag{1.6}$
此时的 $\mathbf{A}_i \in \mathbb{R}^{2 \times 9}$

又因为这个表示是在齐次坐标系下的，我们可以让 $w_i^{\prime} = 1$ 。每一对匹配点都存在着一个如同(1.6)的等式约束，约束了两个自由度，因此在4对匹配点的情况下，我们的 $\mathbf{A} \in \mathbb{R}^{8 \times 9}$ ，当 $\mathrm{rank}(\mathbf{A}) = 8$ 的时候，就存在非零解（平凡解）的 $\mathbf{h}$ ，这点我们在线性代数中已经学习过了，求出了 $\mathbf{h}$ 我们自然就知道了 $H$ 。特别的，我们的 $H$ 是和尺度有关的，任何尺度的 $H$ 都满足(1.1)的条件（除了0之外），因此我们通常对其进行一个限制，比如对范数进行归一化，如 $||\mathbf{h}|| = 1$ 。

当给出超过4对匹配点的时候，我们处在超定方程（over-determined）的情况，此时可能没有一个解可以精确地满足所有点的匹配关系，因此我们设计一个损失函数，让损失函数最小以达到最佳的估计效果。因为我们知道 $\mathbf{A}\mathbf{h} = 0$ 是整个匹配点集的最优解，因此我们尝试最小化这个函数:
$\arg\min_{\mathbf{h}} || \mathbf{A}\mathbf{h} || \tag{1.7}$
然而，我们还有个约束: $||\mathbf{h}|| = 1$ ，因此整个问题等价于我们最小化：
$\arg\min_{\mathbf{h}} = \dfrac{||\mathbf{A}\mathbf{h}||}{||\mathbf{h}||} \tag{1.8}$
(1.8)存在有解析解，其解是 ${\mathbf{A}}^{\mathrm{T}}\mathbf{A}$ 的最小的特征值所对应的单位特征向量，等价来说是 $\mathbf{A}$ 的奇异值分解中最小奇异值对应的奇异向量，首先我们对给定的 $\mathbf{A}$ 进行奇异值分解，有 $\mathbf{A} = \mathbf{U}\mathbf{D}\mathbf{V}^{\mathrm{T}}$ ，我们知道其中的 $\mathbf{D}$ 是一个对角矩阵，每个对角元都是一个奇异值，我们对这些奇异值进行降序排序，根据此更新特征向量 ${\mathbf{V}}^{\mathrm{T}}$ 的值排序，那么更新后的 ${\mathbf{V}}^{\mathrm{T}}$ 最后一列就是最小的奇异值对应的奇异向量，也就是我们要的解 $\mathbf{h}$ 。这个算法被称之为DLT，Direct Linear Transformation算法。

其他的损失函数

代数距离

代数距离(algebraic distance)，我们在(1.7)中尝试去最小化的 $||\mathbf{A}\mathbf{h}||$ ，我们把 $\mathbf{\epsilon} = \mathbf{A}\mathbf{h}$ 称之为残留向量(residual vector)，并且定义代数距离为：
$d_{\mathrm{alg}}(\mathbf{x}^{\prime}_i, H\mathbf{x}_i)^2 = ||\epsilon_i||^2 = || \left[ \begin{matrix} \mathbf{0}^{\mathrm{T}} & -w^{\prime}_i\mathbf{x}_i^{\mathrm{T}} & y^{\prime}_i\mathbf{x}_i^{\mathrm{T}} \\ w^{\prime}_i\mathbf{x}_i^{\mathrm{T}} & \mathbf{0}^{\mathrm{T}} & x^{\prime}_i\mathbf{x}_i^{\mathrm{T}} \end{matrix} \right] \mathbf{h} ||^2 \tag{1.8}$
我们发现，每一对的匹配点都对应着一个代数距离，这个代数距离没有任何几何上或者统计上的意义，只是一个数值而已。具体点，我们有：
$d_{\mathrm{alg}} (\mathbf{x}_1, \mathbf{x}_2)^2 = a_1^2+a_2^2，其中\mathbf{a} = (a_1, a_2, a_3)=\mathbf{x_1}\times \mathbf{x}_2 \tag{1.9}$
考虑到所有的匹配点集，我们对其求和有：
$\sum_id_{\mathrm{alg}}(\mathbf{x}^{\prime}_i, H\mathbf{x}_i)^2 = \sum_i ||\epsilon_i||^2= ||\mathbf{A}\mathbf{h}||^2 = ||\epsilon||^2 \tag{1.10}$
代数距离没有几何含义，并且最小化代数距离通常给出的解并不够好，但是其有个很好的性质就是其是线性的，因此有唯一的一个解，并且计算起来很容易，可以作为其他更为复杂的非线性几何损失的初始化条件。

几何距离

在讨论几何距离之前，我们要明晰三种不同的概念：

$\mathbf{x}$ 表示在图像上的实际测量坐标结果，比如某个像素点的坐标位置。因为存在某些成像上的误差，可能实际成像和理论应该的成像位置不一致的情况，当然理论的成像位置我们并不知道，我们能测量出的一般只是 $\mathbf{x}$ 。
$\hat{\mathbf{x}}$ 表示某个模型对该点的估计值。
$\mathbf{\bar{x}}$ 表示实际实体点的理论真实值，这个通常不能被直接测量出来。

在一张图像上的误差，迁移误差：

如果我们假设在第一张图像上，其测量到的点不存在误差，也就是说假设第一张图上有 $\mathbf{x} = \mathbf{\bar {x}}$ ，那么我们只需要考虑第二张图像的误差即可。一般情况下，这种情况当然不现实，这个我们在上文讨论过，因为成像误差，实际的成像位置和真正理论上的成像位置有所偏移。但是我们这个假设在某些情况下是可以接受的，比如我们现在对相机进行矫正（calibration，也即是计算相机的内参数和外参数[11]），我们会使用一种称之为矫正图样（calibration pattern）的标定板，如Fig 1.3所示，在这种标定板上交叠着黑白色的方块，其交叠点清晰，模式明显，如Fig 1.4所示。因此可以认为这些交叠的角点的成像位置和理论成像位置一致，因此我们这个假设就有用武之地了。注意，在这个情况中，我们的一个平面是标定板，一个平面是相机的成像平面，我们在试图寻找标定板角点到相机成像平面的单应性矩阵。

Fig 1.3 可以作为矫正图样的标定板，其必须保证完全的平面，并且图样模式清晰明显，因此每个角点（黑色图样和白色图样的交叠点）清晰，可以认为是成像位置和实际位置没有误差。

Fig 1.4 标定板的角点模式非常明显，容易被程序自动识别，并且精度非常高。

考虑到这种假设合理的情况，我们设计出所谓的最小化 迁移误差(transfer error)，公式表示如(1.11)所示
$\mathcal{E}_{\mathrm{transfer}} = \sum_{i} \mathrm{d}(\mathbf{x}^{\prime}_i, H\mathbf{\bar{x}}_i)^2\tag{1.11}$
注意到其中的 $\mathrm{d}(\cdot)$ 是欧几里德距离。这个公式其实就是在描述如果在知道了单应性矩阵 $H$ 的情况下，将第一张图像的像点通过单应性矩阵投影到第二张图像上后得到投影点 $H\mathbf{\bar{x}}_i$ ，计算实际的成像点 $\mathbf{x}^{\prime}_i$ 与之的欧式距离。

注意，这里的欧式距离 $\mathrm{d}(\mathbf{x}, \mathbf{y})$ 其中是对 $\mathbf{x}, \mathbf{y}$ 中的非齐次坐标进行计算的，也就是说如果 $\mathbf{x} = \{x_1, x_2, x_3\}, \mathbf{y} = \{y_1,y_2,y_3\}$ ，其中 $x_3,y_3$ 是齐次分量，不参与欧式距离计算，因此实际的欧式距离为：
$\mathrm{d}(\mathbf{x}, \mathbf{y})^2 = (x_1-x_2)^2+(y_1-y_2)^2\tag{1.12}$
总而言之，最后有：
$\hat{H} = \arg\min_{H} \mathcal{E}_{\mathrm{transfer}}\tag{1.13}$

对称迁移误差：

然而更为通用且实际的方法，是考虑所谓的对称迁移，也就是将第一张图像上的像点投射到第二张图像，计算误差 $\mathcal{E}_1$ ；相反地，将第二张图像上的像点投影到第一张图像，计算误差 $\mathcal{E}_2$ ，相加两个误差得到最后的对称迁移误差 $\mathcal{E} = \mathcal{E}_1+\mathcal{E}_2$ 。公式表达如(1.14)
$\mathcal{E} = \sum_{i} \mathrm{d}(\mathbf{x}_i, H^{-1}\mathbf{x}^{\prime}_i)^2+ \mathrm{d}(\mathbf{x}^{\prime}_i,H\mathbf{x}_i)^2\tag{1.14}$
最后的优化结果如：
$\hat{H} = \arg \min_{H} \mathcal{E}\tag{1.15}$
整个过程的图示如Fig 1.5所示。

Fig 1.5 对称迁移误差的过程，进行两张图像之间像点的互相投影，并且计算误差。

重投影误差：

我们从式子(1.14)和Fig 1.5中发现，其实我们的投影点和实际点并不是完全匹配的，因为我们的观察点都是带噪声的，并不是实际理论上的完美的点，因此即便通过单应性矩阵它们也不会完全的重合。我们可以考虑一种这种情况，假设我们通过匹配点集 $\mathbf{x}_i \leftrightarrow \mathbf{x}^{\prime}_i$ ，我们能推算出其在现实中的实际实体点 $\mathbf{X}_i$ ，然后通过投影，可以得到完美的一个匹配对 $\mathbf{\hat{x}}_i \leftrightarrow \mathbf{\hat{x}}_i^{\prime}$ ，其中有 $\mathbf{\hat{x}}_i^{\prime} = H\mathbf{\hat{x}}_i$ 。当然这里的实体点并不需要显式地进行估计，我们只需要如式子(1.16)所示地设计误差函数即可：
$\mathcal{E} = \sum_i\mathrm{d}(\mathbf{x}_i, \mathbf{\hat{x}}_i)^2+\mathrm{d}(\mathbf{x}_i^{\prime},\mathbf{\hat{x}}_i^{\prime})^2 \\s.t. \ \ \mathbf{\hat{x}}_i^{\prime} = \hat{H}\mathbf{\hat{x}}_i, \forall i\tag{1.16}$
最小化误差，有：
$\hat{H} = \arg \min_{H} \mathcal{E}\tag{1.17}$
因为这个过程需要重新投影，得到一个新的估计的辅助匹配对，因此称之为重投影误差(reprojection error)。整个过程如图Fig 1.6所示。对比Fig 1.5和Fig 1.6，我们能发现，我们在重投影过程中，是充分考虑了每张图的像素点的位置误差的。

Fig 1.6 重投影误差

Reference

[1]. https://blog.csdn.net/LoseInVain/article/details/104533575

[2]. https://blog.csdn.net/LoseInVain/article/details/102739778

[3]. https://blog.csdn.net/LoseInVain/article/details/103369203

[4]. https://blog.csdn.net/LoseInVain/article/details/102632940

[5]. https://blog.csdn.net/LoseInVain/article/details/102665911

[6]. https://blog.csdn.net/LoseInVain/article/details/104533575

[7]. Hartley R, Zisserman A. Multiple view geometry in computer vision[M]. Cambridge university press, 2003.

[8]. https://blog.csdn.net/LoseInVain/article/details/102756630

[9]. https://blog.csdn.net/LoseInVain/article/details/102883243

[10]. https://blog.csdn.net/LoseInVain/article/details/102739778

[11]. https://blog.csdn.net/LoseInVain/article/details/102632940

Vision mamba(mamba_ssm)安装踩坑指南 ggitjcg 深度学习 python
在这篇博客中，我将分享我在linux环境安装和使用VisionMamba（mamba_ssm）过程中遇到的一些问题和解决方法。前置检查：PyTorch和Python版本在安装mamba_ssm前，请确保你的PyTorch和Python环境版本正确。以下代码可用来检查环境信息：importtorchprint("PyTorchVersion:{}".format(torch.__version__)
PyTorch数据归一化处理：transforms 2401_87555420 pytorch 人工智能 python
##1.数据归一化处理：transforms.Normalize###1.1理解torchvision*torchvision.transforms：常用的图像预处理方法*torchvision.datasets：常用的数据集Dataset实现*torchvision.models：常用的CV（预训练）模型实现torchvision.transforms:常用的数据预处理方法，提升泛化能力，包括：
SSL证书申请,流程，分类 thinkhi9999 ssl http 爬虫
SSH与SSL应用方向不同，但基于技术都是一样的（公钥和私钥配对）SSL主要用在Browser和Server通信，比如HTTPS=HTTP+SSLSSH是由客户端和服务端的软件组成的，用于computer之间通信，比如我们通过SSH登录远端服务器。有两个不兼容的版本分别是：1.x和2.x。用SSH2.x的客户程序是不能连接到SSH1.x的服务程序上去的。OpenSSH2.x同时支持SSH1.x和2
Lineageos 22.1(Android 15) 开机向导制作 JabamiLight Lineageos android android 15 开机向导 Lineageos 22.1
一、前言开机向导原理其实就是将特定的category的Activity加入ComponentResolver，如下然后我们开机启动的时候，FallbackHome结束，然后启动Launcher的时候，就会找到对应的开机向导Activity页面。所以我们现定制我们自己的应用。这篇文章只适用于aosp原版的provision，Lineageos有自己的setup_wizard，虽然按照流程可以启动，但
GPU计算的历史与CUDA编程入门己见明 GPU计算 CUDA C 数据并行性 CUDA程序结构向量加法内核
GPU计算的历史与CUDA编程入门背景简介GPU计算的历史可以追溯到早期的并行计算研究，如今已发展成为计算机科学中的一个重要分支。本文将探讨GPU计算的发展史，重点分析《ComputerGraphics:PrinciplesandPractice》等关键文献，以及CUDAC编程模型的引入及其对现代软件开发的影响。历史回顾回顾历史，GPU计算的发展始于1986年Hillis与Steele在《Comm
树莓派4B arm平台aarch64 pip安装pytorch 纬领网络 pytorch arm 深度学习
比如你要安装torch1.7.1的版本，你执行下面这行命令pip3installtorch==1.7.1torchvision==0.8.2torchaudio==0.7.2-fhttps://torch.kmtea.eu/whl/stable-cn.html
不搞花里胡哨！CMU最新开源：极简风格的LiDAR全景分割+跟踪！ 3Ｄ视觉工坊 3D视觉从入门到精通 3D视觉
来源：3D视觉工坊在公众号「3D视觉工坊」后台，回复「原论文」可获取论文pdf、代码链接添加微信：dddvisiona，备注：三维点云，拉你入群。文末附行业细分群1.笔者个人体会激光雷达全景分割（LPS）一般遵循自下而上的以分割为中心的范式，利用聚类获得对象实例来建立语义分割网络。但是最近CMU&Meta等大佬们重新思考了这种方法，并提出了一个简单而有效的检测中心网络，用于LPS和跟踪。这项工作也
MDK（Keil μVision 5）的编译过程及文件类型全解 froxy 工具 arm stm32
MDK（KeilμVision5）的编译过程及文件类型全解一、编译过程MDK的编译过程主要分为预处理、编译、汇编、链接、生成可执行文件、格式转换六个阶段。以下是详细流程：预处理（Preprocessing）工具:armcc（ARMC/C++编译器）输入文件:.c（C源文件）、.h（头文件）输出文件:.i（预处理后的临时文件，默认不保存）作用:展开宏、处理条件编译指令（如#ifdef）、合并头文件到
u-net系列算法㡽闧㔯人工智能算法
语义分割M整体结构：M概述就是编码解码过程简单但是很实用，应用广起初是做医学方向，现在也是U-net主要网络结构：还引入了特征拼接操作M以前我们都是加法，现在全都要这么简单的结构就能把分割任务做好U-net++整体网络结构：特征融合，拼接更全面其实跟densenet思想一致把能拼能凑的特征全用上就是升级版了U-net++DeepSupervision：也是很常见的事，多输出损失由多个位置计算，再更
【ai】mocap：conda 安装python3.8+ cuda+ pytorch+torchaudio、torchvision 等风来不如迎风去 AI入门与实战人工智能 ubuntu conda
MotionCapubuntu18.04不知道为啥会依赖于ffmpeg、xorg渲染？安装pytorch就是会带上cudacudnn啥的pytorch【ai】tx2nx：安装torch、torchvisionforyolov5这里就发现pytorch和torchvision有依赖关系的，还涉及到rapidjson所以python的环境隔离很重要。核心库-cudatoolkit=11.3-pytor
需求分析与问题定义原理与代码实战案例讲解 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
需求分析与问题定义原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在软件工程领域，需求分析与问题定义是至关重要的环节。它们决定了软件项目的成功与否，直接影响着软件的质量、成本和交付时间。随着软件项目的复杂性和规模日益增加，对需求分析与问题定义的要求也越来越高。本文将深入探讨需求分析与问题定义的原理，并
部分标签数据集生成与过滤特定标签方法阳光明媚大男孩机器学习人工智能
完整代码总结这段代码的目的是通过构建一个部分标签学习（PartialLabelLearning,PLL）框架来生成一个包含部分标签的数据集，并且支持根据给定的标签列表对数据集进行筛选和过滤。代码包含了多个类和函数，主要分为以下几部分：数据预处理与加载：使用PyTorch和torchvision来加载CIFAR-10数据集，并对其进行标准化处理。部分标签数据集的生成：为每个样本生成多个候选标签，并模
模型部署实战：PyTorch生产化指南小诸葛IT课堂 pytorch 人工智能 python
‌一、为什么要做模型部署？‌模型部署是将训练好的模型‌投入实际应用‌的关键步骤，涉及：模型格式转换（TorchScript/ONNX）性能优化（量化/剪枝）构建API服务移动端集成本章使用ResNet18实现图像分类，并演示完整部署流程。‌二、模型转换：TorchScript与ONNX‌‌1.准备预训练模型importtorchimporttorchvision#加载预训练模型model=torc
TypeScript语言的计算机视觉苏墨瀚包罗万象 golang 开发语言后端
使用TypeScript进行计算机视觉：一个现代化的探索引言随着人工智能和机器学习的快速发展，计算机视觉（ComputerVision）成为了一个极具活力的研究领域。计算机视觉旨在使计算机能够“看”和“理解”数字图像或视频中的内容。近年来，TypeScript作为一种现代化的编程语言，因其类型安全和更好的开发体验，逐渐在前端和后端开发中得到了广泛应用。本文将探讨如何使用TypeScript进行计算
大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
Flume与Couchbase集成原理与实例 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Flume与Couchbase集成原理与实例作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，企业对数据存储和处理的效率要求越来越高。在数据采集、存储、处理和分析的各个环节，都需要高效、可靠的技术支持。Flume和Couchbase正是这样两种优秀的工具，前者擅长于数据采集和传输，后者擅长于键值存储和文
【论文阅读】MMedPO：用临床感知多模态偏好优化调整医学视觉语言模型勤奋的小笼包论文阅读语言模型人工智能自然语言处理 chatgpt
MMedPO：用临床感知多模态偏好优化调整医学视觉语言模型1.背景2.核心问题：3.方法：3.实验结果与优势4.技术贡献与意义5.结论MMedPO:AligningMedicalVision-LanguageModelswithClinical-AwareMultimodalPreferenceOptimizationMMedPO：用临床感知多模态偏好优化调整医学视觉语言模型gitgub:地址1.
SVN a peg revision is not allowed here 解决办法男子峰 svn SVN bug
默认情况下，同名图片，更新的时候，后来更行的是会直接替换原图,所以会出现相应的英文提示。然后执行上面所说的svnresolved指令的时候，会出现一些问题(以名为btn@2x的图片为例)：svnresolved项目名/图片资源文件夹名字/btn@2x然后，svn会报错!E200009:'项目名/图片文件夹名/[email protected]':apegrevisionisnotallowedhere解决：在图
AI人工智能代理工作流AI Agent WorkFlow：设计智能任务处理流程 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：设计智能任务处理流程作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在当今的数字化时代，随着数据量的爆炸式增长和复杂性的提升，传统的手动任务处理方式已经无法满足高效、准确的需求。人工智能技术的发展为自动化任务处理提供了新的可能性。AI人工智能代理（AIAgent）作为一
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
本周安全速报（2025.3.11~3.17）联蔚盘云安全
合规速递01瑞士出台新规：关基设施遭遇网络攻击需在24小时内上报原文:https://www.bleepingcomputer.com/news/security/swiss-critical-sector-faces-new-24-hour-cyberattack-reporting-rule/新规要求，关键基础设施组织发现网络攻击后，首次报告需在24小时内完成，详细报告需在后续14天内完成，未
基于PyTorch和ResNet18的花卉识别实战（附完整代码）意.远 pytorch 人工智能 python 深度学习
一、项目背景与效果花卉分类是计算机视觉的经典任务。本文使用PyTorch框架，基于ResNet18模型实现了102种花卉的分类任务。完整代码可直接复制运行，最终验证集准确率达8.2%，文中同步分析性能瓶颈与优化方案。二、环境配置与数据准备1.环境要求#主要依赖库importtorchfromtorchimportnn,optimfromtorchvisionimporttransforms,dat
Codeforces Round 995 (Div. 3) polarours Codeforces 算法 c++数据结构
A.PreparingfortheOlympiad题目描述Monocarp和Stereocarp正在准备奥林匹克。现在仅剩nnn天奥林匹克就要开始了。在这第iii天，如果Monocarp准备训练，那么他将完成aia_iai题，同样的，如果Stereocarp也在这天准备训练，那么他将完成bib_ibi题。Monocarp可以在任意一天进行训练，然而，Stereocarp在观察他，并且学习他的计划：
深度学习框架PyTorch——从入门到精通（4）数据转换 Fansv587 Torch框架学习深度学习 pytorch 人工智能 python 经验分享
转换（Transforms）很多时候，数据并不总是以训练机器学习算法所需的最终处理形式出现。所以我们需要使用变换对数据进行一些处理，使其适合训练。所有TorchVision数据集都有两个参数——transform来修改特征，target_transform来修改标签——接受包含转换逻辑的可调用项。torchvision.transform模块提供了几个开箱即用的转换。FashionMNIST数据集
《Operating System Concepts》阅读笔记：p389-p407 操作系统
《OperatingSystemConcepts》学习第33天，p389-p407总结，总计19页。一、技术总结1.virtualmemeory(1)定义Atechniquethatallowstheexecutionofaprocessthatisnotcompletelyinmemory.Also,separationofcomputermemoryaddressspacefromphysic
征程 6 VP简介与单算子实操自动驾驶算法
1.如何理解VPVP，全称VisionProcess，指UCP中的视觉处理功能模块。Backends，指UCP框架中的可分配处理单元。VP模块主要用于模型的前后处理环节，在地平线统一架构中，多种硬件均已搭载了图像处理的算子，而VP模块将图像处理相关的硬件调用进行了封装，通过设置backend来选择不同的硬件方案（若不指定backend，UCP会自动适配负载更低的处理单元），从而平衡开发板负载。VP
Argument vs. Parameter | 参数值与参数斐夷所非 clean code 参数
注：机翻，未校。Argumentvs.Parameter参数值（Argument）与参数（Parameter）What’stheDifference?有什么区别？Argumentandparameteraretwotermscommonlyusedinthefieldofcomputerprogramming.Anargumentreferstoavaluethatispassedtoafunct
开发规范与编码标准原理与代码实战案例讲解 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
开发规范与编码标准原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming/TextGenWebUILLM开发规范与编码标准原理与代码实战案例讲解1.背景介绍1.1问题的由来随着软件工程的快速发展，尤其是在大型团队协作下开发复杂系统时，一致性、可读性、维护性成为影响代码质量的关键因素。不一致的开发风格、冗余的代码模式以及缺乏标准化的命名
ECMAScript（ES6+）爱好是吃的蓝胖 ES6 javascript 开发语言前端 ecmascript
1.ECMAScript简介ECMA（EuropeanComputerManufacturersAssociation）中文名称为欧洲计算机制造商协会，这个组织的目标是评估、开发和认可电信和计算机标准。1994年后该组织改名为Ecma国际。ECMAScript是由Ecma国际通过ECMA-262标准化的脚本程序设计语言Ecma国际制定了许多标准，而ECMA-262只是其中的一个，查看Ecma标准。
实战级AI变现路线：从0到3万/月的3大黄金赛道拆解 zhz5214 AI 人工智能智能体 ai AI编程程序员创富
赛道一：AI短视频带货（三农领域）全流程操作手册选题系统搭建借助DeepSeek-R1云端版，输入"地域特色（如云南菌菇）+情感共鸣点（留守老人）+产品植入位（土特产）"生成结构化选题指令示例：{"prompt":"生成三农领域爆款选题，输出JSON结构"}日产能200+选题，筛选率15%分镜工业化生产使用Gemini2.0flash的vision功能，配置参数：-分辨率：1080x1920竖版-
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那