保持客气哈

RFNet- Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and Fusion

1.Abstract

在这篇论文中，我们提出了一种新颖的方法，以实现多模态图像的配准和融合，该方法在一个相互强化的框架中被称为RFNet。我们以粗到精的方式处理配准过程。首次，我们利用图像融合的反馈来提高配准的准确性，而不是将它们视为两个独立的问题。精确配准的结果还改善了融合性能。具体而言，对于图像配准，我们解决了定义适用于多模态图像和促进网络收敛的配准度量的瓶颈问题。这些度量分别基于粗阶段的图像平移和精阶段的图像融合来定义。通过设计的度量和基于可变形卷积的网络来促进收敛。对于图像融合，我们注重纹理保护，这不仅增加了融合结果的信息量和质量，还改善了融合结果的反馈。我们在具有大的全局视差、局部不对齐和对齐图像的多模态图像上评估了所提出的方法，以验证配准和融合的性能。这些情况下的结果证明了我们方法的有效性。

2.Introduction

由于多模态图像来自不同的设备/传感器，它们之间的位置、角度等差异不可避免地导致视差。然而，几乎所有的融合方法都没有考虑到这些视差。它们要求在融合之前进行准确的配准，如图1(a)所示。当配准和融合作为两个独立的问题时，现有的融合方法只能“容忍”而不是“解决”预配准对齐问题。

同时，在现有的研究中，图像融合是配准的下游任务，无法提供反馈以提高配准的准确性。然而，考虑到融合图像的特点，图像融合反过来可以消除对齐问题。

首先，融合图像整合了两个模态的信息。当将融合图像与任一源图像对齐时，减轻的模态差异降低了配准的难度。
其次，融合图像中的未对齐问题无疑会导致更多但重复的显著结构，即密集的梯度。相比之下，准确的配准鼓励梯度的稀疏性。因此，融合结果的梯度稀疏性可以作为一种准则，以反馈的方式改善配准准确性，而不会丢失源图像中的场景信息。
第三，融合图像保留了单个图像中明显的显著结构，并在融合过程中舍弃了一些多余和无用的信息。这减少了多余信息对图像配准的负面影响。当图像融合有助于消除对齐问题时，更准确对齐的数据又进一步促进了融合结果。因此，这两个任务可以相互加强，如图1(b)所示。

提出的框架如图1(b)所示。配准过程采用粗到精的方法进行处理。粗阶段通过基于图像平移的评估度量来修正全局对齐问题。粗配准结果有助于生成有意义但粗糙的融合图像。图像融合和精确的配准在一个单一的网络中进行整合。然后，为了纠正局部对齐问题，我们依赖融合图像的特点来优化网络中与变形相关的部分。最后，网络生成精确配准和融合的图像。

RFNet的主要贡献总结如下：

我们在本文中相互强化了多模态图像的配准和融合问题。这是第一次利用图像融合通过深度神经网络促进多模态图像的配准准确性。
我们专注于设计约束以优化多模态配准性能。在粗阶段，我们采用图像平移来构建一个基于图像级的评估度量。我们提出了改进的网络架构，以帮助促进网络收敛。在精阶段，度量基于融合结果进行设计。
考虑到图像融合中的纹理保留，我们采用了梯度通道注意机制来自适应调整特征的通道贡献。此外，我们设计了一个带有偏置的梯度损失。网络架构和损失函数都基于纹理丰富性。

️：怎样理解配准鼓励梯度的稀疏性？

答：当图像对齐准确时，相似的特征将在融合图像中的相同位置对齐，这会导致梯度的稀疏性。在对齐的区域，相似的像素值在空间上是连续变化的，而不是突变。这种连续变化会导致图像中的梯度值相对较小，因为相邻像素之间的差异较小。因此，融合图像中的梯度将更加稀疏，即梯度值较少且较小。

相反，当图像对齐不准确时，相似的特征可能没有正确对齐，导致不连续的像素值变化。在融合图像中，这些不连续的变化会导致较大的梯度值，因为相邻像素之间的差异较大。这会使梯度变得更加密集，即梯度值较多且较大。

3.Related works

多模态图像配准。传统的配准方法包括基于变换和基于测量的方法。

基于变换的方法将图像转换到一个共同的空间以展现更好的一致性。它们通过手动分析多模态特征并设计约束来强制一致性。然而，这些方法中的优化是棘手的。
基于测量的方法旨在测量相似性，对模态变化的敏感性较低。代表性的方法包括互信息（MI），区域互信息等，这些方法计算复杂且不适合梯度下降。
最近，提出了基于深度学习的方法。例如，Wang等人使用网络创建模态无关的特征，但仍存在稀疏性的缺点。与我们的工作最接近的是，Arar等人学习了一种跨模态的转换。然而，变换和配准网络的协同训练增加了优化配准网络的难度。在我们的工作中，我们发现将转换后的图像在同一域中输入网络可以同时提高配准准确性和加快收敛速度。此外，与现有的配准网络相比，我们在网络中采用了可变形卷积，因为可变形卷积可以处理未配准图像中的形变，从而提高配准的准确性和鲁棒性。与我们的工作最相关的是，SIRF证实，如果正确联合配准和融合确实可以改善结果。然而，这项工作是在传统的矢量全变差模型中实现的，并且针对具有严格局部不对齐的遥感图像设计的。

多模态图像融合。现有的融合方法针对已对齐的图像而不考虑对齐问题。传统方法包括六种类别：基于多尺度变换、稀疏表示、子空间、显著性、混合方法和其他方法。它们致力于手动设计分解方式和融合策略，而详细和多样化的设计使它们变得越来越复杂。为了解决这个问题，一些基于深度学习的方法被提出。其中一些方法不关注纹理保留，一些生成对抗网络方法会产生虚假和模糊的细节。即使一些方法关注纹理，它们是根据图像模态而不是特定区域的实际纹理来保留纹理。在这项工作中，我们采用了基于梯度的注意机制和带有偏差的梯度损失来增强纹理保留。此外，该网络融合了变形，从而可以基于保留的纹理进行错位校正。

️:为什么可变形卷积起到作用？

答：在图像配准任务中，未配准的图像可能存在不同的形变，如旋转、缩放、拉伸等。为了准确地将这些未配准的图像进行配准，传统的卷积操作可能无法充分考虑到图像中的形变信息。而可变形卷积则具有一定的变形能力，能够根据图像内容自适应地调整卷积核的采样位置，以更好地适应图像中的形变

4.Proposed Method

我们设计了一个无监督网络来实现多模态图像配准和融合的相互增强，称为RFNet。整体流程如图2所示，包括两个主要部分。首先，粗略配准模块基于仿射变换模型进行全局校正。然后，多模态图像被粗略对齐，除了一些局部的平行线，这些地方不适用仿射模型。其次，精确的配准和融合在一个统一的模块/网络中实现，称为精确配准和融合模块（F2M）。

️：什么是仿射变换？

答：仿射变换是一种几何变换模型，可以用来对图像进行平移、旋转、缩放和剪切等变换操作。它是在二维空间中对点或图像进行线性变换和平移的组合操作。具体来说，仿射变换可以通过一个 2x3 的矩阵来表示，其中矩阵的前两列表示变换矩阵，最后一列表示平移矩阵。通过对原始图像中的所有点进行仿射变换，可以得到经过变换后的新图像

4.1. COARSE REGISTRATION MODULE

本文提出的粗略配准模块的流程如图3所示。首先，TransNet将多模态图像转换为相同的域（即将 $I_x$ 转换为 $I_{x→y}$ ）。然后，AffineNet以 $I_{x→y}和I_y$ 作为输入，并输出仿射参数以生成 $I_x$ 的变形场。

疑问️：如何将多模态图像转换为相同的域？为什么要转换到同一域中呢？

答：卷积神经网络（CNN）在图像转换任务中经常被使用，但单独使用卷积操作并不能直接实现多模态图像之间的转换。传统的卷积操作主要用于提取图像的局部特征，而无法对整个图像的模态差异进行建模和转换。为了实现多模态图像之间的转换，通常需要借助于特定的网络架构和训练方法。例如，可以采用生成对抗网络（GAN）或自编码器（Autoencoder）等结构。这些网络结构可以通过学习数据之间的映射关系，将多模态图像转换为相同的域，使它们在特征空间上更加接近。==生成对抗网络（GAN）==包括一个生成器和一个判别器。生成器负责将多模态图像转换为目标域，判别器则用于区分生成的图像和目标域图像。通过对抗性训练，生成器和判别器相互竞争，最终生成器可以学习到将多模态图像转换为目标域的能力。==自编码器（Autoencoder）==则是一种用于学习输入数据的低维表示的网络结构。通过将多模态图像输入到自编码器中，训练网络使其能够将多模态图像压缩为共享的低维表示，然后再通过解码器将其恢复为目标域图像。

我们发现将转换后的图像在同一域中输入网络可以同时提高配准准确性和加快收敛速度。

4.1.1 Image Translation Network

TransNet旨在学习图像转换函数 $T^y_x$ ，其中 $T^y_x$ 表示将域x中的图像 $I_x$ 转换为域y，同时保留内容信息。因此，我们使用编码器将 $I_x$ 嵌入内容空间 $c_x = E_x(I_x)$ ，同时去除域信息。为了确保 $c_x$ 包含内容信息，我们通过解码器 $D_x和D_y$ 将其映射回域，如图4所示。

将 $c_x$ 映射回域x的结果应该重构为 $I_x$ ，即 $I^{recon}_x = T_x(I_x) = D_x(E_x(I_x))$ 。映射到域y的结果应该是转换后的 $I_x$ ，即 $I_{x→y} = T_y(I_x) = D_y(E_x(I_x))$ 。

类似地，对于域y中的 $I_y$ ，重构和转换的结果分别是 $I^{recon}_y = T_y(I_y)和I_{y→x} = T_x(I_y)$ 。为了鼓励编码器提取内容信息和解码器恢复与域相关的信息，定义了重构损失和转换损失。重构损失和转换损失的定义如下：
$L_{recon} = ∥I_x − I^{recon}_x∥_1 + ∥I_y − I^{recon}_y∥_1，$

$L_{trans} = ∥I_x − I_{y→x}∥_1 + ∥I_y − I_{x→y}∥_1 \quad (1)$

TransNet的最终损失函数如下，其中η是控制权衡的超参数：

$L_{TransNet} = L_{recon} + ηL_{trans}, \quad (2)$

TransNet的网络架构如下图所示。我们使用实例归一化而不是批归一化，因为它执行一种样式归一化。为了将不同的域映射到相同的内容空间，除了设计的损失函数之外，编码器的最后几层和解码器的第一层的权重是共享的。

️：为什么编码器的最后几层和解码器的第一层的权重是共享的？

答：首先

编码器是一个用于提取输入数据的特征表示的模块。它将输入数据（如图像）转换为较低维度的表示，捕捉输入数据的重要特征。

解码器是一个用于从编码器的特征表示中还原原始数据的模块。它将编码器提取的特征转换回原始数据的形式，以便在目标域中重建或生成与输入数据相似的内容。

编码器的最后几层和解码器的第一层使用相同的权重参数，这意味着它们共享相同的变换规则。

通过共享权重，编码器的特征表示可以被解码器更好地还原，从而使不同的域之间能够更好地进行映射和转换。

：笔记（关于Deconvlution layer）

Deconvolution layer 的作用是将输入特征图进行上采样，将其尺寸从较小的尺寸恢复到较大的尺寸。这与常规的卷积层相反，卷积层通常将输入特征图的尺寸减小。在实现上，Deconvolution layer 使用了卷积的转置操作。转置卷积将卷积核应用于输入特征图，但在进行卷积计算时，将填充值（padding）和步幅（stride）进行反转。这样可以在输出特征图上实现上采样，增加特征图的尺寸。

4.1.2 Affine Network

AffineNet学习生成相应的仿射变换函数C。当输入一对不对齐的图像 $I_{x→y}和I_y$ 时，它输出仿射参数 $p_{aff} = C(I_{x→y}, I_y)$ 。根据 $p_{aff}$ ，我们通过在regular grid上应用 $p_{aff}$ 去生成大小为H×W×2的deformation filed $φ$ 。 $φ$ 表示 $I_{x→y}$ 中所有像素的变形。数学上，表示为：

$I^C_{x→y}[i + φ_{i,j,1}, j + φ_{i,j,2}] = I_{x→y}[i, j]，\quad (3)$

其中i和j表示像素的位置。 $φ$ 的两个通道分别表示垂直和水平方向的偏差(下标1和2）。

根据上述描述，多模态图像配准问题已转化为 $I^C_{x→y}$ 和源图像 $I_y$ 之间的相似性。因此，AffineNet的损失函数被定义为约束它们相似性的函数。为了便于计算和对光照幅度的线性变化的较弱敏感性，我们使用归一化互相关（NCC）作为相似性度量。因此，配准损失定义如下：

$L_{coarse} = -NCC(I^C_{x→y}, I_y)，\quad (4)$

其中NCC(s, g)定义为：

$\frac{E[(s − µ_s) ⊙ (g − µ_g)]} { (√(E[(s − µ_s)²]) √(E[(g − µ_g)²]))} \quad (5)$ ，

其中 $Σ^H_{i=1} Σ^W_{j=1} x_{i,j}$ $，$ $x_{i,j}$ 是x在第i行和第j列的像素， $µ_s$ 和 $µ_g$ 是s和g的均值，⊙是Hadamard乘积。

当获得最佳的变形场 $φ$ 时，我们对 $I_x$ 执行相同的空间变换，根据公式(3)生成粗略对齐的图像 $I^C_x$ 。

AffineNet的网络架构如下图中所示。对于图像配准，两个未对齐图像中的对应对象的区域可能会发生相当大的移动。考虑到长距离的视差，需要使用较大的卷积核大小和深层网络层以获得较大的感受野。为了缓解多模态图像配准中的大视差和局部不对齐的问题，该方法采用了可变形卷积层来替代传统卷积层中的固定感受野。可变形卷积层通过引入从前一层特征图中学习得到的偏移量来增强感受野。因此，它可以反映未配准图像中的变形情况，从而提高配准的准确性和鲁棒性。

可变形卷积层的使用允许网络根据输入图像的特定特征来自适应调整感受野。这样一来，网络可以更好地捕捉到多模态图像之间的局部变化和不对齐情况。此外，可变形卷积层通过使网络能够处理不同模态之间发生的变形和空间变换，增强了配准过程的鲁棒性。

️：有关于变形场的解释？

‍：变形场（deformation field）用于描述图像或物体的像素在空间中的偏移或变形情况。

变形场的维度为H×W×2的原因如下：

二维场：变形场是一个二维场，因为它描述了图像或物体在水平和垂直方向上的变形情况。每个像素对应一个二维向量，表示该像素在x和y方向上的偏移量。

H×W：变形场的高度和宽度维度与图像或物体的尺寸相匹配。每个像素在变形场中有对应的位置，因此需要与图像或物体的尺寸保持一致。

2：每个像素在变形场中用一个二维向量表示其在x和y方向上的偏移量。因此，每个像素在变形场中需要两个值来表示其偏移量。

️：仿射参数如何在regular grid上使用呢？

‍：需要定义一个规则的网格，也称为regular grid。这个网格是由一系列均匀分布的点构成的，通常是在二维图像上形成的。每个点的坐标表示网格上的位置。然后，对于每个网格上的点，我们使用仿射参数进行变换。仿射参数描述了仿射变换所需的平移、旋转、缩放和剪切等操作。通过将仿射参数应用到网格点上，可以根据这些参数计算出每个点在变形后的位置。

具体来说，对于网格上的每个点 $(x, y)$ ，我们可以使用仿射参数 $p_{aff}$ 来计算变形后的位置 $(x^{'}, y^{'})$ 。这可以通过仿射变换公式实现：
x' = p_{aff}[0, 0] * x + p_{aff}[0, 1] * y + p_{aff}[0, 2]
y' = p_{aff}[1, 0] * x + p_{aff}[1, 1] * y + p_{aff}[1, 2]
通过对网格上的每个点进行仿射变换，我们可以计算出变形后的位置 $(x^{'}, y^{'})$ 。这样，我们就得到了一个大小为H×W×2的变形场（deformation field），其中H和W表示图像的高度和宽度。

变形场中的每个像素值表示了原始图像中对应位置像素经过仿射变换后的新位置。通过应用变形场到原始图像中的所有像素，我们可以实现图像的变形和对齐，使得不对齐的图像能够更准确地与目标图像对齐。

️：可变形卷积？

‍：传统的卷积层中，每个卷积核的权重都是固定的，它们会在输入特征图上进行滑动以提取特征。而可变形卷积层通过引入偏移量的概念，使得每个卷积核的权重在输入特征图上的位置是可变的。

具体而言，可变形卷积层引入了一个额外的偏移量学习模块，该模块会从前一层的特征图中学习得到一组偏移量。这些偏移量表示了当前位置与卷积核中心位置之间的偏移量。通过将这些偏移量应用到卷积核的中心位置，可以使得卷积核在每个位置上都能够适应输入特征图的局部形状变化。

通过引入偏移量，可变形卷积层可以增强感受野。传统的卷积层中，每个卷积核的权重在滑动过程中都是固定的，无法适应输入特征图中的细微形状变化。而可变形卷积层通过根据学习得到的偏移量调整卷积核的位置，使得卷积核能够更好地适应输入特征图的局部形状变化，从而扩大了卷积核的感受野范围。

4.2. Mutually Reinforcing Fine Registration and Fusion Module (F2M)

第一阶段，F2M实现了以纹理为重点的图像融合，这也是精细配准的基础。其流程如图5所示。我们针对F2M中除了变形模块以外的参数进行图像融合的优化。变形模块依赖于初始化的参数来生成变形场，这些参数自动趋向于相同。在这种情况下， $I_f$ 结合了 $I^C_x和I_y$ 的场景信息，并在单张图像中呈现它们的视差。损失函数定义如下：

$L_{fus} = L_{content} + δL_{gradient}，\quad (6)$

其中δ控制这两项之间的权衡。 $L_{content}$ 用于约束图像级别的相似性，以融合场景内容，定义如下：

$L_{content} = (1 − γ)∥I_f − I^C_x∥_1 + γ∥I_f − I_y∥_1，\quad (7)$

由于近红外图像（NIR）通常比RGB图像包含更多的纹理细节，γ取值在0.5到1之间。由于显著的结构通常表现为较大的梯度，梯度损失 $L_{gradient}$ 定义如下：
$L_{gradient} =||∇I_f −\frac{∇I^C_x +∇I_y}{|∇I^C_x +∇I_y|}· max(|∇I^C_x |, |∇I_y|)||_2，\quad (8)$

其中∇表示图像的梯度。

第二阶段，F2M根据融合图像的特征实现精细配准。在此阶段，我们固定了在第一阶段已经优化的与融合相关的参数，并训练变形模块。（这里的意思就是第一阶段先进行融合，不进行精确配准，然后用融合后的图像去训练这个变形模块，训练完成后再利用精确配准的图像进行融合，这时候效果肯定比第一阶段要好）

损失函数考虑了以下三个方面。

首先， $I_y$ 是提供参考纹理信息的固定图像。 $I_f$ 保留了 $I^C_x$ 的变形梯度。在正确的变形之后， $I_f$ 应该与 $I_y$ 具有高一致性。因此，第一项约束与参考信息的一致性。
其次，很容易观察到，如果 $I_f$ 中存在任何不对齐，将会降低梯度的稀疏性。我们使用第二项来鼓励 $I_f$ 的稀疏性，并惩罚应该被修正的显著梯度。
第三，相邻像素应该具有类似的变形，直观上表示为变形场的平滑性。否则，场景结构将被扭曲。我们使用正则化项来防止变形模块生成非平滑的变形场。

因此，损失函数包含以下三个项：

$L_{defor} = ∥∇I_f −∇I_y∥_1 + ∥∇I_f∥_1 + λL_{smooth}，\quad (9)$

其中我们使用 $l_1$ 范数，因为它鼓励稀疏性。

具体到 $L_{smooth}$ ，假设变形为 $φ_f$ ， $φ_f$ 的一阶梯度反映了变形的突变情况。此外，为了避免过度平滑，受到的启发，我们使用双边滤波器为不同的一阶变化分配变量权重，定义如下：

$L_{smooth} =\sum_{p_n∈R} e^{−α|I_{f(p)}−I_f(p_n)|} · |φ_f(p)−φ_f(p_n)|，\quad (10)$

其中p是 $I_f$ 或 $φ_f$ 中像素的位置索引。R表示p的邻居集合。 $p_n$ 表示该集合中的位置索引。α是一个系数，设为0.5。

当变形模块被优化后，我们再次完整地执行F2M的前向过程，生成最终的对齐和融合图像 $I_f$ 。

网络架构：如图5所示，我们共享前三层的权重，以确保不同模态的特征类型的强度一致性。这样可以避免与另一个源图像相比，一种源图像中的信息衰减和扩散。否则，衰减和扩散将导致假梯度稀疏并影响配准性能的改善。

由于随着深度增加，感受野也会增大，深层特征图中的像素对应于图像中的较大区域，这不利于提高配准精度。因此，我们使用浅层特征来探索和生成空间变形。第一卷积层的非线性映射（激活函数可以让不同像素强度范围的数据映射到一个更统一的范围内）消除了 $I^C_x和I_y$ 之间的像素强度差异。

deformation block（见下图）。我们使用重采样、批量归一化和残差块来应用于不同的变形。为了保留纹理，我们引入了梯度通道注意力块，如图5所示。我们聚合绝对梯度，因为它们更好地表示了特征图中的信息丰富程度。通过联合使用最大池化和平均池化操作来聚合信息。然后，将两个分支的结果相加，并输入到两个独立的多层感知机中生成共享的通道注意力权重。然后，通过几个卷积层将特征映射回来生成 $I_f$ 。

️：为什么要梯度稀疏呢？

‍：梯度稀疏（Gradient Sparsity）指的是图像中的梯度值具有较少非零元素的特性。梯度是指图像中像素强度变化的快速度和方向，通常通过计算像素在水平和垂直方向上的导数来表示。在稀疏梯度的情况下，图像中的边缘、纹理等结构性信息会以较少的梯度变化表示，而大部分像素的梯度值将接近于零。在图像配准中，稀疏的梯度表示图像中的结构信息，可以用于寻找匹配的特征点或边缘线索。

️：L1范数是如何鼓励梯度稀疏？

‍：由于L1范数的导数在零点处是不可微的（具有不连续性），在优化过程中，当梯度元素趋向于零时，优化算法会倾向于将这些梯度元素设置为零。这样就实现了梯度的稀疏性，即大部分梯度元素为零，只有少数非零元素表示重要的结构信息。

️：什么是绝对梯度？

‍：绝对梯度是指梯度的绝对值，即梯度向量中每个元素的绝对值。在数学中，梯度表示函数在各个自变量方向上的变化率，包括正值和负值。而绝对梯度则是只考虑梯度的大小，忽略梯度的方向。在特征选择任务中，可以使用绝对梯度作为特征的重要性指标，选择具有较大梯度值的特征，以保留最具有信息量的特征

️：什么是双边滤波器？

‍：双边滤波器（Bilateral Filter）是一种常用的非线性图像滤波方法，用于平滑图像并同时保留边缘信息。它在空域和灰度（或颜色）域上考虑了像素之间的相似性，通过对邻域像素进行加权平均来实现滤波。

双边滤波器的核心思想是基于两个因素对像素进行加权平均：

空间域权重：衡量像素之间的空间距离，越接近的像素具有更高的权重。这个权重衡量了相邻像素之间的空间相关性，保证了平滑的局部性。

灰度（或颜色）域权重：衡量像素之间的灰度（或颜色）差异，越相似的像素具有更高的权重。这个权重衡量了像素之间的相似性，使得边缘信息能够被保留下来。

通过空间域权重和灰度（或颜色）域权重的乘积，可以得到每个像素的最终权重。滤波器会在局部邻域内计算加权平均，使用这些权重对邻域内的像素进行加权平均，以得到平滑后的输出像素值。

双边滤波器的优点在于它能够有效地平滑图像，同时保留边缘细节。传统的线性滤波器（如均值滤波器或高斯滤波器）会模糊边缘，导致图像失真。而双边滤波器在平滑图像的同时，通过灰度（或颜色）域权重的考虑，可以保留边缘的清晰度

️：什么是一阶变化？

‍：一阶变化指的是在某个信号或图像中，沿着空间（一维、二维或三维）或时间轴的第一次导数或梯度。它描述了信号或图像在空间或时间上的变化程度

️：什么是NIR图像？

‍：

近红外图像（Near-Infrared Image）是指位于可见光和红外光之间的电磁谱范围内的图像。红外图像（Infrared Image）则是指位于红外光谱范围内的图像

️：为什么要共享前三层的权重？

‍：不同模态的特征类型可以以一致的方式进行处理和表示。这有助于避免不同模态之间的信息衰减和扩散。如果不共享权重，不同模态的特征可能会在网络的后续层中逐渐失去一致性和对齐性，从而影响最终的任务表现。共享权重可以在网络的早期阶段就建立起一致性，从而更好地保留和利用不同模态的特征信息。

5.Experiments

实验细节。我们的方法的代码是在TensorFlow中实现的。实验是在NVIDIA Geforce GTX Titan X GPU和2.4 GHz Intel Core i5-1135 CPU上进行的。所有网络的参数都使用Adam优化器进行更新。粗略配准网络的训练轮数设置为100，F2Net的训练轮数设置为30。批量大小为4。学习率设置为0.0004，并进行指数衰减。超参数设置为：η = 2，δ = 100，γ = 0.7，λ = 0.1。我们基于公开可用的VIS-NIR场景数据集构建了训练和测试数据集。图像被裁剪为大小为384×384的块，并进行翻转以获得更多的训练数据。

5.1. Multi-modal Image Registration

我们将我们的粗略配准模块与最先进的多模态配准方法进行比较，包括传统方法（如MI ，DASC ，NTG ，SCB ）和基于深度学习的方法NeMAR 。对于NeMAR，我们在我们的训练数据集上重新训练了800个epoch的模型。

定性结果如图6所示。在前两组中，与其他方法相比，提出的RFNet和NTG显示出更准确的配准结果。MI和SCB在第一对图像上表现几乎完美，但在第二对图像上出现较大的配准误差。DASC显示出严重的几何失真，特别是在两个源图像的非重叠区域。NeMAR相对于未配准的图像略有改进。在第三组中，源图像在不同区域展现出高度的结构相似性和可重复性。在这种情况下，与NTG等比较方法相比，提出的RFNet显示出更高的配准精度。这些结果表明我们的方法可以胜过最先进的方法。

定量评估方面，我们在每个图像对中构建了5对点标记（见补充材料进行说明）。预期变形的VIS图像中的点应与NIR图像中的点处于相同的位置。因此，我们测量变形源点与目标点之间的欧氏距离。我们从三个方面计算距离，包括均方根误差（RMSE），最大平方误差（MAE）和中位数平方误差（MEE）。此外，我们使用峰值信噪比（PSNR）和结构相似性指数（SSIM）测量变形的VIS和NIR图像之间的图像级相似性。

所有指标都在45个未对准的多模态图像对上进行测试，并在表1中报告。RFNet的粗略配准模块在RMSE、MAE和MEE上取得了最佳结果。与之相比，MI和NTG在一些场景中表现良好，但在其他场景中表现不佳，导致均值较低但标准差较高。DASC在SSIM和PSNR上显示出最佳结果，因为结果在非重叠区域包含一些错误信息。然而，在其他结果中，非重叠区域为黑色，与NIR图像相似度很低。总的来说，我们的方法展示了相当的配准性能。

5.2. Multi-modal Fusion and Our Fine Registration

本节重点评估了我们F2M方法的融合和精细配准性能。由于最先进的融合方法无法处理未对准的数据，我们使用配准方法NTG 作为预配准操作，因为它在第4.1节中排名第二。换句话说，我们将RFNet与NTG和最先进的融合方法的组合进行比较，以评估融合性能，并观察现有融合方法在配准方面的重要性。这些融合方法包括DenseFuse ，IFCNN ，U2Fusion ，PMGI 和MDLatLRR 。此外，还验证了F2M的精细配准性能，当输入数据遭受局部不对齐时。

定性结果如图7所示，展示了六个典型未对准图像对的结果。我们从三个方面分析结果。首先，我们的方法可以很好地对多模态图像进行配准，并融合它们的互补信息。如前两个例子所示，配准方法未能完全消除两个源图像中的视差。不对齐的问题仍然存在于融合结果中，导致场景内容混乱。相比之下，我们方法中的联合粗配准和图像融合的反馈有助于纠正不对齐问题，并改善融合性能。其次，我们的方法可以去除重叠阴影，呈现清晰的纹理。如第三和第四行所示，略微不足的配准精度导致了重叠的阴影，并使融合结果模糊。相比之下，我们的方法可以细致地去除重叠的阴影，并保留更多锐利的边缘。第三，我们的融合结果展示了最丰富和自然的纹理。在最后两个例子中，NIR图像包含比相应的VIS图像更丰富的内容。在竞争方法中，VIS图像中的模糊纹理细节或多或少地影响了融合结果的清晰度。第四行中，IFCNN的结果中的树与NIR图像中的树比较接近，而不是自然的树。相比之下，我们的结果适合人类的视觉感知系统。

定量评估方面，我们从两个方面对图像融合进行了评估。首先，我们使用平均梯度（AG），熵（EN）和标准差（STD）来评估融合图像的特性。其次，我们使用峰值信噪比（PSNR）来衡量融合图像与两个源图像之间的相似性。值得注意的是，如果源图像未对准，融合图像将受到不对准的影响，而定量结果可能显示出虚假的改进（例如平均梯度）。为避免这种情况的负面影响，我们选择了35对图像，经过NTG/粗配准模块处理后，没有明显的不对准。结果报告在表2中。我们在AG、EN和STD上的最佳结果表明，我们的结果包含最丰富的纹理细节、最多的信息量和最明显的对比度。此外，我们在PSNR上的最佳结果表明，提出的融合方法产生的失真最小，我们的融合图像与源图像最接近。

外部目标检测验证。为了评估图像融合及其改进性能的实际效益，我们进行了外部验证。我们使用YOLOv5作为检测器进行检测结果的比较。如图8所示，我们对未对准的图像对进行检测，以验证配准精度的效果，并对已对准的图像对进行检测，以验证融合性能的效果。在第一个例子中，融合结果中的不对准问题对汽车的检测产生了负面影响。当图像得到良好的配准时，来自两种模态的融合信息对提升检测结果起到积极作用，如我们的配准和融合图像的检测结果所示。在第二个例子中，图像是对准的。在这种情况下，其他融合方法相比VIS图像，降低了检测停止标志的准确性。相比之下，我们的方法通过融合NIR图像中的信息提高了检测准确性。

5.3. Ablation Study

粗配准模块中的关键因素。该模块的关键因素包括图像平移、AffineNet的网络架构以及度量配准准确性的度量标准。我们设计了三个比较实验来分别验证它们的有效性。配准准确性统一通过NCC损失进行评估。

多光谱成像在计算机视觉和计算摄影领域起着至关重要的作用。由于成像设备的移动或更替，光谱带图像可能出现错位，因此图像配准是必要的，以避免光谱信息的失真。目前针对多光谱数据的配准方法通常具有鲁棒性但复杂，并且需要大量的计算。常见的度量方法如平方差和绝对差之和在计算效率上是高效的，但在多光谱数据上的表现较差。为了应对这一挑战，我们提出了一种结构一致性增强（SCB）变换，旨在提升多光谱图像的结构相似性。借助SCB，常见的度量方法可以用于多光谱图像配准。SCB变换利用了固有边缘结构在不同波段图像之间的非线性变化中保持相对显著性的事实。基于梯度-强度相关性，探索了自然图像的统计先验，从而建立了SCB的参数化形式。实验结果验证了SCB变换优于当前的相似性增强算法，并且优于最先进的多光谱配准方法。由于统计先验的普适性，SCB变换还适用于各种多模态数据，如闪光/非闪光图像和医学图像。

我们改变AffineNet的输入，并根据输入定义损失。我们分别使用在SCB中定义的描述符，没有平移的 ${I_x，I_y}$ ，以及由我们的TransNet生成的 ${I_{x→y}，I_y}$ 。图9中损失的变化表明，图像级别的输入优于稀疏描述符。而同域输入进一步促进了收敛速度和性能。
将AffineNet中的可变形卷积层替换为传统卷积层，而传统卷积层导致梯度爆炸。
我们比较NCC/L1/L2损失作为度量的效果。L2损失会遇到梯度爆炸问题，图9显示NCC损失优于L1损失。

F2M的精细配准性能:为了验证F2M中的精细配准对消除局部不对准的有效性，我们通过将F2M与两个不同的竞争方法进行比较来进行两个实验。一种情况是源图像中仅存在局部视差。在这种情况下，现有的配准方法或我们的粗配准模块不会提前执行。相反，我们直接应用最先进的融合方法和F2M来处理不对准的图像。如图10(a)所示，我们的F2M成功消除了不对准，而在最先进的融合方法的结果中仍然可以区分出不对准。

从另一方面来看，我们基于粗配准结果验证了F2M的精细配准效果。由于粗配准模块没有融合功能，我们通过平均加权策略以成对显示粗配准的VIS和NIR图像，而不是融合图像。如图10(b)所示，F2M的精细配准功能有助于消除粗配准结果中的重叠阴影。

纹理保留策略:我们采用了梯度通道注意机制，引入了梯度损失，并将γ设定为相对较高的值以保留纹理细节。为了验证它们的有效性，我们移除了注意机制，移除了梯度损失（δ = 0），并将γ设置为0.5。比较结果如图11所示。具有纹理保留的结果显示比不使用这些策略的结果更多的纹理细节。

局限性:在多模态图像之间建立严格的对应关系通常是困难的。在某些情况下，场景可能显示明显的跨模态结构差异，例如田野和森林（例如图12的第一个例子）。图像平移主要调整亮度，但很少改变场景内容或结构（产生或消除边缘很少）。换句话说，图像平移很难减少跨模态的结构差异。此外，在其他一些情况下，场景可能缺乏显著的结构，例如水（例如图12的第二个例子）。这些因素给基于图像平移和NCC损失的粗配准模块带来了挑战。因此，在这些情况下，粗配准模块的配准准确性容易下降，如图12的最后一列所示。

6. Conclusion

本文提出了一种新的无监督多模态图像配准和融合方法，通过相互增强的两个单独任务来实现。配准采用粗到精的方法进行处理。粗配准模型化为仿射变换，并通过基于可变卷积网络和基于图像转换的图像级损失函数实现。精配准依赖于融合的反馈。精配准的结果进一步改善了融合结果。此外，我们还着重考虑了融合的反馈和图像融合本身的纹理保护。实验证实了所提出的方法和相互增强的框架的有效性。

你可能感兴趣的:(ImageFusion,计算机视觉,人工智能)

《DeepSeek-V3：动态温度调节算法，开启推理新境界！》人工智能深度学习
在人工智能领域不断探索的征程中，DeepSeek-V3以其卓越的创新技术，尤其是动态温度调节算法，成为了备受瞩目的焦点。这项算法犹如一把神奇的钥匙，巧妙地开启了推理速度与精度动态平衡的大门，为大语言模型的发展开辟了新的道路。温度，在大语言模型的世界里，是一个极为关键的参数，它掌控着模型输出的随机性。这一概念，脱胎于热力学，却在人工智能的领域中被赋予了全新的使命。当温度较低时，模型倾向于选择高概率词
C语言基础系列【20】内存管理程序喵大人 C语言基础系列 c语言开发语言 c++后端面试
博主介绍：程序喵大人35-资深C/C++/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C++20高级编程》《C++23高级编程》等多本书籍著译者更多原创精品文章，首发gzh，见文末记得订阅专栏，以防走丢C++基础系列专栏C语言基础系列C++大佬养成攻略在C++编程中，内存管理是一个至关重要的概念。要深入理解内存管理，我们肯定要
七成月活过亿 APP 已接入人工智能自不量力的A同学人工智能
2025年3月4日，第三方数据机构QuestMobile发布的《2024中国移动互联网年度大报告》显示，截至2024年12月，月活用户过亿的APP中，有超过七成已接入AI123。相关具体情况如下2：整体背景：2024年全网月活用户已达12.57亿，一线、新一线、二线城市用户接近五成，其中一线城市用户同比增长了1.2%。用户对互联网的使用程度加深，整体月人均使用时长达到171.7小时，短视频、即时通
Imagen原理与代码实例讲解 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Imagen原理与代码实例讲解1.背景介绍在人工智能领域中,图像生成一直是一个具有挑战性的任务。传统的计算机视觉模型通常专注于理解和分析现有图像,而生成全新的高质量图像则需要更高级的技术。随着深度学习技术的不断发展,生成式对抗网络(GenerativeAdversarialNetworks,GAN)等新型模型逐渐展现出了令人惊叹的图像生成能力。谷歌的Imagen就是一种基于大型视觉语言模型的全新图
大数据分析服务器硬件配置如何选择 elva428204358 服务器服务器
大数据，现如今已被人工智能替代。我们先不讨论人工智能，就大数据而言，我们都是在强调他的技术，而我们在用大数据时候，经常用它的来神话它的影响。例如，广告投放精准化，社会安全管理有序，医药行业智能化等。一、建立大数据分析服务器的五个基本方面1、可视化分析：大数据分析的使用者有大数据分析专家，同时还有普通用户，但是他们二者对于大数据分析最基本的要求就是可视化分析，因为可视化分析能够直观的呈现大数据特点，
提高客户体验：人类计算在营销中的应用 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
人类计算与营销：开启个性化时代的未来人类计算与营销：开启个性化时代的未来关键词：人工智能、个性化营销、客户体验、数据驱动、客户关系管理摘要：本文探讨了人类计算在营销中的应用，包括语音识别、人脸识别、自然语言处理等技术，以及如何通过这些技术实现个性化营销、客户关系管理和用户体验优化。文章分析了当前技术的发展趋势和面临的挑战，并提出了未来发展的方向。引言随着人工智能技术的飞速发展，人类计算在各个领域中
《DeepSeek+Langchain落地实操:RAG知识增强检索和智能体实战开发》 AI周红伟 langchain
大数据与人工智能实战专家—周红伟老师法国科学院数据算法博士/曾任阿里人工智能专家/曾任马上消费金融风控负责人课程背景LangChain是一项旨在赋能开发人员利用语言模型构建端到端应用程序的强大框架。它的设计理念在于简化和加速利用大型语言模型（LLM）和对话模型构建应用程序的过程。这个框架提供了一套全面的工具、组件和接口，旨在简化基于大型语言模型和对话模型的应用程序开发过程。LangChain本质上
PyTorch：Python深度学习框架使用详解零度° python python 深度学习 pytorch
PyTorch是一个开源的机器学习库，广泛用于计算机视觉和自然语言处理领域。它由Facebook的AI研究团队开发，因其动态计算图、易用性以及与Python的紧密集成而受到开发者的青睐。PyTorch的主要特点动态计算图：PyTorch的计算图在运行时构建，使得模型的修改和调试更加灵活。自动微分：自动计算梯度，简化了机器学习模型的训练过程。丰富的API：提供了丰富的神经网络层、函数和损失函数。跨平
大模型时代，什么是tokens？人工智能
大模型时代，什么是tokens？前言在当今大模型主导的人工智能浪潮中，我们见证了诸多令人惊叹的应用。从精准流畅的语言翻译，到能够根据简单提示创作出富有创意故事的文本生成工具，大模型展现出了强大的能力。然而，在这些复杂且神奇的模型背后，有一个基础而关键的概念——tokens，它犹如大模型世界的基石，支撑着整个模型的运行与发展。理解tokens，对于我们深入认识大模型如何处理信息、优化性能以及合理应用
AI时代的多模态输入与理解：挑战与局限性智享食事人工智能
随着人工智能技术的快速发展，以及AI的普及，AI系统逐渐在各个领域展现出强大的潜力，一种感觉AI已经无所不能，已经很快就要取代我们人类，甚至代替我们工作。然而，现实情况并没有这么乐观，现实中AI要实现与人类相似的感知和理解，仍然面临着许多技术和应用上的难题。本文将从几个方面探讨当前AI在多模态输入与理解中的局限性，特别是在教育、心理咨询、医疗诊断等领域的应用挑战。一、多模态输入的现状与不完善所谓多
Python3 与 VSCode：深度对比分析 lly202406 开发语言
Python3与VSCode：深度对比分析引言Python3和VisualStudioCode（VSCode）在软件开发领域扮演着举足轻重的角色。Python3作为一门强大的编程语言，拥有丰富的库和框架，广泛应用于数据科学、人工智能、网络开发等多个领域。而VSCode作为一款轻量级且功能强大的代码编辑器，以其出色的性能和丰富的插件支持，受到了广大开发者的喜爱。本文将对Python3和VSCode进
【开源项目】2024最新PHP在线客服系统源码/带预知消息/带搭建教程于飞SEO 免费资源分享开源 php 开发语言
简介随着人工智能技术的飞速发展，AI驱动的在线客服系统已经成为企业提升客户服务质量和效率的重要工具。本文将探讨AI在线客服系统的理论基础，并展示如何使用PHP语言实现一个简单的AI客服系统。源码仓库地址：ym.fzapp.top在线客服系统的理论基础AI在线客服系统通过自然语言处理（NLP）、机器学习（ML）和深度学习（DL）技术，能够理解和响应客户的查询。这些系统通常包括以下几个关键组件：自然语
文生图图生视频文生视频人工智能AI工具节选行思理 AI 人工智能文生图文生视频图生视频数字人
1、MidjourneyAI图像和插画生成工具，官网地址：Midjourney中文站,MJ中文站-专业AI绘图网站2、StableDiffusion一种基于扩散技术的深度学习文本转图像模型，演示地址：StabilityAI3、通义万相阿里云通义大模型旗下的AI创意作画与视频生成平台，官网地址：通义万相_AI创意作画_AI绘画_人工智能-阿里云4、PhotoStudioAI模特AI商品图及视频一键生
ChatGPT-4o引领医学革命：临床科研创新与效率的新纪元小艳加油教程语言类人工智能数据分析 ChatGPT-4o 临床医学
2024年5月12日，更强版本的ChatGPT-4o上线，文本、语音、图像等多模态交互方式使其在各行各业的应用呈现了更多的可能性。因此，帮助广大临床医学相关的医院管理人员、医生、学生、科研人员更加熟练地掌握ChatGPT-4o在临床医学日常生活、工作与学习、课题申报、论文选题、实验方案设计、实验数据统计分析与可视化等方面的强大功能，同时更加系统地学习人工智能（包括传统机器学习、深度学习等）的基础理
Manus：通用型Agent的技术革新与多元应用场景蚂蚁质量其他 python 深度学习
一、Manus前沿洞察Manus，作为Monica团队匠心打造的全球首款通用型Agent产品，名称源于拉丁文“mensetmanus”，意即“手”，深刻寓意着知识与行动的深度融合。其核心理念独树一帜，旨在为大语言模型（LLM）赋予“手”的能力，使其借助工具调用与任务执行，将抽象知识转化为切实可行的实际操作，开启人工智能应用的崭新时代。二、精巧技术架构Manus的技术架构兼具高度灵活性与卓越扩展性，
AIGC从入门到实战：ChatGPT+Midjourney，绘出中国古风意境之美杭州大厂Java程序媛 DeepSeek R1 &AI人工智能与大数据 java python javascript kotlin golang 架构人工智能
AIGC从入门到实战：ChatGPT+Midjourney，绘出中国古风意境之美关键词：AI生成内容(AIGC),ChatGPT,Midjourney,中国古风,创意设计,艺术表达1.背景介绍1.1问题由来人工智能生成内容（ArtificialIntelligenceGeneratedContent,AIGC）作为AI技术的重要分支，近年来在视觉、音乐、文本等多个领域取得了显著进展，引领了内容创作
人工智能引领技术革命：ChatGPT与深度学习的突破性进展撒旦骑路西法，大战吕布国内外安全资讯人工智能
在全球科技快速发展的今天，人工智能（AI）正以前所未有的速度渗透到各个行业，成为推动社会变革的重要力量。特别是在自然语言处理（NLP）领域，OpenAI的ChatGPT凭借深度学习技术的持续突破，展现了AI在理解、推理、对话生成等方面的惊人进步。本文将深入探讨ChatGPT及深度学习的最新突破，以及它对不同行业的深远影响。1.ChatGPT：AI语言模型的革新者1.1什么是ChatGPT？Chat
《即梦牵手DeepSeek，AI创作领域的变革与未来》空云风语人工智能人工智能
《即梦牵手DeepSeek，AI创作领域的变革与未来》开篇：科技融合，梦想启航在当今科技飞速发展的时代，人工智能（AI）无疑是最为耀眼的领域之一。新的技术和创新不断涌现，推动着AI行业的边界持续拓展。近期，AI领域又迎来了一个令人瞩目的大事件：即梦正式接入DeepSeek，这一强强联合的举措，犹如一颗投入湖面的巨石，激起千层浪，在整个AI行业引发了广泛关注和热烈讨论。即梦，作为字节跳动旗下极具创新
大模型与Java的深度融合：现状、实践、挑战与未来软件职业规划 java 开发语言
一、引言：大模型与Java的交汇近年来，大模型技术在人工智能领域迅速崛起，成为推动智能应用发展的核心力量。与此同时，Java作为一种历史悠久且广泛应用于企业级开发的编程语言，凭借其强大的生态系统、跨平台特性和稳定性，一直是软件开发领域的中流砥柱。随着大模型技术的普及，Java与大模型的结合成为了一个备受关注的热点话题。这种结合不仅为Java开发者带来了新的机遇，也为大模型的落地应用提供了更广阔的场
电机的声音数据进行AI分析鹿屿二向箔人工智能
对电机的声音数据进行分析，尤其是当数据来源于加速度传感器时，涉及到的不仅仅是声音分析，还包含了振动分析。这类问题通常可以归类于机械故障诊断或预测性维护领域。以下是一些适合处理这种类型数据的人工智能模型和方法：1.特征工程+传统机器学习模型在直接应用深度学习之前，通常首先会进行特征提取。对于振动信号（即使通过加速度传感器采集），常用的方法包括计算频域特征（如傅里叶变换后的频谱）、时域特征（如均方根值
大规模语言模型构建流程人工智能技术笔记语言模型人工智能自然语言处理
大规模语言模型1.大语言模型大规模语言模型（LargeLanguageModels，LLM），也称大语言模型，是一种由包含数百亿以上参数的深度神经网络构建的语言模型，通常使用自监督学习方法通过大量无标注文本进行训练。2.预训练语言模型受到计算机视觉领域采用ImageNet对模型进行一次预训练，使得模型可以通过海量图像充分学习如何提取特征，然后再根据任务目标进行模型精调的预训练范式影响，自然语言处理
Python简介 Gao_xu_sheng python 开发语言
Python前言Python一直是一门优秀的编程语言，不仅简洁、易用，而且功能强大，它能做到的事情太多了，既可用于开发桌面应用，也可用于做网络编程，网络爬虫，还有很重要的领域就是AI大模型开发。近年来，随着人工智能（AI）和机器学习（ML）领域的迅猛发展，Python在这些前沿技术中扮演了至关重要的角色，特别是在构建和训练大规模机器学习方面。Python拥有丰富的库和框架，这些工具极大地促进了AI
深度解析DeepSeek：从技术架构到实战应用 YY...yy ai DeepSeek
一、引言：为什么选择DeepSeek？在2025年人工智能领域竞争白热化的今天，DeepSeek以其超低训练成本（仅为GPT-4o的1/20）和业界领先的推理能力，成为全球开发者关注的焦点。据权威数据显示，DeepSeek-V3在多语言编程和数学推理任务中的表现已超越Llama-3.1等主流模型4，而其最新发布的DeepSeek-R1更是在苹果应用商店美区免费榜冲至第六名6。二、技术架构解析2.1
vscode 都有哪些大模型编程插件魔王阿卡纳兹 IT杂谈开源项目观察 vscode ide 编辑器
VSCode中有许多基于大模型的编程插件，这些插件通过集成人工智能技术，显著提升了开发者的编程效率和体验。以下是一些主要的大模型编程插件及其功能：GitHubCopilotGitHubCopilot是由OpenAI开发的插件，能够根据代码上下文自动生成代码建议，支持多种编程语言。它与VSCode的集成使得开发者可以在熟悉的开发环境中直接利用AI功能，提高代码生成和调试的效率。DevChatDevC
DeepSeek大模型技术解析：从架构到应用的全面探索小涂Ss 架构人工智能语言模型 AI大模型 DeepSeek agi ai
一、引言在人工智能领域，大模型的发展日新月异，其中DeepSeek大模型凭借其卓越的性能和广泛的应用场景，迅速成为业界的焦点。本文旨在深入剖析DeepSeek大模型的技术细节，从架构到应用进行全面探索，以期为读者提供一个全面而深入的理解。官网：https://www.deepseek.com/1、DeepSeek大模型简介DeepSeek大模型是由北京深度求索人工智能基础技术研究有限公司开发的一款
Manus全球首个通用Agent，Manus AI：Agent应用的ChatGPT时刻 ππ记录人工智能 chatgpt Manus详细介绍 Manus介绍 Manus详细应用 Manus教程 Manus详情介绍
文章目录前言ManusAI:全球首个通用AgentManusAI:技术架构与创始人经历AIAgent的实现框架与启示AIAgent的发展预测行业风险提示前言这是一篇关于ManusAI及其在通用人工智能领域的应用和前景的报告，主要介绍了ManusAI的产品定位、功能、技术架构、创始人经历以及AIAgent的发展预测和实现框架。以下是对这些核心内容的简要概述：Manus全网最全资料（持续更新）链接：h
新一代 AI 软件Manus 将重新将AI市场大洗牌 CircuitWizard 人工智能
Manus是一家专注于手部追踪、虚拟现实（VR）和增强现实（AR）技术的公司，其新一代AI软件结合了先进的机器学习和计算机视觉技术，致力于提升人机交互的自然性和效率。以下是关于Manus新一代AI软件的详细介绍及其核心功能：1.核心技术与创新Manus的AI软件基于以下技术突破：高精度手部追踪：通过深度学习算法和摄像头/传感器数据，实时捕捉手部骨骼、关节和肌肉的细微动作，精度可达亚毫米级，支持复杂
眼见不一定为实，孙悟空教你AI换脸换声的技术原理及如何用火眼金睛识别新型诈骗非知名人士人工智能
话说俺老孙自从大闹天宫归来，闲来无事，忽闻人间兴起一门奇术——所谓“换脸换声”。听说那乃现代科学家利用人工智能之奥秘，将人脸、声音通通变换得跟戏法似的，让人真假难辨。俺老孙心生好奇，便跃上筋斗云，直奔这科技之都，打算探个究竟。今就由俺老孙来给你们摆一摆，这换脸换声究竟是咋回事，就像俺大闹天宫时施展变化，变化无穷，妙趣横生！话说那日俺老孙正在花果山上闲逛，忽然听见猪八戒捧着一部闪闪发光的“小机灵”—
在 PiscTrace 上使用 YOLO 进行预测与 MiDaS 景深补偿：体验纯视觉自动驾驶的数据分析那雨倾城 PiscTrace 人工智能计算机视觉图像处理自动驾驶 YOLO 视觉检测
随着自动驾驶技术的不断发展，视觉感知系统逐渐成为车辆感知的核心组件。PiscTrace作为一款支持高效视图处理的桌面应用，集成了先进的计算机视觉工具，如YOLO目标检测模型和MiDaS景深估计模型，能够为纯视觉自动驾驶的实现提供强大的支持。通过这两个模型的结合，PiscTrace可以提供高精度的目标识别与环境感知功能，帮助用户进行实时的驾驶数据分析，为决策系统提供宝贵的数据支持。本文将详细介绍如何
专业英语程序员爱德华英语专业英语
文章目录一、计算机1.计算机基础(1)计算机组成原理(2)计算机网络(3)数据库(4)编译原理(5)离散数学2.软件开发(1)编程词汇(2)开发术语(3)Linux(4)软件3.就业领域(1)职场(2)芯片(3)自动驾驶(4)嵌入式硬件4.深度学习(1)论文(2)深度学习DL(3)计算机视觉CV(4)自然语言处理NLP(5)推荐系统(6)计算机图形学二、数学三、机械、材料四、医药五、英美计量单位一
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D