PaperWeekly

视角不平衡立体匹配研究

©PaperWeekly 原创 · 作者｜张承灏

学校｜中科院自动化所硕士生

研究方向｜场景感知和深度估计

一个典型的立体视觉系统通常包括一台具有左右两个摄像头的摄像机，两个摄像头在同一水平线上、同一时刻成像，得到左右两个视角的 RGB 图像。利用立体匹配（stereo matching）算法可从来自左右视角的两幅 RGB 图像中得到用于三维场景重建的深度信息。

无论是传统算法还是基于深度学习的算法，大多数研究是基于平衡视角的立体匹配，即左右视角图像是由具有相同相机内参的摄像头，同时成像的 RGB 图像。

近来，不少研究开始关注不平衡视角的立体匹配。根据左右视角图像的不同，已有的研究工作可以分为以下几类：

经典的立体匹配：左右图是相同相机，同时成像的 RGB 彩色图像；
跨谱立体匹配：左图是可见光 RGB 彩图，右图是红外图像；
视觉不平衡立体匹配：左图是高质量的 RGB 图像，右图是低质量的 RGB 图像；
长短焦立体匹配：左图是短焦距、宽视角 RGB 图像，右图是长焦距、窄视角 RGB 图像；

本文主要介绍后面三类的代表性研究工作。

跨谱立体匹配

论文标题：Unsupervised Cross-spectral Stereo Matching by Learning to Synthesize

论文来源：AAAI 2019

论文链接：https://arxiv.org/abs/1903.01078

1.1 概述

多摄像头多光谱系统在很多现代设备中变得十分普遍，并且红外图像对于人脸识别，目标检测和场景解析等领域具有很大的帮助。因此，跨谱立体匹配具有很大的研究价值。

如上图所示，跨谱立体匹配指的是左图是可见光图像（a），右图是近似红外图像（b）。跨谱立体匹配的挑战在于两方面：一是可见光图像和红外图像在视觉外观上具有很大的差异，例如（c）中显示的衣服，灯光和草坪。二是跨谱图像的真实视差往往难以获取。本文采用 cycleGAN 以无监督学习的方式来实现不平衡视角的跨谱立体匹配。

1.2 方法

上图是跨谱立体匹配的总体框架图。网络分为两个部分，一是谱变换网络 STN，从 cycleGAN 改进得到，用来将可见光左图和红外右图变换到可见光右图和红外左图。二是立体匹配网络 SMN，从 DispNet [1] 改进得到，利用变换得到的可见光右图和红外左图估计左右图视差。下面重点介绍这两个网络，核心是损失函数的设计。

谱变换网络STN

给定来自谱 A（可见光）的图像 , 和谱 B（红外）的图像 , 首先定义三种映射：

其中 F 将编码到一个统一的特征空间，和分别是将特征解码到相应谱得到图像的生成器。，和由对抗损失和循环重构损失监督。其中对抗损失由两个判别器和给定，判别器用来鉴别生成图像的真伪。

对于判别器的训练：对采用分类损失，以判断生成的谱 A 的图像是真是假，对于同理，因此训练判别器的损失为：

对于生成器的训练：采用对抗损失和循环重建损失。对抗损失用来迷惑判别器，通过最大化判别器的分类误差，生成器的对抗损失为：

生成器的循环重建损失为：

其中是，而是。即衡量的是谱 A 图经过 STN 变换到谱 B 后，再经过 STN 变换回谱 A 后的重建误差。

为了保证将图像映射到相同的隐含语义特征空间，并防止 STN 学习视差，作者引入一个辅助的重构损失：

其中是，是。那么，最终对于生成器和判别器的损失可以总结为：

跨谱立体匹配网络SMN

跨谱立体匹配网络 SMN 采用经典的 DispNet，同时估计以左右图为参考图像的视差和，其采用 [2] 中介绍的三种无监督损失函数，即外观匹配损失（appearance matching，ap），视差平滑损失（disparity smoothness，ds）和左右一致性损失（left-right consistency，lr）。

关于这三种函数的详细介绍以及更多无监督损失函数，可以参考之前的文章双目深度估计中的自监督学习概览。

为了进一步提升性能，作者还引入了一个辅助损失来训练 STN：

其中，，是 warping 操作。该损失函数衡量的是原图经过 STN 变换后得到的图像，与 SMN 得到的视差经过变形重构后的图像的误差。

迭代优化

为了训练整个网络，作者采用的是分步迭代优化的策略，具体的步骤如上图所示。第 (1) 步，通过判别器损失来训练判别器 D，从而使得判别器能够鉴别真假图像。第 (2) 步，通过生成器损失训练 F 和 G 网络。

第 (3) 步，通过训练立体匹配网络。第 (4) 步，通过对 F 和 G 网络进行全局优化。先只使用第 (1) 和第 (2) 步对整个网络进行几个 epoch 的预热训练，之后将四个步骤一起用于进一步的训练。

1.3 实验

作者采用的数据集是 2018 年提出的 PittsStereo-RGBNIR 数据集，它的图像对是由一个可见光相机和一个近似红外相机对采集的。评测指标采用的是均方误差 RMSE。上图是和其他方法的对比以及作者的消融实验。

可以看到完整的方法在 lights, glass, glossy，surface 和 bag 类别上取得了最好的性能，但是在其他类别上稍逊一筹。作者也坦言通过 STN 依然很难在 clothing 这个类别上进行可见光和红外图像之间变换，也许之后的研究可以专门针对这个问题来设计更好的方法。

1.4 延伸

类似采用 GAN 来实现两个领域数据变换的方法还有今年 CVPR 提出的 StereoGAN，它采用 cycleGAN 来解决域自适应立体匹配，大家有兴趣可以对照着阅读。

论文标题：StereoGAN: Bridging Synthetic-to-Real Domain Gap by Joint Optimization of Domain Translation and Stereo Matching

论文来源：CVPR 2020

论文链接：https://arxiv.org/abs/2005.01927

视觉不平衡立体匹配

论文标题：Visually Imbalanced Stereo Matching

论文来源：CVPR 2020

论文链接：http://openaccess.thecvf.com/content_CVPR_2020/papers/Liu_Visually_Imbalanced_Stereo_Matching_CVPR_2020_paper.pdf

开源代码：https://github.com/DandilionLau/Visually-Imbalanced-Stereo

2.1 背景

现代智能手机中普遍采用双摄相机（dual-lens），双摄的组合可以是彩色+彩色，彩色+黑白等。本文考虑的组合是视觉质量不平衡的双摄，即高分辨率的主相机（master camera）和低分辨率的从相机（slave camera）的立体匹配。

其实无论是人眼视觉系统或者计算机视觉系统，在进行立体匹配时对低分辨率的图像都具有一定的鲁棒性。即使右图比较模糊，立体匹配算法也能较好的估计视差。毕竟很多算法采用多尺度匹配策略，图像通常先降到较低的分辨率提取特征，再逐渐由粗到精恢复原分辨率的视差图。

那么现在的一个问题是当右图模糊到什么程度时，立体匹配算法会失效？作者首先进行了一个实验，将右图先下采样多倍再上采样恢复，以模糊图像。下图是对经典的传统方法和深度学习方法进行评测的结果。

由上图可以看出随着模糊程度的加深，传统算法和深度学习算法的错误率都逐渐增大。以单目左图作为输入构建各个模型的 baseline，这里红色标注的是性能低于 baseline 的拐点。这说明对于多数方法：

当模糊 5 倍以下时，右图仍然能够为双目视差估计提供有用的信息，从而高于单目 baseline 的性能。
当模糊大于 8 倍时，立体匹配算法失效，过于模糊的图像对于双目视差估计弊大于利，不如直接输入高分辨率的左图。

下面的曲线图便于更直接的观察，以得出上述结论。

2.2 方法

为了解决左右视角在视觉质量上的不平衡问题，作者提出两步走的方法。

引导视角合成：利用高分辨率的左图作为引导，先恢复低分辨率的右图。该做法的依据是，尽管低分辨率的右图十分模糊，但是目标粗略的边缘轮廓信息仍然可以识别，通过左右图在边缘轮廓信息上的匹配，将左图的纹理移位到匹配的右图区域，就能恢复清晰的右图。
视差重构：利用原始左图和恢复后的右图进行立体匹配。

动态移位滤波层

上图展示了引导视角合成的原理。我们可以通过引导视角合成网络来学习左右图在边缘轮廓上的匹配情况，从而生成一个水平方向的滤波器和一个竖直方向的滤波器，大小分别是和，用来表示右图相对于左图的偏移。

为了减少内存占用量，这里采用两个一维滤波器的组合而不是学习一个二维滤波器。之后利用高质量的左图作为参考，利用和的移位信息，即可将左图的纹理在二维空间上移位，得到高质量的右图。

上述过程可用公式表示为：

其中和分别是网络预测得到的一维线性偏移滤波器，它们俩的内积可以近似表示二维线性偏移滤波器，是左图的图像块。以此操作可以得到恢复的高质量右图。

深度引导滤波层

为了进一步的优化边缘信息，可以采用左图中的目标形状知识来对和进行引导滤波。原始的引导滤波算法（Guided Image Filtering）是何恺明在 2013 年的 PAMI 上提出的。这是一个在引导图像和滤波输出之间的局部线性模型：

其中是以像素为中心的局部窗口，线性系数是窗口内的常数。这个局部线性模型确保输出有边缘当且仅当有边缘。并且，滤波输出应当与输入相似，通过最小化下述公式：

这里是一个正则化参数。在本文中，作者以左图作为引导 , 以滤波体的第 d 个切片作为输出，那么线性变换可以写作：

作者采用引导滤波的加速的，完全可导的版本——深度引导滤波，作为和的位移学习的最后一层网络。

视觉不平衡立体匹配网络

上图是整个视觉不平衡立体匹配网络的框架图，主要包含上半部的引导视角合成网络和下半部的视差重构网络。

具体地，高质量的左图和低质量的右图作为引导视角合成网络的输入，其结构类似于 U-Net 的编码-解码结构。在输出部分采用深度引导滤波层分别学习两个一维偏移滤波器，它们通过动态移位滤波层相组合，从而近似估计二维偏移滤波器。

根据左图与移位滤波器的点乘组合重构高质量的右图。由于偏移滤波器的真值很难获得，因此这里并没有对中间产生的偏移滤波器进行显示地监督。引导视角合成网络的损失函数包括图像层面的光度损失和特征层面的感知损失。二者的表达式分别为：

图像光度损失：

特征感知损失：

这里表示 VGG-19 的第 j 个卷积层特征图，而分别是特征图的数量，高度和宽度。

视差重构网络采用带有相关层的 DispNet [1] 结构，以高质量的左图和恢复的右图作为输入进行视差估计，最后采用多尺度的 L1 范式进行有监督回归学习。

2.3 实验

作者以 KITTI Raw Data 作为训练，在 KITTI 2015 上评测，以光度评测指标 PSNR 和 SSIM 来评估引导视角合成网络，以 D1 指标评估视差估计网络，主要实验了三种不平衡因素下的性能：

单目模糊（Monocular Blur）：10 倍，15 倍和 20 倍；
整流误差（Rectification Error）：最大程度为 0.5 和 1.0；
设备噪声（Sensor Noise）：高斯模糊方差为 0.5 和 1.0；

上图展示了这三种不平衡因素的视差估计结果，(a) 中从上至下是 10X 模糊，15X 模糊，噪声，噪声，10X 模糊 +0.5 整流误差，10X 模糊 +1.0 整流误差。(b)、(c)、(d) 分别是 PSMNet，CRL 以及 DORN 等 SOTA 方法，(e) 本文的方法。

可见，所提出的引导视角生成方法对于各种不平衡因素都具有鲁棒性，能够获得较为准确的视差图。更多定量和定性的实验结果可参考原论文。

长短焦立体匹配

论文标题：TW-SMNet: Deep Multitask Learning of Tele-Wide Stereo Matching

论文链接：https://arxiv.org/abs/1906.04463

3.1 概述

双目视觉系统为了更好地对环境感知，会采用焦距不同的两个相机相互辅助。这里根据视野（field of views，FOV）大小不同可以得到对前后景的不同感知。

例如，左图是宽视野（wide FOV，WFOV），成像焦距更小，但是能够看到更广阔的远景；右图是窄视野（Tele FOV，TFOV），成像焦距更大，但是能够聚焦于感兴趣的近景。

如上图所示，本文通过多任务学习的方式来解决长短焦距视角下的立体匹配任务，定义左图为 1 倍焦距的 WFOV 图像，右图为 2 倍焦距的 TFOV 图像，右图的内容为左图的中心内容，该任务命名为 Tele-Wide Stereo Matching，TW-SM。

采用长短焦立体匹配是为了获得更好的背景虚化效果（Bokeh）。以往的方法将左图 WFOV 裁剪成和右图 TFOV 一样小的视角，那么只能估计 TFOV 区域大小的视差图，得到的背景虚化图区域有限。而如果能得到 WFOV 区域大小的视差图，则可以获得全景背景虚化效果，如上图（b）。

3.2 方法

作者对 TW-SM 任务定义了多种子任务和网络结构，下面分别介绍：

TW-SMNet

该任务的输入是左图 WFOV 和右图 TFOV，根据得到视差结果的不同又可以分为两种，TW-SMNet (T) 和 TW-SMNet (W)。

TW-SMNet (T) 表示仅在左图 WFOV 和右图 TFOV 的重叠区域进行双目视差估计，得到的视差图应当与 TFOV 区域大小相同。TW-SMNet (T) 的网络结构仿照 PSMNet。

输入时先将左图 WFOV 按照右图进行裁剪，再上采样到和右图一致的分辨率。TW-SMNet (T) 可以得到 TFOV 区域内较为准确的视差图，但是对于 TFOV 区域周围的区域却无法进行视差估计。

TW-SMNet (W) 表示在左图 WFOV 和右图 TFOV 的并集区域进行双目视差估计，得到的视差图应当与 WFOV 区域大小相同。TW-SMNet (W) 和 TW-SMNet (T) 结构相同。

输入时先将右图 TFOV 下采样再在其周围进行零填充，和左图一致的分辨率。TW-SMNet (W) 在 TFOV 区域内可以得到较为准确的视差图，但是在其周围估计的不准确，因为缺少右图相应位置的图像信息。

SHG-SIDE

为了提升 TFOV 周围区域的视差估计性能，作者又设计了一个以 stacked hourglass 为主体结构的单张图像逆深度估计网络 SHG-SIDE，其输入是左图 WFOV，输出是逆深度。在立体视觉中，如果已知双目相机的基线距离和相机焦距，那么深度的逆（倒数）就和视差成正比，即：

因此对深度的逆的估计其实就是对视差的估计。

由于输入改为单张图像，SHG-SIDE 在 TW-SMNet 结构的基础上去掉了双输入和 cost volume，之后的 3D 聚合网络也由此降维成 2D 卷积网络，其余结构不变。

SHG-SIDE 相比于 TW-SMNet 在 TFOV 周围区域能估计更准确的视差，但是由于缺少另一个视角的 TFOV，在 TFOV 区域估计的视差不如原来的 TW-SMNet。

MT-TW-SMNet

上面介绍的 TW-SMNet 和 SHG-SIDE 各具优势，TW-SMNet 对于 TFOV 区域估计的更准确，而 SHG-SIDE 对于 TFOV 周围区域估计的更准确。为了充分利用二者的优势，作者采用将 TW-SMNet 和 SHG-SIDE 相结合的多任务学习模式来解决 TW-SM 任务，其整体网络结构 MT-TW-SMNet 如下：

左图 WFOV 和右图 TFOV 作为输入，原有的 TW-SMNet 和 SHG-SIDE 共享特征提取模块 ResNet-50+SPP，之后同时进行单目逆深度估计任务和双目视差估计任务，对于得到的结果进行融合，从而能够得到在整个 WFOV 区域都估计较为准确的视差图。其总体损失函数为，其中：

在测试时，为了提升效率，可以直接采用双目视差估计 SMDE 网络的结果，因为多任务学习过程中 SIDE 已经贡献了 TFOV 周围像素的特征，这使得 SMDE 能够对全局语义信息有更好的理解。因此测试时即使不加上 SIDE，也能够较好的估计 TFOV 周围的区域。

3.3 实验

作者在 SceneFlow 和 KITTI 2015 数据集上进行了实验，这里重点分析上面介绍的几种模型的性能。

上表是在 KITTI 2015 上的实验结果，SHG-SIDENet 的整体错误率最低，但是在中心区域（TFOV）性能较差。TW-SMNet 在中心区域的性能很好，TW-SMNet (T) 不能估计周围像素的视差，TW-SMNet (W) 在周围像素估计上不如 SHG-SIDENet。MT-TW-SMNet 相比于 TW-SMNet (W) 提升了周围像素和总体像素的准确率，但是中心区域要差一些。

相似的结论能够在上表的 SceneFlow 测试集上得到，其中 MT-TW-SMNet 相比于 TW-SMNet(W) 和 SHG-SIDENet 在中心区域和周围区域都有所提升，取得了最佳的效果。

最后在 KITTI 2015 Benchmark 测试集上，MT-TW Fusion 的完整方法在前后背景上都取得了最佳的性能，这说明融合单目逆深度估计和双目视差估计对于 TW-SM 任务是行之有效的。

3.4 长短焦融合

论文最后还介绍了一系列将各个模型得到的结果进行融合的方法，以及相应的实验，这些操作通过组合能够进一步提升模型的性能，但是其核心结构是 MT-TW-SMNet。下图展示了几种融合方法的示意图：

对于输入特征的融合：以左图 WFOV 和 TW-SMNet 的输出视差图作为输入，利用 RGB 左图作为引导得到更准确的全局 FOV 逆深度图。

对于输出特征融合：以估计的全局 FOV 逆深度图和 TW-SMNet 估计的视差图作为输入，输出最终融合的全局 FOV 视差图。

这种输入和输出融合的方式可以看做是一种模型 embedding 的效果，通过融合多个模型的结果来达到更好的性能。

小结

上面介绍了三种视角不平衡的研究工作，虽然各不相同，但是其出发点都是希望将左右视角的图像变成平衡的。跨谱立体匹配希望将不同谱的图像变换到同一个谱域进行立体匹配，视觉不平衡立体匹配希望将低质量的右图恢复到高质量再进行立体匹配，而长短焦立体匹配是希望借助宽视角和窄视角各自的优点互相弥补来进行立体匹配。新出现的场景和任务还原回经典的场景去解决是它们共同的思路。

由此可能引申出更多不平衡视角的新场景，例如彩色-黑白视角的不平衡立体匹配，这些问题有待进一步挖掘和解决。

参考文献

[1] N. Mayer, E. Ilg, P. Hausser, P. Fischer, D. Cremers, A. Dosovitskiy, and T. Brox. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation. In CVPR, 2016.

[2] Godard, C.; Mac Aodha, O.; and Brostow, G. J. Unsupervised monocular depth estimation with left-right consistency. In CVPR, 2017.

[3] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In CVPR, 2018.

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

???? 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

???? 投稿邮箱：

• 投稿邮箱：[email protected]

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

你可能感兴趣的:(计算机视觉,机器学习,人工智能,深度学习,神经网络)

神经网络初始化 (init) 介绍迷路爸爸180 神经网络人工智能深度学习初始化 init
文章目录引言1.初始化的重要性1.1打破对称性1.2控制方差1.3加速收敛与提高泛化能力2.常见的初始化方法及其应用场景2.1Xavier/Glorot初始化2.2He初始化2.3正交初始化2.4其他初始化方法3.如何设置初始化4.基于BERT的文本分类如何进行初始化4.1项目背景4.2模型构建4.3模型训练与评估4.4结果分析结论参考资料引言在深度学习的世界中，构建一个高效且性能优异的神经网络模
5分钟搞定Spring AI支持SpringBoot快速构建人工智能AI应用_springai_springboot_AI应用 web17886480312 spring 人工智能 spring boot
通过阅读这篇文章，你将了解SpringAI，它是一个借鉴了langchain的设计理念，并结合Java的优势，为开发者提供易于替换实现的统一接口。此外，文章还基于SpringAI的模型调用和Prompt模板，构建一个可操作的示例，让你可以快速的了解具体怎么在springboot的环境下使用springai来构建人工智能AI的应用SpringAI：简化Java大模型集成的统一框架在Java调用大模型
3.ChatClient&Chat Model简化与AI模型的交互 laopeng301 Spring AI 人工智能交互
1.ChatModel对话模型是一种利用人工智能技术，能够生成类似人类对话响应的工具。通过向预训练语言模型（如GPT等）发送提示词或部分对话内容，模型依据自身训练数据及对自然语言模式的理解，生成对话的延续或完整回复，并返回给应用程序。应用程序可以将其呈现给用户或用于进一步处理。SpringAIChatModelAPI设计目标为简单且可移植的接口，用于与各种人工智能模型进行交互，使开发人员能够在不同
《智守数据堡垒——AI驱动的MySQL数据治理合规框架》墨夶数据库学习资料2 人工智能 mysql 数据库
在当今数字化转型加速的时代，企业面临着前所未有的数据挑战。一方面，海量的数据为企业带来了巨大的商业价值；另一方面，如何确保这些数据的安全性、一致性和合法性成为了亟待解决的问题。尤其是在金融、医疗等高度监管行业中，任何数据泄露或不当使用都可能导致严重的法律后果和社会影响。为此，构建一个既高效又能满足法律法规要求的数据治理体系显得尤为重要。今天，我们将探讨一种创新性的解决方案——利用人工智能（AI）技
机器学习02-发展历史补充坐吃山猪机器学习机器学习人工智能
机器学习02-发展历史补充文章目录机器学习02-发展历史补充1-机器学习个人理解1-初始阶段：统计学习和模式识别（20世纪50年代至80年代）2-第二阶段【集成时代】+【核方法】（20世纪90年代至2000年代初期）3-第三阶段【特征工程】+【模型优化】（2000年代中期至2010年代初期）4-大规模数据和分布式计算（2010年代中后期）5-自动化机器学习和特征选择（2010年代末至今）2-神经网
Python数据分析高频面试题及答案闲人编程程序员面试 python 数据分析面试题核心
目录1.基础知识2.数据处理3.数据可视化4.机器学习模型5.进阶问题6.数据清洗与预处理7.数据转换与操作8.时间序列分析9.高级数据分析技术10.数据降维与特征选择11.模型评估与优化12.数据操作与转换13.数据筛选与分析14.数据可视化与报告15.数据统计与分析16.高级数据处理以下是一些Python数据分析的高频核心面试题及其答案，涵盖了基础知识、数据1.基础知识问1：Python中列表
Pytorch 三小时极限入门教程 power-辰南人工智能深度学习 pytorch 人工智能
一、引言在当今的人工智能领域，深度学习占据了举足轻重的地位。而Pytorch作为一款广受欢迎的深度学习框架，以其简洁、灵活的特性，吸引了大量开发者投身其中。无论是科研人员探索前沿的神经网络架构，还是工程师将深度学习技术落地到实际项目，Pytorch都提供了强大的支持。本教程将带你从零基础开始，一步步深入了解Pytorch的核心知识，助你顺利踏上深度学习的征程。二、Pytorch基础环境搭建安装An
PCL 点云高程渲染：实现点云高程信息的颜色渲染技术征服冒险 PCL
PCL点云高程渲染：实现点云高程信息的颜色渲染点云渲染在计算机视觉和图形学中具有重要的应用价值。在处理点云数据时，一种常见的需求是通过将高程信息映射到颜色空间，以实现对点云的可视化。本文将介绍如何使用PCL（PointCloudLibrary）库实现点云的高程渲染，并提供相应的源代码。引言在开始之前，我们首先需要了解点云的基本概念。点云是由大量的三维点组成的数据集合，每个点都具有X、Y和Z坐标。点
Python机器学习之XGBoost从入门到实战(基本理论说明) 雪域枫蓝 Python Atificial Intelligence 机器学习 python 分布式
Xgboost从基础到实战XGBoost:eXtremeGradientBoosting*应用机器学习领域的一个强有力的工具*GradientBootingMachines(GBM)的优化表现，快速有效—深盟分布式机器学习开源平台(DistributedmachinelearningCommunity，DMLC)的分支—DMLC也开源流行的深度学习库mxnet*GBM：Machine：机器学习模型
【数据分析岗】关于数据分析岗面试python的金典问题+解答，包含数据读取、数据清洗、数据分析、机器学习等内容摇光~ 数据分析面试 python
大家好，我是摇光~，用大白话讲解所有你难懂的知识点最近和几个大佬交流了，说了很多关于现在职场面试等问题，然后也找他们问了问他们基本面试的话都会提什么问题。所以我收集了很多关于python的面试题，希望对大家面试有用。类别1：数据读取与处理问题1：如何用Python从Excel文件中读取数据？答：在Python中，可以使用pandas库从Excel文件中读取数据。pandas提供了read_exce
【Python篇】深入机器学习核心：XGBoost 从入门到实战半截诗 Python python 机器学习深度学习分类回归数据分析 XGBoost
文章目录XGBoost完整学习指南：从零开始掌握梯度提升1.前言2.什么是XGBoost？2.1梯度提升简介3.安装XGBoost4.数据准备4.1加载数据4.2数据集划分5.XGBoost基础操作5.1转换为DMatrix格式5.2设置参数5.3模型训练5.4预测6.模型评估7.超参数调优7.1常用超参数7.2网格搜索8.XGBoost特征重要性分析9.高级功能扩展9.1模型解释与可解释性9.2
【YOLOv8杂草作物目标检测】 stsdddd YOLO目标检测目标检测 YOLO 目标检测人工智能
YOLOv8杂草目标检测算法介绍模型和数据集下载算法介绍YOLOv8在禾本科杂草目标检测方面有显著的应用和效果。以下是一些关键信息的总结：农作物幼苗与杂草检测系统：基于YOLOv8深度学习框架，通过2822张图片训练了一个目标检测模型，用于检测田间的农作物幼苗与杂草对象。该系统支持图片、视频以及摄像头进行目标检测，并能保存检测结果。系统界面可实时显示目标位置、目标总数、置信度、用时等信息。YOLO
深度学习(1) 浅忆へ梦微凉深度学习人工智能深度学习学习方法 python
一、torch的安装基于直接设备情况，选择合适的torch版本，有显卡的建议安装GPU版本，可以通过nvidia-smi命令来查看显卡驱动的版本，在官网中根据cuda版本，选择合适的版本号，下面是安装示例代码GPU：pipinstalltorch==2.5.0torchvision==0.20.0torchaudio==2.5.0--index-urlhttps://download.pytorc
提升数据科学工作流效率的10个Jupyter Notebook高级特性
JupyterNotebooks已成为数据科学家、机器学习工程师和Python开发人员的核心开发工具。其核心优势在于提供了一个集成式环境，支持代码执行、文本编辑和数据可视化的无缝整合。尽管大多数用户熟悉其基本功能，但许多能显著提升工作效率的高级特性往往被忽视。本文将介绍一些高级功能，帮助您在数据科学项目中充分发挥JupyterNotebooks的潜力。1、Magic命令：高效的命令行接口Jupyt
Python 数据建模完整流程指南木觞清 3天入门Python python 开发语言
在数据科学和机器学习中，建模是一个至关重要的过程。通过有效的数据建模，我们能够从原始数据中提取有用的洞察，并为预测或分类任务提供支持。在本篇博客中，我们将通过Python展示数据建模的完整流程，包括数据准备、建模、评估和优化等步骤。1.导入必要的库在进行任何数据分析或建模之前，首先需要导入必需的Python库。这些库提供了各种工具和算法，帮助我们更高效地完成任务。importnumpyasnpim
深度学习常用格式转化脚本xml2yolo/coco2yolo/bdd2yolo/frame2video等 qq1309399183 计算机视觉实战项目集合深度学习人工智能格式转化脚本 voc2yolo格式转化数据集格式转换 xml2yolo coco2yolo
文章目录1.**数据集格式转换脚本**`coco2yolo.py`示例注释：注释说明：`xml2yolo.py`示例注释：注释说明：2.**数据集可视化与统计**`vis_yolo_files.py`示例注释：注释说明：3.**其他工具脚本**`frames2video.py`示例注释：注释说明：该项目提供了一系列用于深度学习的数据处理工具，主要功能包括：数据集格式转换：提供多种脚本，将不同格式的
NVIDIA下一代Hopper架构曝光，采用5nm工艺晶体管超1400亿 Java小海. 架构人工智能后端程序人生 java
据媒体报道，NVIDIA下一代主要面向高性能计算、人工智能等Hopper架构，将会采用5nm工艺制程，晶体管多达1400亿个，面积核心达到了900平方毫米，是有史以来最大的GPU。作为参考，NVIDIA自家旗舰Ampere架构的A100为542亿个晶体管（每平方毫米约为6560万个晶体管），AMD阵营中采用Aldebaran架构的InstinctMI200系列为582亿个晶体管（每平方米约为736
NVIDIA Hopper解说白总Server redis 数据库缓存 rust mongodb 大数据数据仓库
NVIDIAHopper架构是NVIDIA推出的面向高性能计算（HPC）和人工智能（AI）的最新一代GPU架构。它代表了NVIDIA在加速计算领域的最新进展，旨在为AI训练和推理、HPC应用提供前所未有的性能提升。NVIDIAHopper架构和基于该架构的GPU产品H100的详细信息：NVIDIAHopper架构技术特点：第四代TensorCore：Hopper架构引入了第四代TensorCore
LLMs，即大型语言模型 maopig AI 语言模型人工智能自然语言处理
LLMs，即大型语言模型，是一类基于深度学习的人工智能模型，它们通过海量的数据和大量的计算资源进行训练，可以理解和生成自然语言。LLMs的核心架构是Transformer，其关键在于自注意力机制，使得模型能够同时对输入的所有位置进行“关注”，从而更好地捕捉长距离的语义依赖关系。LLMs在众多领域都有广泛的应用，如自然语言理解（NLU），语言生成，以及语音识别和合成等。例如，它们能够理解人类的语言
第79期 | GPTSecurity周报云起无垠 GPTSecurity AIGC gpt
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.TrojanWhi
第60期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能语言模型网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.映射你的模型：评估
【LLM】大语言模型（LLMs）林九生人工智能语言模型人工智能自然语言处理
大型语言模型（LLMs）1.什么是大型语言模型？大型语言模型（LargeLanguageModel，LLM）是基于深度学习的自然语言处理模型，能够理解和生成自然语言文本。它们通过在大规模文本数据上进行训练，学习语言的语法、语义和各种语言特征，从而可以执行诸如文本生成、翻译、总结、问答等多种语言任务。以下是大型语言模型的定义和基本原理：1.1定义大型语言模型是由大量参数组成的神经网络，这些参数通过在
全新 Hopper 架构的Transformer 引擎有什么特点？扫地的小何尚人工智能
Transformer引擎是全新Hopper架构的一部分，将显著提升AI性能和功能，并助力在几天或几小时内训练大型模型。Transformer模型是当今广泛使用的语言模型（例如asBERT和GPT-3）的支柱。Transformer模型最初针对自然语言处理用例而开发，但因其通用性，现在逐步应用于计算机视觉、药物研发等领域。与此同时，模型大小不断呈指数级增长，现在已达到数万亿个参数。由于计算量巨大，
大语言模型（LLMs）入门教程（非常详细）从零基础入门到精通，看完这一篇就够了大模型零基础教程语言模型人工智能自然语言处理大模型
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
1.8 GPT-4：开创人工智能的新纪元少林码僧 AI大模型应用实战专栏人工智能
GPT-4：开创人工智能的新纪元自从OpenAI推出GPT-4以来，人工智能领域经历了显著的突破。作为“生成预训练转换器”家族中的最新成员，GPT-4不仅在功能上进行了提升，更在语言处理能力、理解深度以及适应性方面带来了全新的变革。本篇文章将深入探讨GPT-4的特点、创新以及它如何定义未来人工智能技术的发展。GPT-4的技术亮点1.规模与深度的进一步提升GPT-4的规模比前代模型更大，训练数据量和
第83期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.混乱中建立秩序：人
【Python】已解决：ModuleNotFoundError: No module named ‘sklearn‘ 屿小夏 python sklearn 人工智能
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
使用神经网络拟合6项参数 Andrew_Xzw 神经网络人工智能深度学习开发语言机器学习 python
使用神经网络拟合6项参数1.数据预处理1.1添加参数解析1.2数据预处理逻辑1.3数据归一化及划分1.4数据标签处理逻辑1.5数据转torch2.定义model2.1CNN_LSTM2.2Transformer3.定义train脚本3.1loss和optimizer3.2train3.3predict1.数据预处理1.1添加参数解析为了方便管理模型和训练等参数，统一用参数解析。defparse_a
如何快速在Windows 10 + Anaconda 3 中使用Mxnet及gluon qianchess mxnet使用 mxnet win10 anaconda gluon 人工智能
如何快速在Windows10+Anaconda3中使用Mxnet及gluon网络上Mxnet的安装以及使用方法很多，自从其作者之一李沐推出了基于Mxnet的深度学习课程之后，我也尝试着去使用了一下Mxnet。首先第一步就是在自己的系统中安装Mxnet及其相关组建。现在的Mxnet常常会跟其虚拟环境Gluon结合在一起，所以下文就一起阐述一下，顺便记录一下自己踩的坑。注意本文的大部分内容都可以在官网
3D UNet和Swin-UNETR 学無芷境计算机视觉
3DUNet和Swin-UNETR都是用于医学图像分析的深度学习网络，它们对三维（3D）数据进行特征提取和分割。3DUNet3DUNet是UNet架构的一个变体，专门设计用于处理三维医学图像数据。UNet最初是为二维（2D）图像分割任务设计的，具有典型的编码器-解码器结构。3DUNet扩展了这种架构，以便更好地处理具有深度信息的体积数据，如CT或MRI扫描。主要特点：编码器：逐渐下采样图像，提取并
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s