暖焱

【研究报告】从单目深度估计到单目三维场景重建-沈春华老师-VALSE Webinar 22-13（总第279期）

从单目深度估计到单目三维场景重建-沈春华老师-VALSE Webinar 22-13（总第279期）

报告总结 & 相关论文
论文代码
相关术语
前言
研究问题
- 单目深度估计
- 单目三维场景重建
难点 & 解决方案
- Low Generalizability
- - 如何提升单目深度估计模型的泛化能力？- 解决方案：DCNF-FCSP
  - 如何保证单目深度估计模型泛化能力？- 解决方案：超大数据集
  - 如何收集超大数据集？- 解决方案：Relative Depth
  - 如何收集超大相对深度数据集？- 解决方案：Stereo Data + Video
  - 如何得到更准确的三维点云？- 解决方案：估计 Scale 和 Shift
- Low-quality 3D Geometry
- - 如何在模型训练过程中使用 3d Geometry 信息？- 解决方案：Virtual Normal
  - - surface normal Vs virtual normal
- Scale 一致性问题
- - 如何保证 Scale 一致性？- 解决方案：SC-DepthV1 (Geometry Consistency Loss)
  - - SC-DepthV2 针对室内 video 对 SC-DepthV1 的改进
- 如何解决单目深度估计中小目标被忽略问题？- 解决方案：Anctor Points
Q&A
- NeRF与您研究方向的相关性及其前景探讨
- 构建数据集时depth数据是如何得到的？
- 自监督是否可以做单目深度估计？
- 自监督对比全监督差异多大？
- MVSNet与模型泛化研究有关联吗？
- 6d pose 与单目深度估计相关性？

报告总结 & 相关论文

沈春华老师讨论的研究方向：单目深度估计模型泛化能力及单目重建更正确的三维点云。

注：因为只有单张图片，恢复出的三维点云形状是正确的，但不是metric的三维点云，恢复不出 scale。

1 如何解决单目深度估计的泛化能力低的问题？
① 深度估计模型：将单目深度估计问题转换为连续条件随机场。
② 数据集：使用超大规模相对深度数据集，覆盖尽可能多的场景。

提出 DCNF-FCSP模型（CNN+CRF + full convolutional superpixel pooling）的论文：Learning depth from single monocular images using deep convolutional neural fields, F. Liu, C. Shen, G. Lin, I. Reid. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2016.

提出将单目深度估计问题转换为连续条件随机场的论文：Deep convolutional neural fields for depth estimation from a single image.F. Liu, C. Shen, G. Lin. Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR’15), 2015.

提出 Diverse Scene Depth dataset (DiverseDepth) 数据集的论文：Virtual normal: Enforcing geometric constraints for accurate and robust depth prediction，W. Yin, Y. Liu, C. Shen. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022.

2 如何收集训练单目深度估计模型的超大数据集？
因为采集绝对深度数据很困难，所以选择收集相对深度数据集。

3 如何收集相对深度数据集？
方案一：从双目图片中恢复出 depth。双目匹配得到左右图间的 correspondence 后恢复出 affine-invariant relative depth 。
方案二：从视频中恢复出 depth。估计出相机的pose，可以得到跟双目一样的 affine transform depth maps。
该数据集缺点：数据集质量不同，需要使用不同的 loss function。

提出基于立体图进行单目相对深度估计的论文：Monocular relative depth perception with web stereo data supervision，K. Xian, C. Shen, Z. Cao, H. Lu, Y. Xiao, R. Li, Z. Luo. Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR’18).

提出 SC-DepthV1 （视频深度估计（室外视频））的论文：Unsupervised scale-consistent depth and ego-motion learning from monocular video，J. Bian, Z. Li, N. Wang, H. Zhan, C. Shen, M. Cheng, I. Reid. Proc. Advances in Neural Information Processing Systems (NeurIPS’19), 2019.

提出 SC-DepthV2（视频深度估计（针对室内视频改进））的论文：Auto-rectify network for unsupervised indoor depth estimation，J. Bian, H. Zhan, N. Wang, T. Chin, C. Shen, I. Reid. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022.

4 如何在质量不同的相对深度超大数据集上训练出较好模型？
① 数据集质量不同，需要使用不同的 loss function。
② 在训练过程中使用 3D Geometry Information。如果有视频数据，将视频数据进行ORB-SLAM得到稀疏点（Anctor Points）的深度作为单目深度估计的 ground-truth。

提出利用 Anctor Points 校准单目深度估计的输出论文：Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular Video Depth. Guangkai Xu, Wei Yin, Hao Chen, Kai Cheng, Feng Zhao, Chunhua Shen. Computer Vision and Pattern Recognition (cs.CV)

5 如何在训练过程中使用 3D Geometry Information？
虚拟法线（virtual normal）。理论上在重建出的三维点云中任意取三个点确定出一个平面，计算出该平面的法线应该跟真实标签中这三个点确定出的平面的法线方向相同。

提出 Virtual Normal 的论文：Enforcing geometric constraints of virtual normal for depth prediction, Wei Yin, Yifan Liu, Chunhua Shen, Youliang Yan, Computer Vision and Pattern Recognition (cs.CV). 2019

提出 affine-invariant relative depth 的论文：Virtual normal: Enforcing geometric constraints for accurate and robust depth prediction，W. Yin, Y. Liu, C. Shen. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022.

6 如何保证视频中Scale一致性？
使用几何一致性损失 Geometry Consistency Loss 对 Scale 一致性约束，估计出 camera pose，两帧之间做一次Wrapping得到点与点之间的对应关系，进而计算出 photo metic loss。如果 scale 是一致的，那么 wrapping 之后对应的点的 depth 应该是一模一样的。

提出 SC-DepthV1 （Geometry Consistency Loss + Self-Discovered Mask）的论文：Unsupervised scale-consistent depth and ego-motion learning from monocular video，J. Bian, Z. Li, N. Wang, H. Zhan, C. Shen, M. Cheng, I. Reid. Proc. Advances in Neural Information Processing Systems (NeurIPS’19), 2019.

提出 SC-DepthV2（分析相机运动与深度估计的关系 + 提出 Auto-Rectify Network）的论文：Auto-rectify network for unsupervised indoor depth estimation，J. Bian, H. Zhan, N. Wang, T. Chin, C. Shen, I. Reid. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022.

7 如何解决室内场景相机运动不规律导致SC-DepthV1效果不好的问题？
SC-DepthV2，是SC-DepthV1的改进版，从相机运动的角度去分析两种场景的差异，并且分析了相机运动与深度估计的关系。最终提出自校准网络（Auto-Rectify Network）来克服室内场景相机运动不规律的难题。将ARN嵌入到现有框架SC-Depth中可以实现端到端训练，并在多个数据集上大幅超过现有算法。

随着无监督单目深度估计算法在自动驾驶场景精准的逐步提升，研究者们开始探索其在室内VR/AR场景中的应用。然后后者相比前者更为困难。本文从相机运动的角度去分析两种场景的差异，并且分析了相机运动与深度估计的关系。最终提出自校准网络（Auto-Rectify Network）来克服室内场景相机运动不规律的难题。将ARN嵌入到现有框架SC-Depth中可以实现端到端训练，并在多个数据集上大幅超过现有算法。

SC-DepthV2（分析相机运动与深度估计的关系 + 提出 Auto-Rectify Network）的论文：Auto-rectify network for unsupervised indoor depth estimation，J. Bian, H. Zhan, N. Wang, T. Chin, C. Shen, I. Reid. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022.

8 如何更准确的重建三维点云？
估计出 focal length（对应 Affine Tranformation 中的 Scale A）和 shift（对应 Affine Tranformation 中的 shift b），重建出来的三维点云更准确。

提出估计 Scale + Shift 的论文：Learning to recover 3D scene shape from a single image. W. Yin, J. Zhang, O. Wang, S. Niklaus, L. Mai, S. Chen, C. Shen. Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR’21), 2021.

论文代码

http://github.com/aim-uofa/AdelaiDepth

前言

图 1

多视角几何中，需要两张或者两张以上图片进行深度估计或者三维点云估计，这是一个非常经典的计算机视觉问题，可能计算机视觉刚开始的时候就是研究多视角几何。

图 1 左边，从多张图片找到图与图之间对应关键点的对应关系之后，在小孔成像假设下可以推导出一系列公式，然后重构出三维点云。

图 1 右边，展示的是slam，在传统的 Multi-view geometry 中研究问题。 slam其实可以看成是 structure from motion 的一个应用。一般做单目的slam时，输入一个视频和输入多帧图片没有本质区别。

研究问题

估计单张图片中每个像素的深度信息，如果每个像素的 depth 信息估计的很准，并且知道相机模型和参数，那么理论上也可以估计出三维点云完成三维重建。

从单张图片估计每个像素深度，因为没有多视图关键点（Multi-view key point）的对应关系（correspondence），从数学优化角度来看，这是一个不适定问题（ill-posed problem）。

单目深度估计

单目深度估计问题的研究，最早可以追溯到2010年左右，当时使用 machine learning 的算法实现，因为这是一个不适定问题，并且只有单张图片，所以需要大量的 Prior Information，即 machine learning 算法需要大量的训练数据，用 Regression 或者 Classification 从大量的训练数据中进行 depth estimation。

图 2

图2，展示了 Depth Estimation 的一个例子。

图 3

图3，展示了 KITTI 自动驾驶数据集上的例子。中间一行是雷达采集到的真实标签（ground-truth），最下面一层是模型的输出。

图 4

利用深度学习实现单目深度估计，最早可以追溯到2014年12月份纽约大学 Eigen 等人发表的论文 Depth Map Prediction from a Single Image using a Multi-Scale Deep Network。论文中的 Model Architecture 如图 4 所示。

单目三维场景重建

参考：基于单目视觉的三维重建算法综述 - SIGAI_csdn

尽管单眼深度估计在野外场景取得了重大突破，但是最新的方法不能够用于准确恢复的3D场景形状，原因是未知的深度位移和未知的相机焦距。

图 5

CVPR 2021，沈春华老师团队发表了论文 Learning to recover 3D scene shape from a single image. W. Yin, J. Zhang, O. Wang, S. Niklaus, L. Mai, S. Chen, C. Shen. Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR’21), 2021. ，提出一种两阶段架构。① 预测图像深度（单眼图像未知比例及偏移）；② 利用3D点云编码器预测缺失的深度位移和焦距（帮助恢复一个真实的3D场景形状）。

难点 & 解决方案

图 6

Low Generalizability

使用深度学习模型进行单目深度估计，都面临 Low Generalizability 问题，即使用训练集训练完成后在测试集上运行不太好，沈春华老师团队的 idea 就是希望提高模型 Generalization Capability，解决模型 Low Generalizability 问题，甚至是希望模型在所有场景都能工作（Open Set prediction 和 Open World prediction）。

不仅深度估计存在 Generalization 问题，image classification 也存在 Generalization 问题。

目前，Few-shot Learning（或 Small Sample Training ）仍然没有新的突破，针对 Generalization 问题，比较有效的方法是收集超大训练集（足以 cover 所有测试集可能遇到的情况）。

但是，收集超大训练集成本很高，很难收集一个足以 cover 所有测试集可能情况的训练集。理论上来可能需要用 RGB 相机再加上一个 scanner 同时采集数据，之后再做校准（alignment）。若想要训练数据覆盖所有的室，工作量会比较大。

如何提升单目深度估计模型的泛化能力？- 解决方案：DCNF-FCSP

之前的模型仅限于对特定场景结构建模，不适用于一般场景深度估计，针对单目深度估计模型泛化能力低的问题，沈春华老师团队也是从2014年开始研究单目深度估计，发表了两篇论文：第一篇论文主要工作是将单目深度估计问题转为连续条件随机场 CRF，第二篇论文主要工作是提出 DCNF-FCSP 模型，模型在室内和室外数据集上效果都很好。

【论文1】提出 CRF 的论文： Deep convolutional neural fields for depth estimation from a single image.F. Liu, C. Shen, G. Lin. Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR’15), 2015.

图 7

图 8

论文中的网络结构如图 7 所示，整个网络由一元部分（a unary part），二元部分（a pairwise part）和CRF损失层组成。如图 8 所示，一元部分由5个卷积层和4全连接层组成。

主要思想是将单目深度估计问题转换为连续条件随机场（Conditional Random Field，CRF），思想来源是理论上像素与像素之间存在相关性，利用CRF model pairwise 的信息。如果使用 regression 输出的 depth 是连续的，假设数据服从 gauss distribution，那么 CRF Inference 模型存在封闭解（closed form）。因为CRF存在封闭形式的解决方案，那么CNN的整个 object function 是可导的，可以直接将梯度显式计算出来。将CRF与卷积神经网络结合比较友好，如果是 discrete 就会比较麻烦，因为CRF做 Inference 在 discrete 情况下比较慢。

这项工作的主要贡献如下：

我们通过探索CNN和连续CRF，提出了深度卷积神经场模型用于深度估计。考虑到深度值的连续性质，可以解析计算概率密度函数中的分区函数，因此我们可以直接求解对数似然优化而无需任何近似。可以在反向传播训练中精确计算梯度。而且，由于存在封闭形式的解决方案，解决用于预测新图像深度的MAP问题是非常有效的。

我们在统一的深度CNN框架中共同学习CRF的一元势函数和二元势函数，并使用反向传播对其进行了训练。

我们证明了所提出的方法在室内和室外场景数据集上都优于深度估计的最新结果。

本篇论文优势：

①我们不采用任何这些启发式方法改进我们的结果，但我们就相对误差而言取得了更好的结果。
②为了克服过拟合，其他方法必须收集数以百万计的带有附加标签的图像训练他们的模型。一个可能的原因是，他们的方法捕捉到绝对像素的位置信息，他们可能需要一个非常大的训练集覆盖所有可能的像素布局。相比之下，我们只使用没有任何额外数据标准的训练集，但我们获得相媲美，甚至更好的性能。
③我们的模型只有一元项的时候，相当于带有模糊边界的粗糙预测。通过加入平滑项，我们的模型产生了更好的可视化，接近ground-truth。

【论文2】 提出 DCNF-FCSP 的论文：Learning depth from single monocular images using deep convolutional neural fields, F. Liu, C. Shen, G. Lin, I. Reid. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2016.

论文工作的主要贡献如下：

我们通过探索CNN和连续CRF，提出了深度卷积神经场（DCNF）模型用于深度估计。考虑到深度值的连续性质，可以解析计算概率密度函数中的分区函数，因此我们可以直接求解对数似然优化而无需任何近似。可以在反向传播训练中精确计算梯度。而且，由于存在封闭形式的解决方案，解决用于预测新图像深度的MAP问题是非常有效的。

我们在统一的深度CNN框架中共同学习CRF的一元势能和二元势能，并使用反向传播对其进行了训练。

我们提出了一种基于全卷积网络和新颖的超像素池化方法的更快模型，该模型可将速度提高约10倍，同时产生相似的预测精度。使用这个更有效的模型（我们称为DCNF-FCSP），我们能够设计非常深的网络以获得更好的性能。

我们证明了所提出的方法在室内和室外场景数据集上都优于深度估计的最新结果。

如何保证单目深度估计模型泛化能力？- 解决方案：超大数据集

想要保证模型 Generalization Capability ，需要训练集 cover 尽可能多的场景。所以，沈春华老师团队在2018年CVPR构建了一个比较大的数据集，并且在训练的时候使用能找到的所有开源数据集，不同的数据集的标注质量不同，其中包含最弱的数据集 depth in the wild（每张图片只标注了两个点及其前后关系）。也包含使用Lidar Scanner得到的高质量数据集（含有精确的 metric depth ）。

如何收集超大数据集？- 解决方案：Relative Depth

收集 metric depth 超大训练集很困难，相比之下，收集 relative depth 超大训练集更容易，当然也可以是对 metric depth 的 Affine Transformation（在很多场景下也比较容易得到）。

图 9

当然，因为没有绝对深度，相对深度图的信息比较粗糙，重建三维点云会比较困难。如图 9 所示，一张大象的相对深度图，重建出来的三维信息很不准确。

图 10

对 metric depth 进行 Affine Transformation 的数据作为训练数据，Affine 实际上是 Ax+b 线性变换加平移，Scale A 和 shift b 对三维重建非常重要，如果使用不准确的 A 和 b 估计出的 relative depth 进行三维重建，重建出的三维点云非常不准确。如图 10 所示，三维点云出现扭曲（distortion）。

如何收集超大相对深度数据集？- 解决方案：Stereo Data + Video

传统采集 metric depth 的办法是 rgb + laser scanner ，该方法最直接且精度最高，但是很难收集到覆盖各种场景的大规模数据集。

18年，沈春华老师团队提出了一种方案，从双目图片中恢复出 depth，从网上可以爬取到很多双目图片，再进行双目匹配得到左图和右图两张图片之间的 correspondence ，之后恢复出 depth 。因为没有相机的参数，所以不能得出 metric depth 。用上述方法恢复出的 depth 是 affine-invariant relative depth 。

提出基于立体图进行单目相对深度估计的论文：Monocular relative depth perception with web stereo data supervision，K. Xian, C. Shen, Z. Cao, H. Lu, Y. Xiao, R. Li, Z. Luo. Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR’18).

本文主要贡献是：

1 提出一种简单有效的方式从网络立体图片中自动获取图片密集相对深度标注，并提出新的数据集 “Relative Depth from Web”（ReDWeb）；
2 提出改进 ranking loss，使网络能够关注难以判断相对深度关系的点对；
3 将方法应用于 DIW 和 NYUDv2 数据集并获得了最佳性能，同时将预训练的网络用于其他基于像素点预测的任务，如绝对深度预测和语义分割，能够有效提高性能。

参考：该论文精读笔记 - _Suraimu_ - CSDN

使用的是 Optical Flow，而不是传统的 Stereo Match ，因为爬取到的很多图片水平基线不对齐，所以使用传统的 Stereo Match 方法会有问题。

天空的分割：天空对应无穷远，将天空的像素单独分割出来赋值为无穷远。

下面图片展示该数据集的应用。

假设已知左图，可以推出右图，由左右两张图片即可得到 3d 信息，这种方法也可以应用于将 2d 电影转换为 3d 电影。

得到 depth map 还可以应用于模拟大光圈效果。

不同质量的训练数据，需要使用不同的 loss function。

如何得到更准确的三维点云？- 解决方案：估计 Scale 和 Shift

图 12

如上述图片所示，如果不知道 focal length（对应 Affine Tranformation 中的 Scale A），会造成三维点云的 distortion；如果不知道 shift（对应 Affine Tranformation 中的 shift b），也会造成三维点云的 distortion。所以要将这两个值估计出来。

CVPR 2021，沈春华老师团队提出了一种两阶段架构方案，① 预测图像深度（单眼图像未知比例及偏移）；② 利用3D点云编码器预测缺失的深度位移和焦距（分别对应 shift 和 scale ）（帮助恢复一个真实的3D场景形状）。如图 11 所示。

图 11

Two-stage单张图像3D形状估计 pipeline，由深度预测模块(DPM)和点云模块(PCM)组成。

DPM和PCM两模块不同数据源上分别训练，在推理过程中相结合。

DPM模块：输入RGB图像→depth map （与真实的绝对深度图的比例和位移未知）

PCM模块：输入扭曲的点云 →利用预测的深度图 d 和焦距的初始估计 f 计算 →输出对深度图和焦距的位移调整，以提高重建的3D场景形状的几何形状。

使用数据集训练得到模型之后，将 depth 经过 Unprojection 从 2.5D 提升到 3D ，affine 过程中的 scale 和 shift 参数会对三维点云造成比较大的影响，所以，如果想要得到准确的三维点云，必须估计出 scale 和 shift 。

注意：使用点云网络分别预测位移和焦距比例因子。

depth shift -> ∆d ， focal length -> f∙ α_f

精确的场景形状重建

提出估计Scale+Shift 的论文：Learning to recover 3D scene shape from a single image. W. Yin, J. Zhang, O. Wang, S. Niklaus, L. Mai, S. Chen, C. Shen. Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR’21), 2021.
参考：Learning to Recover 3D Scene Shape from a Single Image - MengYa_Dream - CSDN

以下图片展示模型效果。

以下图片展示论文模型 depth map 的输出也有提升。

local 和 global 的信息都有用，都应该用上。

Low-quality 3D Geometry

迄今为止，depth estimation 算法都是在 minimize regression loss ，都是图像 RGB 再加上 depth在空间里面去做 fitting，没有真正考虑 3d 信息。但理论上只有在模型训练过程中使用 3d Geometry 信息，才能准确的重建 3d Geometry，之前很少有研究涉及这个问题。

如何在模型训练过程中使用 3d Geometry 信息？- 解决方案：Virtual Normal

之前的工作都没有在三维点云空间中计算Loss，几乎所有的 paper 都是 pointwise 的 regression 或者 discrete classification（两者得到的结果差不多）。

沈春华老师团队的目标是准确的恢复三维点云，所以要在模型训练过程中使用 3d Geometry 信息。

图 13

最简单的一种 3d Geometry 信息是表面法线（surface normal），沈春华老师团队提出了虚拟法线（Virtual normal）的概念，在模型训练过程中使用 3d Geometry 信息。

思路：如果重建出的三维点云跟真实标签（ground-truth）一致，那么理论上在重建出的三维点云中任意取三个点确定出一个平面，计算出该平面的法线应该跟真实标签中这三个点确定出的平面的法线方向相同。这是 surface normal 的一种扩展，因为任意取的三个点确定出的平面不一定是物体或场景的 surface 。

注：因为没有 metric depth ，训练集的 depth 是 metric depth 的 Affine Transformation，但 Affine 过程中的线性变换加平移操作并不会改变平面法线的方向。

论文：Enforcing geometric constraints of virtual normal for depth prediction, Wei Yin, Yifan Liu, Chunhua Shen, Youliang Yan, Computer Vision and Pattern Recognition (cs.CV). 2019

介绍了一种有监督单目深度估计的方法．首先提出了问题——现有的很多方法大多采用pixel-wise的损失函数和评价指标，而忽略了3D空间中的几何约束。对于一些考虑了几何约束的方法，几乎所有的都是从2D或3D的小邻域中提取的意义上的“局部”。例如，表面法线本质上是“局部”的，因为它是由局部切线平面定义的。我们能够得到的深度的gt通常是包含噪声的，不可避免地影响这些局部约束的有效性。此外，在小邻域上计算出的局部约束还没有完全利用场景的几何结构信息，但而这些信息可能能够提高性能。

为了解决这些问题，从全局角度提出一个更稳定的几何约束，考虑了大范围内的几何关系，称为虚拟法线。

具体做法，在重建的点云中，随机采样3个距离较远的，并且不共线的点，这3个点可以形成一个虚拟平面(不要去深究这个虚拟平面的物理意义实际上它可能不具有任何的物理意义)，这个平面的法线向量即为虚拟法线（VN）。gt和预测的虚拟法向量之间的差异就可以作为高阶的3D几何损失．由于该方法是对点云进行的远距离采样，与在局部尺寸的表面法线相比，噪声的影响大大降低，从而计算得到的虚拟法向量会更加精确。

论文：Virtual normal: Enforcing geometric constraints for accurate and robust depth prediction，W. Yin, Y. Liu, C. Shen. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022.

单眼深度预测在理解三维场景几何过程中起着至关重要的作用。虽然最近的方法在 pixel-wise 相对误差等评价指标方面取得了令人印象深刻的进展，但大多数方法忽略了三维空间中的几何约束。在这项工作中，我们展示了高阶三维几何约束对深度预测的重要性。通过设计一个具有简单几何约束的损失项，即由重建的三维空间中随机采样的三个点确定的虚法线方向，我们显著提高了单眼深度估计的精度和鲁棒性。

重要的是，虚拟法线损失不仅可以提高学习绝对深度的性能，还可以解出 Scale 信息，以更好的形状信息丰富模型。因此，当无法获得绝对深度训练数据时，我们可以使用虚拟法线来学习在不同场景上生成的鲁棒仿射不变深度（affine-invariant depth）。在NYU Depth-V2和KITTI上，我们的实验是学习绝对深度效果最好的。从高质量的预测深度中，我们现在能够直接恢复出良好的三维场景结构，如点云和表面法线，从而消除了依赖额外模型的必要性。为了证明在虚拟法线损失的不同数据上学习仿射不变深度的优秀泛化能力，我们构建了一个大规模的、多样化的训练仿射不变深度数据集，称为 Diverse Scene Depth dataset (DiverseDepth)，并在5个 the zero-shot test setting 的数据集上进行了测试。

surface normal Vs virtual normal

图 14

图 15

如图 14 所示，suface normal 只是 fit 一个非常 local 的平面，稍微的扰动就会对法线方向造成的误差比较大，法线方向会对像素的 depth 值的噪声比较敏感。

如图 15 所示，引入 virtual normal 概念，任意取的三个点可以距离很远，构成的平面并不是 local 的平面，稍微的扰动对法线方向造成的误差比较小，法线方向对像素的 depth 值的噪声不太敏感。

图 16

如图 16 所示，应用平均差分误差（平均误差）来评估 virtual normal 和 suface normal 对不同噪声水平的鲁棒性。可以看出 virtual normal 更稳健。

3D Shape / Geometry Information 与相机参数无关，相机参数的变化并不会造成 3D 场景形状的改变，所以相机参数的变化也不会影响到 virtual normal 的计算。

当然，给定一对点，哪个点在前哪个点在后，这样的 ranking loss 也可以用上，虽然 ranking loss 比较弱，但如果有大量这样的数据，使用 ranking loss 也会有一定的帮助。

如果数据集是 metirc depth 的 Affine transformation（Y=Ax+b）之后的 relative depth 情况下，也可以使用 affine-invariant loss ， affine-invariant loss function 与 A和b 无关。

19年有一篇论文提出了scale and shift invariant loss (SSIL) ，论文说明了affine-invariant如何实现。

论文：Towards robust monocular depth estimation: Mixing datasets for zero-shot cross-dataset transfer. Katrin Lasinger, Rene Ranftl, Konrad Schindler, and Vladlen Koltun. abs/1907.01341,2019.

论文精读：Towards robust monocular depth estimation: Mixing datasets for zero-shot cross-dataset transfer. - MengYa_Dream - CSDN

DCNN模型在不同尺度数据集上学习仿射不变深度，确保模型高泛化能力和高质量的场景几何形状。

论文：DiverseDepth: Affine-invariant Depth Prediction Using Diverse Data, Wei Yin, Xinlong Wang, Chunhua Shen, Yifan Liu, Zhi Tian, Songcen Xu, Changming Sun, Dou Renyin, Computer Vision and Pattern Recognition (cs.CV) 2020

使用 relative depth 训练时，可以使用多种 loss，virtual normal loss，affine-invariant loss，ranking loss，使用 metric depth 训练时，可以使用 L1 regression loss。

Scale 一致性问题

因为单目深度估计中输入只有一张图片，单张图片没有 scale 信息，所以使用没有标签的 video 数据训练 depth estimation模型预测到的 depth 在 SLAM 任务中没有任何用途。

如果单目深度估计模型输出的 depth 在 video 的时间轴上面 scale 是一致的，该 depth 在 SLAM 任务中才有用。例如：ORB-SLAM 任务中，输入为 RGB 或者 RGB + depth ，如果有 Scale-consistence depth ，SLAM 的输出才会更加准确。

如何保证 Scale 一致性？- 解决方案：SC-DepthV1 (Geometry Consistency Loss)

因为输入数据是video，没有 depth 信息，所以需要估计出 camera pose，两帧之间做一次Wrapping得到点与点之间的对应关系，进而计算出 photo metric loss。如果 scale 是一致的，那么 wrapping 之后对应的点的 depth 应该是一模一样的。如果video中有移动的目标，不能将这些移动的目标考虑进去。

本文提出了几何一致性损失Geometry Consistency Loss 用于尺度一致性约束。提出用 self-discover mask M 解决移动物体和遮挡。

给定两个连续的帧 $I_a，I_b)$ ，首先使用网络估计他们的深度地图 $D_a，D_b)$ 和相对姿态 $P_{ab})$ ，然后我们通过转换 $D_a$ 到3D空间得到 warped $D_b^a)$ ，并且使用 $P_{ab})$ 投影到 $I_b$ 的图像平面，最后我们使用 $D_b^a)$ 和从 $D_b)$ 插值得到的 $D_b^{'})$ 之间的不一致性作为 geometric consistency loss LGC 监督网络的训练。

提出 SC-DepthV1（Geometry Consistency Loss + Self-Discovered Mask）的论文：Unsupervised scale-consistent depth and ego-motion learning from monocular video，J. Bian, Z. Li, N. Wang, H. Zhan, C. Shen, M. Cheng, I. Reid. Proc. Advances in Neural Information Processing Systems (NeurIPS’19), 2019.

论文精读1：关于该论文的精读笔记 - kebijuelun - CSDN
论文精读2：关于该论文的精读笔记 - skycrygg - CSDN

以下图片展示 SC-DepthV1 效果。

SC-DepthV2 针对室内 video 对 SC-DepthV1 的改进

SC-DepthV1 只对室外 video 有用，在室内 video 上效果很差，因为很多室内 video 只有 rotation 没有translation，在 SLAM 任务中，如果只有 rotation ，SLAM 任务就会退化为一个退化（degenerated）的 case，这种情况下是优化不好的，所以要对 rotation 运动数据进行处理。

针对 rotation 数据的处理，沈春华老师团队提出了两种方案，方案一：直接对训练数据进行预处理；方案二：在网络中设计专门的模块处理 rotation 数据。

论文认为，虽然低纹理等因素会使得算法更难在室内场景训练，但是复杂的相机运动才是更关键的原因。比如，在自动驾驶场景中相机一般被固定在车上稳定前行，而在室内VR/AR场景中相机会随着人（或手）无规律运动。基于这一假设，论文方法如下：

首先，对相机运动与深度估计的联系作出理论分析；
然后，提出数据预处理的方法进行实验验证；
最后，提出自校准网络实现可以端到端训练的无监督深度估计算法。

提出 SC-DepthV2（分析相机运动与深度估计的关系 + 提出 Auto-Rectify Network）的论文：Auto-rectify network for unsupervised indoor depth estimation，J. Bian, H. Zhan, N. Wang, T. Chin, C. Shen, I. Reid. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022.

参考：TPAMI｜用于室内无监督深度估计的自校准网络（SC-DepthV2）

以下图片展示 SC-DepthV2 输入单张图片，三维重建出的效果。

如何解决单目深度估计中小目标被忽略问题？- 解决方案：Anctor Points

输入一段视频，输出三维重建场景。一种方法是使用传统的 SfM ，但是因为 SfM 中点是稀疏的，所以 SfM 只能得到 Sparse 3D Reconstruction 或 Semi-Dense 3D Reconstruction ，得不到稠密重建（Dense 3D reconstruction）。

为什么在SFM中不能得到密集点云？

因为，SFM中用来做重建的点是由特征匹配提供的！这些匹配点天生不密集！而使用计算机来进行三维点云重建，必须认识到，点云的密集程度是由人为进行编程进行获取的。SFM获得点的方式决定了它不可能直接生成密集点云。

运动重构（SFM与MVS的区别）学习笔记三

在某些场景中进行单目深度估计时小目标可能会被忽视。针对这个问题，沈春华老师团队提出了一种方案，首先输入视频进行 ORB-SLAM 得到稀疏的点的 depth estimation 或者点云的重建，将 SLAM 得到的点中可以作为 ground-truth 的很准确的点称为 Anctor Points ，利用 Anctor Points 校准单目深度估计的输出，会得到比较准确的 depth maps 或三维点云。

提出利用 Anctor Points 校准单目深度估计的输出论文：Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular Video Depth. Guangkai Xu, Wei Yin, Hao Chen, Kai Cheng, Feng Zhao, Chunhua Shen. Computer Vision and Pattern Recognition (cs.CV)

Q&A

NeRF与您研究方向的相关性及其前景探讨

ECCV2020第一篇NeRF，NeRF是 overfit 一个场景，没有 generalization capability ，不能 generalize 到另一个场景，每个场景都要训练一个对应的模型。沈春华老师团队的目标是训练处拥有 generalization capability 的模型。2020年NeRF论文发表后，有很多研究在做如何使得NeRF拥有 generalization capability ，这是一个很有前景的方向。

构建数据集时depth数据是如何得到的？

NYU室内数据集是用微软的 Kinect 相机，Kinect 一代相机是 rgb 的相机 + 结构光，Kinect 一代相机是 rgb 的相机 + Timeof flight，同时采集同一个场景之后对点与点之间进行校准，每个点都有 metric depth ，能知道该像素与相机的距离。

激光雷达测距则采用TOF 技术(Timeof flight,飞行时间)，它通过记录光源投射到每个像素点的光线发射与反射间的相位变化来计算光线飞行时间,进而计算光源到每个像素点的距离。

同样的，Kitti 数据集也是用 laser scanner 得到的。

NYU 数据集和 Kitti 数据集的采集方式是最标准的做法，但是采集的代价很大。

针对 metic depth 采集代价很大的问题，沈春华老师团队提出 relative depth 的方案，具体方案如下：

方案一：双目图，虽然不知道相机参数，但是可得到左图和右图点之间的匹配关系后计算出 affine transform depth maps。

方案二：视频，估计出相机的pose，可以得到跟双目一样的 affine transform depth maps。

可以直接用双目图片或者直接用视频来训练单目深度估计的模型，相当于把相机参数和双目图片点与点间匹配关系一起放在网络里面训练，几年前就有一些论文在做这个事情。

自监督是否可以做单目深度估计？

可以，例如最近的何凯明MAE自监督或微软MIM自监督，用 ImageNet 无标签数据训练一个MAE或者MIM自监督模型作为初始，在NYU或者KITTI数据集上 fine-tune，结果有所提升，但这只能作为初始，还是需要少量的训练数据。

在video上无监督单目深度估计和双目深度估计方向的研究都有团队在做。

自监督对比全监督差异多大？

目前来看，在训练集大小相差不大的情况下，全监督效果较好。

MVSNet与模型泛化研究有关联吗？

MVSNet 目标是预测图片上每个像素的深度信息。没有讨论模型泛化能力。

MVSNet: Depth Inference for Unstructured Multi-view Stereo

MVSNet 本质是借鉴基于两张图片cost volume的双目立体匹配的深度估计方法，扩展到多张图片的深度估计，而基于cost volume的双目立体匹配已经较为成熟，所以MVSNet本质上也是借鉴一个较为成熟的领域，然后提出基于可微分的单应性变换的cost volume用于多视图深度估计。

过程：

1 输入一张reference image（为主）和几张source images（辅助）；
2 分别用网络提取出下采样四分之一的32通道的特征图；
3 采用立体匹配（即双目深度估计）里提出的cost volume的概念，将几张source images的特征利用单应性变换(homography warping)转换到reference image，在转换的过程中，类似极线搜索，引入了深度信息。构建cost volume可以说是MVSNet的关键。
具体costvolume上一个点是所有图片在这个点和深度值上特征的方差，方差越小，说明在该深度上置信度越高。
4 利用3D卷积操作cost volume，先输出每个深度的概率，然后求深度的加权平均得到预测的深度信息，用L1或smoothL1回归深度信息，是一个回归模型。
5 利用多张图片之间的重建约束（photometric and geometric consistencies）来选择预测正确的深度信息，重建成三维点云。

参考：基于深度学习的三维重建算法：MVSNet、RMVSNet、PointMVSNet、Cascade系列 - 闵称的文章 - 知乎

6d pose 与单目深度估计相关性？

**6d pose 针对目标（object）**不是针对场景，沈春华老师团队到目前为止的模型做不到 object level，针对 object level做出的三维点云很不准确，只能做到三维场景重建（3d scene reconstruction），针对 object level 只考虑训练数据还不够，还需要考虑其他因素。

你可能感兴趣的:(计算机视觉,深度学习,人工智能,单目深度估计,单目三维场景重建)

Chrome下载视频的插件爱编程的喵喵 Windows实用技巧 windows chrome 下载视频
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Chrome下载视频的插件，希望能对
AI大模型与区块链技术的结合小赖同学啊人工智能人工智能区块链深度学习
AI大模型与区块链技术的结合，为解决大模型多重组合带来的伦理安全问题提供了创新的解决方案。区块链技术的去中心化、透明性和不可篡改性，可以有效应对AI大模型在数据隐私、模型可信度、责任追溯等方面的挑战。以下是具体的结合方式和应用场景：一、AI大模型与区块链结合的核心价值数据隐私保护：区块链可以确保数据的安全存储和传输，防止数据泄露和滥用。模型可信度：区块链记录模型的训练和使用过程，确保模型的透明性和
Java 中 VO、POJO、DTO 的区别详解 ♢.＊ java 开发语言
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！在Java开发的广阔领域中，准确理解和
书籍-《人工智能：原理与实践》人工智能机器学习深度学习
书籍：ArtificialIntelligence:PrinciplesandPractice作者：GeorgeLuger出版：Springer编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《人工智能：原理与实践》01书籍介绍本书全面介绍了人工智能（AI），涵盖了理解AI所需的基础计算技术、数学原理、哲学思考以及工程学科。《人工智能：原理与实践》强调了AI的跨学科性质，整合了心理学、数学、神
2025最新Nginx高频面试题莫非技术栈 linux nginx nginx 运维
2025最新Nginx高频面试题摘要：本文整理了2025年企业高频Nginx面试题，覆盖核心原理、配置优化、安全防护及云原生场景实战，助你轻松应对技术面试！核心原理篇1.Nginx的Master-Worker架构优势是什么？答案：高并发处理：Worker进程独立处理请求，避免单线程阻塞。热升级：通过信号控制实现服务不中断升级（如kill-USR2）。资源隔离：Worker进程崩溃不影响整体服务。2
医院信息科医疗语言大模型开发的风险洞察与避坑策略 Allen_LVyingbo 医疗高效编程研发健康医疗人工智能互联网医院 python 开源
一、引言1.1研究背景与意义在数字化医疗快速发展的当下，医疗AI技术已成为推动医疗行业变革的核心力量。其中，医疗语言大模型作为自然语言处理技术在医疗领域的深度应用，正逐渐改变着医疗服务的模式与效率。从辅助医生进行疾病诊断、提供临床决策支持，到助力医学文献分析、药物研发等，医疗语言大模型展现出了巨大的应用潜力。例如，在疾病诊断环节，大语言模型可以通过对患者症状、病史等文本信息的分析，快速给出可能的疾
快速理解Redis 黄尚圈圈 redis sql
Redis是一种开源的、基于内存的数据结构存储系统，它可以用作数据库、缓存和消息中间件等。下面是对Redis的详细解析，包括其基本特性、数据结构、应用场景、安装及配置等方面的内容。一、Redis基本特性键值存储：Redis将数据存储在内存中，以键值对的形式存在。这种存储方式使得Redis能够快速检索数据。内存存储：由于数据存储在内存中，Redis提供了极快的读写速度，但同时也受限于可用内存的大小。
王坚院士谈算力革命，“对年轻人要足够地致敬” datawhale
DatawhaleDatawhale分享央视新闻，面对面：王坚院士来源：央视新闻，仅用于学术分享。**Datawhale整理了采访全文，供大家阅读。主持人：作为政协委员，今年您的提案里面会侧重于什么问题？王坚院士：我想我们今天讲的这个技术变革也好，特别是讲到人工智能也好，确实是一个时代的变革，是一个百年未遇的科技变革的时候。所以我今天比较关心的是人工智能+，我们怎么能有一些机制上的创新。王坚，全国
新手指南：Claude 3.7 Sonnet国内使用教程_claude 3.7国内怎么用,1分钟学会 claude
Claude3.7Sonnet是Anthropic公司发布的一款先进的人工智能对话模型，属于Claude系列的第三代产品。Claude3.7是Claude3.5的更新版本，它不仅继承了前代的强大功能，还在理解能力和生成能力上进行了全面的优化。Claude的命名灵感来源于信息理论的奠基人ClaudeShannon，作为现代信息技术的先驱，Shannon的名字象征着“智慧”和“创新”，也完美匹配了Cl
写百万长文的AI助手 cainiaojunshi 人工智能
现在AI跑生成大纲，没问题。AI生成设定，包括人物，势力等，也没问题，可以直接拿最火的基本小说参考。真正的难点，AI没有长文记忆，最多16000字，像个聪明的老年痴呆。方案思路：每次给AI的指令，用程序固定输出：系统提示词+rag知识库+用户提示词系统提示词：固定不变的东西，如写作风格（实现方法：固定变量）rag知识库：相关人物的历史经历，人物信息，场景信息。（作用：限制AI自由放飞乱写。实现方法
北大版，86页DeepSeek黑科技手册！比清华版更炸裂（免费下载） 2501_90850230 素材资源人工智能 DeepSeek 科技人工智能
北大最新的《DeepSeek提示词工程和落地场景》！这份文档刚在学术圈炸锅，作为国内首个系统性拆解推理大模型（DeepSeek-R1）落地方案的公开资料，其价值不仅在于揭示了一款国产模型的工程实践，更折射出大模型技术从实验室走向产业化的关键路径。手册下载：https://pan.quark.cn/s/881640172703DeepSeek全家桶北大版和清华版到底啥区别？技术定位：一个像社交达人，
深入解析Redis：核心特性与应用场景月落星还在 redis redis 数据库缓存
1.Redis的本质与定位Redis（RemoteDictionaryServer）是一个开源的、基于内存的键值对存储系统，属于NoSQL数据库的范畴。与传统的关系型数据库（如MySQL）不同，Redis以极致的性能和灵活的数据结构为核心设计目标，被广泛应用于缓存、实时数据分析、消息队列等场景。核心定位：Redis并非替代传统数据库，而是作为高性能的数据中间层，解决磁盘存储无法满足的高并发、低延迟
python打印小票_pyqt5 商店小票打印的实现模板 weixin_39789327 python打印小票
说明最近在用pyqt5做商店小票打印，用的是得力DL-581PW(NEW)热敏小票打印机。商店小票打印，属于escpos打印。在网上找了很多实现方法，看了很多相关文章，经历了很多困难，最后终于实现了。这里先分享一下我看过的文章和尝试过的方法，最后分享我的实现套路。一.使用execl打印很多场景，我都是使用win32com模块的execl打印，基本能解决大部分的打印问题。(相关的方法网上也有，可以找
树莓集团董事长谋略：构建全国第五代产业园的智慧树莓集团百度创业创新大数据物联网科技
树莓集团董事长以其高瞻远瞩的谋略，致力于构建全国第五代产业园，展现出非凡的智慧。在规划理念上，董事长突破传统产业园的模式，将第五代产业园定位为“智慧、绿色、创新、融合”的综合性园区。在智慧方面，引入物联网、大数据、人工智能等先进技术，实现园区的智能化管理。例如，通过智能传感器实时监测园区内的能源消耗、环境质量等数据，进行智能化调控，提高园区的运营效率和管理水平。在绿色发展方面，董事长注重可持续发展
揭秘树莓集团幕后老板，如何屡创商业奇迹树莓集团大数据物联网创业创新人工智能科技
树莓集团幕后老板以其卓越的商业智慧和独特的领导能力，屡创商业奇迹。树莓集团的老板具备敏锐的市场洞察力。在数字产业发展初期，就精准地捕捉到了数字经济的发展趋势，果断布局数字技术研发、投资和服务等业务领域。当人工智能技术刚刚兴起时，老板就意识到其巨大的商业潜力，提前加大在该领域的研发投入，使得树莓集团在数字技术方面走在行业前列。在企业战略规划方面，老板展现出了非凡的远见。制定了长期的发展战略，注重产业
树莓集团现状最新进展：宜宾园区业务再添新篇树莓集团百度人工智能科技大数据媒体
树莓集团在不断发展的进程中，宜宾园区传来了最新进展，业务再添新篇。近期，树莓集团宜宾园区在人工智能领域取得了重大突破。园区内的研发团队成功研发出一款适用于工业检测的人工智能视觉系统。该系统利用深度学习算法，能够快速、准确地检测出工业产品表面的细微缺陷，检测精度比传统检测方法提高了30%。这一成果不仅提升了宜宾园区在智能制造领域的竞争力，还为当地的制造业企业提供了更先进的质量检测手段。目前，已有多家
树莓百度百科再更新！又一项目落子宜宾树莓集团百度大数据人工智能媒体科技
树莓百度百科的再次更新，传递出树莓集团在宜宾发展的又一重要消息：又一项目成功落子宜宾。这一更新不仅反映了树莓集团的动态发展，也彰显了其在宜宾持续深耕的决心。此次新落地宜宾的项目，是树莓集团基于对宜宾市场与产业发展趋势的深入研究而做出的决策。该项目聚焦于数字经济与实体经济的融合发展，计划打造一个集数字技术研发、应用与传统产业升级服务于一体的综合性平台。在数字技术研发方面，树莓集团将依托宜宾当地的高校
ES学习记录6——ES的数据复制模型（单处理接口） jacksonary #ES Elasticsearch
9.数据复制模型单处理和批处理操作主要围绕数据复制模型来理解，具体接口如下：单文档处理接口：Index接口；Get接口；Delete接口；Update接口；多文档处理接口：MultiGet接口；批处理接口；DeleteByQueryAPI；UpdateByQueryAPI；ReindexAPI；每个ES索引都被分割为碎片shards，每个碎片又有多个副本(它们组成一个副本群，在文档添加和移除时
Deepseek 使用指南与提问优化策略西瓜拍两瓣 ai 语言模型 python gpt
序言随着人工智能技术的迅猛发展，语义搜索已成为提升信息检索效率和用户体验的核心工具。DeepSeek作为一款先进的语义搜索引擎，通过自然语言处理（NLP）和机器学习技术，能够深入理解用户查询的语义意图，提供高度精准的搜索结果。本文将详细介绍DeepSeek的核心功能、集成方法，并深入探讨如何通过优化提问策略，最大化利用DeepSeek的语义搜索能力，从而提升信息检索的效率和准确性。访问DeepSe
信刻光盘摆渡机——完全物理隔离,安全合规 cdprinter 安全
信刻光盘摆渡机是一款跨网安全数据摆渡设备，用于不同等级网络之间数据跨网安全传输的需求，采用智能光盘机械手臂，模拟人工取放光盘，在保持物理隔离的条件下，安全合规实现网间信息系统数据库及文件同步、网间信息数据交换、网间离线文件数据导入及导出，全程自动，无需人工干预。拥有国保测检测证书、信息安全专用产品销售许可证书。所研制的数据摆渡产品在安全物理隔离业务场景具有广泛应用案例。主要特性功能特点安全合规：完
【Python】OpenCV算法使用案例全解岱宗夫up 教学 opencv 计算机视觉人工智能算法
OpenCV算法使用案例全解前言OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库，它提供了大量的图像和视频处理功能。从简单的图像滤波到复杂的三维重建，OpenCV涵盖了计算机视觉领域的众多算法。本文将详细介绍OpenCV中常见算法的使用案例，帮助读者更好地理解和应用这些强大的工具。一、图像处理基础（一）滤波操作滤波是图像处理中最基
深入理解Java并发编程(一)：揭秘并发性能优化的底层机制西瓜拍两瓣 java 性能优化开发语言 jvm 笔记
序言Java并发编程是Java开发中非常重要的一部分，尤其是在高并发、高性能的应用场景中。为了更深入地理解Java并发编程，本文将详细讲解程序上下文切换、volatile关键字、Java对象头、synchronized锁升级和原子操作的原理与应用，并通过代码示例和图表帮助读者更好地掌握这些知识。1.程序上下文切换与并发性能1.1上下文切换概述上下文切换是指操作系统从一个线程切换到另一个线程的过程。
Apipost 和 Apifox：国产接口工具的深度对比绿色果酱测试工具 API Apipost Apifox 开发工具对比测试工具后端
在软件开发领域，接口测试工具是提升开发效率和保障项目质量的关键。Apipost和Apifox作为两款热门的国产接口测试工具，各自具备独特的优势和功能。本文将通过详细的对比帮助开发者和企业研发负责人更好地了解这两款工具，从而做出更合适的选择。一、功能丰富度对比功能描述ApipostApifox接口状态管理接口状态自定义支持，可灵活定义接口状态，适应企业内部流程支持不支持，仅提供固定模板认证类型支持提
MySQL，Oracle，MariaDB的区别纠结哥_Shrek mysql oracle mariadb
MySQL、Oracle和MariaDB都是流行的关系型数据库管理系统，它们各有特点，适用于不同的应用场景。以下是它们之间的主要区别：1.MySQL开发者：最初由MySQLAB开发，后来被Oracle公司收购。许可证：开源（GPL许可证），但有商业版本（Oracle提供）。性能与易用性：MySQL以其高性能、简洁的架构和广泛的社区支持而闻名，适合大多数Web应用程序，尤其是LAMP（Linux、A
74、掌握Go语言定时器与Ticker：有效处理周期任务多多的编程笔记 golang 开发语言后端
Go语言开发：定时器与Ticker简介Go语言（又称Golang）因其简洁、高效和强大的并发特性，被越来越多的开发者所青睐。在Go语言中，time包提供了定时器与Ticker，这对于需要周期性执行任务或者在特定时间执行任务的应用场景至关重要。本文将帮助你深入理解time包中的定时器和Ticker，并提供一些实用的技巧和案例。定时器（Timer）应用场景想象一下，你正在准备一顿晚餐，但你不想一直守在
75、Go语言并发利器：context包深度解析与实战技巧多多的编程笔记 golang 开发语言后端
Go语言开发：context包：学习context包，实现跨Goroutine的上下文传递本文将带你了解Go语言中的context包，学习如何使用它来实现跨Goroutine的上下文传递。我们将从基础概念入手，通过实际案例和技巧，帮助你更好地理解和应用context包。1.context包简介在Go语言中，Goroutine是并发编程的基础。然而，当我们在多个Goroutine之间进行数据传递时，
微调DeepSeek-R1打造SQL语言转自然语言大模型！小白也能十分钟打造自己的推理大模型！unsloth+Colab+DeepSeek-R1-Distill-Llama-8B轻松上手 AI超元域 sql llama 数据库 ai 人工智能 AI编程
本篇笔记所对应的视频：微调DeepSeek-R1打造SQL语言转自然语言大模型！小白也能十分钟打造自己的推理大模型！unsloth+Colab+DeepSeek-R1-Distill_哔哩哔哩_bilibili简介：DeepSeek-R1-Distill-Llama-8B是一个基于Llama架构的8B参数语言模型，经过深度蒸馏（distillation）处理，旨在提高推理效率和精度。通过蒸馏技术，
Qt5编译qmqtt库使用MQTT协议连接华为云IOT完成数据上传与交互 DS小龙哥 QT(C++)应用软件开发 qt 华为云物联网 qmqtt
一、前言随着物联网技术的发展，越来越多的设备通过网络互相连接，形成了庞大的智能系统。这些系统能够收集、分析并响应各种数据，从而实现自动化控制和智能化管理。在这个背景下，MQTT成为了一个广泛使用的轻量级消息传输协议，特别适用于资源受限的环境，如移动应用或远程传感器网络。MQTT的设计原则是低带宽、低延迟以及最小化网络流量，这使得它成为物联网场景中的理想选择。Qt是一个跨平台的应用程序开发框架，被广
嵌入式Qt5编译qmqtt库使用MQTT协议连接华为云IOT 嵌入式开发星球 qt 华为云物联网
一、前言随着物联网技术的发展，越来越多的设备通过网络互相连接，形成了庞大的智能系统。这些系统能够收集、分析并响应各种数据，从而实现自动化控制和智能化管理。在这个背景下，MQTT成为了一个广泛使用的轻量级消息传输协议，特别适用于资源受限的环境，如移动应用或远程传感器网络。MQTT的设计原则是低带宽、低延迟以及最小化网络流量，这使得它成为物联网场景中的理想选择。Qt是一个跨平台的应用程序开发框架，被广
python的统计库_python--学习笔记13 统计库 weixin_39959335 python的统计库
可以先绘制散点图查看数据分布情况，然后再使用检验包进行Statsmodels用于探索数据、估计模型、并运行统计检验的Python包。importstatsmodels.apiassmy=df['sepallengthh'][:50]x=df['sepalwidth'][:50]X=sm.add_constant(x)#在现有矩阵添加截距列results=sm.OLS(y,x).fit()#fit方
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 alxw4616@msn.com * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，