大叔爱学习.

自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）

文章目录

概述
- 单目3D感知
- - 3D目标检测
  - 单目深度估计
- 双目3D感知
- - 双目3D目标检测
  - 双目深度估计
Pseudo-LiDAR
- 1. 核心思路总结
- 2. 要点分析
Mono3D
FCOS3D
PSMNet

概述

自动驾驶中必不可少的3D场景感知。因为深度信息、目标三维尺寸等在2D感知中是无法获得的，而这些信息才是自动驾驶系统对周围环境作出正确判断的关键。想得到3D信息，最直接的方法就是采用激光雷达（LiDAR）。但是，LiDAR也有其缺点，比如成本较高，车规级产品量产困难，受天气影响较大等等。因此，单纯基于摄像头的3D感知仍然是一个非常有意义和价值的研究方向，接下来我们梳理了一些基于单目和双目的3D感知算法。

单目3D感知

基于单摄像头图像来感知3D环境是一个不适定问题，但是可以通过几何假设（比如像素位于地面）、先验知识或者一些额外信息（比如深度估计）来辅助解决。本次将从实现自动驾驶的两个基本任务（3D目标检测和深度估计）出发进行相关算法介绍。

3D目标检测

表示转换（伪激光雷达）：视觉传感器对周围其他车辆等的检测通常会遇到遮挡、无法度量距离等问题，可以将透视图转换成鸟瞰图表示。这里介绍两种变换方法。一是逆透视图映射（IPM），它假定所有像素都在地面上，并且相机外参准确，此时可以采用Homography变换将图像转换到BEV，后续再采用基于YOLO网络的方法检测目标的接地框。二是正交特征变换（OFT），利用ResNet-18提取透视图图像特征。然后，通过在投影的体素区域上累积基于图像的特征来生成基于体素的特征。然后将体素特征沿垂直方向折叠以产生正交的地平面特征。最后，用另一个类似于ResNet的自上而下的网络进行3D目标检测。这些方法只适应于车辆、行人这类贴地的目标。对于交通标志牌、红绿灯这类非贴地目标来说，可以通过深度估计来生成伪点云，进而进行3D检测。Pseudo-LiDAR先利用深度估计的结果生成点云，再直接应用基于激光雷达的3D目标检测器生成3D目标框，其算法流程如下图所示，

关键点和3D模型：待检测目标如车辆、行人等其大小和形状相对固定且已知，这些可以被用作估计目标3D信息的先验知识。DeepMANTA是这个方向的开创性工作之一。首先，采用一些目标检测算法比如Faster RNN来得到2D目标框，同时也检测目标的关键点。然后，将这些2D目标框和关键点与数据库中的多种3D车辆CAD模型分别进行匹配，选择相似度最高的模型作为3D目标检测的输出。MonoGRNet则提出将单目3D目标检测分成四个步骤：2D目标检测、实例级深度估计、投影3D中心估计和局部角点回归，算法流程如下图所示。这类方法都假设目标有相对固定的形状模型，对于车辆来说一般是满足的，对于行人来说就相对困难一些。

$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第1张图片$
2D/3D几何约束：对3D中心和粗略实例深度的投影进行回归，并使用这二者估算粗略的3D位置。开创性的工作是Deep3DBox，首先用2D目标框内的图像特征来估计目标大小和朝向。然后，通过一个2D/3D的几何约束来求解中心点3D位置。这个约束就是3D目标框在图像上的投影是被2D目标框紧密包围的，即2D目标框的每条边上都至少能找到一个3D目标框的角点。通过之前已经预测的大小和朝向，再配合上相机的标定参数，可以求解出中心点的3D位置。2D和3D目标框之间的几何约束如下图所示。Shift R-CNN在Deep3DBox的基础上将之前得到的2D目标框、3D目标框以及相机参数合并起来作为输入，采用全连接网络预测更为精确的3D位置。

直接生成3DBox：这类方法从稠密的3D目标候选框出发，通过2D图像上的特征对所有的候选框进行评分，评分高的候选框即是最终的输出。有些类似目标检测中传统的滑动窗口方法。代表性的Mono3D算法首先基于目标先验位置（z坐标位于地面）和大小来生成稠密的3D候选框。这些3D候选框投影到图像坐标后，通过综合2D图像上的特征对其进行评分，再通过CNN再进行二轮评分得到最终的3D目标框。M3D-RPN是一种基于Anchor的方法，定义了2D和3D的Anchor。2D Anchor通过图像上稠密采样得到，3D Anchor是通过训练集数据的先验知识（如目标实际大小的均值）确定的。M3D-RPN还同时采用了标准卷积和Depth-Aware卷积。前者具有空间不变性，后者将图像的行（Y坐标）分成多个组，每个组对应不同的场景深度，采用不同的卷积核来处理。上述这些稠密采样方法计算量非常大。SS3D则采用更为高效的单阶段检测，包括用于输出图像中每个相关目标的冗余表示以及相应的不确定性估计的CNN，以及3D边框优化器。FCOS3D也是一个单阶段的检测方法，回归目标额外增加了一个由3D目标框中心投影到2D图像得到的2.5D中心（X,Y,Depth）。

单目深度估计

不管是上述的3D目标检测还是自动驾驶感知的另一项重要任务——语义分割，从2D扩展到3D，都或多或少得应用到了稀疏或稠密的深度信息。单目深度估计的重要性不言而喻，其输入是一张图像，输出是相同大小的一张由每个像素对应的场景深度值组成的图像。输入也可以是视频序列，利用相机或者物体运动带来的额外信息来提高深度估计的准确度。

相比于监督学习，单目深度估计的无监督方法无需构建极具挑战性的真值数据集，实现难度更小。单目深度估计的无监督方法可分为基于单目视频序列和基于同步立体图像对两种。前者是建立在运动相机和静止场景的假设之上的。在后者的方法中，Garg等人首次尝试使用同一时刻立体校正后的双目图像对进行图像重建，左右视图的位姿关系通过双目标定得到，获得了较为理想的效果。在此基础上，Godard等人用左右一致性约束进一步地提升了精度，但是，在逐层下采样提取高级特征来增大感受野的同时，特征分辨率也在不断下降，粒度不断丢失，影响了深度的细节处理效果和边界清晰度。为缓解这一问题，Godard等人引入了全分辨率多尺度的损失，有效减少了低纹理区域的黑洞和纹理复制带来的伪影。但是，这对精度的提升效果仍是有限的。

最近，一些基于Transformer的模型层出不穷，旨于获得全阶段的全局感受野，这也非常适用于密集的深度估计任务。有监督的DPT中就提出采用Transformer和多尺度结构来同时保证预测的局部精确性和全局一致性，下图是网络结构图。

双目3D感知

双目视觉可以解决透视变换带来的歧义性，因此从理论上来说可以提高3D感知的准确度。但是双目系统在硬件和软件上要求都比较高。硬件上来说需要两个精确配准的摄像头，而且需要保证在车辆运行过程中始终保持配准的正确性。软件上来说算法需要同时处理来自两个摄像头的数据，计算复杂度较高，算法的实时性难以保证。与单目相比，双目的工作相对较少。接下来也同样从3D目标检测和深度估计两方面进行简单介绍。

双目3D目标检测

3DOP是一个两阶段的检测方法，是Fast R-CNN方法在3D领域的拓展。首先利用双目图像生成深度图，将深度图转化为点云后再将其量化为网格数据结构，再以此为输入来生成3D目标的候选框。与之前介绍的Pseudo-LiDAR类似，都是将稠密的深度图（来自单目、双目甚至低线数LiDAR）转换为点云，然后再应用点云目标检测领域的算法。DSGN利用立体匹配构建平面扫描体，并将其转换成3D几何体，以便编码3D几何形状和语义信息，是一个端到端的框架，可提取用于立体匹配的像素级特征和用于目标识别的高级特征，并且能同时估计场景深度和检测3D目标。Stereo R-CNN扩展了 Faster R-CNN 用于立体输入，以同时检测和关联左右视图中的目标。在RPN之后增加额外的分支来预测稀疏的关键点、视点和目标尺寸，并结合左右视图中的2D边界框来计算粗略的3D目标边界框。然后，通过使用左右感兴趣区域的基于区域的光度对齐来恢复准确的3D边界框，下图是它的网络结构。

双目深度估计

双目深度估计的原理很简单，就是根据左右视图上同一个3D点之间的像素距离d（假设两个相机保持同一高度，因此只考虑水平方向的距离）即视差，相机的焦距f，以及两个相机之间的距离B（基线长度），来估计3D点的深度，公式如下，估计出视差就可以计算出深度。那么，需要做的就是为每个像素点在另一张图像上找出与之匹配的点。

对于每一个可能的d，都可以计算每个像素点处的匹配误差，因此就得到了一个三维的误差数据Cost Volume。通过Cost Volume，我们可以很容易得到每个像素处的视差（对应最小匹配误差的d），从而得到深度值。MC-CNN用一个卷积神经网络来预测两个图像块的匹配程度，并用它来计算立体匹配成本。通过基于交叉的成本汇总和半全局匹配来细化成本，然后进行左右一致性检查以消除被遮挡区域中的错误。PSMNet提出了一个不需要任何后处理的立体匹配的端到端学习框架，引入金字塔池模块，将全局上下文信息纳入图像特征，并提供了一个堆叠沙漏3D CNN进一步强化全局信息。下图是其网络结构。

$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第2张图片$

Pseudo-LiDAR

1. 核心思路总结

首先利用DRON或PSMNET从单目 (Monocular)或双目 (Stereo)图像获取对应的深度图像(depth map)，然后将原图像结合深度信息得到伪雷达点云 (pseudo-LiDAR)，最后用pseudo-LiDAR代替原始雷达点云，以3D point cloud和bird’s eye view的形式，分别在LiDAR-based的F-PointNet以及AVOD上与图像的front view表示进行了比较，并对比了Image-based的Mono3D, 3DOP, MLF这三类方案。(好像就是一个深度估计+一个三维重建+一堆对比实验？)

图一：The Pipeline of Pseudo-LiDAR

Pseudo-LiDAR一堆对比实验如表一所示。其中蓝色字体为利用图像的pseudo-LiDAR表示，灰色字体为利用原始雷达点云，黑色字体为利用图像的前视图表示 (原始表示)。从表中可以看到，将图像转换为pseudo-LiDAR表示后，确实是bridged the gap between Image-based 3D Perception and LiDAR-based 3D Perception.

$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第3张图片$
表一：Comparison with Other Methods

2. 要点分析

The Inferior Performance of Image-based 3D Perception

众所周知，从2D图像进行3D感知本身就是一个ill-posed问题，因为图像缺少3D感知最为关键的深度信息。虽然通过单目或双目深度估计可以得到深度图像，但是其不准确的深度信息会严重影响网络对三维空间的理解。这也是为什么目前主流的3D感知算法都会采用LiDAR的原因，即为什么LiDAR-based 3D Perception要远远优于Image-based 3D Perception, 因为LiDAR提供的深度信息是完全无误的。

但是，真正的原因好像不仅仅局限于此。

让我们先分析一下目前的Image-based 3D Perception方案具体是怎么做的：一种方式是通过深度估计将深度信息作为additional channel加到原始图像后；另一种方式也是以叠加的方式，加入ground, class semantic, instance semantic, shape, context, location等hand-crafted features, 见图二，以尽可能提供多方位的空间信息。那么，神经网络能够有效地从这些“无脑”叠加的多类特征图中感知到三维物体的真实属性吗？

$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第4张图片$
图二：Hand-crafted Features in Mono3D

接下来，我们可以看一个实验结果，如图三。其中，左上是由原始图像 (front view)估计的深度信息，左下是对应得到的pseudo-Lidar (BEV形式)，右上是原始深度图通过二维卷积得到的结果，右下是将经过2D卷积处理后的深度图像变换到三维空间的点云。我们可以看到，原图像的深度信息经过2D卷积后发生了剧烈的畸变扭曲，原始的车辆形状也发生了巨大的改变。

$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第5张图片$
图三：The Result of 2D Convolution to the Frontal View Depth Map
因此，2D卷积在以front view形式的Image-based 3D Perception中并不work. 以下给出理论分析：

(1) Physically Incoherent

在2D图像中，不同深度的物体均呈现在同一个平面上，因此在卷积核的某一感受野之内，不同物体实际上是physically incoherent, 但相邻的像素点之间并没有显式表示这种关系。比如图四的bounding box中，按深度从小到大排序有手、球拍、人脸等物体，这些物体以front view的形式是连贯在一起的，而网络并不能感知到实际的physically incoherent关系。Focal Loss的提出也是为了解决类似的前景、背景不平衡的问题，但是个人认为更重要的原因是2D图像的front view表示形式，严重限制了神经网络的2D和3D Perception.

$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第6张图片$
图四：Physically Incoherent Example of a 2D Image

(2) Different Scales

在front view后简单叠加depth map, 虽然能够提供重要的深度信息，但是仍然没有直观地展示真实三维空间的分布属性。除此之外，越远的物体在front view中是越小的，而检测小物体本身就是一个比较难的任务。因此，深度图中不同尺度的物体也增加了Image-based 3D Perception的难度。

$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第7张图片$
图五：Different Scales Example of a Depth Map

综上，目前的Image-based 3D Perception方案较差的性能主要是由于front view这种2D图形表示，而不是之前一直纠结的不准确的depth map. 表二给出了实验论证，使用相同方法估计的depth map, 以BEV形式 (pseudo-Lidar投影得到)的3D Perception要远优于FV+depth map的形式。

$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第8张图片$
表二：Comparison between FV and BEV
2. The Promising Performance of LiDAR-based 3D Perception

经过上面的分析，LiDAR-based 3D Perception的优越性便显而易见了。首先，在三维点云中(或BEV), 卷积和池化操作的区域都是physical nearby, 不同位置的不同物体并不会混为一谈；其次，物体的尺度具备深度不变性，保持了三维空间中最原始的尺度。

总之，虽然本文没有任何技术层面的创新与改进，但是重新审视了Image-based 3D Perception的致命点，能够给目前的三维感知一些重要的启示。正如作者所说的:“Sometimes, it is the simple discoveries that make the biggest differences”.

四、一些思考

Inspiration from 3D Perception to 2D Perception

我们知道，目前几乎所有的3D Detector都是继承了2D Detector的结构以及设计思路 (除了PointNet)，其改进的主要思想也都是来自2D Detector. 但是，从pseudo-Lidar对3D Detection的探讨中，我们也可以得到有益于2D Detection的启发，即主要限制复杂场景物体检测的原因是2D图像的front view表示。因此，对于这种场景，通过depth estimation-point cloud-3D detection-2D projection可能会比在FV上用focal loss更有效。

Fusion of LiDAR and pseudo-LiDAR

这也是作者在future work中提到的，因为雷达点云虽然精确并有反射强度信息，但是非常稀疏，而且线数不同分辨率也不同。相比之下，pseudo-LiDAR虽然不是特别精确，但是比雷达点云要密集的多，且具备RGB颜色信息。因此，将两者进行融合 (互补)，会是一个比较有意思的工作。这样比传统的RGB image & LiDAR point cloud fusion方式，比如MV3D, AVOD等，更加易于神经网络感知。

此外，可以尝试在pseudo-LiDAR和LiDAR之间架一个GAN，以生成更高精度的pseudo-LiDAR，使得Image-based 3D Perception性能进一步接近LiDAR-based 3D Perception，即在自动驾驶中，使相机完全代替雷达成为可能。

Mono3D

$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第9张图片$
假设目标位于地面之上，以及目标的先验的大小，根绝目标的平均大小设置，根据这两个信息，稠密的生成3D物体候选框。在KITTI，车辆生成4w候选框，行人生成7w的候选框。根据最远距离和采样间隔决定的。对于每一幅图像，就可以生成稠密的3D物体候选。有了候选之后，我们将他们投影到2D图像，得到2D的候选框，2D候选框和视觉特征，根据评分，过滤到背景的候选框，以及NMS除去高度重叠的候选框，和2D视觉RPN是非常小相似的。因为2D的候选框和3D的候选框是一一对应的，我们就就知道了3D的候选框，再对3D候选框大小进行修正回归（之前是平均值）。

FCOS3D

$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第10张图片$
FCOS3D是FCOS在3D的扩展，实际上FCOS3D和FOCS在网络结构非常的相似，从pipeline可以看粗，backbone和neck和FCOS是完全一样的，FCOS3D在多个特征图上进行了预测。FCOS3D的不同在于：
$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第11张图片$
$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第12张图片$
b是2D的中心，c是3D中心点在2D的投影，所以b和c是不同的。最终我们还要得到物体在3D的中心点，无论是通过图像还是其他信息，我们关心是在3D的中心点，而不是2D的bb的几何中心。
这里借助反变换，因为知道了c的深度，我们可以计算。
物体的长宽高LWH，直接在2d的图像上进行回归。
目标的朝向，理论上也应该是3D的变量，但是车辆俯仰角和左右的倾斜，在一般的应用中，值比较小，实际应用作用不大。最重要的角，就是相对于z轴的旋转，对应的车身的一个朝向，正前方，还是45度，还是90度。FOCS3D只回归这个角度。

$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第13张图片$
centerness在3d和2d不同。以3D中心点在2D的投影为原点的高斯分布（上面提了），利用高斯分布，来定义centerness。alpha是高斯的参数，deltax和deltay。

$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第14张图片$
FCOS3D网络结构比较常见，速度也比较快。
在3D的情况下IOU>0.7已经是比较苛刻的条件了。在L2纯视觉，L3和L4都有激光雷达，不需要图像来做3D的信息了。尤其是单目的。这里3D单目的物体检测，主要是以辅助。 $自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第15张图片$

PSMNet

$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第16张图片$
双目系统不需要先验知识、几何约束、以及大量的数据。而是通过视差的概念来恢复当前目标点的深度信息。双目感知不依赖物体检测的结果，不需要知道当前物体的形状和信息，只需要知道是我们想要的目标点，两个相机都可以看到目标点。可以对场景任意一点，进行深度估计。
$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第17张图片$
xl左边成像位置点，xr右边成像位置点。xl和xr的差值d就是视差。所以深度估计的关键就是估计视差。

$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第18张图片$
将场景的深度估计转为视差估计。深度估计是以米为单位，视差的单位是像素。比如深度估计的范围是90-1.7m，视差的范围可能对应是1-10个像素。

可以利用深度学习对周围的区域，进行特征的提取，来帮助引入有用的特征计算视差。

$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第19张图片$
$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第20张图片$
$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第21张图片$
average pooling的尺寸越大，说明越是全局的特征，尺寸越小，越是局部的特征。SPP就是要找到不同层次的特征进行融合。
$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第22张图片$
H‘和W’是原图像的1/4. D个可能的视差值，左侧和右侧的特征图，进行不同像素的移动。将移动后的特征图再进行拼接，多余的部分cut掉。每一个视差值得到的H‘和W’的特征图，channel是2C，原来的2倍。个数是D个。
H‘*W’D2C。

$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第23张图片$
$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第24张图片$
找到D中最小值，就是每个像素点的视差值，再通过视差去计算深度。
$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第25张图片$
$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第26张图片$
基线长度就是2个摄像头之间的距离。
$自动驾驶 2D 单目\双目\多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）_第27张图片$

关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
【加密算法基础——对称加密和非对称加密】 XWWW668899 网络安全服务器笔记
对称加密与非对称加密对称加密和非对称加密是两种基本的加密方法，各自有不同的特点和用途。以下是详细比较：1.对称加密特点密钥:使用相同的密钥进行加密和解密。发送方和接收方必须共享这个密钥。速度:通常速度较快，适合处理大量数据。实现:算法相对简单，计算效率高。常见算法AES(高级加密标准)DES(数据加密标准)3DES(三重数据加密标准)RC4(流密码)应用场景文件加密磁盘加密传输大量数据时的加密2.
scanf占位符的一些用法阿玉的屋檐 c语言初学者算法数据结构 c语言青少年编程学习
1.限制输入数据的长度intmain(){inta=123456;scanf("%3d",&a);printf("%d",a);return0;}如果输入的值大于3位则最多读取输入的只读取前3位数据。2.匹配特定字符charss[6];scanf("%[abcd]",ss);%[abcd]表示只读取字符abcd，遇到其它的字符就读取结束，如果abcd字符在字符串的中间部分那么就不能正常读取字符。如
ffmpeg批量将tif文件转成jpeg格式 winfredzhang 图像工具 ffmpeg tif jpeg 转换
1、cmd2、切换到安装ffmpeg的路径。3、输入命令：ffmpeg-start_number001-i"D:\ocr\%03d.tif"-start_number001-pix_fmtyuv420p-qscale:v1"D:\ocr\%03d.jpg"结果。
python画图|同时输出二维和三维图西猫雷婶 python 开发语言
前面已经学习了如何输出二维图和三维图，部分文章详见下述链接：python画图|极坐标下的3Dsurface-CSDN博客python画图|垂线标记系列_如何用pyplot画垂直x轴的线-CSDN博客有时候也需要同时输出二位和三维图，因此有必要学习一下。【1】官网教程首先我们打开官网教程，链接如下。https://matplotlib.org/stable/gallery/mplot3d/mixed
现在做什么副业比较赚钱？现在副业干什么挣钱？手机聊天员赚钱平台
什么副业适合晚上下班？现在很多人白天正常工作，晚上做副业，不仅可以打发无聊的时间，还可以提高收入！有些人的副业收入可能比主营业务收入高！给大家推荐一个陪聊赚米项目叭，正规陪聊项目，网易云旗下大平台，无任何费用，下方有微信二维码，可扫码了解，也可点击链接，联系我们了解：https://www.jianshu.com/p/a8b7493d9f71我长期从事人力资源工作，也认识很多下班后从事副业的人。有
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
2019-03-19 Fiona_8bba
春暖花开。上周二鼓励三年级孩子5点下了国际象棋课独自回家。开始是非常害怕，在校门口打了一个电话给爸爸，进门后又打给爸爸说到家了。经过鼓励，周四五点下了3D打印社团，又独立回家了。到周五，问他，你愿意去托管再上隔壁跆拳道还是自己回家，再去跆拳道？他说我愿意自己回家。周末正式和托管说不去了，把孩子的托管课时转入书法。昨天周一第一次3点放学就回家。嘱咐如下：第一步，进门就洗手。第二，按按钮烧水，烫奶。吃
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
开发游戏的学习规划杰克逊的日记游戏学习
第一阶段：●C#语言快速系统地学习一遍（基础的语法、面向对象、基础的数据结构、基础的设计模式）●Unity的2D和3D部分及UI、动画、物理系统●阶段性测验：需要去用前面所学的这些基础知识来完成一个简单的2d或者3d的案例，将通过一个自制的《Flappybird》游戏案例讲解游戏开发的思想及方法，并将《Flappybird》这个游戏进一步改造成一个横版射击类游戏《Crazybird》以巩固并且升华
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
详解C语言中的循环语句埋头编程~ C语言 c语言开发语言
文章目录1.前言2.while循环2.1if和whlie的对比2.2while语句的工作机制2.3while循环的实践3.for循环3.1for循环语法3.2for循环的工作机制3.3for循环实践4dowhile循环4.1dowhlie循环语法4.2dowhile循环的工作机理4.3dowhile循环实践5.break和continue语句5.1break举例5.2continue举例6.got
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
OrangePi5 RK3588本地部署基于Cesium的WebGL应用 vinlandtech webgl
基于OranglePi5平台，本地部署WebGIS应用步骤：1、下载oranglepi5ubuntu22.04镜像，按用户手册进行烧写。链接：https://pan.baidu.com/s/1g-TO3DeIl1M1JfAPHbCyxg提取码：vlzt2、下载安装WebGL工具包。该软件包针对RK3588WebGL应用进行一定优化。链接：https://pan.baidu.com/s/1jP__h
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
2.8.5Django --8.2 单表操作寒暄_HX
Django目录：https://www.jianshu.com/p/dc36f62b3dc5Yuan先生-Django模型层（1）Django与SQLAlchemy的ORM操作本质上是一样的，但是语法略有不同，如果是用Django进行开发最好使用原生的ORM或者直接使用原生SQL。创建表app06创建模型在app06中的models.py文件内，新建一个模板。one_exa.app06.mode
Win11安装mysql5.7.24  嘘  MYSQL mysql
Win11安装mysql5.7.24资源文件mysql安装过程资源文件mysql5.7.24免安装压缩包下载链接：https://download.csdn.net/download/weixin_44174685/89738053DirectX（用来修复缺失dll）下载链接：https://download.csdn.net/download/weixin_44174685/89737971my
在职四战考研3day MM加油女孩
今日已完成考研任务：与教务处老师联系，学习怎么正确使用书籍；看333教育综合大纲；日总结：下午下班后与教务处老师联系，老师跟我讲了资料的正确使用方式，心里也有了大概的思路——根据老师提供的教材，我第一轮需要用到的资料就是一本通+网课，书籍只作为辅助对象，倘若网课里的内容听懂了，老师说书籍就可以不看了。第二轮复习：就是网课+自己构建思维导图，并尝试做333教育综合的主观题；第三轮复习：背诵客观题起码
[Unity 3d] VertexPaint （Mesh 顶点画手） - GitHub 雨落随风
一个Mesh顶点动画绘制工具。GitHub上的工程多如繁星，有些好的仓库，但凡不经意间错过了就很难找回，故稍作采撷，希望能帮助到有心人。简介：笔者今天推荐的仓库叫VertexPaint。-顶点画手ThispackageallowsyoutopaintinformationontotheverticesofameshintheUnityeditoraswellasmodifyanyattribute
PCL 怎样可视化深度图像 LeonDL168 PCL 计算机视觉人工智能视觉检测图像处理算法
本小节讲解如何可视化深度图像的两种方法，在3D视窗中以点云形式进行可视化（深度图像来源于点云），另一种是，将深度值映射为颜色，从而以彩色图像方式可视化深度图像。代码首先，在PCL（PointCloudLearning）中国协助发行的书提供光盘的第7章例2文件夹中，打开名为range_image_visualization.cpp的代码文件，同文件夹下可以找到相关的测试点云文件room_scan1.
CesiumJS+SuperMap3D.js混用实现可视域分析 S3M图层加载裁剪区域绘制 SteveJi666 WebGL cesium EarthSDK SuperMap 3d javascript 前端 arcgis
版本简介：cesium：1.99；Supermap3D：SuperMapiClientJavaScript11i(2023)；官方下载文档链家：SuperMap技术资源中心|为您提供全面的在线技术服务示例参考：support.supermap.com.cn:8090/webgl/Cesium/examples/webgl/examples.html#analysissupport.supermap
vue3+ts+supermap icilent3d for cesium功能集合用你的胜利博我一笑吧 arcgis
会把各项功能链接放在这1.vue3配置supermapicilent3dforcesiumvue3中使用supermapicilent3dforcesium_npm引入supermapgis-CSDN博客2.功能2.1加载天地图，加载地形，夸大地形supermapicilent3dforcesium加载地形并夸大地形-CSDN博客2.2加载雨雪天气，并添加白色的材质2.3调整图层高度，透明度等信息
CesiumJS+SuperMap3D.js混用实现通视分析 SteveJi666 WebGL cesium EarthSDK SuperMap 3d javascript 前端 arcgis
版本简介：cesium：1.99；Supermap3D：SuperMapiClientJavaScript11i(2023)；官方下载文档链家：SuperMap技术资源中心|为您提供全面的在线技术服务示例参考：support.supermap.com.cn:8090/webgl/Cesium/examples/webgl/examples.html#analysissupport.supermap
Unity3D多线程UI之ScrollYExtand 胡强_79a4
先附上git地址https://github.com/huqiang0204/huqiang.UnitySubThreadUI示例代码请看ScrollExTestPage可以绑定三种模型，头部，尾部，和中间数据部分这里只用到了中间数据模型和头部模型Listdatas=newList();ScrollYExtand.DataTemplatetmp=newScrollYExtand.DataTempl
第十天：坐在家中浪中国丹山人
别老刷抖音、快手了，手都刷成抖手了还刷。点开下面的连接看一下，大好河山尽在掌握。宅在家里一样可以信马由缰过草原、风驰电掣穿戈壁、翻山越岭登雪山、乘风破浪游海岛、佛心禅音拜寺庙、三六一度看古迹、走街串巷访民居，气定神闲逛都市。疫情不时成点状突发，考虑到有时大家可能宅得无聊了，国家将国内外500多个景点，做成全景3D模式，喜欢哪个点哪个，还有导游讲解，让你身临其境。体验足不出户的旅游方式。这就是中国！
Open3D 实现CSF布料模拟算法今夕是何年，单目+双目 Open3d 计算机视觉
目录一、算法原理二，详细过程三，环境安装四，代码实现五，结果展示6，在cloudcompare中的实现一、算法原理1、流程概述1）利用点云·滤波算法或者点云处理软件滤除异常点;2）将激光雷达点云倒置;3）设置模拟布料，设置布料网格分辨率GR，确定模拟粒子数。布料的位置设置在点云最高点以上;4）将布料模拟点和雷达点投影到水平面，为每个布料模拟点找到最相邻的激光点的高度值，将高度值设置为IHV;5)布
Open3D 使用RANSAC分割平面今夕是何年，单目+双目计算机视觉
目录1，概述2，拟合平面3，实现过程4，主要函数：defsegment_plane(self,distance_threshold,ransac_n,num_iterations):'''5，代码实现6，结果展示1，概述随机抽样一致性算法QRANSAC(Randomsampleconsensus)是一种迭代的方法来从一系列包含有离异值的数据中计算数学模型参数的方法。RANSAC算法本质上由两步组成
unity3d怎么让模型动起来_Unity动画系统详解1：在Unity中如何制作动画？ DataDuchess unity3d怎么让模型动起来
摘要：在场景中加入动态的物体，可以让整个场景更加生动、真实。Unity场景中的物体可以通过制作动画，让物体动起来。简单的动画如物体的移动、旋转(比如旋转的风扇、闪烁不定的灯泡等)，复杂的动画如游戏中角色的动作、面部表情等。洪流学堂，让你快人几步。你好，我是跟着大智学Unity的萌新，我叫小新，这几周一起来复(yu)习(xi)动画系统。包含动画的场景小新：“智哥，我想在场景里加上一个旋转的风扇怎么做
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

自动驾驶 2D 单目\双目\多目视觉方法 一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）