开始学AI

基于深度学习的单幅图像三维物体重建综述

原文链接：https://link.springer.com/article/10.1007/s11042-020-09722-8

摘要：从单幅图像中重建三维目标是计算机视觉领域的一个重要课题。近年来，利用深度学习技术对单幅图像进行三维重建取得了显著的成果。传统的从单幅图像重建三维物体的方法需要先验知识和假设，而且重建的物体被限制在一定的范畴内或很难从一幅真实的图像中完成良好的重建。虽然深度学习凭借自身强大的学习能力可以很好地解决这些问题，但它也面临着很多问题。在本文中，我们首先讨论了应用深度学习方法从单一图像重建三维对象所面临的挑战。其次，我们全面回顾了用于单个图像三维重建的编码器、解码器和训练细节。然后，介绍了近年来单幅图像三维目标重建的常用数据集和评价指标。为了分析不同的三维重建方法的优缺点，我们使用了一系列的实验进行比较。此外，我们简单地给出了一些有关单幅图像三维重建的应用实例。最后，对本文进行了总结，并对未来的研究方向进行了展望。

关键词：单幅图像三维重建;深度学习，计算机视觉，三维形状表示

1 引言

图像的三维重建是计算机视觉、医学图像处理[74,4]和虚拟现实[109]中的一个常见课题。计算机视觉相关理论和技术的主要目的是从图像或多维数据中获取信息，建立人工智能系统。图像的三维重建是计算机视觉的主要任务之一，其目的是研究单幅图像或多幅图像生成相应的三维结构[93,82]。根据重建目标的不同，图像的三维重建可分为三维场景重建和三维物体重建。单视图三维场景重建的一大挑战是从单幅图像中预测不可见的部分[38,108,100]。多视点三维场景重建[36,39]和多视点三维物体重建[18]可以整合多幅图像的信息，弥补单幅图像预测不确定性对不可见部分的缺陷。与传统的多视图三维重建方法[25,95]和模型[14,45]相比，深度学习具有处理大数据的能力。因此，近年来有很多将传统方法与深度学习相结合的研究[114,149,27]。

一些研究回顾了图像三维重建技术[32,143]。Ham等人[32]回顾了单幅静止图像的三维重建、RGB深度图像、二维图像的多视角和视频序列的方法。Ham等人回顾的方法大多使用传统的三维重建算法，少数方法使用深度学习技术。Yuniarti等[143]简要回顾了基于深度学习的单幅或多幅图像三维重建方法。这篇综述不同于Ham等人或Yuniaart等人的综述。我们对基于深度学习的单幅图像三维重建方法进行了较为全面的回顾，包括该方法面临的挑战、不同三维表示的重建算法、三维重建训练体系等。本文的主要研究目标是从单幅图像中重建三维物体。单幅图像的三维物体重建问题类似于单幅视图的三维场景重建问题。由于单幅图像丢失了大量的三维对象信息，重建结果具有不确定性。传统的对单幅图像进行三维物体重建的方法通常是基于已有模型[5,52]，或者使用二维标注[49]。这些方法通常局限于某一类物体的重建。例如，假设照明是固定的，形状由阴影恢复[92,20,2]。假设表面平滑，由纹理恢复形状[68]。由于实际数据集的复杂性，这类需要假设的模型在实际应用中效果较差。

近年来，随着深度学习的不断兴起，利用深度神经网络从单一的二维图像中重建三维物体成为一个热门方向[147]。基于深度学习的三维物体重建方法是训练神经网络学习二维图像和三维物体之间的映射关系。本文的主要动机是提供近年来使用深度学习从单个图像生成三维形状的概况。重点分析了单幅图像三维重建面临的主要挑战和研究方法。这些挑战和方法代表了未来深度学习在单幅图像三维重建中需要解决的问题和发展趋势。在第2节中，本文首先讨论了基于深度学习从单个图像重建三维对象所面临的挑战。在第3节和第4节中，我们将分别介绍目前在三维多媒体工具和应用中使用的编码器和解码器。第5节介绍了许多文献中公开的训练细节，包括损失函数和网络训练体系结构。在第6节中，我们介绍了用于三维重建实验的数据集和评估指标。在第7节中，我们进行了多次对比实验，分析了不同三维重建方法的优缺点。在第8节中，我们将介绍单幅图像三维重建的相关应用。第9节对全文进行了总结，并展望了未来的发展趋势。

2 单幅图像三维物体重建的挑战

基于深度学习的单幅图像三维重建面临多重挑战，导致这一方向的发展仍处于起步阶段。一般来说,一个图像的三维重建主要有以下挑战:(1)重建物体的形状复杂性,(2)重建对象的不确定性,(3)重建的细粒度对象,(4)内存需求和计算时间,(5)训练数据集,(6)选择性的3 d形状表示。

2.1 挑战1:物体的形状复杂性

首先，物体形状复杂性主要体现在不同类别物体形状的差异上，存在于对同一类别物体进行个体训练和不同类别物体联合训练的重构结果中。因此，一个好的三维重建模型应该具备对不同复杂程度的物体进行表征的能力。此外，模型需要了解不同对象类之间的各种连接，同时在相同的对象类之间保持自己的唯一性。其次，物体的形状复杂性也体现在其本身。一个简单物体的结构通常可以用多个长方体的组合来表示。当小部件占整体结构的比例较小时，简单的物体往往具有较高的重构分数。然而，当复杂对象的结构较小，且有细粒度的部件(如枪扳机)时，重构结果往往较差。在这种挑战下，提高重建的三维物体的分辨率是一个相对简单的解决方案。

2.2 挑战2:对象的不确定性

单幅图像三维重建是一个不适定问题[78]。由于单个图像丢失了大量的三维信息，且缺乏先验知识或假设，其重建结果并不独特。因此，最近一些研究试图通过一些辅助手段来预测正确的形状[31]。对于人类来说，我们可以根据自己丰富的经验积累，从单一的RGB图像中推断出不可见的3D形状。这从侧面反映了基于深度学习的单幅图像的三维重建需要足够的数据集来进行训练。

2.3 挑战3:重构细粒度对象

对于大多数3D重建模型，他们的目标是生成具有细粒度的3D对象，而不仅仅是粗略的3D表示。不同的三维形状表示面临不同的困难。多媒体工具和应用，例如基于体素的三维重建方法，大多数都面临较高的内存使用量和计算成本。基于网格的方法大多受到网格拓扑结构的限制。对于不同的三维重建方法，在第4节中给出了相应的解决方案。然而，他们都有需要解决的问题。因此，如何从单幅图像中重建细粒度的三维物体是一个巨大的挑战。

2.4 挑战4:内存需求和计算时间

对于一个优秀的单幅图像三维物体重建模型来说，参数应该是轻量级的。此外，由于内存要求有限，不仅需要从单个图像中重构出正确的细粒度部件形状，而且需要良好的训练和推理时间。目前，针对这一挑战，第四节介绍了一些解决方案。

2.5 挑战5:训练数据集

深度神经网络能够在大模型、大计算时代发挥其强大的学习能力，这归功于现有的大数据。然而，最近的研究表明，基于深度学习的单幅图像三维物体重建实际上学习了识别能力(搜索和聚类)[112]，但很少学习重建能力。ShapeNet[7]数据集是一种常用的三维对象重建数据集。整个数据集通常分为一个训练集，一个验证集和一个测试集。由于测试集和训练集中的3D模型高度相似，神经网络可能会被误导学习识别。此外，野生数据集和合成数据集之间存在很大的差异。对于未被神经网络看到的图像，可能会导致不同的重建结果，选择不同的坐标系统来重建三维形状[99]。真实数据集中的图像内容比较复杂，比如遮挡、多类对象、不同的光照等。因此，在一个干净的合成数据集上训练后，很难在真实数据集上完成目标的三维重建。近年来，很多研究试图使用纹理数据集[16]和nd背景数据集来渲染2D图像[135]。然而，实际渲染的2D图像集与真实场景的2D图像集之间仍然存在较大的差异，对渲染的数据集进行训练后，模型很难适应真实场景中的数据集。最后，利用该模型重建的三维形状较差。因此，如何改进现有的训练数据集，使其适合于三维重建是一个具有挑战性的问题。

2.6 挑战6:3D形状表示的选择性

目前的研究大多选择不同的三维形状表示来完成单个图像的三维重建。基于体素表示的方法可以使用三维卷积神经网络(CNN)，可以重构任意拓扑结构的对象。然而，大量的内存需求和计算时间限制了大多数方法的重建结果的低分辨率。虽然对这一问题提出了很多改进[111,88,103]，但重建结果仍然无法实现超高精度重建。点云表示相对简单，灵活性高。由于点云不是一个规则的结构，它不能很好地适应传统的3D CNN。网格有助于在三维对象、多媒体工具和应用中恢复模型的细节，其表示精度高。同样，网格不是一种规则的几何数据形式，所以它不能直接应用3D CNN。目前基于网格的研究大多采用网格模型变形的方法。然而，该方法不能很好地处理未知拓扑对象。虽然有些方法解决了拓扑问题[83,29]，但也引入了一些问题。参数化和隐式曲面表示方法都可以用光滑的表面来表示对象，生成的对象具有更好的视觉吸引力。然而，基于参数曲面表示的三维重建难以适应全局曲面参数化方法重建多属复杂结构对象[101]。用多个局部参数化曲面逼近三维形状也面临曲面之间的拼接问题。基于隐式曲面表示的解码器需要预测三维空间中的所有点，这在推理阶段非常耗时。使用体元来表示三维形状可以预测相对正确的三维结构。由于用于表示三维形状的体元相对简单，该方法目前只能重建简单的三维结构。表面原语使用多个平面贴片来近似三维形状。该方法虽然简化了三维表示，但也需要解决平面间的拼接问题。一般来说，这些3D表示有利有弊。

3 二维编码器

利用深度学习技术对二维图像进行三维重建是近年来的研究热点。深度学习也被称为深度神经网络。深度神经网络的学习能力可以用来完成许多与计算机视觉相关的任务，如图像分类[118,44]，图像分割[3,10,11]，目标识别[144,126,106]，图像超分辨率[54,47,61,665]。深度学习方法在二维图像领域的成功应用也促进了三维重建任务的发展[91,19,87,48,97,13,24,77,1,151]。一般来说，基于深度学习的三维重建模型可以将输入图像集表示为I = {I1, I2，…，In}，设对应的真三维形状为Y，重构后的三维形状可通过式(1)进行优化:

其中fσ(·)表示重构器，包括2D编码器和3D解码器，σ表示f(·)参数集。重构器从输入图像中重构出三维形状。dis是重建形状与地真形状之间距离的度量，当两者达到最小值时表示为L。

在二维编码器阶段，输入图像被编码到一个潜在空间进行特征压缩。根据编码方法，可分为编码到离散潜空间的图像和编码到连续潜空间的图像。对输入图像进行编码的方法可进一步分为直接编码和中间表示编码。对离散空间进行图像编码的常用网络有标准卷积(Conv)网络、残差网络(ResNet)、递归神经网络(RNN)和全连接(FC)网络。将输入图像编码到一个连续的潜在空间中，通常使用变分自编码器[55](VAE)的编码器部分。将输入图像编码到潜在空间的比较结果如表1所示。

3.1 图像到离散潜在空间

通过这种方式，编码器将输入图像编码成一个低维的潜在层向量。然后解码器将潜在层向量映射到3D形状。将图像编码到离散的潜在空间中，大致可以分为两种方法。第一种方法是二维卷积神经网络直接将输入图像编码为一个固定的低维潜在向量。第二种方式，首先对输入图像进行编码以生成一个中间表示(如2.5D表示)，然后对中间表示进行类似于第一种方式的编码。

3.1.1直接编码

对于大多数三维物体重建方法，它们直接将输入图像编码到一个低维的离散潜在空间中。编码示意图如图1所示。

Choy等人[15]提出了浅残差网络和深残差网络。浅网络使用标准的卷积神经网络将输入图像编码为低维特征。深度残差网络采用一种快捷连接方式对标准卷积神经网络进行改进。类似地，Shin等人[99]使用了带有残余单元的编码器。此外，还有关于循环2D编码器的研究[138]。

随后，Girdhar等人[28]引入了TL-embedding网络。在T-network的底部，使用5个标准卷积层将输入图像编码到一个64D嵌入空间中。在T-network的顶部，一个输入的20×20×20体素网格通过3D自动编码器编码到一个64D嵌入空间中，输出的相同大小的体素网格被解码。此外，也有很多研究使用标准的卷积网络进行直接将输入图像编码到离散的隐藏空间。[137, 86, 115, 136, 122]。除了使用卷积神经网络，一些研究还使用了全连接网络[26]。

3.1.2 中间表示编码

许多研究首先试图通过2D编码器-解码器网络生成输入图像的中间表示。然后，使用2D编码器将中间表示编码为潜在向量，基本编码图如图2所示。Wu等129] 提出了MarrNet。他们首先使用ResNet-18[34]将一张256×256 RGB图像编码成多个特征映射。然后，通过解码器输出相应的中间表示(深度映射、表面法线和轮廓图像)。然后，中间表示被编码成一个200维向量。最后，该矢量通过解码器输出128×128×128体素网格。此外，也有一些类似的研究[110,130,148]。

3.2 图像到连续的潜在空间

与将图像编码到离散的潜在空间不同，将图像编码到连续的潜在空间更注重学习潜在特征空间中的概率密度函数，基本编码图如图3所示。VAE的编码器所观察到的样本的目标分布和产生一个向量意味着均值µ和方差σ参数化的高斯分布,采样产生潜在的向量。能够使用反向传播技术优化网络参数,网络需要使用reparameterization技巧,从单位ɛ高斯随机样本。Wu等人[128]使用VAE中的编码器将输入图像编码为一个潜在的表示向量，然后将其输入到3D生成对抗网络(3D GAN)中，完成单个图像的3D体积重建。此外，也有一些研究使用VAE将图像编码到一个连续的潜空间中[102,071]。

4 3D解码器

基于神经网络的2D编码器从大量数据中学习将输入图像编码为潜在向量。然后一个3D解码器将潜在向量转换成三维数据。为了从输入图像中生成三维形状，整个网络需要将低级图像特征与高级特征相结合。基于单幅图像的三维物体重建方法大多选择使用低层图像特征进行推理。但是，这些方法缺乏对对象结构或表达式级别的结构关系的理解。它们有几种输出表示:体素网格、点云、网格、参数曲面和隐式曲面。此外，一些作品试图理解对象结构的高级表示，他们将3D对象视为两个基元(体积基元或表面基元)的集合。进一步的研究试图在更高的层次上理解各部分之间的对称关系[76]。三维解码器分类如表2所示。

以下内容回顾了基于不同3D表示的3D解码器。为了更好地展示基于不同表示的3D解码器之间的差异，我们根据它们的表示水平分别进行评测。

4.1 低级表示的解码

在低级表示中，研究较多的是离散形式的体素网格、点云和网格，研究较少的是连续形式的参数面和隐式面。

4.1.1 基于体素的表示解码

基于体素表示的三维解码可分为密集体素解码、中间表示体素解码、稀疏体素解码和其他解码。

稠密体素解码 随着深度学习研究的发展，基于CAD数据库的深度学习模型被提出用于单个图像的三维建模。Wu等人[127]开始提出3D ShapeNets模型，该模型使用深度卷积信念网络以数据驱动的方式学习所有3D体素的联合分布。这项工作是早期使用体素形式的三维形状表达模型之一。虽然重建结果比较粗糙，但实验结果表明这是一个良好的开端。Choy等[15]先将潜在层向量送入中间模块(3d long -term memory)，再通过残差网络解码器生成3d形状(见图4c)。同样，Yang等[141]在潜在层向量和解码器之间引入了注意聚集模块(AttSets)。这两种方法都可以利用中间模块完成单视图图像或多视图图像的三维重建。此外，Yang等[138]提出了一种循环三维解码器来解码潜在层单元以生成三维体积网格。

与上述方法不同的是，也有一些研究将潜在层向量直接解码成三维形状[28,137,86,115,136,26,128,102]。这些方法使用类似的解码器架构(见图4b)。

中间表示体素解码 近年来，许多研究在二维图像和三维形状预测之间增加了一个中间表示(2.5D草图)。与直接从单个二维图像预测三维形状相比，该方法更容易表达三维物体。Wu等人[129]提出了MarrNet，该算法首先估计输入RGB图像的2.5D草图(深度、法线贴图和轮廓)。随后，一个3D encoder decoder被用来从中间表示的2.5D草图估计一个3D形状。同样，Sun等人[110]和Wu等人[130]从输入的RGB图像中依次估计2.5D表示和3D形状。与直接从2.5D估算三维形状的方法不同，Zhang等[148]将2.5D到三维形状过程分解为部分三维完井和全三维完井两个阶段。他们依次用部分球面图和着色球面图来处理深度图，以代表物体的全部表面。最终，体素重建网络将深度图和修补的球形图的反投影结合起来以输出3D形状。实验结果表明，该网络在未经训练的类上也能获得更接近真实的结果。这些方法重建的三维物体的分辨率可以达到128×128×128，重建结果也更加详细。然而，与真实3D模型的外观相比，还有很大的差距。

稀疏的体元解码 在三维空间中，三维形状的表示与重建对象的表面分辨率密切相关。近年来，人们提出了一种稀疏体素表示八叉树的方法[89,119,90]。粗分辨率体素预测可用于空间中大部分为空且完全被占用的对象。混合部分需要进一步细分。采用八叉树方法进行体素稀疏表示可以使重建对象的分辨率达到512×512×512。Tatarchenko等[111]提出了八叉树生成网络(OGN)(图4a)。整个网络从某一层开始，卷积网络放在八叉树上运行，直到输出的分辨率满足设定的条件。与密集体素解码方法相比，OGN可以在有限的存储空间内表示更高分辨率的3D输出。然而，当分辨率增加到一定值时，网络很难适应大数据训练。在这种情况下，模型的性能会下降。同样，Hane等人[33]也提出了一种分层表面预测(HSP)网络。

其他的解码 除了使用中间表示法和八叉树法生成高分辨率三维对象外，还有将三维形状的生成视为二维预测的方法[88,103,98]。Richter等[88]在考虑二维预测而不是三维物体重建后，提出了一种三维几何的二维编码方法。为了更有效地表达低分辨率的3D形状，他们开发了一种方法，从参考视图的每个像素预测整个体素管。此外，6个嵌套深度图的融合用于扩展生成的3D对象分辨率。Smith等人[103]f i r st通过低分辨率的3D编解码器重建了一个粗略的3D形状。然后，利用三维超分辨率网络对六幅高分辨率正交深度图进行恢复。最后，利用高分辨率深度图对上采样的粗糙三维形状进行切割，完成高分辨率三维形状(图4d)。此外，Shen等[98]提出了一种基于傅里叶变换的三维重建方法，在频域预测切片，从二维空间重构三维形状。

Three.js实现动态水泡效果逐步解析GLSL着色器贵州数擎科技有限公司 javascript 着色器开发语言
大家好！我是[数擎AI]，一位热爱探索新技术的前端开发者，在这里分享前端和Web3D、AI技术的干货与实战经验。如果你对技术有热情，欢迎关注我的文章，我们一起成长、进步！开发领域：前端开发|AI应用|Web3D|元宇宙技术栈：JavaScript、React、ThreeJs、WebGL、Go经验经验：6年+前端开发经验，专注于图形渲染和AI技术经验经验：演示地址开源项目：智简未来、晓智元宇宙、数字
【C#深度学习之路】如何使用C#读取pickle类型的大模型文件来瓶霸王防脱发 C#深度学习之路 c#机器学习
【C#深度学习之路】如何使用C#读取pickle类型的大模型文件背景Pickle文件的结构及读取思路读取方法以压缩文件的方式加载Pickle类型文件读取Header的内容读取tensor的权重值该方法的不足总结本文为原创文章，若需要转载，请注明出处。原文地址：https://blog.csdn.net/qq_30270773/article/details/141367057项目对应的Github
【C#深度学习之路】如何使用C#实现Yolov8模型的训练和推理来瓶霸王防脱发 C#深度学习之路 c#机器学习图像处理视觉检测 YOLO
【C#深度学习之路】如何使用C#实现Yolov8模型的训练和推理项目背景算法实现模型结构项目展望写在最后项目下载链接本文为原创文章，若需要转载，请注明出处。原文地址：https://blog.csdn.net/qq_30270773/article/details/143529308项目对应的Github地址：https://github.com/IntptrMax/YoloSharpC#深度学习
【C#深度学习之路】如何使用C#实现Yolov11模型的训练和推理来瓶霸王防脱发 C#深度学习之路 c#深度学习 YOLO
【C#深度学习之路】如何使用C#实现Yolov11模型的训练和推理项目背景算法实现模型结构项目展望写在最后项目下载链接本文为原创文章，若需要转载，请注明出处。原文地址：https://blog.csdn.net/qq_30270773/article/details/143722404项目对应的Github地址：https://github.com/IntptrMax/YoloSharpC#深度学
神经网络基础-价格分类案例 dwjf321 深度学习神经网络人工智能神经网络分类人工智能
文章目录1.需求分析2.导入所需工具包3.构建数据集4.构建分类网络模型5.训练模型6.模型训练7.评估模型8.模型优化学习目标：掌握构建分类模型流程动手实践整个过程1.需求分析小明创办了一家手机公司，他不知道如何估算手机产品的价格。为了解决这个问题，他收集了多家公司的手机销售数据。该数据为二手手机的各个性能的数据，最后根据这些性能得到4个价格区间，作为这些二手手机售出的价格区间。主要包括：bat
AlexNet：开启深度学习图像识别新纪元池央深度学习人工智能
一、引言在深度学习的璀璨星空中，AlexNet无疑是一颗极为耀眼的明星。它于2012年横空出世，并在ImageNet竞赛中一举夺冠，这一历史性的突破彻底改变了计算机视觉领域的发展轨迹，让全世界深刻认识到深度卷积神经网络在图像识别任务中的巨大潜力，从而掀起了深度学习研究与应用的热潮。二、AlexNet网络架构详解（一）输入层AlexNet的输入图像通常为224x224x3的彩色图像。这一尺寸的确定是
拯救者电脑安装Windows和Ubuntu双系统遇到黑屏或者花屏问题的解决方法，亲测有效我爱猪肉炖粉条 ubuntu 深度学习
最近想在电脑上跑深度学习，有一定基础的都知道，ubuntu更适合gpu、apex以及其他加速的使用，如果在Windows上总是遇到各种各样的问题，所以我给电脑安装了双系统。装系统的过程此处忽略，随便找个教程都可以。总结一下就是在C盘压缩一定的空间（比如80G），然后通过U盘工具制作一个Ubuntu启动盘，把系统安装到压缩的那个盘里。我使用的电脑是拯救者R7000P，英伟达RTX2060，AMD处理
AI大模型荆州克莱面试题汇总与解析技术 css3 spring cloud spring boot spring
系列简书文章目录https://www.jianshu.com/p/d47d5cdc8a3e本篇目录AI大模型什么是AI大模型AI大模型，通常指的是在人工智能领域中，特别是机器学习和深度学习范畴内，具有巨大参数量和复杂结构的模型。这些模型通过使用大规模数据集和先进的计算硬件进行训练，能够学习到数据中的复杂模式和特征，从而在多种任务上展现出卓越的性能。特点包括：参数量大：AI大模型的参数数量往往达到
北大新模型FAN：新型神经网络架构，填补周期性特征建模空白海森大数据神经网络人工智能深度学习
在科学研究和技术发展的浪潮中，周期性现象作为自然界和人类社会的普遍规律，一直备受关注。从天文学中的行星运动到经济学中的商业周期，周期性无处不在，深刻影响着我们的生活和思考方式。然而，传统的神经网络模型，如多层感知器（MLP）和Transformer，在周期性建模方面却存在明显不足。面对这一挑战，北京大学李戈教授的团队提出了一种创新性的网络架构——FourierAnalysisNetworks（FA
深度学习：从基础到实践（上、下册）(安德鲁·格拉斯纳) fyjgfyjfg 深度学习人工智能
（pdf）:python33+(0m深度学习概述：深度学习是机器学习的一个分支，它试图通过使用深层神经网络来模拟人脑的学习过程。随机性与基础统计学：在深度学习中，随机性起着重要作用，了解基础统计学有助于更好地理解深度学习中的随机过程和不确定性。训练与测试：深度学习模型的训练过程包括使用训练数据来优化模型参数，而测试过程则使用测试数据来评估模型的性能。过拟合与欠拟合：过拟合是指模型在训练数据上表现过
html+css 实现仿3D地球旋转效果 web网页精选 html css 3d
demo:root{--stars:5vw15vh2pxwhite,1vw33vh0pxwhite,2vw25vh2pxwhite,10vw10vh2pxwhite,12vw20vh0pxwhite,30vw15vh2pxwhite,16vw5vh2pxwhite,24vw10vh0pxwhite,32vw40vh0pxwhite,33vw35vh2pxwhite,12vw38vh2pxwhite
《量子计算对人工智能发展的深远影响》 cc++人工智能深度学习
在科技发展的浪潮中，量子计算与人工智能无疑是两颗璀璨的明星，二者的融合正引领着一场深刻的科技变革.量子计算的独特之处在于其利用量子比特的叠加和纠缠特性，能够实现并行计算，从而在处理复杂问题时展现出超越传统计算的巨大潜力.这种强大的计算能力为人工智能的发展带来了诸多积极影响。加速机器学习训练机器学习，尤其是深度学习，通常需要处理海量数据和复杂的模型训练，耗时极长。量子计算的并行性可使训练过程大幅加速
Python基于YOLOv8和OpenCV实现车道线和车辆检测 old_power 计算机视觉 YOLO opencv 计算机视觉 python
使用YOLOv8（YouOnlyLookOnce）和OpenCV实现车道线和车辆检测，目标是创建一个可以检测道路上的车道并识别车辆的系统，并估计它们与摄像头的距离。该项目结合了计算机视觉技术和深度学习物体检测。1、系统主要功能车道检测：使用边缘检测和霍夫线变换检测道路车道。汽车检测：使用YOLOv8模型识别汽车并在汽车周围绘制边界框。距离估计：使用边界框大小计算检测到的汽车与摄像头的距离。2、环境
2024年诺贝尔奖揭晓:机遇与挑战并存人工智能aigcopenai
ChatGPT竟然也不相信诺贝尔奖结果！2024年诺贝尔奖对科研领域来说是个重要的时刻。诺贝尔奖可谓是科学界的“奥斯卡”,每年的获奖者都会引起广泛关注。今年,瑞典皇家科学院公布,约翰·J·霍普菲尔德和杰弗里·E·辛顿荣获诺贝尔物理学奖,这个消息让不少人感到惊讶。诺贝尔物理学奖:意外的突破一次颁奖的震撼诺贝尔奖的官方网站指出,霍普菲尔德和辛顿因其在人工神经网络和机器学习领域的基础性研究而获奖。他们的
OpenCV相机标定与3D重建(59)用于立体相机标定的函数stereoCalibrate()的使用 jndingxin OpenCV 3d opencv
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述标定立体相机设置。此函数找到两个相机各自的内参以及两个相机之间的外参。cv::stereoCalibrate是OpenCV中用于立体相机标定的函数。它通过一组已知的3D点及其在两个相机中的对应2D投影，来估计两个相机之间的相对位置和方向（旋转矩阵R和平移向量T），
每天五分钟深度学习框架pytorch:快速搭建VGG网络的基础模块VGG块每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 网络卷积神经网络卷积层人工智能
本文重点前面我们介绍了VGG神经网络，我们知道VGG是由许多的VGG块构成，那么本文我们将使用pytorch搭建VGG块代码实现：importtorchfromtorchimportnndefvgg_block(num_convs,in_channels,out_channels):net=[nn.Conv2d(in_channels,out_channels,kernel_size=3,padd
AI如何帮助电商企业进行数据分析 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
电商数据分析，人工智能，机器学习，深度学习，推荐系统，预测模型，客户画像1.背景介绍在当今数字化时代，电商行业蓬勃发展，数据成为企业最重要的资产。电商企业每天都会产生海量的数据，包括用户行为、商品信息、交易记录等。如何有效地分析这些数据，挖掘其中的价值，对于电商企业的运营、营销和发展至关重要。传统的数据分析方法往往难以应对海量数据的处理和复杂分析需求，而人工智能（AI）技术的出现为电商数据分析带来
大规模语言模型从理论到实践大语言模型预训练数据 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践：大语言模型预训练数据关键词：大规模语言模型、预训练数据、数据集选择、数据清洗、数据增强、数据集评估、数据集扩展1.背景介绍1.1问题的由来随着深度学习和大规模神经网络的发展，大型语言模型（LargeLanguageModels,LLMs）成为了自然语言处理（NLP）领域的一项突破性技术。LLMs能够生成流畅且具有上下文关联性的文本，这得益于它们在海量文本数据上的预训练。
threejs+html 实现3D地球旋转效果 web网页精选 html 3d 前端
html：demo*{padding:0;margin:0;box-sizing:border-box;}#chart_map{position:fixed;top:0;bottom:0;left:0;right:0;/*border:1pxsolidred;*/}//创建场景对象Scenevarscene=newTHREE.Scene();//辅助坐标系参数250表示坐标系大小，可以根据场景大小
OpenCV相机标定与3D重建(54)解决透视 n 点问题（Perspective-n-Point, PnP）函数solvePnP()的使用 jndingxin OpenCV opencv 3d
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述根据3D-2D点对应关系找到物体的姿态。cv::solvePnP是OpenCV库中的一个函数，用于解决透视n点问题（Perspective-n-Point,PnP），即通过已知的3D点及其对应的2D图像点来估计物体的姿态（旋转和平移）。这个函数可以处理任意数量的点
神经架构搜索在大模型效率优化中的应用 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
神经架构搜索，大模型，效率优化，自动机器学习，深度学习1.背景介绍近年来，深度学习模型取得了令人瞩目的成就，在图像识别、自然语言处理、语音识别等领域展现出强大的能力。然而，随着模型规模的不断扩大，训练和部署这些大模型也带来了巨大的挑战。计算资源消耗巨大:大模型的训练需要大量的计算资源，例如高性能GPU和TPU，这导致训练成本高昂，难以普及。内存占用量大:大模型的参数量庞大，需要大量的内存进行存储和
卷积神经网络（CNN）：深度学习中的核心模型任义礼智信深度学习 cnn 人工智能
引言卷积神经网络（ConvolutionalNeuralNetworks,CNNs）是深度学习领域的一种重要模型，广泛应用于图像处理、计算机视觉、自然语言处理等多个领域。CNN凭借其卓越的特征提取能力和参数共享机制，已成为计算机视觉任务中最主流的算法之一。本文将深入探讨CNN的基本原理、结构组件、应用场景及其发展方向。CNN的基本原理CNN是一种特殊的前馈神经网络（FeedforwardNeura
【机器学习：十五、神经网络的编译和训练】 KeyPan 机器学习机器学习神经网络人工智能深度学习 pytorch ubuntu linux
1.TensorFlow实现代码TensorFlow是深度学习中最为广泛使用的框架之一，提供了灵活的接口来构建、编译和训练神经网络。以下是实现神经网络的一个完整代码示例，以“手写数字识别”为例：importtensorflowastffromtensorflow.kerasimportlayers,models#加载MNIST数据集(x_train,y_train),(x_test,y_test)
【机器学习：十六、其他的激活函数】 KeyPan 机器学习机器学习人工智能算法服务器运维 ubuntu
1.Sigmoid激活函数的替代方案Sigmoid激活函数在神经网络中曾广泛使用，其数学公式为：σ(x)=11+e−x\sigma(x)=\frac{1}{1+e^{-x}}σ(x)=1+e−x1输出范围为(0,1)，适合二分类问题。但随着深度学习的发展，Sigmoid函数逐渐被替代，主要原因包括：梯度消失问题：当输入绝对值较大时，梯度趋近于零，导致权重更新困难。非零中心问题：输出值始终为正，可能
深度学习图像算法中的网络架构：Backbone、Neck 和 Head 详解肥猪猪爸 #深度学习深度学习算法人工智能数据结构神经网络计算机视觉机器学习
深度学习已经成为图像识别领域的核心技术，特别是在目标检测、图像分割等任务中，深度神经网络的应用取得了显著进展。在这些任务的网络架构中，通常可以分为三个主要部分：Backbone、Neck和Head。这些部分在整个网络中扮演着至关重要的角色，它们各自处理不同的任务，从特征提取到最终的预测输出，形成了一个完整的图像处理流程。本文将详细介绍这三部分的作用以及它们在目标检测和图像分割中的应用，帮助大家更好
频域增强通道注意力机制EFCAM模型详解及代码复现呆头鹅AI工作室深度学习算法详解及代码复现深度学习人工智能神经网络 conda python
背景与动机在深度学习领域，如何有效处理时间序列数据一直是一个重要的研究方向。近年来，频域分析技术在时间序列处理中展现出了巨大潜力，特别是离散余弦变换（DCT）因其能够高效捕捉低频信息并避免高频噪声干扰而受到广泛关注。FECAM模型的开发正是基于这一背景，旨在结合频域分析和通道注意力机制，以提高模型对时间序列数据的特征提取和表示能力。通过这种创新方法，FECAM模型能够更有效地捕捉时间序列中的关键特
从RNN到Transformer：生成式AI技术演变与未来展望非著名架构师人工智能 rnn transformer
生成式人工智能（GenerativeAI）近年来取得了令人瞩目的进展，其背后的核心技术是自回归模型的不断演进。从传统的递归神经网络（RNN）到革命性的Transformer架构，本文将全面剖析这一技术发展历程。一、RNN：生成式模型的起点1.RNN的基本原理递归神经网络（RecurrentNeuralNetwork,RNN）是一种专为处理序列数据设计的神经网络架构。其核心思想是通过循环连接的隐藏状
PyTorch建模与应用：从深度学习到大模型屿小夏书籍推荐深度学习 pytorch 人工智能
文章目录一、内容简介二、值得一读1.从基础到深入，适合不同层次的读者2.丰富的实战案例3.全面的数据处理与模型构建三、适用人群1.AI技术初学者2.在校学生和从业者3.培训机构和高校教学四、总结一、内容简介《动手学PyTorch建模与应用:从深度学习到大模型》是一本从零基础上手深度学习和大模型的PyTorch实战指南。全书共11章，内容涵盖了从深度学习的基础概念到大语言模型的应用。第1章介绍了深度
遗传算法与深度学习实战（25）——使用Keras构建卷积神经网络盼小辉丶遗传算法与深度学习实战深度学习 keras cnn
遗传算法与深度学习实战（25）——使用Keras构建卷积神经网络0.前言1.卷积神经网络基本概念1.1卷积1.2步幅1.3填充1.4激活函数1.5池化2.使用Keras构建卷积神经网络3.CNN层的问题4.模型泛化小结系列链接0.前言卷积神经网络(ConvolutionalNeuralNetwork,CNN)的提出是为了解决传统神经网络的缺陷。即使对象位于图片中的不同位置或其在图像中具有不同占比，
万字长文，k8s之父带你阅读 deployment 源码 go
4.3deploymentcontroller01DeploymentController是Kube-Controller-Manager中最常用的Controller之一管理Deployment资源。而Deployment的本质就是通过管理ReplicaSet和Pod在Kubernetes集群中部署无状态Workload。Deployment与控制器模式在K8s中，pod是最小的资源单位，而po
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓