码界战士嘎嘎嘎

论文笔记（一）3D-R2N2 A Unified Approach for Single and Multi-view 3D Object Reconstruction

发表期刊：ECCV 发表时间：2016

摘要

受最近成功的利用形状先验实现鲁棒3D重构方法的启发，我们提出了一种新的循环神经网络架构，我们称之为3D循环重构神经网络(3D- R2N2)。该网络从大量合成数据中学习物体图像到其底层3D形状的映射。我们的网络从任意视点接收一个或多个对象实例的图像，并以3D占用网格的形式输出对象的重建。与之前的大多数工作不同，我们的网络不需要任何图像注释或对象类标签进行训练或测试。我们广泛的实验分析表明，我们的重建框架优于当前最先进的单视图重建方法，支持在传统SFM/SLAM方法失败(因为缺乏纹理和/或宽基线)的情况下对对象进行3D重建。

关键词：多视角，重构，递归神经网络

介绍

大多数最先进的三维物体重建方法都受到一些限制：

物体必须从密集的视图中观察，也就是说视图必须有一个相对较小的基线。
对象的外观(或其反射函数)被期望为兰伯(即为非反射)，反照率被认为是非均匀的(也就是说丰富的非均匀纹理)。

为了规避与大基线或非兰伯曲面相关的问题，空间雕刻等三维体积重建方法及其概率扩展已成为流行的方法。然而，这些方法都假设物体从背景中被精确地分割出来，或者摄像机被校准过，这在许多应用中都不是这样的。另一种不同的理念是假设关于物体外观和形状的先验知识是可用的。使用先验的好处是，随后的重建方法不太依赖于在视图之间找到准确的特征对应。

本文与上面讨论的方法具有相同的精神，但有一个关键的区别。我们不是在观察物体之前尝试匹配一个合适的3D形状并可能适应它，而是使用深度卷积神经网络从大量训练数据集合中学习从观察到物体的潜在3D形状的映射。在我们的方法中，第一次利用深度神经网络的能力，以端到端方式自动学习从数据中适当的中间表示，以最少的监督从单张图像中恢复近似的3D对象重构。

受长短期记忆(LSTM)网络的成功以及使用卷积神经网络在单视图3D重建方面的最新进展的启发，我们提出了一种新的架构，我们称之为3D复发重建神经网络(3D-R2N2)。该网络从不同的视点接收一个物体实例的一个或多个图像，并以三维占用网格的形式输出该物体的重建。注意，在训练和测试中，我们的网络不需要任何对象类标签或图像注释(即，不需要分割、关键点、视点标签或类标签)。

3D-R2N2的一个关键属性是，它可以通过控制输入门和忘记门来选择性地更新隐藏表示。在训练中，当来自不同视点的信息(可能存在冲突)可用时，该机制允许网络自适应和一致地学习对象的合适3D表示。

文章主要贡献

提出了一个标准LSTM框架的扩展，称之为3D循环重建神经网络，它适用于在原则性的方式容纳多视图图像提要。
我们在单一框架中统一了单视图和多视图三维重建。
我们的方法在训练和测试中需要最少的监督(只需要边界框，但不需要分割、关键点、视角标签、摄像机校准或类别标签)。
通过广泛的实验分析表明，我们的重建框架优于最先进的单视图重建方法。
我们的网络能够在传统SFM/SLAM方法失败(因为缺乏纹理或宽基线)的情况下对对象进行3D重建。

递归神经网络

长短期记忆(LSTM)单元是RNN隐藏状态最成功的实现之一。LSTM单元显式控制从输入到输出的流，允许网络克服消失梯度问题。

LSTM单元由四个组件组成:

存储单元(一个存储单元和一个隐藏状态)
控制从输入到隐藏状态的信息流(输入门)
从隐藏状态到输出的信息流(输出门)
以及从之前的隐藏状态到当前隐藏状态的信息流(忘记门)

在时间步t处，当接收到一个新的输入xt时，LSTM单元的操作可以表示为:

it, ft, ot 分别指输入门、输出门和遗忘门。St和ht分别为存储单元和隐藏状态。我们使用⚪表示基于元素的乘法，下标t表示时刻t的激活。W(·)、U(·)分别是转换当前输入xt和之前隐藏状态ht−1的矩阵，b(·)表示偏差。

门控循环单元(GRU)是LSTM单元的一个变体提出的。与标准LSTM相比，GRU的一个优点是计算量更少。在GRU中，更新门同时控制输入门和忘记门。另一个区别是在非线性转换之前应用了复位门。

ut、rt、ht分别表示更新门、复位门和隐藏状态。

三维循环重建神经网络

该网络由三个部分组成:2D卷积神经网络(2D- cnn)、3D卷积LSTM (3DLSTM)和3D反卷积神经网络(3D- dcnn)。重建。其主要思想是利用LSTM的强大功能来保留以前的观测结果，并随着可用的观测结果的增多而逐步改进输出重构。

给定一个物体的任意视点的一张或多张图像，2D-CNN首先将每个输入图像x编码为低维特征T (x)。然后，给定编码后的输入，一组新提出的3D卷积LSTM (3D-LSTM)单元。要么选择性地更新其单元状态，要么通过关闭输入门保持状态。最后，3D- dcnn解码LSTM单元的隐藏状态，生成3D概率体素重建。使用基于lstm的网络的主要优势来自于当多个视图被馈送到网络时，它能够有效地处理对象自遮挡。网络有选择地更新与对象可见部分对应的内存单元。如果后续视图显示之前自遮挡的部分，且与预测不匹配，网络将更新之前遮挡部分的LSTM状态，但保留其他部分的状态。

3D-R2N2网络结构

编码器：2D-CNN

我们使用CNN将图像编码为特征。我们设计了两个不同的2D-CNN编码器：一个标准的前馈CNN和它的深度残差变化。第一个网络由标准卷积层、池层和泄漏校正线性单元组成，然后是完全连接层。受最近一项研究的启发，我们还创建了第一个由网络的深度残差变化组成。

根据这项研究，在标准卷积层之间添加残差连接可以有效地改善和加速非常深的网络的优化过程。编码器网络的深度残差变异除第4对卷积层外，每2个卷积层后都有恒等映射连接。为了匹配卷积后的通道数量，我们对剩余连接使用1 × 1卷积。然后将编码器输出压平并传递给一个完全连接的层，该层将输出压缩为1024维的特征向量。

循环：3D卷积LSTM

3D-R2N2网络的核心部分是一个循环模块，它允许网络保留它所看到的东西，并在看到新图像时更新内存。一种简单的方法是使用普通的LSTM网络。然而，如果没有任何正则化，预测如此大的输出空间(32 × 32 × 32)将是一项非常困难的任务。我们提出了一种新的架构，称为3D-Convolutional LSTM (3D-LSTM)。该网络由一组连接受限的结构化LSTM单元组成。3D- LSTM单元在空间上分布在3D网格结构中，每个单元负责重建最终输出的特定部分。在3D网格内部，有N个×N ×N 3D- lstm单元，其中N是3D- lstm网格的空间分辨率。每个3D-LSTM单元，索引为(i,j,k)，具有独立的隐藏状态ht，(i,j,k)∈RNh。与第2节相同的符号，但ft、it、st、ht作为4D张量(N ×N ×N大小为Nh的向量)，控制3D-LSTM网格的方程为：

与标准LSTM不同，3D-LSTM没有输出门，因为只在最后提取输出。通过去除冗余输出门，可以减少参数的数量。

实际上，这种配置迫使3D-LSTM单元处理预测重建的特定区域和地面真相模型之间的不匹配，这样每个单元学习重建体素空间的一部分，而不是贡献整个空间的重建。这种配置也赋予网络一种局部性，这样它就可以有选择地更新它对物体先前被遮挡部分的预测。

此外，三维卷积LSTM单元限制其隐藏状态与空间邻居的连接。对于普通LSTM，隐藏层ht−1中的所有元素都会影响当前隐藏状态ht，而空间结构的3D卷积LSTM只允许其隐藏状态ht，(i,j,k)受所有i,j和k的相邻3D-LSTM单元的影响。更具体地说，相邻连接由卷积核大小定义。例如，使用3 × 3 × 3内核，那么LSTM单元只受其近邻的影响。这样，单元可以共享权重，网络可以进一步规格化。

基于GRU的递归模块可以表示为：

解码器：3D反卷积神经网络

3D- LSTM在接收到输入图像序列x1, x2，····xT后，将隐藏状态hT传递给解码器，解码器通过应用3D卷积、非线性和3D解池来提高隐藏状态分辨率，直到达到目标输出分辨率。

与编码器一样，我们提出了一个具有5个卷积的简单解码器网络和一个具有4个剩余连接和最后一个卷积的深度残差版本。在激活达到目标输出分辨率的最后一层之后，我们使用体素-wise softmax将最终激活V∈RNvox×Nvox×Nvox×2转换为体素单元在(i,j,k)处的占用概率p(i,j,k)

LOSS：3D体素式Softmax

网络的损失函数被定义为体素横向熵的总和。设每个体素(i,j,k)的最终输出满足伯努利分布[1−p(i,j,k)， p(i,j,k)]，其中对输入X的依赖关系= {xt}t∈{1，…，T}，设对应的基础真理占用为y(i,j,k)∈{0,1}，则：

实施

数据增强：在训练中，我们使用3D CAD模型生成输入图像和地面真实体素占用图。我们首先使用透明背景渲染CAD模型，然后使用来自PASCAL VOC 2012数据集的随机裁剪来增强输入图像。此外，我们对模型的颜色进行着色，并随机翻译图像。请注意，所有视点都是随机采样的。

训练：在训练网络时，我们使用了从一幅图像到任意数量的图像的可变长度输入。更具体地说，单个小批次中每个训练示例的输入长度（视图数）保持不变，但不同小批次中的训练示例输入长度随机变化。这使得网络能够执行单视图和多视图重建。在训练过程中，为了节省计算能力和内存，我们只在输入序列结束时计算损失。另一方面，在测试期间，我们可以通过提取LSTM单元的隐藏状态来访问每个时间步的中间重建。

网络：输入图像大小设置为127×127。输出体素化重建的大小为32×32×32。实验中使用的网络经过了6万次迭代，批大小为36，除了[Res3D-GRU3]，需要24个批大小才能适应NVIDIA Titan X GPU。对于LeakyReLU层，整个网络的泄漏斜率设置为0.1。对于反褶积，我们遵循了中介绍的非冷却方案。我们使用Theano实现网络，并使用Adam实现SGD更新规则

使用5个视图根据交叉熵损失和IoU重建3D-LSTM变化的性能

实验

数据集

ShapeNet:ShapeNet数据集是根据WordNet层次结构组织的3D CAD模型的集合。我们使用了ShapeNet数据集的一个子集，该数据集由50000个模型和13个主要类别组成。我们将数据集分成训练集和测试集，其中4/5 3D-R2N2 9用于训练，其余1/5用于测试。在整个实验部分中，我们将这两个数据集称为ShapeNet训练集和测试集。

PASCAL 3D：PASCAL三维数据集由PASCAL 2012检测图像和3D CAD模型对齐组成。

Online Products：数据集包含23000件在线销售商品的图像。由于基线超宽，MVS和SFM方法在这些图像上失败。由于数据集没有地面真实3D CAD模型，我们仅使用数据集进行定性评估。

MVS CAD Models:为了将我们的方法与多视图立体方法进行比较，我们收集了4种不同类别的高质量CAD模型。所有CAD模型都具有纹理丰富的表面，并放置在纹理丰富的纸张上，以帮助MVS方法的相机定位。

指标：我们在评估重建质量时使用了两个指标。主要度量是三维体素重建与其地面真实体素化模型之间的体素交集（IoU）。I（·）是一个指标函数，t是一个体素化阈值。IoU值越高，表示重建效果越好。我们还将交叉熵损失值为次要度量,较低的损失值表示较高的置信度重建。

网络结构比较

我们测试了3D-R2N2的5种变体，前四个网络是基于标准前馈CNN，第五个网络是残差网络。对于前四个网络使用GRU或LSTM单元，并将卷积核改为1 × 1 × 1 [3D-LSTM/GRU-3]或3 × 3 × 3 [3D-LSTM/GRU-3]。剩余网络使用GRU单元和3 × 3 × 3卷积[Res3D-GRU-3]。

这些网络在ShapeNet训练集上进行训练，并在ShapeNet测试集上进行测试。在实验中使用了5个视图观察到:

基于gru的网络优于基于lstm的网络
具有相邻循环单元连接(3 × 3 × 3卷积)的网络优于无相邻循环单元连接(1 × 1 × 1卷积)的网络
深度残差网络变异进一步提高了重构性能

单个真实世界图像重建

我们利用真实图像评估了网络在单视图重构中的性能，并与Kar等人最近提出的方法进行了性能比较。为了进行定量比较，我们使用了来自PASCAL VOC 2012数据集的图像和来自PASCAL 3D+数据集的相应3D模型。使用与Kar等人相同的配置运行实验，除了我们允许Kar等人的方法具有地面真相对象分割掩码和关键点标签作为额外的输入，用于训练和测试。

结果：

我们的方法在每个类别上都优于Kar的方法。然而我们注意到网络在重建椅子的细腿方面有一些困难。此外，当给显示器正面视图时，网络经常混淆薄平板和厚CRT屏幕。

除了性能更好之外还有几个优点。首先，我们的网络不需要训练和测试每个类别，在不知道对象类别的情况下进行训练和重建。其次，不需要对象分割掩码和关键点标签作为额外的输入。Kar等人通过估计分割和关键点，证明了在野生无标记图像上进行测试的可能性。然而，我们的网络优于他们的方法测试与地面真相标签。

多视点重建评估

实验设置：在实验中使用了[Res3D-GRU-3]网络和ShapeNet测试集对网络进行了评估。该测试集由13大类8725个模型组成，我们为每个模型渲染了五个随机视图并且图像应用了统一的彩色背景。我们报告了软最大损失和交叉过并(IoU)，预测的体素模型和地面真值体素模型之间的体素化阈值为0.4。

总体的结果：我们首先考察了不同浏览量下重构模型的质量。随着视图数量的增加，重构质量有所提高。边际增益减少的事实符合我们的假设，即每增加一个视图提供更少的信息，因为两个随机视图很可能有部分重叠。

重建真实世界的图像

我们在在线产品数据集上测试了网络，以进行定性评估。非方形的图像用白色像素填充。。结果表明，该网络仅使用合成数据作为训练样本就能重构真实世界的对象。它还证明了网络在看到对象的附加视图后改进了重构。一个典型的例子是沙发的重建。最初的沙发侧视图让网络认为这是一个单座沙发，但在看到沙发的正面后，网络立即改进了它的重建，以反映观察结果。类似的行为也出现在其他样本中。

多视点立体(MVS)vs.3D-R2N2

我们比较了3D-R2N2和MVS方法在重建不同纹理级别和不同视图数量的对象上的差异。MVS方法受限于不同视图间特征对应的准确性。因此，他们往往失败重建无纹理的物体或图像从稀疏的位置相机视点。相比之下，3D-R2N2不需要精确的特征对应或相邻的摄像机视点。

实验设置：我们使用基于补丁匹配的现成实例作为MVS方法。MVS方法使用全局SFM估计的图像及其摄像机位置，并输出重建模型。对于3D-R2N2，我们使用最多5个视图训练的[Res3D-GRU-3]网络。为了处理更多的视图，使用样本对3D-R2N2进行了微调，这些样本拥有最多24个视图，使用ShapeNet训练集进行5000次迭代。用体素的IoU来量化重建的质量。网络被体素化，占用概率阈值设置为0.1。将MVS方法重构的网格体素化为32 × 32 × 32的网格进行比较。

结果：我们观察到:

我们的模型在只有一个视图的情况下都能正常工作，而MVS方法在视图数小于20 (IoU=0)时完全失败
我们的模型无论对象的纹理级别都能正常工作，而MVS方法即使在提供大量视图的情况下也经常无法重构纹理级别较低的对象。这表明3D-R2N2可以在MVS方法执行不佳或完全失败的情况下工作。注意，我们的方法的重构性能在视图数量通过24之后下降。这是因为只在最多24个视图的样本上微调了我们的网络。

我们还发现了3D-R2N2一些局限性。首先，当给出超过30个不同的模型视图时，3D-R2N2不能像MVS方法那样重建那么多的细节。其次，在重构高纹理级别的对象时表现较差。这在很大程度上是因为ShapeNet训练集中的大多数模型都具有较低的纹理级别。

总结

本文提出了一个新颖的架构，将单视图和多视图三维重建统一到一个单一的框架中。3D-R2N2可以接受可变长度的输入并且在使用真实图像的单视图重建方面优于Kar等人的方法。进一步测试了网络在ShapeNet数据集和Online Products数据集上执行多视图重构的能力，结果表明，当网络看到一个对象的更多视图时，它能够逐步改进其重构。最后，分析了该网络在多视图重构中的性能，发现当MVS等技术失败时，3D-R2N2可以产生精确的重构。总之，3D-R2N2不需要最少数量的输入图像来产生合理的重建，并且能够克服过去处理纹理不足或基线视点宽的图像的挑战。

hapeNet数据集和Online Products数据集上执行多视图重构的能力，结果表明，当网络看到一个对象的更多视图时，它能够逐步改进其重构。最后，分析了该网络在多视图重构中的性能，发现当MVS等技术失败时，3D-R2N2可以产生精确的重构。总之，3D-R2N2不需要最少数量的输入图像来产生合理的重建，并且能够克服过去处理纹理不足或基线视点宽的图像的挑战。

AI 驱动自动化运维平台架构与实现大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 算法机器学习人工智能决策树大数据
摘要：随着云计算、容器化和大规模分布式系统的普及，传统人工运维方法已难以满足现代IT环境中海量指标、日志和拓扑关系的实时分析与故障响应需求。AI驱动的自动化运维（AIOps）平台通过融合机器学习、深度学习、图分析以及强化学习等多学科技术，实现对海量运维数据的智能感知、预测、诊断和自动化修复。本文深入探讨AI驱动自动化运维平台的整体架构设计与核心技术实现，涵盖数据采集与预处理、AI引擎设计、自动化执
305李03days作业#裂变实验室# 李_d891
A账号大数据里加的人B账号精筛选一遍的客户C账号vip客户深度信任客户今天事情有点多，没有好好学习，明天重新写一个补到新作业里。
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架（原创创新算法）
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架项目背景随着深度学习技术的快速发展，目标检测在各个领域都取得了显著的进展。然而，现有的监督学习方法在实际应用中面临着标注数据稀缺、泛化能力不足等挑战。特别是在火灾烟雾检测、工业质检等特定场景中，获取大量高质量标注数据的成本极高。为了解决这一问题，本项目基于最新发布的YOLOv13架构，结合EfficientTeacher半监督学习框架，
USB串口通信、握手协议、深度学习等技术要点深度学习教程, 深度学习人工智能网络协议
基于OpenMV的智能车牌识别系统：从硬件到算法的完整实现前言本文将详细介绍一个基于OpenMV微控制器的智能车牌识别系统的设计与实现。该系统集成了嵌入式视觉处理、串口通信协议、深度学习OCR识别等多种技术，实现了从图像采集到车牌识别的完整流程。系统架构概述整体设计思路该车牌识别系统采用分布式架构设计，将计算密集型任务与嵌入式控制分离：┌─────────────┐USB串口通信┌────────
7、开启C与Unity 3D的编程之旅珊珊333333 Unity C#Unity 3D 编程基础
开启C#与Unity3D的编程之旅1.前期准备在进行每一个教程之前，都有一个名为Scene的场景文件。在整个学习过程中，教程通常从下载项目中的Scene文件开始。打开场景的方法有两种：-直接在项目面板的Assets目录下双击场景图标。-选择File→OpenScene来打开项目中的任何场景。2.学习回顾与要点创建并将新的C#文件分配给对象并不复杂，在Unity3D编辑器中有多种方法可以实现。添加代
语音识别开源项目推荐：GitHub热门仓库盘点 AGI大模型与大数据研究院 AI大模型应用开发实战语音识别开源 github ai
2024年必看！GitHub热门语音识别开源项目全解析：从入门到实战关键词语音识别(ASR)、开源项目、GitHub、Whisper、FunASR、PaddleSpeech、深度学习摘要想象一下：开车时只需说一句话就能自动发消息，听英文演讲时实时获得中文翻译，给视障人士读文本时精准转换——这些场景的背后，语音识别（AutomaticSpeechRecognition,ASR）技术正在改变我们与机器
Shader编写指南(六十一):使用 Visual Studio 调试 Unity 着色器（Windows 平台）小李也疯狂 visual studio unity 着色器 shader
在Windows平台上，可通过VisualStudio结合DirectX11/12对Unity着色器进行调试。以下是详细步骤及注意事项：一、准备工作：启用调试符号在需要调试的着色器中添加编译指令，确保生成包含调试符号的代码：hlsl#pragmaenable_d3d11_debug_symbols//启用DirectX11调试符号//或针对DirectX12（需配合PIX调试）注意：该指令会导致性
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
【无标题】
PyQt5相关论文方向扩充及技术特性解析PyQt5的核心优势PyQt5作为基于Qt框架的Python绑定库，在科研与工程应用中具备显著优势。其跨平台兼容性极强，可在Windows、macOS、Linux等主流操作系统上稳定运行，且能保持界面风格的一致性，这对开发多场景应用系统至关重要。在界面设计方面，PyQt5提供了丰富的UI组件库，从基础的按钮、文本框到高级的图表、3D控件应有尽有，同时支持Qt
DL00478-涡轮叶片缺陷检测数据集yolo格式1300张左右
涡轮叶片缺陷检测数据集yolo格式1300张左右涡轮叶片缺陷检测数据集YOLO格式解析：提升研究与论文写作的关键要点在研究涡轮叶片缺陷检测的过程中，数据集的选择和格式处理是一个至关重要的环节。特别是当你打算通过卷积神经网络（CNN）等深度学习模型进行缺陷检测时，数据集的标注和格式化直接影响到模型的训练效果和论文的质量。本文将重点探讨涡轮叶片缺陷检测数据集的YOLO格式，并分析如何利用这一格式为研究
instantiate 卡顿严重_Unity3D研究院之利用缓存池解决Instantiate慢的问题（七十三）... weixin_39992312 instantiate 卡顿严重
Unity3D做项目有三个地方处理不好游戏整体就会出现卡顿的问题。2.角色放技能的时候卡尤其是放群体攻击技能时，因为每个人身上都要产生一个技能特效。技能都是用粒子特效做的，虽然Unity中粒子特效也是一个GameObject.但是ParticleSystem这个组件太特殊了。Instantiate以后会自动的执行脚本的初始化工作，ParticleSystem组件肯定也是个脚本，虽然我们看不到它实现
instantiate 卡顿严重_利用缓存池解决Instantiate慢的问题 weixin_39958100 instantiate 卡顿严重
Unity3D做项目有三个地方处理不好游戏整体就会出现卡顿的问题。1.NGUI直接打开界面卡，建议看看这一篇文章http://www.xuanyusong.com/archives/2799(本文就不赘述了)2.角色放技能的时候卡尤其是放群体攻击技能时，因为每个人身上都要产生一个技能特效。技能都是用粒子特效做的，虽然Unity中粒子特效也是一个GameObject.但是ParticleSystem
NX636NX644美光固态闪存NX663NX665 18922804861 人工智能性能优化大数据服务器网络
美光固态闪存深度解析：NX636、NX644、NX663、NX665全面评测技术架构与核心性能美光NX636、NX644、NX663、NX665系列固态闪存均基于176层3DTLCNAND技术，采用美光自研主控芯片，支持PCIe4.0协议，理论带宽可达16GT/s。其中，NX665作为旗舰型号，连续读取速度突破7.4GB/s，随机写入性能较NX636提升约40%，相当于从“自行车道”升级至“高速公
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
基于深度学习的语音识别：从音频信号到文本转录 Blossom.118 机器学习与人工智能深度学习语音识别音视频人工智能机器学习线性代数计算机视觉
前言语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域中一个极具挑战性和应用前景的研究方向。它通过将语音信号转换为文本，为人们提供了更加自然和便捷的人机交互方式。近年来，深度学习技术在语音识别领域取得了显著进展，极大地提高了语音识别的准确率和鲁棒性。本文将详细介绍如何使用深度学习技术构建一个语音识别系统，从音频信号的预处理到模型的训练与部署。一、语音识别的基本概
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
蔚来汽车视觉算法面试30问全景精解
蔚来汽车视觉算法面试30问全景精解——智能电动×高阶辅助驾驶×视觉创新：蔚来汽车视觉算法面试核心考点全览前言蔚来汽车作为全球领先的智能电动汽车品牌，致力于通过AI与高阶辅助驾驶技术推动智能出行的未来。蔚来视觉算法团队专注于自动驾驶感知、智能座舱、车路协同、3D重建等领域，强调算法的工程落地、系统安全与创新突破。蔚来视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在自动驾驶、智能感知
【转】Unity3.5是一次较大的更新.它包含的新功能和改进会让你爱不释手. SODASTUDIO Unity3D
Shuriken粒子系统内建寻路系统升级遮挡裁切和增加LOD系统谷歌Chrome浏览器的NativeClient支持线性空间照明和HDR主要的新功能AdobeFlash:现在版本支持AdobeSWF格式的Flash输出(预览版).有关Flash预览版相关问题见:http://unity3d.com/unity/publishing/flash新的粒子系统-"Shuriken".可以手动控制时间线来
GPT-3 面试题
简介1、GPT-3是什么？它是基于什么模型的？GPT-3是一种基于深度学习原理的语言预测模型。它是由OpenAI开发的，可以从互联网数据中生成任何类型的文本。它只需要一小段文本作为输入，就可以生成大量的准确和复杂的机器生成文本²⁴。GPT-3是基于Transformer模型的，使用了仅有解码器的自回归架构。它使用下一个单词预测目标进行训练¹²。GPT-3有8个不同的模型，参数从1.25亿到1750
「日拱一码」035 机器学习——调参过程可视化胖达不服输「日拱一码」机器学习人工智能调参过程可视化神经网络 python 模型可解释性
目录超参数搜索的3D曲面可视化交互式3D可视化神经网络学习率的3D可视化SVM超参数的3D决策边界可视化超参数优化的3D动画超参数搜索的3D曲面可视化##超参数搜索的3D曲面可视化importnumpyasnpimportmatplotlib.pyplotaspltfrommpl_toolkits.mplot3dimportAxes3Dfromsklearn.datasetsimportmake_
精通 triton 使用 MLIR 的源码逻辑 - 第001节：triton 的应用简介
项目使用到MLIR，通过了解triton对MLIR的使用，体会到MLIR在较大项目中的使用方式，汇总一下。1.Triton概述OpenAITriton是一个开源的编程语言和编译器，旨在简化GPU高性能计算（HPC）的开发，特别是针对深度学习、科学计算等需要高效并行计算的领域。既允许开发者编写高度优化的代码，又不必过度关注底层硬件细节。这样，通过简化高性能计算，可以加速新算法的实现和实验。传统GPU
ai绘画生成软件哪个好？几款好用的AI绘画软件分享! 呼酱小宝箱
随着人工智能技术的不断发展，越来越多的AI绘画生成软件被开发出来。这些软件利用深度学习技术，可以将普通照片或图像转化成具备艺术效果的画作。那么，ai绘画生成软件哪个好？首先，让我们来看一下几个常见的AI绘画生成软件，它们分别是：1、DeepDreamDeepDream是由Google开发的一款AI绘画生成软件。它通过卷积神经网络对输入的图片进行处理，从而生成出具有艺术风格的画作。DeepDream
【OS】AUTOSAR架构下的Interrupt详解（下篇）汽车电子嵌入式 AUTOSAR精进之路 AUTOSAR OS Interrupt EnableInterrupt SuspendISR
目录3.代码分析3.1中断配置代码3.2OS如何找到中断处理函数3.3Os_InitialEnableInterruptSources实现3.4Os_EnableInterruptSource3.5DisableAllInterrupts3.5.1Os_IntSuspendCat13.5.2Os_InterruptDisableAllEnter3.5.3Disable二类中断3.5.4Disabl
第5天-代码画笔下的奇幻艺术世界速易达网络青少年编程课程人工智能
一个融合编程思维与艺术创作的沉浸式绘画工具项目亮点当Scratch积木变成画笔：用编程逻辑创作视觉艺术零基础双启蒙：同时培养编程思维与艺术创造力AI魔法实验室：智能生成创意绘画模板元宇宙画廊：3D虚拟展厅展示数字作品核心功能设计1.积木调色板（BlockPalette）积木类型功能说明艺术效果示例运动画笔移动/旋转/缩放路径分形几何图案色彩实验室RGB调色盘+渐变生成器
DeepSeek部署指南：从入门到精通 wujj_whut 热门应用 c++DeepSeek 嵌入式实时数据库
DeepSeek部署指南：从入门到精通引言在人工智能和深度学习领域，模型的部署是一个至关重要的环节。DeepSeek作为一款强大的深度学习框架，其部署过程不仅关系到模型的性能表现，还直接影响到实际应用的效果。本文将详细介绍DeepSeek的部署流程，涵盖从环境配置到实际应用的各个方面，旨在帮助读者全面掌握DeepSeek的部署技巧。一、DeepSeek简介DeepSeek是一款开源的深度学习框架，
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情