Way_X

[译]Social-BiGAT: Multimodal Trajectory Forecasting using Bicycle-GAN and Graph Attention Networks

写在前面：

这篇文章，值得看的地方有两块，一个是GAT（图注意力网络的应用），第二个是 （Cycle-GAN）的应用 。本文是全文翻译。关于Cycle-GAN的论文见解和阅读SINO的阅读笔记不错，文章3.6部分链接贴出来了。

文章目录

Social-BiGAT

摘要
1 引言
2 相关工作
3 Social-BiGAT

3.1 问题定义
3.2 整体模型
3.3 Feature Encoder
3.4 Attention Network
3.5 GAN Network
3.6 Latent Encoder（该部分的描述，[SINO的阅读笔记，讲的很清楚](https://www.cnblogs.com/sinoyou/p/12159419.html)）
3.7 Losses

4 Experiments
5 Conclusion

Social-BiGAT

摘要

对于从自动驾驶汽车和社交机器人的控制到安全和监视的许多不同应用，预测场景中多个交互代理的未来轨迹已变得越来越重要。人与人之间存在社会互动以及他们与场景的物理互动使问题更加复杂。现有文献已经探索了其中一些线索，但它们主要忽略了每个人未来轨迹的多峰性质。在本文中，我们介绍了Social-BiGAT，这是一种基于图的生成对抗网络，可以通过对场景中行人的社交互动进行更好的建模来生成逼真的多模态轨迹预测。我们的方法基于图注意力网络（GAT），该图学习网络中可靠的特征表示，这些特征表示对场景中人类之间的社交互动进行编码，而递归编码器-解码器体系结构经过对抗性训练，可以基于特征预测人类的路径。我们在Bicycle-GAN中通过在每个场景与其潜在噪声矢量之间形成可逆变换来明确说明预测问题的多峰性质。我们展示了我们的框架将其与现有轨迹预测基准上的多个基准进行比较，从而实现了最先进的性能。

1 引言

对于各种应用，准确的行人轨迹预测已成为至关重要的组成部分。无人驾驶汽车（例如自动驾驶汽车）和社交机器人技术（例如送货汽车）必须能够理解人的运动，避免发生碰撞[1-4]。用于城市规划的智能跟踪和监视系统必须能够了解人群将如何交互以更好地管理基础设施[5-8]。轨迹预测也变得至关重要，它可以实现下游任务，例如跟踪和重新识别[9]。但是，由于人类行为固有的几个属性，轨迹预测仍然是一项艰巨的任务：

社交互动当人们在公共场所活动时，他们经常与其他行人进行社交互动[10]。从采取避免冲突的行动到成群行走，人们在移动时有多种互动方式，需要使用预测方法来模拟社会行为[11，12]。这些社交互动不一定会受到人们的空间接近度的影响。
场景背景行人行为不仅取决于周围的人，而且高度取决于周围的人身场景[12-16]。这不仅包括无法避免的固定障碍物（例如建筑物），而且还包括视觉上呈现的不同物理提示，例如人行道或草地，这些可能会导致或限制人类活动。
多式联运行为人可能遵循几种合理的轨迹，因为潜在的人类行为分布广泛[10、11、17、18]。例如，当两个行人彼此靠近时，会出现几种行为模式，例如向左移动或向右移动。在每种模式下，变化也很大，允许行人改变其速度等特征。

图1：我们显示了蓝色行人的多式联运行为，他们必须决定他们将朝哪个方向避开红色绿色行人组。

轨迹预测的先前工作已经解决了之前列出的一些挑战，并为我们的模型设计提供了信息。Helbing等[19]和Pellegriniet等[20]成功地证明了对社交互动进行建模的好处，但需要手工制定的规则，这些规则难以推广到新的场景。Alahi等 [10]利用循环架构来考虑行人行为的多个时间步长，但不考虑场景的物理提示。其他先前的研究也集中于了解物理场景。Lee等。 [15]和Sadeghian等[16]使用原始场景图像和对场景的柔和关注来突出重要提示。他们的工作受到限制，因为他们没有与现场一起考虑社交线索。
相比之下，Gupta等 [11]和Sadeghian等 [12]利用具有社交机制的GAN来考虑现场所有人。但是，这两种模型都无法学习人类行为的真正多模式分布，而是学习具有高方差的单一行为模式。此外，这两种模型都受到他们学习社交行为的方式的限制：尽管前者通过对场景中的所有行人使用相同的社交矢量来丢失信息，但后者需要手动定义的排序操作，该操作在所有情况下均无法达到最佳效果。
为了解决这些工作的局限性，我们提出了Social-BiGAT，这是一种基于GAN [21]的方法，用于构建可以学习这些基本的多峰轨迹分布的生成模型。这项工作的主要贡献如下。首先，我们通过引入灵活的图注意力网络[22]来改善场景中行人之间的社交互动的建模，该网络允许场景中的所有行人进行交互。这比以前的工作有所改进，在以前的工作中，交互作用受到局部限制，或者使用手工定义的规则对交互作用进行建模。接下来，我们通过构建输出轨迹和表示场景中行人行为的潜势之间的可逆映射来鼓励多模分布的泛化，如之前Zhu等人对图像所做的那样 [23]。这使我们能够生成在社会上和身体上都可以接受的轨迹，同时还可以学习更大的多峰轨迹分布，尽管只能从跨场景的单一行为模式访问单个样本。最后，我们结合[12，16]中使用Soft-Attention具通用性。

2 相关工作

近年来，由于自动驾驶系统和社交机器人的发展越来越受到人们的欢迎，轨迹预测问题已受到社区许多研究人员的极大关注。现有的大多数作品都集中在将场景的物理特征整合到人类空间模型中[15，16]，以及学习如何在人类模型中对行人之间的社会行为进行建模[10，24]。其他工作从生成的角度[11]解决了这个问题，并在一个框架中联合建模了这些特征[12]。尽管这些工作大大提高了领域，但它们有一些缺点，我们可以通过合并图注意力网络[22]和图像翻译网络[23]解决。
传统上轨迹预测，行人轨迹预测已通过定义捕获人的运动但无法正确概括的手工规则和能量参数来解决[19，20，24–26]。现代方法不是手工制作这些功能，而是依赖循环神经网络，这些神经网络直接从数据中学习这些参数[10、16]，同时结合了一些捕获人类交互特征的方法[15、27、28]。这些现有方法中的几种已经受到范围的限制，因为它们通常将交互作用限制在附近的行人邻居[10、29、30]，并且不对全局交互作用建模或无法概括为可变数量的人类。其他方法已经从生成的角度探讨了轨迹预测，包括Lee等[15]，古普塔等 [11]，和Sadeghian [12]，有自己的局限性。前者仅考虑在有限的局部范围内的相互作用，而后两者导致具有高方差的模型。具体来说，尽管人类运动本质上是多峰的，但是这些方法不能表达性地学习这种多峰行为，而是学习具有高方差的一种模式。在我们的工作中，我们结合了从图像到图像转换的想法，以生成多峰行人轨迹。此外，我们的模型使用图注意力网络[22]来更有效，更健壮地模拟场景中智能体之间的交互，而先前的研究[12，31]取决于手工定义的规则。
Velickovi等人提出的图注意力网络[22]，图注意力网络（GAT）允许在可以表示为图的任何类型的结构化数据上应用基于自我注意的架构。这些网络基于图卷积网络（GCN）[32]的先验而构建，它还允许模型隐式地为图中的节点分配不同的重要性。在我们的案例中，我们可以将行人互动表达为图形，其中节点是指人类，而边缘就是这些互动；较高的边缘权重对应于更重要的交互。通过使图完全连接，我们可以以高效的方式对人类之间的局部和全局交互进行建模，而无需执行可能丢失重要特征的系统，如合并[11]或排序[12]。
图像翻译在过去几年中，图像域翻译领域经历了几项重大的进步。pix2pix框架[33]是第一个进步，该框架支持翻译，但由于需要成对的训练示例而受到限制。朱等。通过CycleGAN [34]改进了该模型，该模型能够通过循环一致性损失从每个域中获取未配对示例的这些域映射。较新的研究集中在学习输出的多模态：InfoGAN [35]致力于最大化变分互信息，而BicycleGAN [23]引入了潜在的噪声编码器，并学习了噪声和输出之间的双射。在我们的模型中，我们借鉴了BicycleGAN提出的改进，提出了一种潜在的空间编码器，该编码器可以生成多模式行人轨迹。

3 Social-BiGAT

3.1 问题定义

正式定义的人类轨迹预测是预测行人未来的导航运动（即他们在2D地图表示中的x和y坐标）的问题，考虑到行人的先前运动和有关场景的其他上下文信息。我们假设每个行人所走的路线都受到其他人的位置以及行进路线上的物理约束以及行进目标的影响，行进目标在某种程度上被其过去的运动轨迹所编码。对于任何特定场景，我们模型的输入都是双重的：
1）场景信息，以场景的上下或侧面图像的形式，以及
2）每个场景中先前观察到的轨迹N个当前可见的行人，代表。
给定以上所有输入以及在obs和pred时间步之间每个行人的地面真实未来轨迹，即的，我们的目标是学习潜在的（可能是多峰的）分布，这些分布可以为他们的未来轨迹生成可行的样本。

3.2 整体模型

我们的总体模型由四个主要网络组成，每个主要网络都由三个关键模块组成（图2）。具体来说，我们构造一个生成器，两种形式的鉴别器（一种以局部行人规模运行，另一种以全局场景级别规模运行）和一个潜在空间编码器。我们的生成器由功能编码器模块（第3.3节），关注网络模块（第3.4节）和解码器模块（第3.5节）组成。特征编码器模块从原始特征中提取编码，以用于注意力网络，从而反过来了解哪些特征在生成中最重要。然后将这些加权特征传递到解码器模块，该模块使用LSTM生成轨迹的多个时间步长。按照Isola等人的动机，对两种体系进行了对抗性训练[33]并鼓励现实的局部和全局轨迹，我们还训练了一个潜在的场景编码器，该编码器学会生成最能共同代表场景的噪声的均值和方差，如Zhu等人所述 [23]鼓励多式联运。

图2：提出的Social-BiGAT模型架构。该模型由一个生成器，两个鉴别器（一个在本地行人规模下，一个在全局场景规模下）以及一个从场景中学习噪声的潜在编码器组成该模型利用图形注意力网（GAT）和图像上的self-attention来考虑场景的社交和物理特征。

3.3 Feature Encoder

特征编码器具有两个主要组件：社交行人编码器（用于学习观察到的行人轨迹的表示），以及物理场景编码器（用于学习场景特征的表示）。对于社交编码器，对于每个行人，我们首先使用多层感知器（MLP）将行人的相对位移嵌入到一个更高的维度，然后使用LSTM将这些跨时间步长的行人运动编码为单个嵌入，从而为行人i编码。对于物理特征编码器，我们只需通过卷积神经网络（CNN）传递场景的自上而下的图像视图，就得到了场景的特征图：

3.4 Attention Network

就像人类如何直观地知道要避免碰撞的其他行人一样，我们希望我们的模型更好地理解交互的相对权重：我们通过对提取的特征进行关注来实现此目标。
身体注意力为了关注与特定行人有关的身体特征，我们引入Vs(i)并施加软注意力，其中网络由Wp参数化并输出上下文向量C：
$C p (i) = A T T p (V p, V s (i); W p) (3)$
社会注意力与身体注意力类似，我们将行人嵌入Vs(i)用作社会注意力模型的输入。社会注意力模型将行人编码为与之交互的邻居行人的加权（趋于）总和。先前的研究要么使用置换不变对称函数，例如max或average (我们模型用到的池化层)，要么使用排序函数，例如基于欧氏距离的排序 (我们模型用到的社会力建模) 。在前者中，不利之处在于，每个行人都将获得相同的联合特征表示，从而放弃了某些独特性。尽管后一种技术没有此缺点，但确实需要设置最大的行人数量，并且确实在模型上施加了人为偏差，不一定总是正确的。即，假定欧几里得距离排序是理解社交互动的关键组成部分。
为了避免这些缺陷，我们利用图注意力网络[22，36]。给定行人i的嵌入 $V s (i)$ ，我们对场景中的所有行人都应用了几个堆叠的图形注意层。每层ℓ的应用方式如下，其中 $W g a t$ 参数化共享的线性变换，而a是共享的关注机制：

我们使用最后一个GAT层中的特征 $C s (i)$ ，其中 $L$ 作为最终的社会特征。我们允许行人图形保持完全连接，并且不使用任何遮罩。这允许每个行人彼此交互，并且不对行人命令施加任何限制。

3.5 GAN Network

在本节中，我们将介绍我们的特征编码器和注意力网络如何在开发基于LSTM的生成对抗网络（GAN）时作为核心构建块。GAN通常由相互竞争的两个网络组成：一个生成器和一个鉴别器。在生成器学习从输入数据生成现实样本的同时，鉴别器学习识别哪些样本是真实的以及生成了哪些样本，从而参与了两个玩家的最小-最大游戏.
生成器
生成器使用解码器LSTM构建。类似于条件GAN [37]，我们的生成器以从多元正态分布中采样的噪声矢量z作为输入，并以物理场景上下文Cp(i)，行人场景上下文和先前的行人编码Vs(i)为条件。这些都串联在一起，这。然后，通过解码器LSTM执行跨多个时间步长的轨迹的生成，从而：

鉴别器
鉴别器体系结构反映了生成器的体系结构，其中编码器LSTM用于表示行人，而CNN用于表示场景特征。我们提出了此核心鉴别器体系结构的两种版本：一种在本地范围内运行，用于行人，另一种在全局范围内运行，用于整个场景。前者直接对串联的过去和将来轨迹的编码执行分类，例如：

其中是从地面真实情况或预测路径中随机选择的未来轨迹样本。是分类分数，代表样本分别是带有真实标签1和0的地面真实（真实）或预测（伪造）。
全局判别器执行相同的分类操作，但基于行人轨迹的全局上下文向量。即，物理场景上下文，行人场景上下文和行人编码的串联。

3.6 Latent Encoder（该部分的描述，SINO的阅读笔记，讲的很清楚）

为了生成真正的多峰轨迹，我们鼓励我们的模型在输出的轨迹和输入到生成器的潜在空间之间建立双射。具体来说，我们既要将潜在噪声映射到输出轨迹，又要把该轨迹映射回到原始形势。虽然前者的任务是由发生器完成的，但我们使用潜场景编码器来完成后者，就像之前在Zhu等人中所做的那样[23]

图3：Social-BiGAT模型的培训过程。我们使用传统的对抗性学习技术教授生成器和区分器，并在生成的样本上增加了L2损失，以鼓励一致性。我们通过确保潜伏编码器可以重现传递到发生器中的噪声，并确保其镜像正态分布，进一步训练潜伏编码器。

潜在场景编码器的体系结构与本地鉴别器相对类似。首先，使用LSTM编码器在场景中对行人进行编码。该LSTM的嵌入在两个并行的MLP中传递，这些MLP被训练为每个行人输出均值和对数方差：

3.7 Losses

我们最终使用被选为超参数的λ权重组合所有这些损耗项：

如图3所示，要训练这四个模型，我们有一个多步训练过程，我们不仅要从噪声开始执行转换，还要从轨迹开始执行转换。在前一种情况中，我们要考虑两个主要的损耗项：发电机使鉴别器欺骗的GAN损耗（Lgan1）和鉴别器正确分类了发电机，以及重建噪声的损耗项（Lgan2）。我们将这些计算如下，其中G表示生成器，D表示鉴别器，E表示潜在编码器：

在后者中，我们有三个附加的损耗项：GAN损耗，轨迹的L2损耗，强制生成实际样本，以及生成的噪声的KL损耗，使其类似于绘制的噪声来自随机高斯分布：

4 Experiments

5 Conclusion

我们介绍了Social-BiGAT，这是一种用于预测行人运动的新颖体系结构，其在多个广泛使用的轨迹基准中的性能优于先前的最新方法。与先前的研究不同，我们的模型不仅能够为给定的行人生成多个轨迹，而且还能够以多模式方式为多个人生成轨迹。通过我们的评估和可视化，我们证明，Social-BiGAT能够捕获行人运动的复杂社会本质，并且我们能够通过在测试时调整潜能来控制预测。我们进一步对轨迹生成过程进行了一些重要的体系结构改进：**1）我们利用社交注意图网络（GAT）通过数据更好地学习行人互动，以及2）我们使用在本地和全球范围内运行的两个鉴别器进行训练。**如实验所示，通过这些设计模式，我们的Social-BiGAT模型能够生成预测人类运动更真实的行人轨迹。

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔（四） Superstarimage 文献随笔材质神经网络人工智能扩散模型
AnevaluationofSVBRDFPredictionfromGenerativeImageModelsforAppearanceModelingof3DScenes输入3D场景的几何和一张参考图像，通过扩散模型和SVBRDF预测器获取多视角的材质maps，这些maps最终合并成场景的纹理地图集，并支持在任意视角、任意光照条件下进行重新渲染。样例图如下：在当前时代的技术背景下，生成与几何匹配
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
《从依赖纠缠到接口协作：ASP.NET Core注入式开发指南》后端
在C#的ASP.NETCore开发中，依赖注入绝非简单的技术技巧，而是重构代码关系的底层逻辑。它像一套隐形的神经网络，让程序模块摆脱硬编码的束缚，在运行时实现动态连接，从而为系统注入可测试、可进化的核心生命力。理解其深层价值，需要穿透"服务注册与获取"的表层操作，触及它对软件设计哲学的重塑。依赖注入的本质，是对"依赖关系"的去中心化治理。传统开发中，模块间的依赖如同藤蔓缠绕的树木，一个组件直接创建
铸造软件交付的“自动驾驶”系统——AI大模型如何引爆DevOps革命 LucianaiB 评测人工智能自动驾驶 devops
铸造软件交付的“自动驾驶”系统——AI大模型如何引爆DevOps革命嗨，我是LucianaiB！总有人间一两风，填我十万八千梦。路漫漫其修远兮，吾将上下而求索。摘要(Abstract)本文深入探讨了人工智能大模型（AILargeModels）如何驱动DevOps从“自动化”（Automation）向“自主化”（Autonomous）的革命性跃迁。文章指出，AI大模型正成为现代软件工厂的“中枢神经系
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
小型化与低功耗工业数据采集卡的在哪些行业有强劲需求？番茄老夫子数据采集卡
小型化与低功耗工业数据采集卡在汽车、医疗、能源等多个行业有着强劲需求，以下是具体介绍：汽车行业：在汽车电子系统中，如电池管理系统、电机控制和自动驾驶系统等，需要采集大量传感器数据。小型化低功耗的数据采集卡可轻松嵌入汽车内部紧凑空间，且能在车辆长时间运行中保持低能耗，例如用于实时监控车载网络信号，优化ECU性能，同时满足汽车对零部件小型化、轻量化以及节能的要求。医疗行业：医疗设备如呼吸机、心脏监测仪
【零基础学AI】第36讲：GPT模型原理 1989 0基础学AI 人工智能 gpt lstm rnn YOLO 目标检测
本节课你将学到理解GPT模型的基本原理掌握Transformer解码器的工作机制实现一个简单的文本生成应用开始之前环境要求Python3.8+安装包：pipinstalltransformerstorch硬件：CPU即可运行（GPU可加速）前置知识了解基本的神经网络概念（第23讲内容）熟悉Python编程基础核心概念什么是GPT？GPT（GenerativePre-trainedTransform
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出