路过的风666

STTran: Spatial-Temporal Transformer for Dynamic Scene Graph Generation

文章目录

0 Abstract
1 Introduction
2 Related Work
3 Method
- 3.1 Transformer
- 3.2 Relationship Representation
- 3.3 Spatio-Temporal Transformer
- - 3.3.1 Spatial Encoder
  - 3.3.2 Frame Encoding
  - 3.3.3 Temporal Decoder
- 3.4 Loss Function
- 3.5 Graph Generation Strategies
4 Experiments
- 4.1 Dataset and Evaluation Metrics
- 4.2 Technical Details
- 4.3 Quantitative Results and Comparison
- 4.4 Temporal Dependency Analysis
- 4.5 Ablation Study
- 4.6 Qualitative Results
5 Conclusion

0 Abstract

动态场景图生成的目标是在给定的视频中生成场景图。与静态图片的场景图生成相比之下，它由于动态关系和时间依赖，能够获得更丰富的语义解释。本文提出STTran，包含了spatial encoder和temporal decoder

spatial encoder：对输入的每一帧提取空间上下文以及视觉关系。
temporal decoder：以spatial encoder的输出作为输入，从而捕获帧与帧之间的时间依赖关系，并推理动态关系。

STTran能适用于不同时长的视频，尤其是能对长视频能有不错的效果。我们的方法在Action Genome(AG) benchmark数据集上验证，实现了动态场景图生成的SOTA，并对每个模块做了消融实验。

Contributions

提出了一个新的框架STTran，对每帧的空间上下文进行编码，并对帧之间时间依赖的视觉关系表征进行解码。
不同于大多数相关工作，提出了一个新的策略去生成动态场景图。
验证了时间依赖会对关系预测有积极影响，模型提高了视频理解的性能，最终在AG数据集上实现SOTA。

1 Introduction

图1 图片和视频的场景图生成之间的区别

动态场景图生成会利用spatial context和temporal dependencies，每个不同颜色的节点表示不同物体

静态场景图生成是基于一个object detector生成object proposals，然后再推断它们之间的关系以及对象类别。然而，对象不一定在视频序列中是连续的，任意两个对象的关系会随着它们的运动而变化，我们称之为dynamic，因此，静态场景图生成方法无法直接用于动态场景。

2 Related Work

Scene Graph Generation
- 概念：场景图生成最早在图像检索中提出来，它是一种基于图的表示，描述对象之间的交互，节点表示对象，而边表示关系。
- 应用：图像检索、图像捕获、视觉问答VQA，以及图像生成。
- 不足：现实生活中普遍会出现多样化的交互关系，而大多数任务默认edge预测为single-label分类。这些方法往往是针对静态图像设计的，而为了扩展到视频，Ji等人根据分解视频中的活动，收集了大量的动态场景图，并提高了视频动作识别的SOTA。
Transformer for Computer Vision
- 在NLP任务上，尤其是大规模预训练语言模型，如GPT、BERT。
- 在视觉-语言任务上，例如image captioning、VQA、Caption-Based Image Retrieval和Visual Commonsense Reasoning(VCR)。最近，提出了DERT用于目标检测和全景分割。
- Transformer用来挖掘视觉信息，取代了传统的CNN backbone。
  - 它的核心机制是self-attention building block，通过有选择地关注输入点进行预测，从而捕获不同输入点之间的context和每个点的表征。
  - 然而，以前方法都聚焦于学习单张图片中的spatial context，而temporal dependencies在视频理解中是十分重要的。
    - Action Transformer中利用了transformer实现了spatio-temporal representations，参考了I3D模型，然后在RPN网络提供的RoI中池化，对视频片段进行人的行为识别。
    - 每帧的特征是由CNN backbone提取出来的，输入至transformer encoder，去学习视频序列的时间信息。
Spatial-Temporal Networks
- Spatial-temporal信息是视频理解的关键，最流行的方法是基于RNN/LSTM的、基于3D ConvNets的框架。
  - 基于RNN/LSTM的框架：对每帧按顺序提取特征，并学习时间信息。
  - 基于3D ConvNets的框架：利用输入序列的时间维度，扩展了传统的2D卷积（height和width）
- 本工作中，我们不仅利用transformer去学习对象之间的空间context，还学习了帧与帧之间的时间依赖，从而推断随着时间变化的动态关系。

3 Method

动态场景图是基于静态场景图的，有一个额外的索引t表示随时间变化的关系。transformer的两个特性：

结构是包裹不变的（permutation-invariant）。
序列与位置编码兼容。

我们提出一个新模型STTran，能够利用视频中的时空上下文。

3.1 Transformer

Transformer最早由Vaswani提出，它由一叠基于点积注意的多头transformer精炼层组成，每一层中的输入是 $X∈R^{N×D}$ ，N个entityD个维度，通过线性变换为queries( $Q=XW_Q, W_Q∈R^{D×D_q}$ )，keys( $K=XW_K,W_K∈R^{D×D_k}$ )以及values( $V=XW_V,W_V∈R^{D×D_v}$ )

注意： $D_q,D_k,D_v$ 通常在实现中相同，每个entity都通过点积attetion与其他entity进行细化，定义如下：
$Attention(Q,K,V)=Softmax(\frac{QK^T}{\sqrt{D_k}})V$
为了提高attention层的性能，应用的多头注意力定义为：
$MultiHead(Q,K,V)=Concat(h_1,...,h_h)W_O$

$h_i=Attention(XW_Q,XW_K,XW_{V_i})$

一个完整的自注意力层包含了如上的self-attention模块，之后是一个残差连接的归一化层和一个前馈层。

后续自注意力层简称为 $A tt (.)$

本工作中，我们设计了一个时空transformer，探索单帧的空间context、序列的时间dependencies。

3.2 Relationship Representation

我们使用Faster R-CNN作为backbone，对 $T$ 帧的视频 $V=[I_1,I_2,...,I_T]$ ，时间为t时的帧表示为 $I_t$ ，detector提取的视觉特征为 ${v_t^1,...,v_t^{N(t)}\}∈R^{2048}$ ，bounding boxes为 ${b_t^1,...,b_t^{N(t)}\}$ ，对象种类分布为 ${d_t^1,...,d_t^{N(t)}\}$ ，其中 $N (t)$ 表示该帧下对象的数量。在每帧的 $N (t)$ 个对象之间有一组关系向量 $R_t=\{r_t^1,...,r_t^{K(t)}\}$ ，第i和j个对象之间的 $r_t^k$ 关系对应的表征向量 $x_t^k$ 包含了视觉外观、空间信息、和语义嵌入，公式如下：
$x_t^k=$
其中， $<, >$ 表示连接操作， $\phi$ 表示扁平操作、 $\oplus$ 表示逐元素加法， $W_s,W_o∈R^{2048×512}，W_u∈R^{12544×512}$ 表示维度压缩的线性矩阵。 $u_t^{i,j}∈R^{256×7×7}$ 表示RoIAlign计算出的union box的特征图，而 $f_{box}$ 是一个将subject和object的bbox转换成一个完整的特征（与 $u_t^{i,j}$ 形状一致），语义嵌入向量 $s_t^i∈R^{200}$ 由subject和object的对象类别决定。关系表征在时空transformer中交换了spatial和temporal信息。

3.3 Spatio-Temporal Transformer

ST-transformer依然保持着encoder-decoder架构，不同的是，此处的encoder和decoder会处理更具体的任务。

3.3.1 Spatial Encoder

Spatial Encoder集中在每一帧的空间上下文，其输入是单个的 $X_t=\{x_t^1,x_t^2,...,x_t^{K(t)}\}$ ，queries $Q$ 、keys $K$ 和values $V$ 在第n个encoder层中共享着相同的输入和输出，表示为：
$X_T^{(n)}=Att_{enc.}(Q=K=V=X_t^{(n-1)})$
这个encoder由N个自注意力层 $Att_{enc.}$ 依次堆叠组成，第n-1层的输出作为第n层的输入。为了简便，我们下面不讨论superscript n。不像大多数transformer方法，由于帧之间的关系直观上是平行的，因此我们没有将额外的positional encoding集成到inputs里面去。隐藏关系表中的空间信息在self-attention机制中起着关键作用。encoder statcks最后的输出会作为Temporal decoder的输入。

3.3.2 Frame Encoding

在temporal decoder介绍之前，先介绍一下frame encoding。没有卷积和递推，序列顺序的知识（例如位置编码）必须嵌入transformer的input。与word position和pixel position不同，我们定制了frame encodings，在关系表征中注入了时间位置。帧编码 $R_f$ 是由学到的embedding参数所构建的，因为嵌入向量的数量（取决于Temporal Decoder的窗口大小）是稳定且相对较小的： $E_f=[e_1,...,e_\eta∈R^]$ ，其中 $e_1,...,e_\eta∈R^{1936}$ 是学到的相同长度为 $x_t^k$ 的向量。

广泛使用的正弦编码在table 5中尽心了对比，我们使用的拥有更好性能的learned encoding，窗口大小 $\eta$ 是固定的，因此视频长度不会影响到frame encoding的长度。

3.3.3 Temporal Decoder

通过temporal decoder捕获帧之间的时间依赖，计算量和内存消耗都急剧提高，但有用信息很容易被大量无关表示压倒。在本文中，我们采用一个滑动窗口用于批处理视频帧，以至于消息在相邻帧之间传递，从而避免了与远处帧发生干扰。

我们temporal decoder的自注意力层与spatial encoder $Att_{enc.}()$ 相同，即masked multi-head self-attention layers被移除。滑动窗口 $\eta$ 在空间上下文表示 $X_1,..,X_T]$ 的序列上执行，第i个生成的输入批次表示为：
$Z_i=[X_i,...,X_{i+\eta-1}],i∈\{1,...,T-\eta+1\}$
其中窗口大小 $\eta≤T$ ， $T$ 是视频长度。

这个decoder是由N个堆叠的相同self-attention layer $Att_{dec}()$ 组成的。第一层如下“
$Q=K=Z_i+E_f, \\ V=Z_i, \\ \hat{Z_i}=Att_{dec.}(Q,K,V)$
如上第一行公式，同样的encoder也被添加到关系表征中，与Queries和Keys放在同一个框架中。最后一个decoder层的输出将作为最终的预测结果。由于滑动窗口，每个帧的关系会在不同的batch中有多种多样的表征。本文中我们选择最早在窗口中出现的表征。

3.4 Loss Function

我们采用multiple linear transformer的来推断精炼表征与不同类型的关系（如注意力、空间、接触）。事实上，两个对象之间的同种关系在语义上不是唯一的，例如同义动作person-holding-broom和person-touching-broom。因此，我们使用multi-label margin loss function去进行谓词分类：
$L_p(r,P^+,P^-)=\sum_{p∈P^+}\sum_{q∈P^-}max(0,1-\phi(r,p)+\phi(r,q))$
其中，一个人-物对 $r$ ， $P^+$ 是已标记的谓词，而 $P^-$ 是一组不在标注内的谓词。 $\phi(r,p)$ 表示计算出的第p个谓词的置信度。

在训练过程中，物体类别分布是由两个全连接层（ReLU激活函数+批量归一化）计算得到的， $L_o$ 使用的是标准交叉熵损失，完整的损失函数为： $L_{total}=L_p+L_o$

3.5 Graph Generation Strategies

以前的工作中，生成场景图有两种经典策略：

With Constraint
- 只允许每个subject-object对最多只有一个谓词
- 更加严格，表明了模型预测最重要关系的能力，但它与multi-label任务是不兼容的。
No Constraint
- 允许每个subject-object有多个谓词。
- 反映多标签预测能力，能容忍多个财产导致生成的场景图中出现错误信息。

为了能够使生成的场景图更接近Ground Truth，我们提出了一个新的策略叫做Semi Constraint，允许一个subject-object对有多重谓词，如person-holding-food、person-eating-food

如果关系的置信度高于阈值，则相应谓词被视为正谓词。在测试时，每个关系三元组的得分计算如下：
$s_{rel}=s_{sub}·s_p·s_{obj}$
其中三者分别是subject、predicate和object的置信度。

4 Experiments

4.1 Dataset and Evaluation Metrics

Dataset：Action Genome（AG）基于Charades数据集，35个object类别(不包括person)共有476229个bbox，25个关系类别共有1715568个实例，标注在234253帧中。

25种关系可以分为三种类型：

attention关系
spatial关系
contact关系

AG种有135484个subject-object对被标记为多重spatial关系（如door-in front of-person、door-on the side of-person），多重contact关系（如person-eating-food、person-holding-food）

Evaluation Metrics：我们遵循图片场景图生成的三个标准任务进行评估

predicate classification (PREDCLS)

给定ground truth的labels和bbox，预测subject-object对的谓词label。
scene graph classification (SG-CLS)

对ground truth bbox进行分类，预测关系label。
scene graph detection (SGDET)

检测目标并预测关系label。（若预测的box与ground truth bbox的IoU大于0.5，则目标检测结果正确）

三个任务均由Recall@K(K=[10,20,50]) 指标，分别按照With Constraint、Semi Constraint和No Constraint进行评估。默认设置Semi Constraint的关系置信度阈值为0.9

4.2 Technical Details

目标检测的backbone采用的是基于ResNet101的FasterRCNN，我们在Action Genome训练集上训练一个检测器，得到24.6的mAP（0.5 IoU的COCO指标）。该检测器用于所有baselines进行公平对比，训练场景图生成模型时的参数(包括RPN)均固定，每个类别的NMS的IoU阈值为0.4，能够减少region proposals。

我们利用AdamW优化器，初始学习率为 $1e^{-5}$ ，批量大小为1，训练我们的模型。梯度剪切的maximal norm为5，窗口大小$ \eta $为 2 ，步长为 1 。 s p a t ia l e n co d er 包含一层，而 t e m p or a l d eoco d er 包含了 3 个迭代层。 e n co d er 和 d eco d er 种的自注意力模块有 8 个 h e a d s ，$ d_{model}=1936, dropout=0.1$，前馈网络将 1936-d 输入投射到 2048-d，然后在 ReLU 激活后再次投射到 1936-d。

4.3 Quantitative Results and Comparison

表1,2对比了我们的模型在三种约束下均实现了SOTA，所有的方法均使用相同的object detector，提供了相同的feature maps和region proposals。

4.4 Temporal Dependency Analysis

以前基于图片的场景图生成相比，动态场景图有额外的temporal dependencies，接下来讨论一下它是如何提高关系推理的，并验证我们的利用了它的方法。

为了探索temporal dependencies的效果，我们迁移广泛使用的循环网络LSTM，如下图3所示。在将特征向量转入最终分类器之前，代表视频中各种关系的整个向量被组织成一个序列，并由 LSTM 进行处理。

我们随机选取1/3的视频打乱或者翻转，与不打乱或者翻转的情况对比，如下所示，打乱或者翻转会导致最后的结果较差。

4.5 Ablation Study

在STTran种，包含了Spatial Encoder和Temporal Decoder两个模块，以及通过Frame Encoding整合了temporal position到关系表征中（在Temporal Decoder模块中），为了验证哪个部分对模型性能影响最大，进行了相应的消融实验，如下表所示：

如下图所示，没有temporal dependencies时，spatial encoder会误检为person-touching-food，而不是正确的person-eating-food。

4.6 Qualitative Results

如下五列图片分别是RGB frame、Ground Truth生成的场景图、top-10可信的关系预测结果在三种策略下生成的场景图（With / Semi / No Constraint）。灰色表示False Positive、瓜色表示Truth Positive、绿色box表示未被detector检测出。

With Constraint只允许每对subject-object有一个类型的关系，而No Constraint中的person-not contacting-bottle取代了attention relationship。

注：下面两帧不是相邻的，因为人的IoU小于0.5。

5 Conclusion

提出了STTran，针对动态场景图生成，其中的encoder提取每帧的spatial context，decoder捕获帧与帧之间的temporal dependencies。
与以往单标签loss不同的是，我们利用一个multi-label margin loss并采用一个新的场景图生成策略。
几个实验都演示了temporal context对关系预测是有积极影响的，在AG数据集上的动态场景图生成任务上获得了SOTA。

BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
探索创新科技： Lite-Mono - 简约高效的小型化Mono框架杭律沛Meris
探索创新科技：Lite-Mono-简约高效的小型化Mono框架Lite-Mono[CVPR2023]Lite-Mono:ALightweightCNNandTransformerArchitectureforSelf-SupervisedMonocularDepthEstimation项目地址:https://gitcode.com/gh_mirrors/li/Lite-Mono如果你在寻找一个轻
解决BERT模型bert-base-chinese报错（无法自动联网下载）搬砖修狗 bert 人工智能深度学习 python
一、下载问题hugging-face是访问BERT模型的最初网站，但是目前hugging-face在中国多地不可达，在代码中涉及到该网站的模型都会报错，本文我们就以bert-base-chinese报错为例，提供一个下载到本地的方法来解决问题。二、网站google-bert(BERTcommunity)Thisorganizationismaintainedbythetransformerstea
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
车载以太网之SOME/IP IT_码农车载以太网车载以太网 SOME/IP
整体介绍SOME/IP(全称为：Scalableservice-OrientedMiddlewarEoverIP)，是运行在车载以太网协议栈基础之上的中间件，或者也可以称为应用层软件。发展历程AUTOSAR4.0-完成宝马SOME/IP消息的初步集成；AUTOSAR4.1-支持SOME/IP-SD及其发布/订阅功能；AUTOSAR4.2-添加transformer用于序列化以及其他相关优化；AUT
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
多模态Transformer之文本与图像联合建模 - Transformer教程 shandianfk_com ChatGPT Transformer transformer 深度学习人工智能
大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。对于很多小伙伴来说，Transformer这个词已经不陌生了，但它不仅仅应用于自然语言处理，还能在图像处理、甚至是多模态数据的处理上大显身手。接下来，我会带大家深入了解什么是多模态Transformer，以及它是如何实现文本与图像的联合建模的。Transformer简介首先，我们简单回顾一下T
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
多模态大模型微调Qwen-VL微调及日志 Messi^ 人工智能-大模型应用 python 人工智能深度学习
%pipinstallmodelscope-U%pipinstalltransformersacceleratetiktoken-U%pipinstalleinopstransformers_stream_generator-U%pipinstallpillow-U%pipinstalltorchvision%pipinstallmatplotlib-Ufrommodelscopeimport(s
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
DIODE：超高分辨率室内室外数据集（猫脸码客第186期）猫脸码客: catCode2024 开源数据集猫脸码客开源数据集超高分辨率室内室外数据集
亲爱的读者们，您是否在寻找某个特定的数据集，用于研究或项目实践？欢迎您在评论区留言，或者通过公众号私信告诉我，您想要的数据集的类型主题。小编会竭尽全力为您寻找，并在找到后第一时间与您分享。在计算机视觉和深度学习领域，深度信息作为三维空间感知的重要组成部分，对于实现高级视觉任务如场景理解、机器人导航、增强现实等具有至关重要的作用。然而，获取准确且密集的深度数据一直是一个挑战，尤其是在同时涵盖室内和室
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
计算机视觉—照相机（下） zidea
封面焦距(FieldofView)同一位置相机用不同焦距，28mmFieldofView就变小，85mm时候的Fieldofview也就是只有28度视野，每一个物体在通常尺寸的胶片上像素也就是越多，chromaticAberration焦距和是波长相关，不同颜色光聚焦在不同位置。这种现象在物体边缘尤为明显。颜色颜色说简单也简单，说复杂也复杂，我们在高中物理已经知道可见光是电磁波，不同颜色对应不同波
Python OpenCV精讲系列 - 高级图像处理技术（五）极客代码 Python OpenCV精讲 python opencv 图像处理开发语言人工智能计算机视觉
⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计，从基础概念入手，逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解，更有实战代码示例，助力读者快速将所学应用于实际项目中，提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进
大规模语言模型的书籍分享，从零基础入门到精通非常详细收藏我这一篇就够了黑客-雨语言模型人工智能自然语言处理学习大模型学习大模型入门大模型教程
在当今人工智能领域，大规模语言模型成为了研究和应用的热点之一。它们以其大规模的参数和强大的性能表现，推动着机器学习和深度学习技术的发展。对于GPT系列大规模语言模型的发展历程，有两点令人印象深刻。第一点是可拓展的训练架构与学习范式:Transformer架构能够拓展到百亿、千亿甚至万亿参数规模，并且将预训练任务统一为预测下一个词这一通用学习范式;第二点是对于数据质量与数据规模的重视:不同于BERT
计算机视觉中的数据增强方法总结 CV技术指南(公众号) CV技术总结计算机视觉深度学习卷积神经网络
前言：在计算机视觉方向，数据增强的本质是人为地引入人视觉上的先验知识，可以很好地提升模型的性能，目前基本成为模型的标配。最近几年逐渐出了很多新的数据增强方法，在本文将对数据增强做一个总结。本文介绍了数据增强的作用，数据增强的分类，数据增强的常用方法，一些特殊的方法，如Cutout，RandomErasing，Mixup，Hide-and-Seek，CutMix，GridMask，FenceMask
计算机视觉中，什么是Hide-and-Seek？ Wils0nEdwards 计算机视觉人工智能
是的，Hide-and-Seek技术主要是在弱监督学习领域中使用的，它的核心思想是通过随机遮掩输入图像的一部分，强迫模型学习更全面的特征，而不是仅仅依赖显著的局部信息。由于弱监督场景下的监督信号有限，例如只有少量的点标注、粗略标注或没有任何标注，模型容易过度依赖于图像中最显著的部分，而忽略其他信息。这种现象会导致模型只关注容易识别的局部特征，而无法理解物体的整体结构或捕捉更多的背景信息。1.Hid
QLoRa使用教程云帆@ 训练 peft 人工智能
一、定义定义案例1二、实现定义QLoRa:量化+LoRa.网址：https://huggingface.co/docs/peft/main/en/developer_guides/quantization案例11.4bit量化+LoRaimporttorchfromtransformersimportBitsAndBytesConfigconfig=BitsAndBytesConfig(load_
【Tools】大模型中的BERT概念音乐学家方大刚工具 bert 人工智能深度学习
摇来摇去摇碎点点的金黄伸手牵来一片梦的霞光南方的小巷推开多情的门窗年轻和我们歌唱摇来摇去摇着温柔的阳光轻轻托起一件梦的衣裳古老的都市每天都改变模样方芳《摇太阳》BERT（BidirectionalEncoderRepresentationsfromTransformers）是一种基于Transformer的预训练语言模型，由Google于2018年发布。BERT的目标是通过大规模无监督预训练学习来
Transformer模型：WordEmbedding实现 Galaxy.404 Transformer transformer 深度学习人工智能 embedding
前言最近在学Transformer，学了理论的部分之后就开始学代码的实现，这里是跟着b站的up主的视频记的笔记，视频链接：19、Transformer模型Encoder原理精讲及其PyTorch逐行实现_哔哩哔哩_bilibili正文首先导入所需要的包：importtorchimportnumpyasnpimporttorch.nnasnnimporttorch.nn.functionalasF关
计算机视觉——第三章图像拼接 JMU15980999055 python 计算机视觉人工智能
计算机视觉——第三章图像拼接1.图像全景拼接的原理和过程的简要介绍1.1特征点提取和匹配1.2图像配准1.3图像拼接2.实现多图像拼接2.1图片集说明2.2实验代码2.3实验结果及其分析3.两张不同角度的图像拼接3.1图片集说明3.2实验代码3.3实验结果及其分析总结1.图像全景拼接的原理和过程的简要介绍在同一位置拍摄的两幅或者多幅图片是单应性相关的，我们经常使用该约束将很多图像缝补起来，拼成一个
【Vidu发布】中国首个长时长、高一致性、高动态性Video AI大模型叶锦鲤人工智能
就在昨日（2024年4月27日），北京生数科技有限公司（以下简称“生数科技”）联合清华大学在中关村论坛-未来人工智能先锋论坛上，正式发布中国首个长时长、高一致性、高动态性视频大模型：Vidu。该模型采用生数科技团队原创的Diffusion与Transformer融合的架构U-ViT。据发布会介绍，Vidu不仅支持一键生成长达16秒、分辨率高达1080P的高清视频内容，还能够模拟真实物理世界，拥有丰
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/