yyl424525

DeepGCNs-Can GCNs Go as Deep as CNNs? ICCV 2019

文章目录

1. 相关介绍

1.1 背景介绍
1.2 contribution
1.3 CNN中的dilated convolutions （膨胀卷积、扩张卷积、空洞卷积）

2. 模型与方法

2.1 图表示学习

图卷积
动态边

2.2 GCN中使用残差连接
2.3 GCN中使用dense连接
2.4 GCN中使用dilated聚合

3 实验

3.1 TASK: 3D Point Cloud Segmentation
3.2 实验指标
3.3 网络架构
3.4 实现
3.5 实验结果

资料分享

论文：DeepGCNs: Can GCNs Go as Deep as CNNs?

作者：Guohao Li, Matthias Müller, Ali Thabet, Bernard Ghanem

来源：ICCV 2019 Oral

论文链接：https://arxiv.org/abs/1904.03751

Github链接：https://github.com/lightaime/deep_gcns

本篇文章主要阐述了怎么去构建一个网络使得GCN能够堆叠更深的层且不会发生梯度消失的问题，引入了三个方法：1.Resnet 2.Densenet 3.Dilated convolutions 。最后，使用构建了一个非常深的56层的GCN，并展示它如何在点云语义分割任务中显著地提升了性能（相当于最先进的3.7％mIoU|均交并比）。

1. 相关介绍

1.1 背景介绍

GCN网络在近几年发展迅猛。对GCN的研究主要在于两点：

应用：现实世界中非欧氏距离的数据激增，GCN的应用广泛
性能：CCN处理这些数据的局限性

CNN的成功的一个关键因素是能够设计和训练一个深层的网络模型。但是，现在还不清楚如何恰当地设计一个深层的GCN结构。目前的研究工作认为，GCN中aggregate的本质其实相当于图像处理中的平滑(smooth)，但是深层GCN的Aggregate容易造成over smooth问题，即节点间的feature难以区分，导致GCN模型一般在2-3层左右。因此，如何让GCN能够进行深层模型的学习一直是一个难题。

DeepGCNs-Can GCNs Go as Deep as CNNs? ICCV 2019_第1张图片

1.2 contribution

（1）借助CNN加深的思想，提出了三个深层GCN的算法：residual/dense connections, 和dilated convolutions （膨胀卷积、扩张卷积、空洞卷积）

residual / dense connections：解决由网络加深导致的梯度消失问题
dilated convolutions：解决由于pooling而导致的空间信息丢失，把卷积核膨胀了，增大了感受野，但没有增加参数数量

（2）使用点云语义分割(point cloud segmentation)任务作为实验平台，展示了这些新层对深度GCNs训练稳定性和性能的影响。

（3）使用提出的模型，在数据集S3DIS上实现了近4%的性能提升。

1.3 CNN中的dilated convolutions （膨胀卷积、扩张卷积、空洞卷积）

一个空洞卷积的例子如下：

DeepGCNs-Can GCNs Go as Deep as CNNs? ICCV 2019_第2张图片

Standard Convolution with a 3 x 3 kernel (and padding)

DeepGCNs-Can GCNs Go as Deep as CNNs? ICCV 2019_第3张图片

Dilated Convolution with a 3 x 3 kernel and dilation rate 2

2. 模型与方法

2.1 图表示学习

图卷积

通用的GCN网络从第 $l$ 层到 $l + 1$ 层的传播按如下方式：
$G_{l+1}=\mathcal{F}(G_l,W_l)=Update(Aggregate(G_l,W_l^{agg}),W_l^{update}) \qquad(1)$

$G_l=(V_l,\varepsilon_l)$ 和 $G_{l+1}=(V_{l+1},\varepsilon_{l+1})$ 分别是第 $l$ 层的输入和输出
$W_l^{agg}$ 和 $W_l^{update}$ 分别是可训练的聚合和更新函数的权重，它们是GCNs的关键部分

聚合函数可以是mean
aggregator、max-pooling aggregator、attention aggregator或LSTM aggregator。更新函数可以是多层感知器，门控网络等。更具体地说，通过对所有 $v_{l+1} \in V_{l+1}$ 的相邻顶点特征进行聚合，计算出各层的顶点表示，如下所示：

$h_{v_{l+1}} = \phi (h_{v_l}, \rho({h_{u_l}|u_l∈ \mathcal{N}(v_l)},h_{v_l},W_\rho ), W_\phi) \qquad(2)$

$\rho$ 是一个顶点特征的聚合函数
$\phi$ 是一个顶点特征的更新函数
$h_{v_l}$ 和 $h_{v_{l+1}}$ 分别是第 $l$ 层和 $l + 1$ 层的顶点特征
$\mathcal{N}(v_l)$ 是第 $l$ 层的顶点 $v$ 的邻居节点的集合
$h_{u_l}$ 是由 $W_\rho$ 参数化的邻居顶点的特征。
$W_\phi$ 包含了这些函数的可训练的参数

本文使用一个简单的max-pooling顶点特征聚集器，在没有可学习参数的情况下，来聚集中心顶点与其所有相邻顶点之间的特征差异。使用的更新器是一个有batch normalization的多层感知器（MLP）和一个ReLU作为激活函数。

动态边

大多数GCN只在每次迭代时更新顶点特征。最近的一些工作表明，与具有固定图结构的GCN相比，动态图卷积可以更好地学习图的表示。例如，ECC（Edge-Conditioned Convolution，边缘条件卷积）使用动态边缘条件滤波器（dynamic edge-conditional filters）学习特定边的权重矩阵。EdgeConv在每个EdgeConv层之后，找到特征空间中最近的邻居来重建图形。为了学习点云的生成，Graph-Convolution GAN（生成对抗网络）还应用k-NN图来构造每一层顶点的邻域。动态变化的GCN邻居有助于缓解过度平滑的问题，并产生一个有效的更大的感受野。因此，文中在每一层的特征空间中通过一个Dilated k-NN函数来重新计算顶点之间的边，以进一步增加感受野。

2.2 GCN中使用残差连接

说简单点就是作者受到ResNet的启发把GCN改成ResGCN。文中提出了一个图的残差学习框架，通过拟合另一个残差映射 $\mathcal{F}$ 来学习所需的底层映射 $\mathcal{H}$ 。在 $G_l$ 通过残差映射 $\mathcal{F}$ 变换了后，进行逐点加法得到 $G_{l+1}$

$G_{l+1}=\mathcal{H}(G_{l},W_l)=\mathcal{F}(G_l,W_l)+G_l \qquad(3)$
残差映射 $\mathcal{F}$ 把一个图作为输入并为下一层输出一个残差图的表示 $G_{l+1}^{res}$ 。 $W_l$ 是第 $l$ 层的一组可学习参数。
$G_{l+1}^{res}=\mathcal{F}(G_l,W_l):=G_{l+1}-G_l \qquad(4)$

2.3 GCN中使用dense连接

DenseNet提出了一种更有效的方法，通过密集的连接来改进信息流并重用层之间的特征。DenseNet的启发下，文中采用了类似的思想到GCNs中，以利用来自不同GCN层的信息流，将使用了dense connection的GCN称为DenseGCN。

$\begin{aligned} G_{l+1} & =\mathcal{H}(G_{l},W_l) \\ & =\mathcal{T}(\mathcal{F}(G_l,W_l),G_l) \\ & =\mathcal{T}(\mathcal{F}(G_l,W_l),...,\mathcal{F}(G_0,W_0),G_0) \end{aligned} \qquad(5)$

操作 $\mathcal{T}$ 是一个顶点连接函数，它将输入图 $G_0$ 与所有中间GCN层输出紧密地融合在一起
$G_{l+1}$ 包含了来自前一层的所有GCN转换
DenseGCN的增长率等于输出图的维数 $D$ 。例如，如果 $\mathcal{F}$ 生成一个 $D$ 维顶点特征，其中输入图 $G_0$ 的顶点为 $D_0$ 维，则 $G_{l+1}$ 的每个顶点的特征尺寸为 $D_0+D ×(l+1)$ 。

2.4 GCN中使用dilated聚合

作者从借鉴小波分析，提出了以下方法：
（1）作者考虑在特征空间上使用 $l^2$ 距离，对与目标节点(卷积中心点)的距离进行排序：

$u_1 , u_2 , ..., u_{k×d}$
(2)Dilated K-NN: 使用dilated方法确定dilated系数为 $d$ 时，目标节点(卷积中心点) $v$ 相对应的邻居节点为 $u_1,u_{1+d} ,u_{1+2d} , ..., u_{1+(k−1)d})$ 。

$\mathcal{N}^{(d)}(v)= {u_1,u_{1+d} ,u_{1+2d} , ..., u_{1+(k−1)d} }$

DeepGCNs-Can GCNs Go as Deep as CNNs? ICCV 2019_第4张图片

图3:在GCNs中的空洞卷积示意图
上图是一个2维空间中的空洞卷积，扩张率分别为1,2,4
下图是在动态图中的卷积，扩张率分别为1,2,4

3 实验

使用提出的ResGCN和DenseGCN来处理GCNs的消失梯度问题。
为了扩大接受域，定义了一个扩张的图卷积算子 dilated convolution 。
为了评估的框架，对大规模点云分割任务进行了大量的实验，并证明了文中的方法可以显著提高模型性能。

3.1 TASK: 3D Point Cloud Segmentation

由于点云结构无序、不规则，点云分割是一项具有挑战性的任务。通常，点云中的每个点都由其三维坐标和其他特征（如颜色、曲面法线等）表示。
在有向图 $G$ 中，作者将每个点视为顶点 $v$ ，并使用k-NN构造每个GCN层点之间的有向动态边）。
在第一层，执行一个dilated k-NN搜索在三维坐标空间中找到最近的邻点，构造了一个初始输入图 $G_0$ 。在随后的层中，使用特征空间中的dilated k-NN动态构建边。
对于分割任务，预测输出层所有顶点的类别。

3.2 实验指标

对所有类别都使用了 overall accuracy (OA) 和 mean intersection over union (mIoU) 作为评价指标。

补充：

True Positive （真正, TP）被模型预测为正的正样本；
True Negative（真负 , TN）被模型预测为负的负样本；
False Positive （假正, FP）被模型预测为正的负样本；
False Negative（假负 , FN）被模型预测为负的正样本；
ground truth：在有监督学习中，数据是有标注的，以(x, t)的形式出现，其中x是输入数据，t是标注。正确的t标注是ground truth
Mean Intersection over Union(MIoU，均交并比)：为语义分割的标准度量。其计算两个集合的交集和并集之比，在语义分割的问题中，这两个集合为真实值（ground truth）和预测值（predicted segmentation），即计算真实值集和预测值集的交集和并集之比后再求平均。这个比例可以变形为正真数（intersection）比上真正、假负、假正（并集）之和。在每个类上计算IoU，之后平均。
为了便于解释，假设如下：共有 $k + 1$ 个类（从 $L_0$ 到 $L_k$ ，其中包含一个空类或背景）， $p_{ij}$ 表示本属于类 $i$ 但被预测为类 $j$ 的像素数量。即， $p_{ii}$ 表示真正的数量，而 $p_{ij},p_{ji}$ 则分别被解释为假正和假负，尽管两者都是假正与假负之和。
$MIoU=\frac{1}{k+1}\sum_{i=0}^{k}{\frac{p_{ii}}{\sum_{j=0}^{k}{p_{ij}}+\sum_{j=0}^{k}{p_{ji}}-p_{ii}}}$

3.3 网络架构

如下图所示，模型包含三个部分：GCN、fusion、MLP三个模块。

DeepGCNs-Can GCNs Go as Deep as CNNs? ICCV 2019_第5张图片

图2:论文中对于点云语义分割的GCNs网络结构
左图是组成框架的三个block（a GCN backbone block, a fusion block and an MLP prediction block）
右图是GCN backbone block研究的三种主要类型，如PlainGCN、ResGCN、DenseGCN。
采用了两种GCN跳跃连接：vertex-wise additions and vertex-wise concatenations。
$k$ 是GCNs层中最临近的邻居的数量， $f$ 是隐藏层或滤波器的数量， $d$ 是扩张率。

3.4 实现

使用TensorFlow来实现所有模型。
为了公平比较，使用初始学习率0.001和相同学习率Adam优化器；
学习率每 $3×10^5$ 个梯度下降50%。
使用两个Nvidia Tesla V100 GPU，利用数据并行性对网络进行训练。每个GPU的batch size设置为8。
Batch Normalization应用于每一层。
MLP prediction block的第二个MLP层使用0.3速率的dropout。
对于GCNs with dilations，使用具有随机均匀抽样概率 $\epsilon=0.2$ 的扩张k-nn。
为了隔离所提出的深度GCN架构的影响，不使用任何数据扩充和后处理技术。

3.5 实验结果

DeepGCNs-Can GCNs Go as Deep as CNNs? ICCV 2019_第6张图片

图5:在S3DIS中的5个区域进行的消融研究
将参考网络（ResGCN-28有与28层、残差图连接和扩张图卷积等与几个消融的变体进行了比较。
除用于评估的区域5外，所有模型在所有区域均以相同的超参数进行100个epoch的训练。

DeepGCNs-Can GCNs Go as Deep as CNNs? ICCV 2019_第7张图片

DeepGCNs-Can GCNs Go as Deep as CNNs? ICCV 2019_第8张图片

资料分享

ResGCN-Can GCNs Go as Deep as CNNs? 两份PPT（官方PPT和会议PPT）
ResGCN-Can GCNs Go as Deep as CNNs 论文ppt
Stanford Large-Scale 3D Indoor Spaces Dataset (S3DIS，斯坦福大规模三维室内空间数据集)
此论文的tensorflow版github源代码

你可能感兴趣的:(GNN&GCN论文笔记)

论文笔记＜交通灯＞＜多智能体＞CoLight管理交通灯青椒大仙KI11 论文阅读
今天看的是论文Colight:学习网络级合作进行交通信号控制论文提出的CoLight模型是一种基于强化学习和图注意力网络的交通信号灯控制方法，旨在解决城市道路网络中的交通信号的写作问题，提升车辆通行效率。问题定义为：将交通信号控制问题建模为马尔可夫博弈，每个路口由一个智能体控制，智能体通过观察部分系统状态（当前相位和各车道车辆数），选择动作（下一时间段的相位），目标是最小化路口周围车道的平均队列长
《基于超声的深度学习模型用于降低BI-RADS 4A乳腺病变的恶性率》论文笔记 MobileNet 往事随风、、论文笔记机器学习深度学习论文阅读人工智能机器学习健康医疗
《APPLICATIONOFDEEPLEARNINGTOREDUCETHERATEOFMALIGNANCYAMONGBI-RADS4ABREASTLESIONSBASEDONULTRASONOGRAPHY》《基于超声的深度学习模型用于降低BI-RADS4A乳腺病变的恶性率》原文地址：链接文章目录摘要简介方法患者图像获取与处理深度学习模型统计分析结果讨论结论摘要本研究旨在开发一个基于超声（US）图像
论文笔记--Language Models are Unsupervised Multitask Learners Isawany 论文阅读论文阅读语言模型 transformer chatgpt 自然语言处理
论文笔记GPT-2--LanguageModelsareUnsupervisedMultitaskLearners1.文章简介2.文章导读2.1概括2.2文章重点技术2.2.1数据集WebText2.2.2分词方法3.GPT-1&GPT-24.文章亮点5.原文传送门6.References1.文章简介标题：LanguageModelsareUnsupervisedMultitaskLearners
You Only Look Once Unified, Real-Time Object Detection论文笔记 __Lo__ 目标检测论文阅读深度学习
文章结构统一检测框架(UnifiledDetection)核心思想YOLO将目标检测视为一个端到端的回归问题，输入的图像经过SingleForwardPass，直接输出物体的信息（边界框的位置、边界框的置信度、类别概率）；优势在于速度快，全局理解上下文，这里全局理解上下文的意思是识别物体和背景的关系，减少误检。网络设计网格划分（GridDivision）将图像划分为一个S×S的网格，文中S=7；共
【论文笔记】UnifiedQA：新SOTA，生成模型一统问答任务 iLuz 深度学习自然语言处理
目录引言模型介绍1.输入格式2.实验结果总结引言问答任务有多种形式，常见的有抽取式问答(EX)、摘要式问答(AB)、多选题式问答(MC)、判断式问答(YN)。一般的解决方案是针对不同形式的问答任务设计不同的模型。例如，抽取式问答、多选题式问答、判断式问答可以转化为分类任务，摘要式问答可以转换为生成任务。尽管任务形式不同，但模型所需的语义理解和推理能力是共通的，或许不需要format-special
[论文笔记] [2008] [ICML] Extracting and Composing Robust Features with Denoising Autoencoders Alexzhuan DL 神经网络机器学习
在06年以前，想要去训练一个多层的神经网络是比较困难的，主要的问题是超过两层的模型，当时没有好的策略或方法使模型优化的很好，得不到预期的效果。在06年，Hinton提出的stackedautoencoders改变了当时的情况，那时候的研究者就开始关注各种自编码模型以及相应的堆叠模型。这篇的作者提出的DAE（DenoisingAutoencoders）就是当时蛮有影响力的工作。那个时候多层模型效果得
【论文笔记】SecAlign: Defending Against Prompt Injection with Preference Optimization AustinCyy 论文笔记论文阅读
论文信息论文标题：SecAlign:DefendingAgainstPromptInjectionwithPreferenceOptimization-CCS25论文作者：SizheChen-UCBerkeley；Meta,FAIR论文链接：https://arxiv.org/abs/2410.05451代码链接：https://github.com/facebookresearch/SecAli
CLIP论文笔记：Learning Transferable Visual Models From Natural Language Supervision Q同学的nlp笔记论文阅读语言模型人工智能 nlp 自然语言处理
导语会议：ICML2021链接：https://proceedings.mlr.press/v139/radford21a/radford21a.pdf当前的计算机视觉系统通常只能识别预先设定的对象类别，这限制了它们的广泛应用。为了突破这一局限，本文探索了一种新的学习方法，即直接从图像相关的原始文本中学习。本文开发了一种简单的预训练任务，通过预测图片与其对应标题的匹配关系，从而有效地从一个包含4亿
论文笔记：Large Language Models are Zero-Shot Next LocationPredictors UQI-LIUWJ 论文笔记论文阅读语言模型人工智能
1intro下一个地点预测（NL）包括基于个体历史访问位置来预测其未来的位置。NL对于应对各种社会挑战至关重要，包括交通管理和优化、疾病传播控制以及灾害响应管理NL问题已经通过使用马尔可夫模型、基于模式的方法以及最近的深度学习（DL）技术（进行了处理。然而，这些方法并不具备地理转移能力因此，一旦这些模型在某个地理区域训练完毕，如果部署到不同的地理区域，它们将面临严重的性能下降尽管已经做出努力改善地
论文笔记：LSTPrompt: Large Language Models as Zero-Shot Time Series Forecastersby Long-Short-Term Prompt UQI-LIUWJ 论文笔记论文阅读语言模型 prompt
202402arxiv1intro1.1大模型+时间序列预测一般有两种类型的方法使用海量时间序列数据重新训练一个时间序列领域的大模型论文笔记：TimeGPT-1_timegpt论文-CSDN博客直接利用现有的大模型，设计prompt，将时间序列数据转换成大模型理解的文本，实现时间序列预测代价小+有成熟的可供使用的大模型1.2本文思路之前的方法大多集中在如何将时间序列数据转换成文本上将时间序列的数字
【论文笔记】ResNet论文的全面解析浩瀚之水_csdn #论文阅读笔记人工智能
论文：DeepResidualLearningforImageRecognition发表时间：2015发表作者：(MicrosoftResearch)He-Kaiming,Ren-Shaoqing,Sun-Jian论文链接：论文链接一、ResNet论文基本信息论文标题与发表信息论文标题：《DeepResidualLearningforImageRecognition》发表时间：2015年，并在20
论文笔记：TrafficPredict: Trajectory Prediction for Heterogeneous Traffic-Agents CvBeginner 论文笔记轨迹预测计算机视觉
论文笔记：TrafficPredict:TrajectoryPredictionforHeterogeneousTraffic-Agents摘要这是百度在AAAI2019发布的一篇文章。这篇文章提出了一种基于4D-graph的方法实现复杂场景下的轨迹预测，研究对象包含行人、机动车和自行车。实现方法本文提出了一个基于LSTM的算法，名为TrafficPredict。构建了一个4DGraph，输入是轨
论文笔记：MobileNetV2: Inverted Residuals and Linear Bottlenecks 菜鸡信息技术 Deep Learning
MobileNetV2:InvertedResidualsandLinearBottlenecksMobileNetV2是MobileNetV1的改进版，Invertedresidual是个非常精妙的设计！MobileNetV1引入depthwiseseparableconvolution代替standardconvolution，减少运算量。MobileNetV1的结构其实非常简单，是类似于VG
AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 深度学习人工智能计算机视觉机器学习 transformer 论文阅读
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
Meta的AIGC视频生成模型——Emu Video 好评笔记 AIGC 深度学习人工智能机器学习 transformer 校招面试八股
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Meta的视频生成模型EmuVideo，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言相关工作文本到图像（T2I）扩散模型视频生成/预测文本到视频（T2V）生成分解生成方法预备知识EmuVideo生成步骤图
[论文笔记] 超详细解读DeepSeek v3全论文技术报告心心喵论文笔记论文阅读
DeepSeek-V3是一个强大的专家混合（Mixture-of-Experts，MoE）语言模型，总共671B参数，每个token激活37B参数（可以理解为有多个专家，但每个token只会选择一部分专家进行推理，所以一个token的预测，只会用到37B参数），DeepSeek-V3使用了多头潜在注意力（
[论文笔记] pai-megatron qwen1.5报错心心喵论文笔记 python
Qwen1.5-0.5b-chat使用example中fintune.py报错·Issue#77·QwenLM/Qwen1.5·GitHub解决方案：transformers升级到4.37.0pipinstallsetuptools==65.5.1pipinstalltransformers==4.37.0
基于不确定性感知学习的单图像自监督3D人体网格重建（论文笔记与思考） Gamma and Beta 读博笔记算法笔记学习 3d 论文阅读
文章目录论文解决的问题提出的算法以及启发点论文解决的问题首先这是Self-Supervised3DHumanmeshrecoveryfromasingleimagewithuncertainty-awarelearning（AAAI2024）的论文笔记。该文中主要提出了一个自监督的framework用于人体的姿态恢复。主要是解决了现有的方法对大型数据集的依赖。提出的算法以及启发点论文总体的框架其实
LLM论文笔记 28: Universal length generalization with Turing Programs Zhouqi_Hua 大模型论文阅读论文阅读语言模型自然语言处理笔记人工智能
Arxiv日期：2024.10.4机构：HarvardUniversity关键词图灵机CoT长度泛化核心结论TuringPrograms的提出提出TuringPrograms，一种基于图灵机计算步骤的通用CoT策略。通过将算法任务分解为逐步的“磁带更新”（类似图灵机的读写操作），允许模型通过简单的文本复制与局部修改完成复杂计算通用性：适用于任何算法任务（加法、乘法、SGD），不依赖任务特定的数据格
LLM论文笔记 27: Looped Transformers for Length Generalization Zhouqi_Hua 大模型论文阅读论文阅读语言模型人工智能论文笔记笔记
Arxiv日期：2024.9.25关键词长度泛化transformer结构优化核心结论1.RASP-L限制transformer无法处理包含循环的任务的长度泛化2.LoopTransformer显著提升了长度泛化能力InputInjection显著提升了模型的长度泛化性能，尤其在二进制加法等复杂任务上效果显著在推理中，通过输出置信度判断迭代停止点的策略能够实现接近最佳的性能主要方法Transfor
Fast-BEV：A Fast and Strong Bird’s-Eye View Perception Baseline——论文笔记 m_buddy BEV Perception 论文阅读人工智能深度学习
参考代码：Fast-BEV一稿多投的另一篇：Fast-BEV:TowardsReal-timeOn-vehicleBird’s-EyeViewPerception1.概述介绍：这篇文章提供了一种可实际部署的BEV感知方案，能够在当今车端主流计算单元上（NvidiaOrin）实现不错的帧率。从camera到BEV的转换思想来自于M2BEV，但是对这个转换方法中使用查找表和映射方法改进，使得整体视角转
读论文笔记-Flamingo：少样本视觉语言模型 joseanne_josie 论文阅读语言模型人工智能
读论文笔记-Flamingo：少样本视觉语言模型Plomblems本文拟解决多模态机器学习中，如何将训练好的模型快速适应到少量标注数据的新任务中的问题。Motivations已有的VLM虽然能在zero-shot的场景下适应于新任务，但他们只解决了有限的使用情况（如CLIP只解决了图片分类），由于主要缺乏生成语言的能力其不能应用于开放性任务。其他的一些方法虽然研究了基于视觉的语言生成但在数据量少的
论文笔记-基于多层感知器（MLP）的多变量桥式起重机自适应安全制动与距离预测 sagima_sdu 论文阅读
《IETCyber-SystemsandRobotics》出版山东大学TenglongZhang和GuoliangLiu团队的研究成果，文章题为“AdaptiveSafeBrakingandDistancePredictionforOverheadCranesWithMultivariationUsingMLP”。摘要桥式起重机的紧急制动及其制动距离预测是其安全运行中的关键难题。本文采用多层感知器
论文笔记：How Can Large Language Models Understand Spatial-Temporal Data? UQI-LIUWJ 论文笔记论文阅读语言模型人工智能
arxiv2024011introLLM在NLP和CV领域表现出色，但将它们应用于时空预测任务仍然面临挑战，主要问题包括：数据不匹配传统的LLMs设计用于处理序列文本数据，而时空数据具有复杂的结构和动态性，这两者之间存在显著差异模型设计限制现有的时空预测方法通常需要为特定领域设计专门的模型，这限制了模型的通用性和适应性数据稀缺和泛化能力传统的时空预测方法在面对数据稀缺或稀疏的情况下表现不佳，且泛化
SentiGAN: Generating Sentimental Texts via Mixture Adversarial Networks论文笔记 catbird233 深度生成模型笔记
另一篇很好的解释：https://www.itcodemonkey.com/article/6378.html摘要在自然语言生成领域,不同情感标签的生成越来越受到人们的关注。近年来,生成性对抗网(gan)在文本生成方面取得了良好的效果。然而,gan产生的文本通常存在质量差、缺乏多样性和模式崩溃的问题。本文提出了一个新的框架--sentyan,它有多个生成器和一个多类判别器,以解决上述问题。在我们的
[论文笔记]Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Com 愤怒的可乐自然语言处理论文翻译/笔记论文阅读语言模型人工智能
引言今天带来论文Adaptive-RAG:LearningtoAdaptRetrieval-AugmentedLargeLanguageModelsthroughQuestionComplexity的笔记。检索增强的大型语言模型(LLMs)已经成为一个有希望的方法，将外部知识库的非参数化知识整合到LLMs中，从而提高了几个任务的响应准确性。但并不是所有用户请求都只属于简单或复杂类别中的一个。在这项
论文笔记--Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks Isawany 论文阅读论文阅读 bert 语言模型 transformer nlp
论文笔记--Sentence-BERT:SentenceEmbeddingsusingSiameseBERT-Networks1.文章简介2.文章导读2.1概括2.2文章重点技术2.2.1池化层2.2.2目标函数3.文章亮点和不足4.原文传送门5.References1.文章简介标题：Sentence-BERT:SentenceEmbeddingsusingSiameseBERT-Networks
论文笔记《TAG-DTA:Binding-region-guidedstrategytopredictdrug-target affinity using transformers》 I_dyllic 深度学习论文阅读 python 深度学习
TAG-DTA:结合区域引导策略，使用transformer预测药物-靶标亲和力对目标特异性化合物选择性的适当评估在药物发现环境中至关重要，促进药物-靶标相互作用(DTI)的识别和潜在线索的发现。考虑到这一点，准确预测无偏药物-靶标结合亲和力(DTA)指标对于理解绑定过程至关重要。然而，大多数硅计算方法忽略了蛋白质组学、化学和药理学空间之间的相互依赖关系以及模型构建过程中的可解释性。此外，这些方法
[论文笔记] Deepseek技术报告解读: MLA&MTP 心心喵论文笔记论文阅读
1.RMSNorm归一化层classRMSNorm(nn.Module):def__init__(self,dim:int,eps:float=1e-8):super().__init__()self.eps=epsself.weight=nn.Parameter(torch.ones(dim))#可学习的缩放参数def_norm(self,x:torch.Tensor):returnx*torc
《DFC-Net：Deep Flow-Guided Video Inpainting》论文笔记 m_buddy Video&Image Inpainting DFC-Net
参考代码：DFC-Net1.概述导读：这篇文章分析的是视频领域的inpainting，这篇文章充分使用了视频内在的空间（指一帧图像中的内容）与时序（不同视频帧）信息，以及视频帧之间生成的光流信息实现了一个保持视频内在连续的修补方法，文章将其称为DFC-Net（DeepFlowCompletionnetwork）。该方法首先通过前后视频帧之间的光流关系推断缺失区域的合成光流估计信息（估计光流信息比直
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他