flyminnnnn

论文笔记：Fine-grained Image Classification by Visual-Semantic Embedding

来源：东南&电子科技&西交&南京邮电，IJCAI-18，paper

摘要

细粒度图像分类(fine-grained image classification, FGIC)，难点在于很大的类内多样性与微妙的类间不同点
现有的方法限制在利用图像中的视觉信息嵌入
本文使用了一些先验知识，来自于结构化知识基础或者非结构化的文本信息，来简化FGIC问题。建立了一个视觉语义嵌入模型来从知识基础和文本中探索语义嵌入，然后训练一个CNN线性的将图像特征映射到语义嵌入空间当中。

Introduction

细粒度图像分离目标是子基础的类别中识别物体的子类别（例如辨识鸟的物种）。难点在于不同的类别之间相似度极高，而且同一类别的物体也会因为不同的动作、尺度等造成极高的不相似性。
此前的工作：
- 学习可区分的视觉表示
- 尝试将物体的不同部分局部化
思考人类的识别机制：人类识别图像中的物体时，不仅仅关注视觉信息，而且会考虑通过经验或者物体的文字描述获取的先验信息，这样的外部先验信息有两种：
- 文本信息：文字上下文中图片的类别标签经常有严格定义的内部结构，标签经常和相关的信息一同出现
- 知识库信息：标签经常包含多种类型和特点，类之间的联系描述了它们之间的关系
此前的方法（将类别标签作为one-hot向量去评估）通常 假设类之间在统计学上是相互独立的，这就忽视了他们之间语义上的关联性
本文首先使用劳务一个视觉-语义嵌入框架来学习类别和图像之间的关系，即将图像特征空间投射到一个多类别的富语义嵌入空间，后者中外部先验知识被编码为类的嵌入向量。

Related Work

细粒度图像分类

学习可区分的视觉表示的方法和尝试将物体不同部分局部化的方法可以分为三个阵营：

尝试通过发展深度模型来更好地得到可区分性的视觉表示：微秒的和局部的视觉特征特别难以捕捉
关注部分化表示：需要大量的人工标注不同的parts以及相应的框
将不同的物体进行对齐来降低姿态带来的影响，或者使用物体/parts的空间约束来消除冗余，从而增强对选中的parts的区分能力

“视觉-语义”嵌入

此前的方法中大多关注视觉信息而忽视了外部信息。但有一些方法使用外部信息来解决其他视觉任务

SJE：将基于属性的图像分类看作是 zero-shot learning 的标签嵌入问题。一个类别看作是一个属性组成的空间，学习一个图像嵌入和类别嵌入之间的可计算函数
DeViSE：语义信息可以用来预测图片类别，使用CNN和Word2Vec

本文中的不仅使用了外部信息，而且训练了一个端到端的模型，这里将属性作为知识库中类别的特点来丰富嵌入空间。

The Proposed Model

模型中最关键的是视觉嵌入到语义嵌入空间的线性映射

论文笔记：Fine-grained Image Classification by Visual-Semantic Embedding_第1张图片

问题描述

训练数据集合 $\mathcal{X}=\{(x_{i},y_{i})\}(i=1,...,m)$ ，相应的细粒度标签集合 $\mathcal{Y}=\{y_{1},y_{2},...,y_{C}\}$ ，需要学习一个函数映射 $f:\mathcal{X}\to\mathcal{Y}$ ，最小化实验损失（计算视觉输出以及真实class之间的差距）。给定一个输入图片 $x$ ，知识库嵌入 $\delta_{1}(y)\in\mathbb{R}^{k}$ 以及文本嵌入 $\delta_{2}(y)\in\mathbb{R}^{k}$ 都是针对给定的真实class $y$ 而言的。这样的模型目标最是最大化后验概率

$f(x,y)=argmax_{y\in{Y}}P(\delta_{1}(y),\delta_{2}(y)|x;\theta)\tag{1}$

其中 $\theta$ 就是学习参数。

针对 $\delta_{1}(y)$ 和 $\delta_{2}(y)$ ，作者分别使用了 TransR 和 Word2Vec 模型。因此， $\delta_{1}(y)$ 和 $\delta_{2}(y)$ 是条件独立的， $(1)$ 式可以化简为：

$f(x,y)=argmax_{y\in{Y}}\prod_{i\in1,2}P(\delta_{i}(y)|x;\theta)\tag{2}$

这里的公式 $(2)$ 受到了 DeViSE 和 SJE 的启发。考虑到视觉-语义嵌入框架，DeViSE 使用了成对的排序目标函数来直接的将图片映射到富语义嵌入空间中。SJE 使用兼容函数将图像的视觉嵌入和文本嵌入实现相互映射，训练了一个 two-step 模型。作者的不同之处在于：整合了多个领域的信息，并且训练了一个端到端的模型

两级卷积神经网络

微妙、局部化的不同在区分子类别中是十分重要，这些不同经常出现在物体的不同部分和区域。 因此此前的一些工作使用了两阶段的框架：
1. 借助于R-CNN框架，局部化物体或者其中的可区分性 parts
2. 从划分的 parts 或者整个物体中抽取视觉特征

这里作者提到了 Bilinear CNN，它使用了两个基于CNN的特征提取模型，第一个强调物体的识别，第二个关注在空间位置，两个CNN提取器以平移不变的方式考虑成对相互作用，这特别适用于细粒度分类任务。

局部化 CNN

模型的第一层是训练一个局部化网络（ $F_{A}$ ），希望能够检测出物体的边界框。如果proposal是positive的，那么proposal区域的特征对物体的parts或者边界是敏感的。对于细粒度图像分割，一张图像中只有一个被认为是正样本的物体。因此，本文中使用原始图像作为正样本区域，输出就类似于RCNN。这样， $F_{A}$ 的目标就是：

$l_{A}=\sum_{i=1}^4(t_{i}-t_{i}')^2\tag{3}$

其中边界框使用 $(x, y, h, w)$ 表示。

回归排序网络

模型的第二层是一个回归排序网络（ $F_{B}$ ），希望能够得到图片物体的全局视觉特征，为了整合语义嵌入， $F_{A}$ 同时训练了两个平行的加入softmax的全连接层。全连接层将图像的视觉嵌入（deep CNN学到的）映射到类别的语义嵌入（TransR 或者 Word2Vec 学到的）当中。两个全连接层被称作 projection layer。使用 $M_{1}\in\mathbb{R}^{d\times{k}}\text{和}M_{2}\in\mathbb{R}^{d\times{k}}$ 表示投影层的参数， $v\in\mathbb{R}^{d}$ 是视觉嵌入，其中 $d$ 是视觉嵌入的维度， $k$ 是图片类别的嵌入向量的维度。

训练是这个网络同时使用了余弦相似度和欧氏距离来衡量差异：

$\pi(x,y)=\sum_{i=1}^{2}(1-v^{T}M_{i}\delta_{i}(y)+|v^{T}M_{i}-\delta_{i}(y)|^{2})\tag{4}$

所以这里同时使用两种距离的原因是什么？作者好像也没有解释，倒是花了不小的篇幅解释距离的定义与计算。从含义来看欧氏距离要求是更加严格的，只有两个向量重合结果才是0，而余弦距离只关注到向量的夹角。在这里首先应该是要求两个向量完全重合的，然后通过余弦距离放大了夹角部分的效果，maybe。那么问题就在于：这样的映射空间中，嵌入向量的夹角究竟代表着什么

利用这个距离得到损失函数：

$l_{B}=\pi(x,y)-\pi(x,y^{-})\tag{5}$

其中， $y^{-}$ 通过排序公式挑选出来：

$y^{-}=argmin_{(y'\in\mathcal{Y},y'\ne{y})}\pi(x,y')\tag{6}$

作者所这样能够对小化positive class的距离同时最大化negative class的距离。

这里不太对吧…单纯的用排序就能保证负向最大化吗？不应该加入负样本的距离损失才能够达到最大化的效果吗？

无论如何，作者这样的操作更加直接的将语义信息和图像的视觉信息取得了关联，而不是像前人做的——需要标注进行关联。从某种程度来讲这种脱离标注的建模方式不仅有利于挖掘信息，而且一旦设置一个好的评价方式，能够得到的有价值的参考是会大于标注得来的。但不得不提到的是，这样的网络应该是比较难以训练出理想效果的（因为从数据集到网络设置都要很小心地选择才行）

参数学习

将局部化网络的特征和回归排序网络的特征相乘（element-wise），最终的loss函数为：

$L(x,y)=\alpha\times{l_{A}}+l_{B}\tag{7}$

两个网络最终的乘积看作是一种attention的操作，相当于使用对于 $F_{A}$ 中的特征根据 $F_{B}$ 中的结果进行加权。可以分类模型考虑边界框真的不会增大学习难度吗？可能是因为细粒度更需要聚焦网络关注点？

图片类别的语义嵌入

这部分作者分别介绍了TransR和Word2Vec的大题计算方式，包括作者得到的模型是如何fine-tune的

论文笔记：Fine-grained Image Classification by Visual-Semantic Embedding_第2张图片

反倒是作者提到的针对细粒度领域的调整性训练比较重要，首先需要收描述这种细粒度图像类别的数据，建立知识之间的关系才能支撑作者实现这个目标。

实验

鸟类数据集：Caltech-UCSD Bird-200-2011
TransR训练集：DBpedia [Lehmann et al., 2015] (KB)
Word2Vec训练集：English-language Wikipedia (text) from 06.01.2016

实验设置

回归排序网络：AlexNet、GoogleNet、VGG
图片尺寸 $224\times{224}$
局部化网络：AlexNet，边界框回归
$\text{mini-batch: }40,lr=0.0015,\alpha=0.85$ ，每层卷积加BN，全连接层加dropout
$F_{B}$ 中的所有参数都是在ImageNet中训练然后在鸟类数据集上fine-tune的
语义数据集中抽取出和鸟类数据集属性相关的部分进行fine-tune

分类结果和对比

论文笔记：Fine-grained Image Classification by Visual-Semantic Embedding_第3张图片

对比来看，前人考虑到边界框时似乎是考虑直接使用边界框，而作者使用的模型采用自己生成的边界框。

our T-CNN中作者修改了 $F_{A}$ ，这里 $F_{A}$ 只用来抽取特征。Ensemble T-CNN中作者使用了不同的基于CNN的结构。

起码可以证明这种视觉-语义特征时间的直接映射是有效的。我感觉只要保证映射的正确性，那么分类的准确性上升是可以保证的，但这种直接映射的方式是最佳选择吗？

模型分析

论文笔记：Fine-grained Image Classification by Visual-Semantic Embedding_第4张图片

接上，感觉这样的分析也没有解决我的疑问，显然使用这么大程度的语义层面的信息是有帮助的，但这种映射方式真的是最佳的吗？

除此之外，作者针对不同部分的嵌入维度进行的调整分析

论文笔记：Fine-grained Image Classification by Visual-Semantic Embedding_第5张图片

结论

文章有效地利用了语义信息来简化FGIC问题
将结构化的KB信息与非结构化的文本信息统一处理，使得他们都能对提高分类准确性产生积极影响
作者认为由于梯度传递带来的attention作用是有效的（并没有验证…）

思考：

作者这里使用的语义信息嵌入直接套用了前人的工作，从思路上来讲确实很有新意，但方法上来看基本没有什么改动——可以认为是拓展了原有模型的应用领域

分析来看loss的传播应该是对 $F_{A}$ 有attention作用的，但缺乏验证

作者其实也没有强调 直接映射 本身的作用，但似乎作者所最突出的处理方式就是“特征直接映射+边界框损失”，能不能有更好的方式实现特征之间的映射从而更有效地利用语义信息呢？

值得关注的是人类识别机制分析。人类在识别一个物体时，缺失能有更多的有效信息供参考，这些知识来自于经验或者非视觉形式的信息，这也是当前视觉神经网络没能运用到的一个层面

你可能感兴趣的:(论文笔记)

【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem Booksort online笔记论文论文阅读 transformer 深度学习
论文中使用一个PointerFormer模型编码器部分：可逆残差模型堆叠解码器部分：指针网络自回归对于一次任务而言，推理阶段：编码器部分：一次解码器部分：循环N次，直至任务结束在训练阶段，使用强化学习，对于一个N个节点的TSP实例，算法中会以不同的起点，跑N次，得到N个轨迹，以满足TSP的对称特性，表示这都是属于一个TSP问题的（真实）解然后会计算这样表示归一化奖励，得到一个advantage,然
【论文笔记】GaussianFusion: Gaussian-Based Multi-Sensor Fusion for End-to-End Autonomous Driving
原文链接：https://arxiv.org/abs/2506.00034v1简介：现有的多传感器融合方法多使用基于注意力的拉直(flatten)融合或通过几何变换的BEV融合，但前者可解释性差，后者计算开销大（如下图(a)(b)所示）。本文提出GaussianFusion（下图(c)），一种基于高斯的多传感器融合框架，用于端到端自动驾驶。使用直观而紧凑的高斯表达，聚合不同传感器的信息。具体来说，
【论文笔记】RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation AustinCyy 论文笔记论文阅读
论文信息论文标题：RAGLAB:AModularandResearch-OrientedUnifiedFrameworkforRetrieval-AugmentedGeneration-EMNLP24论文作者：XuanwangZhang-NanjingUniversity论文链接：https://arxiv.org/abs/2408.11381代码链接：https://github.com/fat
Llama改进之——RoPE旋转位置编码愤怒的可乐 NLP项目实战 #LLaMA RoPE 旋转位置编码
引言旋转位置编码(RotaryPositionEmbedding,RoPE)将绝对相对位置依赖纳入自注意力机制中，以增强Transformer架构的性能。目前很火的大模型LLaMA、QWen等都应用了旋转位置编码。之前在[论文笔记]ROFORMER中对旋转位置编码的原始论文进行了解析，重点推导了旋转位置编码的公式，本文侧重实现，同时尽量简化数学上的推理，详细推理可见最后的参考文章。复数与极坐标复数
Llama改进之——均方根层归一化RMSNorm 愤怒的可乐 NLP项目实战 #llama
引言在学习完GPT2之后，从本文开始进入Llama模型系列。本文介绍Llama模型的改进之RMSNorm(均方根层归一化)。它是由RootMeanSquareLayerNormalization论文提出来的，可以参阅其论文笔记1。LayerNorm层归一化(LayerNorm)对Transformer等模型来说非常重要，它可以帮助稳定训练并提升模型收敛性。LayerNorm针对一个样本所有特征计算
论文笔记＜交通灯＞＜多智能体＞CoLight管理交通灯青椒大仙KI11 论文阅读
今天看的是论文Colight:学习网络级合作进行交通信号控制论文提出的CoLight模型是一种基于强化学习和图注意力网络的交通信号灯控制方法，旨在解决城市道路网络中的交通信号的写作问题，提升车辆通行效率。问题定义为：将交通信号控制问题建模为马尔可夫博弈，每个路口由一个智能体控制，智能体通过观察部分系统状态（当前相位和各车道车辆数），选择动作（下一时间段的相位），目标是最小化路口周围车道的平均队列长
《基于超声的深度学习模型用于降低BI-RADS 4A乳腺病变的恶性率》论文笔记 MobileNet 往事随风、、论文笔记机器学习深度学习论文阅读人工智能机器学习健康医疗
《APPLICATIONOFDEEPLEARNINGTOREDUCETHERATEOFMALIGNANCYAMONGBI-RADS4ABREASTLESIONSBASEDONULTRASONOGRAPHY》《基于超声的深度学习模型用于降低BI-RADS4A乳腺病变的恶性率》原文地址：链接文章目录摘要简介方法患者图像获取与处理深度学习模型统计分析结果讨论结论摘要本研究旨在开发一个基于超声（US）图像
论文笔记--Language Models are Unsupervised Multitask Learners Isawany 论文阅读论文阅读语言模型 transformer chatgpt 自然语言处理
论文笔记GPT-2--LanguageModelsareUnsupervisedMultitaskLearners1.文章简介2.文章导读2.1概括2.2文章重点技术2.2.1数据集WebText2.2.2分词方法3.GPT-1&GPT-24.文章亮点5.原文传送门6.References1.文章简介标题：LanguageModelsareUnsupervisedMultitaskLearners
You Only Look Once Unified, Real-Time Object Detection论文笔记 __Lo__ 目标检测论文阅读深度学习
文章结构统一检测框架(UnifiledDetection)核心思想YOLO将目标检测视为一个端到端的回归问题，输入的图像经过SingleForwardPass，直接输出物体的信息（边界框的位置、边界框的置信度、类别概率）；优势在于速度快，全局理解上下文，这里全局理解上下文的意思是识别物体和背景的关系，减少误检。网络设计网格划分（GridDivision）将图像划分为一个S×S的网格，文中S=7；共
【论文笔记】UnifiedQA：新SOTA，生成模型一统问答任务 iLuz 深度学习自然语言处理
目录引言模型介绍1.输入格式2.实验结果总结引言问答任务有多种形式，常见的有抽取式问答(EX)、摘要式问答(AB)、多选题式问答(MC)、判断式问答(YN)。一般的解决方案是针对不同形式的问答任务设计不同的模型。例如，抽取式问答、多选题式问答、判断式问答可以转化为分类任务，摘要式问答可以转换为生成任务。尽管任务形式不同，但模型所需的语义理解和推理能力是共通的，或许不需要format-special
[论文笔记] [2008] [ICML] Extracting and Composing Robust Features with Denoising Autoencoders Alexzhuan DL 神经网络机器学习
在06年以前，想要去训练一个多层的神经网络是比较困难的，主要的问题是超过两层的模型，当时没有好的策略或方法使模型优化的很好，得不到预期的效果。在06年，Hinton提出的stackedautoencoders改变了当时的情况，那时候的研究者就开始关注各种自编码模型以及相应的堆叠模型。这篇的作者提出的DAE（DenoisingAutoencoders）就是当时蛮有影响力的工作。那个时候多层模型效果得
【论文笔记】SecAlign: Defending Against Prompt Injection with Preference Optimization AustinCyy 论文笔记论文阅读
论文信息论文标题：SecAlign:DefendingAgainstPromptInjectionwithPreferenceOptimization-CCS25论文作者：SizheChen-UCBerkeley；Meta,FAIR论文链接：https://arxiv.org/abs/2410.05451代码链接：https://github.com/facebookresearch/SecAli
CLIP论文笔记：Learning Transferable Visual Models From Natural Language Supervision Q同学的nlp笔记论文阅读语言模型人工智能 nlp 自然语言处理
导语会议：ICML2021链接：https://proceedings.mlr.press/v139/radford21a/radford21a.pdf当前的计算机视觉系统通常只能识别预先设定的对象类别，这限制了它们的广泛应用。为了突破这一局限，本文探索了一种新的学习方法，即直接从图像相关的原始文本中学习。本文开发了一种简单的预训练任务，通过预测图片与其对应标题的匹配关系，从而有效地从一个包含4亿
论文笔记：Large Language Models are Zero-Shot Next LocationPredictors UQI-LIUWJ 论文笔记论文阅读语言模型人工智能
1intro下一个地点预测（NL）包括基于个体历史访问位置来预测其未来的位置。NL对于应对各种社会挑战至关重要，包括交通管理和优化、疾病传播控制以及灾害响应管理NL问题已经通过使用马尔可夫模型、基于模式的方法以及最近的深度学习（DL）技术（进行了处理。然而，这些方法并不具备地理转移能力因此，一旦这些模型在某个地理区域训练完毕，如果部署到不同的地理区域，它们将面临严重的性能下降尽管已经做出努力改善地
论文笔记：LSTPrompt: Large Language Models as Zero-Shot Time Series Forecastersby Long-Short-Term Prompt UQI-LIUWJ 论文笔记论文阅读语言模型 prompt
202402arxiv1intro1.1大模型+时间序列预测一般有两种类型的方法使用海量时间序列数据重新训练一个时间序列领域的大模型论文笔记：TimeGPT-1_timegpt论文-CSDN博客直接利用现有的大模型，设计prompt，将时间序列数据转换成大模型理解的文本，实现时间序列预测代价小+有成熟的可供使用的大模型1.2本文思路之前的方法大多集中在如何将时间序列数据转换成文本上将时间序列的数字
【论文笔记】ResNet论文的全面解析浩瀚之水_csdn #论文阅读笔记人工智能
论文：DeepResidualLearningforImageRecognition发表时间：2015发表作者：(MicrosoftResearch)He-Kaiming,Ren-Shaoqing,Sun-Jian论文链接：论文链接一、ResNet论文基本信息论文标题与发表信息论文标题：《DeepResidualLearningforImageRecognition》发表时间：2015年，并在20
论文笔记：TrafficPredict: Trajectory Prediction for Heterogeneous Traffic-Agents CvBeginner 论文笔记轨迹预测计算机视觉
论文笔记：TrafficPredict:TrajectoryPredictionforHeterogeneousTraffic-Agents摘要这是百度在AAAI2019发布的一篇文章。这篇文章提出了一种基于4D-graph的方法实现复杂场景下的轨迹预测，研究对象包含行人、机动车和自行车。实现方法本文提出了一个基于LSTM的算法，名为TrafficPredict。构建了一个4DGraph，输入是轨
论文笔记：MobileNetV2: Inverted Residuals and Linear Bottlenecks 菜鸡信息技术 Deep Learning
MobileNetV2:InvertedResidualsandLinearBottlenecksMobileNetV2是MobileNetV1的改进版，Invertedresidual是个非常精妙的设计！MobileNetV1引入depthwiseseparableconvolution代替standardconvolution，减少运算量。MobileNetV1的结构其实非常简单，是类似于VG
AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 深度学习人工智能计算机视觉机器学习 transformer 论文阅读
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
Meta的AIGC视频生成模型——Emu Video 好评笔记 AIGC 深度学习人工智能机器学习 transformer 校招面试八股
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Meta的视频生成模型EmuVideo，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言相关工作文本到图像（T2I）扩散模型视频生成/预测文本到视频（T2V）生成分解生成方法预备知识EmuVideo生成步骤图
[论文笔记] 超详细解读DeepSeek v3全论文技术报告心心喵论文笔记论文阅读
DeepSeek-V3是一个强大的专家混合（Mixture-of-Experts，MoE）语言模型，总共671B参数，每个token激活37B参数（可以理解为有多个专家，但每个token只会选择一部分专家进行推理，所以一个token的预测，只会用到37B参数），DeepSeek-V3使用了多头潜在注意力（
[论文笔记] pai-megatron qwen1.5报错心心喵论文笔记 python
Qwen1.5-0.5b-chat使用example中fintune.py报错·Issue#77·QwenLM/Qwen1.5·GitHub解决方案：transformers升级到4.37.0pipinstallsetuptools==65.5.1pipinstalltransformers==4.37.0
基于不确定性感知学习的单图像自监督3D人体网格重建（论文笔记与思考） Gamma and Beta 读博笔记算法笔记学习 3d 论文阅读
文章目录论文解决的问题提出的算法以及启发点论文解决的问题首先这是Self-Supervised3DHumanmeshrecoveryfromasingleimagewithuncertainty-awarelearning（AAAI2024）的论文笔记。该文中主要提出了一个自监督的framework用于人体的姿态恢复。主要是解决了现有的方法对大型数据集的依赖。提出的算法以及启发点论文总体的框架其实
LLM论文笔记 28: Universal length generalization with Turing Programs Zhouqi_Hua 大模型论文阅读论文阅读语言模型自然语言处理笔记人工智能
Arxiv日期：2024.10.4机构：HarvardUniversity关键词图灵机CoT长度泛化核心结论TuringPrograms的提出提出TuringPrograms，一种基于图灵机计算步骤的通用CoT策略。通过将算法任务分解为逐步的“磁带更新”（类似图灵机的读写操作），允许模型通过简单的文本复制与局部修改完成复杂计算通用性：适用于任何算法任务（加法、乘法、SGD），不依赖任务特定的数据格
LLM论文笔记 27: Looped Transformers for Length Generalization Zhouqi_Hua 大模型论文阅读论文阅读语言模型人工智能论文笔记笔记
Arxiv日期：2024.9.25关键词长度泛化transformer结构优化核心结论1.RASP-L限制transformer无法处理包含循环的任务的长度泛化2.LoopTransformer显著提升了长度泛化能力InputInjection显著提升了模型的长度泛化性能，尤其在二进制加法等复杂任务上效果显著在推理中，通过输出置信度判断迭代停止点的策略能够实现接近最佳的性能主要方法Transfor
Fast-BEV：A Fast and Strong Bird’s-Eye View Perception Baseline——论文笔记 m_buddy BEV Perception 论文阅读人工智能深度学习
参考代码：Fast-BEV一稿多投的另一篇：Fast-BEV:TowardsReal-timeOn-vehicleBird’s-EyeViewPerception1.概述介绍：这篇文章提供了一种可实际部署的BEV感知方案，能够在当今车端主流计算单元上（NvidiaOrin）实现不错的帧率。从camera到BEV的转换思想来自于M2BEV，但是对这个转换方法中使用查找表和映射方法改进，使得整体视角转
读论文笔记-Flamingo：少样本视觉语言模型 joseanne_josie 论文阅读语言模型人工智能
读论文笔记-Flamingo：少样本视觉语言模型Plomblems本文拟解决多模态机器学习中，如何将训练好的模型快速适应到少量标注数据的新任务中的问题。Motivations已有的VLM虽然能在zero-shot的场景下适应于新任务，但他们只解决了有限的使用情况（如CLIP只解决了图片分类），由于主要缺乏生成语言的能力其不能应用于开放性任务。其他的一些方法虽然研究了基于视觉的语言生成但在数据量少的
论文笔记-基于多层感知器（MLP）的多变量桥式起重机自适应安全制动与距离预测 sagima_sdu 论文阅读
《IETCyber-SystemsandRobotics》出版山东大学TenglongZhang和GuoliangLiu团队的研究成果，文章题为“AdaptiveSafeBrakingandDistancePredictionforOverheadCranesWithMultivariationUsingMLP”。摘要桥式起重机的紧急制动及其制动距离预测是其安全运行中的关键难题。本文采用多层感知器
论文笔记：How Can Large Language Models Understand Spatial-Temporal Data? UQI-LIUWJ 论文笔记论文阅读语言模型人工智能
arxiv2024011introLLM在NLP和CV领域表现出色，但将它们应用于时空预测任务仍然面临挑战，主要问题包括：数据不匹配传统的LLMs设计用于处理序列文本数据，而时空数据具有复杂的结构和动态性，这两者之间存在显著差异模型设计限制现有的时空预测方法通常需要为特定领域设计专门的模型，这限制了模型的通用性和适应性数据稀缺和泛化能力传统的时空预测方法在面对数据稀缺或稀疏的情况下表现不佳，且泛化
SentiGAN: Generating Sentimental Texts via Mixture Adversarial Networks论文笔记 catbird233 深度生成模型笔记
另一篇很好的解释：https://www.itcodemonkey.com/article/6378.html摘要在自然语言生成领域,不同情感标签的生成越来越受到人们的关注。近年来,生成性对抗网(gan)在文本生成方面取得了良好的效果。然而,gan产生的文本通常存在质量差、缺乏多样性和模式崩溃的问题。本文提出了一个新的框架--sentyan,它有多个生成器和一个多类判别器,以解决上述问题。在我们的
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他