388号程序猴

论文阅读笔记：Siamese Network Features for Image Matching

Siamese Network Features for Image Matching 阅读笔记

sHybridCNN 孪生网络 AlexNet

1 概要

1.1 研究背景

匹配图像查找在许多计算机视觉应用中起着关键作用，从运动结构(SfM)、多视图三维重建、图像检索和基于图像的定位
之前Siamese架构已被应用于人脸图像验证和匹配局部图像补丁，但尚未应用于一般图像检索或整体图像匹配

1.2 现有问题与解决方法

基于神经网络的特征向量来表示匹配和非匹配的图像对，其相似度由欧氏距离度量
利用卷积神经网络，通过对比损失的方法，分别从匹配和非匹配图像对的标记样本中学习特征向量

1.3 文章贡献

提出了一种基于深度神经网络的全图像相似度预测方法
将我们的方法应用于新的数据，以检查泛化特征，表明它优于最先进的用于图像分类问题的CNN

2 相关工作

[2] (Learning to match images in large-scale collections, 2012) 使用视觉词袋模型 bag-of-visual-words (BoW) [1] 的学习来预测输入数据集中哪些图像对是匹配的，哪些不是
[3] (Neural codes for image retrieval), [4] (A practical guide to cnns and fisher vectors for image instance retrieval, 2015) 用预训练的用于图像分类问题的CNN进行图像检索，不是学习单个图像的分类，而是直接对CNN的匹配任务进行学习。类似于人脸验证问题利用Siamese网络[5] (Learning a similarity metric discriminatively, with application to face verification, 2005)预测输入图像对中的人物是否相同[6], [7]
[8] (Learning deep representations for ground-to-aerial geolocalization, 2015) 可以成功地匹配街道和鸟瞰图图像
[9] (Learning to compare image patches via convolutional neural networks), [10] (Matchnet: Unifying feature and metric learning for patch-based matching), [11] (Discriminative learning of deep convolutional feature point descriptors) 类似的方法已经被用于匹配小的局部图像块，但还没有用于通用的图像检索或整幅图像匹配
[3] (Neural codes for image retrieval) 表明，使用特定领域的数据对预先训练好的CNN进行微调可以提高相关数据集的检索性能
[4] 对Fisher向量提出了一个系统化评估，和CNN用于图像检索的流程，并表明它们的组合在某些数据集上比单独使用具有更好的性能
[3] 和 [12] 两种方法都是基于CNN的，但是使用的目标和网络结构不同，不能直接处理图像对
[8] (Learning deep representations for ground-to-aerial geolocalization, 2015) 利用深度网络，通过直接学习将街景图像与航空图像进行匹配，不使用地面参考图像来对照片进行地理定位
[13] (Discriminant learning of local image descriptors, 2010) 提出了一种学习patch描述符的原创方法和评价描述符性能的通用框架
[9]、[10]和[11] 使用了深度神经网络，在几个基准测试中都表现出最先进的性能
[14] 使用比较图像块的方法提取深度信息，利用卷积网络最小化hinge损失函数（hinge loss function），在KITTI立体评估数据集 [15] 上取得了较好的效果。然而由于这种方法在非常小的补丁上运行（9x9像素），限制了适用范围
[17] 提出了一种预测SfM任务场景重叠的方法，可有效地寻找相似的图像对，从而提高三维重建的精度。两种方法的共同之处是图像数据相同

3 方法

使用HybridCNN [16] 作为我们网络的核心元素，模型结构如图2所示

在训练过程中，一对图像通过一个由两个分支组成的网络。这些分支的输出被馈送到一个损失层。损失层试图最小化正图像对(f(I1)和f(I2))特征之间的欧氏距离的平方，并最大化负图像对之间的欧氏距离

3.1 对比损失

使相似的样本是接近的，而不同的样本的欧氏距离至少为m

使用了[18]中提出的基于边界值（margin）的对比损失函数，其定义如下:
$\frac { 1 } { 2 } l D ^ { 2 } + \frac { 1 } { 2 } ( 1 - l ) \{ \max ( 0 , m - D ) \} ^ { 2 }$

其中，l是二元标签，输入对中的图像I₁和I₂是正样本则l=1，负样本则l=0，m>0是不匹配对的边界值，D=||f(I₁)-f(I₂)||₂ 是输入图像I₁和I₂特征向量f(I₁)和f(I₂)的欧氏距离

只有当距离在m范围内时，不匹配的对才会产生损失函数；距离大于边界值的负样本对不会造成损失

这种损失函数使匹配的对在特征空间中靠近，不匹配的对远离

3.2 网络结构

我们在实验中使用了基于配对的(Siamese)网络结构，我们的方法受到了地-空地理定位方法 [8] (Learning deep representations for ground-to-aerial geolocalization, 2015) 及一个基础工作 [5] (Learning a similarity metric discriminatively, with application to face verification, 2005) 的影响

该结构由两个相同的分支组成，共享权重和参数。每个分支构成一个深度神经网络，并包括一组卷积层、整流线性单元（ReLU）和全连接层

图像I₁和I₂被输入到两个训练时相同的分支中。网络结构的主要目标是学习输入对的最优特征表示，其中匹配的图像被拉近，不匹配的图像被推远

我们的Siamese网络（sHybridCNN）架构基于HybridCNN [16] (Learning deep features for scene recognition using places database)，它被用于对象和场景图像分类，在 MIT Indoor67 数据集 [19] 上超过了最先进的方法

HybridCNN 是在 ImageNet 和 Places 数据集的组合集 [16] 上训练的一个 AlexNet [20]。在Oxford Building数据集 [21] 的图像检索，HybridCNN的表现优于纯AlexNet和OxfordNet [4]

在HybridCNN的顶部是三个全连接层(fc6, fc7, fc8)，由于网络的最后一层(fc8)是根据原始训练数据集(1183个类)中的类数设计的，所以我们去掉了它，使用fc7层作为特征表示。该网络共有5800万个参数，共13层

实验发现，边界值m应是学习前训练图像对特征之间的平均欧氏距离的两倍

为进行实验，有必要有一个数据库组成的图像对相关的landmark类型的数据集。这种图像对集的收集是一项重要的任务，通常涉及到通过匹配SIFT特征和执行几何验证来测试多个图像对。

利用5个从Flickr下载的众包图像集，每个都对应一个流行的地标(London Eye (LE) 6856 images, San Marco (SM) 7580 images, Tate Modern ™ 4583 images, Times Square (TS) 6361 images, Trafalgar (T) 6802 images) [2] (Learning to match images in large-scale collections, 2012) ，原始数据集包含颜色和灰度图像。

用于匹配图像对（正样本）的ground truth标签由 [2] 提供，仅考虑前500个最相似的图像，基于BoW向量点积计算相似性度量。利用匹配图像对的信息，生成对应于不匹配对的图像id

4 实验

我们希望找到两个问题的答案：(a) 网络是否能够学会更好地利用这类训练数据来区分相似和不同的配对；(b) 如果我们的网络是可学习的，从它提取的特征是否可以推广到其他数据集?

在每次实验中，都将网络中fc7层的激活值作为特征向量

4.1 图像相似性度量

有很多种衡量图像相似性准确度的方法 [22] (The relationship between precision-recall
and roc curves, 2006)。我们使用receiver operating characteristics(ROC曲线)，它通常用于分析机器学习中二元决策问题的结果，ROC曲线下的面积作为定量度量

另外还使用precision-recall(PR)特征

4.2 数据集和预处理

训练数据集采用4个地标的图像对的组合，测试数据集使用剩余的地标的图像对的集合。按照这个过程，得到5个不同的测试和训练数据集

每个地标的图像和正图像对列表由[2]提供，利用相同地标的图像随机生成负对，在测试数据集中匹配和不匹配的对的数量是相等的

训练数据中不相似对的数量是相似图像对数目的1.5倍

如果原图由一个灰度图像和一个彩色图像组成，将RGB图像转换成灰度图像，然后将这些灰度对视为彩色对。每个目标地标的灰度和彩色图像的比例为5%

由于提出的深度网络是对正常方向的图像进行预训练，使用EXIF信息将训练数据集中的图像自动旋转到正常方向

在不裁剪的情况下将图像大小调整为227 x 227像素，将其作为网络的输入

4.3 实验细节

训练网络使用随机梯度下降(SGD)、标准的反向传播方法[23]、AdaDelta[24]

使用在Imagenet和Place数据集[16]上预训练的深度网络(HybridCNN)的权值初始化我们的Siamese方法，使用类似于[8]的技术来完善一个预先训练好的模型

设置学习率，最后的全连接层(fc7)为10^-5，其他层为10^-6

该模型使用深度学习框架Caffe[25]进行训练、一个NVIDIA TITAN Z GPU，大约40个小时完成了10个epochs训练

5 结果和讨论

比较了以下几种基于深度学习技术的方法的结果:

**AlexNet：**使用AlexNet在ImageNet上预训练分类，作为特征空间中的图像描述符。直接提取由网络fc7层的4096维输出作为图像匹配的特征。将AlexNet作为实验的基准
**HybridNet [16]：**HybridNet具有与AlexNet完全相同的架构，但针对的是不同的数据，训练数据是ImageNet和Places数据集的组合。根据[4]，HybridNet在对Oxford Building数据集的图像检索方面有很好表现，因此它可以很好地对新数据进行泛化
**sHybridNet：**从在我们数据库上训练的暹罗深度卷积网络中提取特征，在训练阶段使用预训练HybridNet的参数(权重)初始化sHybridNet的参数。在训练之后，提取网络fc7层的4096维特征向量。
HybridNet。通过对标记对的训练，进行提取4;096维特征向量来自fc7层的网络结构。

在所有情况下，图像对的评价都是基于图像特征向量之间的欧氏距离

在图3的测试集(Tate Modern地标)上计算了HybridCNN和sHybridCNN的欧氏距离直方图，蓝条表示正对，黄条表示负对。HybridCNN的对距离分布显示了未学习的sHybridCNN的初始距离分布。ybridCNN的训练过程有效地使不同的配对推远，相似的配对拉近：

表一总结了不同测试数据集上各方法的分类精度ROC曲线(AUC)。可以看出所提出的方法始终优于其他算法，sHybridNet在平均AUC的表现要比AlexNet和HybridNet分别好11%和5%：

使用更多的图像对(特别是“难的负样本”图像对)进行训练可以进一步改善结果

对测试数据集的算法的详细评估如图4所示。从这组ROC曲线和PR曲线我们可以观察到:

与原来的AlexNet和HybridNet相比，从sHybridCNN中提取的特征在5个案例中有4个有更好的表现。同时验证了图3所示的结果，证明sHybridCNN可以有效的区分正、负对。也就是说，sHybridCNN对于新的地标图片的表现优于HybridCNN

在案例(London Eye)中，三种方法的ROC曲线几乎相似，sHybridNet的PR曲线在容易正样本对中显示出较低的精度(即PR曲线在开始时下降)。更深层的分析表明，在London Eye测试集似乎有特别多不正确的标签

为了说明在伦敦眼测试集上的表现，我们将假阳性和假阴性图像对形象化。为此，我们从两个分支的fc7层中提取特征向量，计算它们在测试数据上的欧氏距离，并对负对按升序排序，对正对按降序排序。可视化结果如图5所示。它显示了sHybridNet在伦敦眼科测试数据上遇到的难负样本和难正样本图像对

难正样本是特征距离最大的正对的例子。类似地，难负样本是距离最小的负对的例子。通过查看图5中的示例，我们可以观察到ground truth标签是不完美的，实际上大多数距离最小的负对代表相同的场景，应该标记为正对(即匹配)；正对与最大的距离似乎有不正确的标签

因此我们推断用于计算ground truth标签的原始算法[2] (基于bag-of-visual-words)并不完美，这可能是许多错误分类的测试对以及PR曲线开始时下降的原因

尽管训练和测试数据的标签存在错误，可以得出这样的结论：在区分相似和不相似对方面，该网络已经得到了改进，因为我们仍然可以现实地假设，[2]提供的大多数正/负标签都是正确的

5 总结

我们评估了用于地标数据集图像匹配的孪生网络特征的性能

此网络架构能够从这样的数据中学习，使用预训练的CNN从一个相关的图像分类问题作为起点

证明了我们的方法在新地标数据集上具有很好的泛化效果

我们还观察到，潜在地不完善的地面真值标签在训练中是阻止网络学习和推广的最佳

此外，在训练中使用额外的相关数据集[26] (Visual landmark recognition from internet photo collections: A large-scale evaluation, 2014)、[27] (Lost in quantization: Improving particular object retrieval in large scale image databases, 2008) 可能会进一步提高该方法的准确性和性能

【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
Prompt相关论文阅读(02)--Auto-CoT(2024-11-25) zhilanguifang 论文 prompt engineering 论文阅读笔记
论文阅读笔记2024-11-24~2024-11-25Auto-CoT:AutomaticChainofThoughtPromptinginLargeLanguageModels(ICLR2023)碎碎念：复现代码和笔记保存到gitee仓库上海交通大学的学生在亚马逊实习的时候的成果ICLR2023摘要：LLM能够通过生成中间推理步骤执行复杂的推理。提供这些步骤用于提示演示叫做思维链提示CoT。Co
【论文阅读笔记】《CodeS: Towards Building Open-source Language Models for Text-to-SQL 》柠石榴 text2sql 论文论文阅读笔记语言模型
文章目录一、论文基本信息1.文章标题2.所属刊物/会议3.发表年份4.作者列表5.发表单位二、摘要三、解决问题四、创新点五、自己的见解和感想六、研究背景七、研究方法模型实验数据评估指标八、总结九、相关重要文献一、论文基本信息1.文章标题CodeS:TowardsBuildingOpen-sourceLanguageModelsforText-to-SQL2.所属刊物/会议未明确标注（会议缩写为“C
【论文阅读笔记】HaDes幻觉检测benchmark zsq 论文分享论文阅读笔记 NLP 大语言模型幻觉
0论文信息题目：AToken-levelReference-freeHallucinationDetectionBenchmarkforFree-formTextGeneration作者：TianyuLiu,YizheZhang,ChrisBrockett,YiMao,ZhifangSui,WeizhuChen,BillDolan会议：ACL，2022链接：https://arxiv.org/ab
论文阅读笔记—— Multi-attentional Deepfake Detection jessIoss 论文阅读笔记DeepFake 论文阅读笔记
文章目录Multi-attentionalDeepfakeDetection背景创新贡献方法注意图正则化的区域独立性损失注意力引导的数据增强实验Multi-attentionalDeepfakeDetection来源：CVPR2021作者：HanqingZhao1WenboZhou1,†DongdongChen2TianyiWei1WeimingZhang1,†NenghaiYu1单位：Unive
[论文阅读笔记] Learning Transferable Visual Models From Natural Language Supervision Heartache Doctor 笔记论文阅读笔记
Abstract将LLM带来的语言zero-shot能力扩展到图像领域，让图像pretrain不再局限于由数据集定义的类别，从而大幅度提升在downstream任务zero-shot的精度。文章提供了从零预训练的CLIP模型，用以训练的大数据集，以及基于对比学习的对齐方案。IntroductionNLP领域下，使用大量数据pretrain>使用高质量标注数据集。→\rightarrow→CV是否也
GLIDE论文阅读笔记与DDPM（Diffusion model）的原理推导大写-凌祁论文阅读笔记人工智能深度学习 python 机器学习计算机视觉
Abstract扩散模型（Diffusionmodel）最近被证明可以生成高质量的合成图像，尤其是当它们与某种引导技术结合使用时，可以在生成结果的多样性与保真度之间进行权衡。本文探讨了在文本条件图像生成任务中使用扩散模型，并比较了两种不同的引导策略：CLIP引导和无分类器引导。我们发现，人类评估者更倾向于使用无分类器引导方法，无论是在照片真实感还是与文本描述的匹配度方面，该方法通常都能生成具有高度
论文阅读笔记——FLOW MATCHING FOR GENERATIVE MODELING 寻丶幽风 Background 论文阅读笔记流匹配扩散模型人工智能
FlowMatching论文扩散模型：根据中心极限定理，对原始图像不断加高斯噪声，最终将原始信号破坏为近似的标准正态分布。这其中每一步都构造为条件高斯分布，形成离散的马尔科夫链。再通过逐步去噪得到原始图像。Flowmatching采取直接将已知分布（如白噪声）转换为真实数据分布来生成数据，并且Flow是基于NormalizingFlow，故而是可微双射。生成过程中变化的概率密度构成一个集合，称为概
论文阅读笔记——Step1X-Edit: A Practical Framework for General Image Editing 寻丶幽风论文阅读笔记论文阅读笔记理解生成模型多模态人工智能
Step1X-Edit论文当前图像编辑数据集规模小，质量差，由此构建了如下数据构造管线。高质量三元组数据（源图像、编辑指令、目标图像）。主体添加与移除：使用Florence-2对专有数据集标注，然后使用SAM2进行分割，再使用ObjectRemovalAlpha进行修复。编辑指令结合Step-1o和GPT-4o生成，然后人工审查有效性。主体替换与背景更改：使用Florence-2对专有数据集标注，
论文阅读笔记——Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing 寻丶幽风论文阅读笔记论文阅读笔记多模态理解生成自回归扩散模型
Nexus-Gen论文Nexus-Gen采用预测图像嵌入作为中间条件，链接自回归模型和扩散模型，通过预填充自回归避免嵌入误差传播，突破传统外界LLM因条件压缩导致信息丢失，提高理解生成模型在理解任务和生成任务上的性能表现。传统的图像生成任务往往局限于Text-to-Image场景，模型侧重于图像质量或局部内容填充。而Nexus-Gen的架构设计突破了这一范式，不仅具备高质量图像生成能力，还可以执行
论文阅读笔记——PixArt-α，PixArt-δ 寻丶幽风论文阅读笔记论文阅读笔记 T2I 扩散模型文生图
PixArt-αPixArt-α论文仅使用28400美元，28M训练数据，训练时长为SD1.5的10.8%，只有0.6B参数量，达到接近商业应用的水准。现有数据集存在的缺陷：图文匹配偏差、描述信息不完整、词汇多样性不足（长尾效应显著）、低质量数据。为了实现低成本训练，华为采用了三阶段的训练策略：第一个阶段是学习像素依赖关系，简单来说是先学习生成真实的图像，这里是用ImageNet数据集训练一个基于
《XMK-CKKS: Extended Multiple Key Homomorphic Encryption over CKKS》论文阅读笔记 stupidyccc 同态加密论文阅读笔记安全
《XMK-CKKS:ExtendedMultipleKeyHomomorphicEncryptionoverCKKS》中科院2区总结提出了xMK-CKKS,一种多密钥同态方案。客户端使用聚合公钥加密梯度，解密的时候需要所有客户端提供解密份额，协助服务器解密总和。基于FadAvg和XMK-CKKS提出一个ppfl模型。在半诚实模型下可以防止n-1个客户端和服务器的勾结。xMK-CKKS###setu
Adversarial examples based on object detection tasks: A survey》论文阅读笔记 2301_80355452 目标检测论文阅读笔记
这是一篇关于目标检测任务中对抗样本攻击的综述论文。文章介绍了深度学习在计算机中的应用，以及对抗样本攻击的相关概念和方法，其中重点讨论了目标检测任务中基于分类和回归的对抗样本攻击，并对其他相关攻击方法进行了总结，最后得出结论并展望未来研究方向。1.引言深度学习背景：深度学习在处理图像或视频数据方面具有优势，广泛应用于计算机视觉任务，但由于深度网络的复杂结构，其存在脆弱性，容易受到攻击。目标检测任务：
论文阅读笔记—— AdvFilter: Predictive Perturbation-aware Filtering against Adversarial Attack via Multi-d L jessIoss 论文阅读笔记DeepFake 论文阅读笔记
文章目录AdvFilter:PredictivePerturbation-awareFilteringagainstAdversarialAttackviaMulti-domainLearning背景贡献相关工作对抗性去噪防御对抗性训练防御其他对抗性防御方法一般图像去噪创新公式方法多域学习实验AdvFilter:PredictivePerturbation-awareFilteringagains
【论文阅读笔记】Attention Is All You Need 时光机ﾟ论文阅读笔记
论文小结这是17年的老论文了，Transformer的出处，刚发布时的应用场景是文字翻译。BLUE是机器翻译任务中常用的一个衡量标准。在此论文之前，序列翻译的主导模型是RNN或者使用编解码器结构的CNN。本文提出的Transformer结构不需要使用循环和卷积结构，是完全基于注意力机制的模型。Transformer在序列转换上具有高并行度，在两个机器翻译的任务上都得到了卓越的成果，且其训练
论文阅读笔记——MAGICDRIVE: STREET VIEW GENERATION WITH DIVERSE 3D GEOMETRY CONTROL 寻丶幽风论文阅读笔记论文阅读笔记 3d 人工智能自动驾驶
MagicDrive论文MagicDrive通过对3D数据和文本数据的多模态条件融合和隐式视角转换，实现了高质量、多视角一致的3D场景生成。几何条件编码Cross-attention：针对顺序数据，适合处理文本标记和边界框等可变长度输入。Additiveencoderbranch：对于地图等网络状规则数据，能够有效保留空间结构。对于文本按照模版构建：“Adrivingsceneat{locatio
GS-SLAM论文阅读笔记-MGSO zenpluck GS论文阅读论文阅读笔记
前言MGSO首字母缩略词是直接稀疏里程计(DSO)，我们建立的光度SLAM系统和高斯飞溅(GS)的混合。这应该是第一个前端用DSO的高斯SLAM，不知道这个系统的组合能不能打得过ORB-SLAM3，以及对DSO会做出怎么样的改进以适应高斯地图，接下来就看一下吧！GishelloG^s_ihelloGishello我是红色文章目录前言1.背景介绍2.关键内容2.1SLAMmodule2.2Dense
论文阅读笔记——QLORA: Efficient Finetuning of Quantized LLMs 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习语言模型
QLoRA论文4-bit标准浮点数量化常见的量化技术是最大绝对值量化：XInt8=round(127absmax(XFP32)XFP32)=round(cFP32,XFP32)式(1)X^{Int8}=round(\frac{127}{absmax(X^{FP32})}X^{FP32})=round(c^{FP32},X^{FP32})\qquad\qquad\text{式(1)}XInt8=ro
论文阅读笔记：Graph Matching Networks for Learning the Similarity of Graph Structured Objects 游离态GLZ不可能是金融技术宅知识图谱机器学习深度学习人工智能
论文做的是用于图匹配的神经网络研究，作者做出了两点贡献:证明GNN可以经过训练，产生嵌入graph-leve的向量可以用于相似性计算。作者提出了一种新的基于注意力的跨图匹配机制GMN(cross-graphattention-basedmatchingmechanism)，来计算出一对图之间的相似度评分。（核心创新点）论文证明了该模型在不同领域的有效性，包括具有挑战性的基于控制流图(control
论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control 寻丶幽风论文阅读笔记论文阅读笔记人工智能机器人语言模型
π0论文π0π_0π0是基于预训练的VLM模型增加了actionexpert，并结合了flowmatching方法训练的自回归模型，能够直接输出模型的actionchunk（50）。π0采用FlowMatching技术来建模连续动作的分布，这一创新使模型能够精确控制高频率的灵巧操作任务，同时具备处理多模态数据的能力。架构受到Transfusion的启发：通过单一Transformer处理多目标任务
论文阅读笔记——Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习机器人
ALOHA论文ALOHA解决了策略中的错误可能随时间累积，且人类演示可能是非平稳的，提出了ACT（ActionChunkingwithTransformers）方法。ActionChunking模仿学习中，compoundingerror是致使任务失败的主要原因。具体来说，当智能体（agent）在测试时遇到训练集中未见过的情况时，可能会产生预测误差。这些误差会逐步累积，导致智能体进入未知状态，最终
Self-Attentive Sequential Recommendation论文阅读笔记调包调参侠推荐系统学习深度学习机器学习神经网络算法
SASRec论文阅读笔记论文标题：Self-AttentiveSequentialRecommendation发表于：2018ICDM作者：Wang-ChengKang,JulianMcAuley论文代码：https://github.com/pmixer/SASRec.pytorch论文地址：https://arxiv.org/pdf/1808.09781v1.pdf摘要顺序动态是许多现代推荐系
论文阅读笔记2 sixfrogs 论文阅读笔记论文阅读 cnn
OptimizingMemoryEfficiencyforDeepConvolutionalNeuralNetworksonGPUs1论文简介作者研究了CNN各层的访存效率，并揭示了数据结构和访存模式对CNN的性能影响。并提出了优化方法。2方法介绍2.1Benchmarks数据集：MNIST，CIFAR，ImageNetCNN：AlexNet，ZFNet，VGG2.2实验设置CPU：IntelXe
大模型隐空间推理论文阅读笔记猴猴猪猪 AIGC python 实验记录人工智能深度学习
文章目录TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介1.1摘要1.2引言TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介机构：Meta代码：任务:特点:方法:1.1摘要现状：大语言模型往往局限在“languagespace"进行推理，在解决
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总_大模型在代码缺陷检测领域的应用实践(1) 2401_84972910 程序员 AIGC 论文阅读笔记
欢迎一起踏上探险之旅，挖掘无限可能，共同成长！写在最前面本文为邹德清教授的《网络安全专题》课堂笔记系列的文章，本次专题主题为大模型。本系列文章不仅涵盖了46篇关于前沿代码大模型的论文，还包含了24篇深度论文阅读笔记，全面覆盖了代码生成、漏洞检测、程序修复、生成测试等多个应用方向，深刻展示了这些技术如何在网络安全领域中起到革命性作用。同时，本系列还细致地介绍了大模型技术的基础架构、增强策略、关键数据
论文阅读笔记——Prediction with Action: Visual Policy Learning via Joint Denoising Process 寻丶幽风论文阅读笔记论文阅读笔记人工智能
以前的method是输入视频输出视频或者输入视频和action学习action，该方法认为action，video和othercondition具有一定联系，所以一次性对所有的进行jointdenoise。网络结构采用MaskedMulti-headAttention关联不同模态，使用DiT的backbone。
深度学习重要论文阅读笔记 ResNet （2025.2.26）北岛寒沫逐界星辰2025 计算机科研深度学习论文阅读笔记
文章目录问题背景数据预处理神经网络模型模型性能知识点积累英语单词积累问题背景随着神经网络变得更深（层数变多），模型的训练过程也会变得更加困难。当神经网络的深度增加，就会出现梯度消失和梯度下降现象，妨碍模型的收敛。不过，这种情况可以通过归一化的模型初始化和中间的归一化层基本解决。但是，尽管在增加了归一化技术的情况下很深的神经网络可以收敛，又出现了另外一个问题，即随着模型深度的增加，模型的准确率反而下
论文阅读笔记1——DARTS：Differentiable Architecture Search可微分架构搜索（一）（论文翻译学习） fuhao7i 论文阅读笔记深度学习人工智能机器学习算法计算机视觉
DARTS：DifferentiableArchitectureSearch可微分架构搜索（一）DARTS：DifferentiableArchitectureSearch（一）ABSTRACT摘要1.INTRODUCTION介绍2.可微的结构搜索加油加油！如果你感觉你现在很累，那么恭喜你，你现在正在走上坡路！让我们一起加油！欢迎关注我的讲解视频，让我们一起学习：Bilibili主页：https:
【CCM-SLAM论文阅读笔记】随机取名字协同SLAM论文阅读 slam
CCM-SLAM论文阅读笔记整体框架结构如图所示：单智能体只负责采集图像数据，运行实时视觉里程计VO以估计当前位姿和环境地图，由于单智能体计算资源有限，负责生成的局部地图只包含当前N个最近的关键帧。服务器负责地图管理、地点识别、地图融合和全局BA优化。所有局部地图使用本地里程计框架，地图信息在从一个本地里程计到另一个本地里程计框架的相对坐标中进行交换。CCM-SLAM不假设任何关于智能体初始位置的
【论文阅读笔记|EMNLP2023】DemoSG: Demonstration-enhanced Schema-guided Generation for Low-resource Event Ext Rose sait 论文阅读笔记
论文题目：DemoSG:Demonstration-enhancedSchema-guidedGenerationforLow-resourceEventExtraction论文来源：EMNLP2023论文链接：2023.findings-emnlp.121.pdf(aclanthology.org)代码链接：https://github.com/GangZhao98/DemoSG0摘要当前大多数
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多