TTdreamloong

图像检索文献总结(一)

图像检索新人总结目前图像检索现状方便自己与他人查看资料收集自网络如有侵权请联系删除

端到端的特征学习方法

NetVLAD: CNN architecture for weakly supervised place recognition （CVPR 2016）

这篇文章是来自于INRIA 的Relja Arandjelović等人的工作。该文章关注实例搜索的一个具体应用——位置识别。在位置识别问题中，给定一张查询图片，通过查询一个大规模的位置标记数据集，然后使用那些相似的图片的位置去估计查询图片的位置。作者首先使用Google Street View Time Machine建立了大规模的位置标记数据集，随后提出了一种卷积神经网络架构，NetVLAD——将VLAD方法嵌入到CNN网络中，并实现“end-to-end”的学习。该方法如下图所示：

原始的VLAD方法中的hard-assignment操作是不可微的（将每个局部特征指派给离它最近的中心点），因此不可以直接嵌入到CNN网络里，并参与误差反向传播。这篇文章的解决方法就是使用softmax函数将此hard-assignment操作转化为soft-assignment操作——使用1x1卷积和softmax函数得到该局部特征属于每个中心点的概率/权重，然后将其指派给具有最大的概率/权重的中心点。因此NetVLAD包含了三个可以被学习参数，，其中是上面1x1卷积的参数，用于预测soft-assignment，表示为每个簇的中心点。并在上图的VLAD core层中完成相应的累积残差操作。作者通过下图给我们说明NetVLAD相比于原始的VLAD的优势：（更大的灵活性——学习更好的簇中心点）

这篇文章的另一个改进工作就是Weakly supervised triplet ranking loss。该方法为了解决训练数据可能包含噪声的问题，将triplet ranking loss中正负样本分别替换为潜在的正样本集（至少包含一张正样本，但不确定哪张）和明确的负样本集。并且在训练时，约束查询图片和正样本集中最可能是正样本的图片之间的特征距离比查询图片与所有负样本集内的图片之间的特征距离要小。

Deep Relative Distance Learning: Tell the Difference Between Similar Vehicles （CVPR 2016）

接下来的这篇文章关注的是车辆识别/搜索问题，来自于北京大学Hongye Liu等人的工作。如下图所示，这个问题同样可以被看成实例搜索任务。

和很多有监督的深度实例搜索方法一样，这篇文章旨在将原始的图片映射到一个欧式特征空间中，并使得在该空间里，相同车辆的图片更加聚集，而非同类的车辆图片则更加远离。为了实现该效果，常用的方法是通过优化triplet ranking loss，去训练CNN网络。但是，作者发现原始的triplet ranking loss存在一些问题，如下图所示：

对于同样的样本，左边的三元组会被损失函数调整，而右边的三元组则会被忽视。两者之间的区别在于anchor的选择不一样，这导致了训练时的不稳定。为了克服该问题，作者用coupled clusters loss（CCL）去替代triplet ranking loss。该损失函数的特点就是将三元组变成了一个正样本集和一个负样本集，并使得正样本内的样本相互聚集，而负样本集内的样本与那些正样本更加疏远，从而避免了随机选择anchor样本所带来的负面影响。该损失函数的具体效果如下图所示：

最后这篇文章针对车辆问题的特殊性，并结合上面所设计的coupled clusters loss，设计了一种混合的网络架构，并构建了相关的车辆数据库去提供所需的训练样本。

DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations （CVPR 2016）

最后的这篇文章同样是发表在CVPR 2016上，介绍了衣服识别和搜索，同样是与实例搜索相关的任务，来自于香港中文大学Ziwei Liu等人的工作。首先，本篇文章介绍了一个名为DeepFashion的衣服数据库。该数据库包含超过800K张的衣服图片，50个细粒度类别和1000个属性，并还额外提供衣服的关键点和跨姿态/跨领域的衣服对关系（cross-pose/cross-domain pair correspondences），一些具体例子如下图所示：

然后为了说明该数据库的效果，作者提出了一种新颖的深度学习网络，FashionNet——通过联合预测衣服的关键点和属性，学习得到更具区分性的特征。该网络的总体框架如下所示：

FashionNet的前向计算过程总共分为三个阶段：第一个阶段，将一张衣服图片输入到网络中的蓝色分支，去预测衣服的关键点是否可见和位置。第二个阶段，根据在上一步预测的关键点位置，关键点池化层（landmark pooling layer）得到衣服的局部特征。第三个阶段，将“fc6 global”层的全局特征和“fc6 local”的局部特征拼接在一起组成“fc7_fusion”，作为最终的图像特征。FashionNet引入了四种损失函数，并采用一种迭代训练的方式去优化。这些损失分别为：回归损失对应于关键点定位，softmax损失对应于关键点是否可见和衣服类别，交叉熵损失函数对应属性预测和三元组损失函数对应于衣服之间的相似度学习。作者分别从衣服分类，属性预测和衣服搜索这三个方面，将FashionNet与其他方法相比较，都取得了明显更好的效果。

总结：当有足够多的有标注数据时，深度学习可以同时学习图像特征和度量函数。其背后的思想就是根据给定的度量函数，学习特征使得特征在该度量空间下具有最好的判别性。因此端到端的特征学习方法的主要研究方向就是如何构建更好的特征表示形式和损失函数形式。

基于CNN特征的特征编码方法

本文在上面部分介绍的深度实例搜索算法，主要关注数据驱动的端到端特征学习方法及相对应的图像搜索数据集。接下来，本文关注于另一个问题：当没有这些相关的搜索数据集时，如何提取有效的图像特征。为了克服领域数据的不足，一种可行的策略就是在CNN预训练模型（训练在其他任务数据集上的CNN模型，比如ImageNet图像分类数据集）的基础上，提取其中某一层的特征图谱（feature map），对其进行编码得到适用于实例搜索任务的图像特征。本部分将根据近些年相关的论文，介绍一些主要的方法（特别的，本部分中所有的CNN模型都是基于ImageNet分类数据集的预训练模型）。

Multi-Scale Orderless Pooling of Deep Convolutional Activation Features （ECCV 2014）

这篇文章发表在ECCV 2014上，是来自于北卡罗来纳大学教堂山分校Yunchao Gong和伊利诺伊大学香槟分校Liwei Wang等人的工作。由于全局的CNN特征缺少几何不变性，限制了对可变场景的分类和匹配。作者将该问题归因于全局的CNN特征包含了太多的空间信息，因此提出了multi-scale orderless pooling (MOP-CNN)——将CNN特征与无序的VLAD编码方法相结合。

MOP-CNN的主要步骤为，首先将CNN网络看作为“局部特征”提取器，然后在多个尺度上提取图像的“局部特征”，并采用VLAD将这些每个尺度的“局部特征”编码为该尺度上的图像特征，最后将所有尺度的图像特征连接在一起构成最终的图像特征。提取特征的框架如下所示：

作者分别在分类和实例搜索两个任务上进行测试，如下图所示，证明了MOP-CNN相比于一般的CNN全局特征有更好的分类和搜索效果。

Exploiting Local Features from Deep Networks for Image Retrieval （CVPR 2015 workshop）

这篇文章发表在CVPR 2015 workshop上，是来自于马里兰大学帕克学院Joe Yue-Hei Ng等人的工作。近期的很多研究工作表明，相比于全相连层的输出，卷积层的特征图谱（feature map）更适用于实例搜索。本篇文章介绍了如何将卷积层的特征图谱转化为“局部特征”，并使用VLAD将其编码为图像特征。另外，作者还进行了一系列的相关试验去观察不同卷积层的特征图谱对实例搜索准确率的影响。

Aggregating Deep Convolutional Features for Image Retrieval（ICCV 2015）

接下来这篇文章发表在ICCV 2015上，是来自于莫斯科物理与技术学院Artem Babenko和斯科尔科沃科技学院Victor Lempitsky的工作。从上面两篇文章可以看出，很多深度实例搜索方法都采用了无序的编码方法。但包括VLAD，Fisher Vector在内的这些编码方法的计算量通常比较大。为了克服该问题，这篇文章设计了一种更加简单，并且更加有效的编码方法——Sum pooing。Sum pooling的具体定义如下所示：

其中就是在卷积层在空间位置上的局部特征（这里提取局部特征的方法，与上篇文章一致）。在使用sum pooling后，对全局特征进一步地执行PCA和L2归一化得到最终的特征。作者分别与Fisher Vector，Triangulation embedding和max pooling这些方法进行比较，论证了sum pooling方法不仅计算简单，并且效果更好。

来自深度学习大讲堂 https://zhuanlan.zhihu.com/p/22265265

Where to Focus: Query Adaptive Matching for Instance Retrieval Using Convolutional Feature Maps （arXiv 1606.6811）

本论文在《Particular object retrieval with integral max-pooling of CNN activations》的基础上重新提出一种Reranking的方法。

在叙述开始之前，先理解一下卷积Feature Map

上图是对不同卷积层的一个可视化，我们可以看到，early convolutional layer捕捉的是一个主要的视觉模型，而late convolutional layer更多的则是对目标轮廓的表示。

这篇论文那里面的Reranking过程整理：

一方法介绍

1生产base regions，方法有两种：

1.1 Feature Map Pooling（FMP）

对于卷积网络某一层，若有D个卷积核，可以生产D张Feature Map（FM）图。对于每一个FM，我们选取响应值非零的位置作为一个Base Regions（BR），这样BR的数量就相当于FM的数量。然后对BR中的响应值作sum-pooling，这样每一个FM都会得到一个值fd。但是对于一个给定的Image，很多FM有很大的重叠，所以其对应的pooling特征，也就是fd基本相同，我们对这些Fd值进行一个聚类，聚类中心设置为K。（这里可以理解把D个BR聚类成K个BR）。

sum-pooling图示意（把响应值相加）

1.2 Overlapped Spatial Pyramid Pooling （OSPP）

OSPP法与提出R-MAC论文里的Regions提取方法相同，对应不同尺度，我们提取 l × (l + m − 1) 个Regions，其宽度= 2 min(W; H)/(l + 1)，再均匀采样出m个区域（BR区域）

2 Reranking过程

论文提出Query Adaptive Matching（QAM）的一个方法进行Reranking，其实就是对BR进行归并成一个Merge Region，而这个选取过程转化成一个最优化问题。利用下面这个过程，对于某张图片而言，选出与query最相似的一个合并区域（merge regions）

通过以上的的优化过程（其实最后就是一个普通的二次规划问题）我们选取出某张图片一个Merge Region。计算出query和Merge region的相似度得分做为Reranking的Score，最终进行排名。

这里说一下我对上面Base region 的生成过程结合QAM的理解：

对于FMP方法：每一个Feature Map我们会得到一个Base Region，所以，通过FMP的方法，我们最后得到的Base region的数量等于该层卷积核的数量。而最终base-region的表示，论文确用了一个sum-pooling的方式，这样每一个Base Region最终只会得出一个值，而在最优化过程中，Merge Region最终表示也会成为一个值，也就无法与query的向量做内积。这也是我一直对这篇论文疑惑的地方，如果哪个学长（先于闻道为长之）看明白了这个问题，还请不吝赐教。（也可能是论文的一个错误）

对于OSPP法：由于在不同FM上做不同尺度的Base Region选取，所以对应不同的Base Region有不同的向量表达形式。我们可以很轻松的应用QAM对Base Region进行选取。

Deep Image Retrieval: Learning global representations for image search. In ECCV, 2016.

论文地址：https://arxiv.org/abs/1604.01325

extended version：end to end learning of deep visual representations for image retrieval, in arxiv, 16.10.

=====

看图说话：

从图上可以看出该论文的整体框架：

1 基于pre-trained model on Imagenet（如VGG16）

2 从Landmarks dataset[17]，中挖掘出一个full或者clean的数据集（包括类别标签 Full Datset和bounding box Clean Dataset）

3 用数据集Full Daset来进行finetune，其loss是一般的分类的loss；用Clean Dataset来进行finetune，其loss为triplet loss

4 用训练好的模型对公开数据集进行feature extraction，similarity measure采用欧式距离（dot product）

论文中也采用了query expansion的方式来boost performance。

=====

下面重点讲下上面的1和3.

（对于数据集这个的获取，其实笔者没有怎么看懂，只明白需要提供一个clean的数据集就好）

1 pre-trained model以及该论文的framework。

这里可以采用AlexNet，VGGNet，Resnet等，取决与你想要的效果（performance和speed）

对于VGGNet（如VGG16），摘掉全连接层，取而代之的是RPN + RoI Pooling +shift + fc + L2等。

为什么要用RPN，这里为了取代rigid grid的做法（仅在test的时候取代，而finetune时，proposals就是rigid grid，具体看论文中的引用论文）。

也可以看extended version的论文，将RPN彻底取代rigid grid，形成end2end的framework。

至于shift + fc的作用就是取代一般pipeline中的PCA Whitten。

这里的L2和后续的求和（所有regions的feature对应求和得到最后global compact的image representation）和L2，仿效一般pipepline的做法。

（具体可以参考

Particular Object Retrieval with Integral Max-Pooling of CNN Activations. In ICLR, 2016.)

因为以上的操作都是可导的，这样就可以将它们嵌入到一个模型中，进行forward和backward地训练模型，而再也不是一个pipeline的做法。

2 MAC feature的简单介绍：（pooling可以用sum也可以用max，或者其他的）

R-MAC：一般的MAC是针对whole image的feaute map，而R-MAC的做法就是参考RoI Pooling的做法，将bounding box 投影到feature map上，然后仅在投影在feature map上的区域进行pooling。

3 RPN

这个没有什么好说的，请参考faster rcnn。

具体是将RPN这个sub-network放到上面framework上，数据采用Clean Dataset。

4 训练

先用rigid grid的方式产生region，用于训练siamese的triplet loss或者简单的classification，对应的数据集为Clean Dataset和Full Dataset。

然后用Clean Dataset来训练RPN

最后测试的时候，用RPN产生的proposals替代rigid grid。

（不过论文中提到用Full Dataset训练的classification的模型来初始化triplet loss的模型，效果更佳）

至于具体的网络参数，请参考论文。

5 数据的产生

【CVPR 2016】faster r-cnn features for instance search 笔记

论文源码以及视频：http://imatge-upc.github.io/retrieval-2016-deepvision/

我自己制作的ppt地址：http://download.csdn.net/detail/dengbingfeng/9524748

这篇paper的解读默认大家对faster-rcnn有基本的了解....

基本流程：

利用现有的faster-rcnn物体检测只前向传播一次来提取整个图像的卷积特征和区域卷积特征，共享计算。

检索物体在检索图像中用提供的坐标框表示其位置，使用faster-rcnn提取整个数据集图像的conv5_3层特征，并于待检索图像的conv5_3层特征比较余弦相似度，这样便完成对整个数据集图像的第一次rank，即和待检索图片越相似越排名越靠前。

在第一次rank后的基础上，针对排名top N的图片，利用faster-rcnn框处物体检测框，取出所有物体检测框的pool5层特征和待检索物体的pool5层特征比较余弦相似度，依然越相似的排名越靠前，完成rerank，即第二次排序。

操作完后将top 10的结果显示出来。

细节：

1.Image-wise pooling of activations (IPA)

就是用最后一层卷积层的激活值来构建对整幅图片的描述。

2.Region-wise pooling of activations (RPA)

RPN产生的proposals的卷积特征求和池化特征先用L2归一化，whitening后再L2归一化一次，而最大池化特征只进行一次L2归一化。

3.微调faster-rcnn

两种：只调整全连接层和除前两层卷积层外都所有层都微调

4.Class-Agnostic Spatial Reranking (CA-SR)

未知类别空间排序

5.Class-Specific Spatial Reranking (CS-SR)

特定类别排序，使用相同检索物体微调后的网络，可以直接使用RPN proposal的得分来作为与待检索物体的相似度得分，

得分用来对图片列表进行排序。

6.数据集

在Oxford和Pairs数据集里，输出12种类别可能（11种建筑+背景）。

在INS 13中有30种不同的检索实例，输出31种类别可能。

只调整全连接层在检索物体较难的时候效果不好。

整个网络结构

整个网络从总体上看是faster-rcnn的网络结构，上面一部分是faster-rcnn 的RPN net部分，RPN net的输出rpn proposals，网络的下面部分

是ROI pooling 加上三个全连接层，输出是class probabilities.

Image-wise pooling of activations(IPA): 这一步骤实际上抽出image的representation，具体的方法是从卷积层的最后一层

conv5_3(针对VGG16 Net，并且经过了reLu层之后），然后做pooling，具体pooling 的方法作者是借鉴另外一篇paper：《particular object retrieval

with integeral max-pooling of CNN activations》。举个例子来说：如果最后conv5_3得出的feature map的维度是K*W*H,其中K为卷积核的数目，W*H

为每一个卷积核卷积之后的feature map，这样对于每一个W*H的feature Map 采用max-pooling 或者sum-pooling 就能得到一个值。这样，整个K*W*H

采用pooling之后得到的feature即为K*1的向量。

Region-wise pooling of activations(RPA): 这一步骤得到的是region的representation,有了上面的IPA，这一步的RPA也很容易理解，

就是找出region proposals 的ROI pooling，在ROI pooling层上面做max-pooling。

fine-tuning faster rcnn

fine tuning 采用两种方式：

strategy1: fine tuning ROI pooling之后的三层网络。

strategy2:fine tuning network after conv_2

fine-tuining 所使用图像为query 图像以及将其做horizontal flip之后的图像（个人感觉图像好少）。

3.Image Retrieval

一共分为三个步骤：

1.过滤：提取出查询图像以及数据库图像的IPA，然后通过计算余弦距离将数据库图像进行排序。（整个过程都是使用的图像的IPA与区域无关）。

2.空间重排：

空间重排采用了两种方法：

Class-Agnostic Spatial Reranking (CA-SR):假设类别不可知，计算每一个query bounding box的RPA与采用第一部过滤前N幅图像每一个proposal的

余弦距离，最高的作为query与图像的余弦距离。

Class-Specific Spatial Reranking(CS-SR):使用和query相同的instances 来fine-tuin过后的整个网络，然后使用FC-8之后的class-probality 的类别得分

将其作为query与proposal 的得分。

3.查询扩展：最简单的查询扩展的方法。

在PyTorch框架上训练ImageNet时，Dataloader加载速度慢怎么解决？ cda2024 pytorch 人工智能 python
在深度学习领域，PyTorch因其灵活性和易用性而受到广泛欢迎。然而，在实际应用中，特别是在处理大规模数据集如ImageNet时，Dataloader的加载速度往往成为瓶颈。本文将深入探讨这一问题，并提供多种解决方案，帮助你在PyTorch框架上高效地训练ImageNet。1.问题背景ImageNet是一个包含超过1400万张图像的大规模数据集，被广泛用于图像分类任务的研究。在PyTorch中，D
ACNet：深度学习中的自适应卷积网络新星郎轶诺
ACNet：深度学习中的自适应卷积网络新星项目地址:https://gitcode.com/gh_mirrors/ac/ACNet在深度学习领域，卷积神经网络（CNN）一直是图像处理和计算机视觉任务的核心技术。然而，传统的固定大小的卷积核无法灵活适应不同区域的信息密度。针对这一问题，ACNet（AdaptiveConvolutionNetwork）项目应运而生，它引入了一种新型的自适应卷积层，旨在
自适应神经网络架构：原理解析与代码示例 chian-ocean 机器学习神经网络人工智能深度学习
个人主页：chian-ocean文章专栏自适应神经网络结构：深入探讨与代码实现1.引言随着深度学习的不断发展，传统神经网络模型在处理复杂任务时的局限性逐渐显现。固定的网络结构和参数对于动态变化的环境和多样化的数据往往难以适应，导致了过拟合或欠拟合的问题。自适应神经网络（AdaptiveNeuralNetworks,ANN）为此提供了一种新的解决方案，它可以根据数据特征和训练情况自动调整网络结构，从
全面解析NVIDIA显卡：从入门级到旗舰级显卡详解花千树-010 大模型人工智能算法智能电视
在选择显卡时，了解不同显卡的性能和适用场景是非常重要的。无论你是预算有限的入门用户，还是追求极致性能的游戏玩家，亦或是专业的内容创作者和深度学习研究人员，NVIDIA都有适合你的显卡。本篇博文将详细列举NVIDIA显卡的各项配置，从低到高逐一整理，并给出适用的使用场景。入门级显卡NVIDIAGeForceGT1030CUDA核心数:384基础频率:1227MHz加速频率:1468MHz显存:2GB
直播预告丨精度优于AlphaFold，基于深度学习实现生物大分子及其互作的三维结构预测
「MeetAI4S」系列直播第6期将于1月15日19:00准时开播，HyperAI超神经有幸邀请到了南开大学统计与数据科学学院教授郑伟，他本次分享的主题是「AlphaFold3王座未稳，来自学术界的反超：基于深度学习的生物大分子及其互作的三维结构预测」。蛋白质的功能取决于其独特的三维结构，近年来，基于深度学习等人工智能技术的蛋白质结构预测发展迅猛，AlphaFold甚至获得了2024年诺贝尔化学奖
AI代码生成工具的未来：杨立昆的洞见与AI革命前端
近年来，人工智能（AI）领域取得了令人瞩目的进展，特别是以大型语言模型为代表的AI技术，在自然语言处理、图像生成等领域展现出强大的能力。然而，深度学习先驱杨立昆（YannLeCun）却对现有的AI系统提出了尖锐的批评，他认为目前的AI系统“理解能力远不如猫”，缺乏对真实世界的理解和常识。这引发了人们对AI未来发展方向的思考，也为我们探讨AI代码生成工具，以及AI技术对人类社会的影响提供了新的视角。
【TVM 教程】内联及数学函数
ApacheTVM是一个端到端的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：TianqiChen尽管TVM支持基本的算术运算，但很多时候，也需要复杂的内置函数，例如exp取指函数。这些函数是依赖target系统的，并且在不同target平台中可能具有不同的名称。本教程会学习到如何调用这些target-spe
基于YOLOv5、YOLOv8和YOLOv10的自助售货机商品检测：深度学习实践与应用 2025年数学建模美赛 YOLO 深度学习人工智能目标跟踪目标检测
引言自助售货机已经成为现代零售和自动化销售领域的重要组成部分。在自助售货机中，商品的检测与管理至关重要。通过精准的商品检测技术，售货机可以在商品售出后自动更新库存，并提供准确的商品信息反馈。然而，在复杂的环境下进行商品检测是一个具有挑战性的问题，尤其是在商品种类繁多、摆放方式多样以及光照条件变化较大的情况下。近年来，基于深度学习的目标检测算法，特别是YOLO（YouOnlyLookOnce）系列模
【分类】【损失函数】处理类别不平衡：CEFL 和 CEFL2 损失函数的实现与应用丶2136 AI 分类人工智能损失函数
引言在深度学习中的分类问题中，类别不平衡问题是常见的挑战之一。尤其在面部表情分类任务中，不同表情类别的样本数量可能差异较大，比如“开心”表情的样本远远多于“生气”表情。面对这种情况，普通的交叉熵损失函数容易导致模型过拟合到大类样本，忽略少数类样本。为了有效解决类别不平衡问题，Class-balancedExponentialFocalLoss(CEFL)和Class-balancedExponen
交叉熵损失函数（Cross-Entropy Loss）我叫罗泽南深度学习人工智能
原理交叉熵损失函数是深度学习中分类问题常用的损失函数，特别适用于多分类问题。它通过度量预测分布与真实分布之间的差异，来衡量模型输出的准确性。交叉熵的数学公式交叉熵的定义如下：CrossEntroyLoss=−∑i=1Nyi⋅log(y^i)\begin{equation}CrossEntroyLoss=-\sum_{i=1}^{N}y_i\cdotlog(\hat{y}_i)\end{equati
AI大模型引领医疗变革：十大创新应用场景塑造智慧医疗新时代和老莫一起学AI 人工智能自动化数据库学习语言模型大模型
前言在人工智能技术的迅猛发展中，AI大模型以其无与伦比的数据处理能力和深度学习能力，正逐步成为医疗健康领域变革的引领者。本文旨在深入探讨AI大模型在医疗领域的十大创新应用场景，展示其如何显著提升医疗服务效率、赋能临床决策，并推动整个行业向智能化转型。一、智能化诊疗：精准辅助，提升诊断效率AI大模型凭借对海量医疗数据的深度分析，能够协助医生进行更为精准的诊断。例如，百度灵医大模型凭借强大的数据处理能
技术文档的精髓：规划布局、语言表达与更新维护重庆钢铁侠经验分享
本文将从技术文档的规划布局、语言表达以及更新与维护三个方面入手，探讨如何打造一份出色的技术文档，确保信息的系统性、连贯性以及时效性。一：技术文档的规划布局1.1确定文档的整体架构技术文档的规划布局是确保信息呈现系统性和连贯性的关键。首先，需要确定文档的整体架构，这包括章节设置和逻辑顺序。一个好的架构应该能够清晰地指导读者从入门到精通。章节设置：根据文档的目的和受众，合理设置章节。例如，对于深度学习
基于深度学习的推荐系统构建：Movielens 数据集 fresh的转码之路深度学习人工智能机器学习推荐算法
基于深度学习的推荐系统构建：Movielens数据集依赖环境代码语言：python3.11.5开发平台：pycharmtensorflow版本：2.18.0MovieLen1M数据及简介MovieLens1M数据集包含包含6000个用户在近4000部电影上的100万条评分，也包括电影元数据信息和用户属性信息。下载地址为：http://files.grouplens.org/datasets/mov
海外抖音技术深度解析：算法、AI与全球化的挑战神探阿航计算机产业科普与思考算法人工智能机器学习数据挖掘深度学习
引言2025年1月19日，在美国宣布暂停服务，这一事件引发了全球用户的广泛关注。作为全球最受欢迎的短视频平台之一，其成功离不开其强大的技术支撑，尤其是其个性化推荐算法和AI驱动的创作工具。然而，随着全球市场环境的变化，它面临的技术与运营挑战也日益凸显。本文将深入分析其技术核心、全球化运营中的挑战及其未来发展方向。核心：个性化推荐引擎其算法是其成功的关键，其核心在于个性化推荐引擎。该引擎采用深度学习
YOLOv8与Transformer：探索目标检测的新架构 AI架构设计之禅 AI大模型应用入门实战与进阶大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
YOLOv8与Transformer：探索目标检测的新架构关键词：目标检测，深度学习，YOLOv8，Transformer，计算机视觉，卷积神经网络摘要：目标检测是计算机视觉领域的一项重要任务，其目标是从图像或视频中识别和定位特定对象。近年来，YOLO（YouOnlyLookOnce）系列算法以其高精度和高速度成为目标检测领域的佼佼者。最新版本的YOLOv8引入了Transformer架构，进一步
图像生成大模型：Imagen 详解转角再相遇 imagen python 深度学习计算机视觉
近年来，图像生成技术取得了显著进展，推动了计算机视觉和生成对抗网络（GAN）等领域的发展。Imagen是一个新兴的图像生成大模型，其在生成高质量、逼真图像方面表现出色。本文将详细讲解Imagen的基本原理、架构、训练流程及应用场景。1.Imagen的基本原理1.1什么是Imagen？Imagen是一种基于深度学习的图像生成模型，结合了自注意力机制（Self-attentionMechanism）和
【MySQL】Mysql数据库导入导出sql文件、备份数据库、迁移数据库程序员洲洲数据库数据库 mysql 导入导出sql sql文件备份迁移
本文摘要：本文提出了xxx的实用开发小技巧。作者介绍：我是程序员洲洲，一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。同时欢迎大家关注其他专栏，我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。同时洲洲已经建立了程序员技术交流群，如果您感兴趣，可以私信我加入我的社群，也可以直接vx联系（文末有名片）v：bdizztt随时
实战千问2大模型第五天——VLLM 运行 Qwen2-VL-7B（多模态）学术菜鸟小晨千问多模型 qwen2 vl
一、简介VLLM是一种高效的深度学习推理库，通过PagedAttention算法有效管理大语言模型的注意力内存，其特点包括24倍的吞吐提升和3.5倍的TGI性能，无需修改模型结构，专门设计用于加速大规模语言模型（LLM）的推理过程。它通过优化显存管理、支持大模型的批处理推理以及减少不必要的内存占用，来提高多GPU环境下的推理速度和效率。VLLM的核心特点包括：显存高效性：VLLM能够动态管理显存，
qwenvl 代码中的attention pool 注意力池如何理解，attention pool注意力池是什么？ OpenSani AI 大模型计算机视觉语言模型 qwenvl LLM
qwenvl中的attentionpool如何理解，其实这就是一个概念的问题看qwenvl的huggingface的代码的时候，发现代码里有一个Resampler以及attn_pool，这和之前理解的连接池线程池表示资源复用的意思不太一样，查了一下：注意这里的pool和线程池连接池里面的pool不一样:深度学习中的池化：池化在深度学习中主要指通过滑动窗口对特征图进行下采样，提取最重要的特征，减少计
计算机视觉与深度学习：使用深度学习训练基于视觉的车辆检测器（MATLAB源码-Faster R-CNN） ZhShy23 javascript 深度学习
在人工智能领域，计算机视觉是一个重要且充满活力的研究方向。它使计算机能够理解和分析图像和视频数据，从而做出有意义的决策。其中，目标检测是计算机视觉中的一项关键技术，它旨在识别并定位图像中的多个目标对象。车辆检测作为目标检测的一个重要应用，在自动驾驶、智能交通系统等领域有着广泛的应用前景。本文将介绍如何使用MATLAB和深度学习技术，特别是FasterR-CNN模型，来训练一个车辆检测器。文章目录一
GAN在图像增强中的应用实战指南码字仙子
本文还有配套的精品资源，点击获取简介：图像增强技术通过算法改善图像质量，GAN作为一种生成对抗网络，在此领域具有重要应用。通过生成器和判别器的对抗性训练，GAN可以生成逼真图像、修复低质量图像、扩增数据集并进行风格迁移。本项目将介绍如何使用Python及其相关库实现GAN图像增强，包括模型的构建、训练和评估。通过项目案例学习，你可以掌握GAN在图像增强中的实际应用，提高图像处理和深度学习的技能。1
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
深度学习模型推理速度/吞吐量计算(附代码） Scabbards_ 1500深度学习笔记深度学习人工智能
参考博文：https://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247546551&idx=2&sn=f198b6365e11f0a18832ff1203302632&chksm=ebb70e63dcc0877569d1838b2391744be628bf6cbb6e203a49f855e0769ecbbbf5a9929fe2db&scene
PyTorch使用教程- Tensor包 Loving_enjoy 论文 pytorch 人工智能
###PyTorch使用教程-Tensor包PyTorch是一个流行的深度学习框架，它提供了一个易于使用的API来创建和操作张量（Tensors）。张量是一个多维数组，类似于NumPy中的ndarray，但它是基于GPU的，支持自动求导。本文将详细介绍PyTorch中的Tensor包，包括张量的创建、运算、形状变换、索引与切片、以及重要的张量处理方式。####一、张量的创建在PyTorch中，可以
ChatGPT详解 Loving_enjoy 实用技巧人工智能自然语言处理
ChatGPT是一款由OpenAI研发和维护的先进的自然语言处理模型（NLP），全名为ChatGenerativePre-trainedTransformer，于2022年11月30日发布。以下是对ChatGPT的详细介绍：###一、技术架构与原理1.**技术架构**：ChatGPT建立在Transformer架构之上，这是一种深度学习模型，特别适用于处理自然语言。其核心是自注意力机制，允许模型在
AI绘画工具介绍编程小郭 ai作画
市面上AI绘画工具众多，它们利用深度学习和图像处理技术，为用户提供了丰富的创作体验和可能性。以下是对几款主流AI绘画工具的详细介绍及横向对比：一、主流AI绘画工具介绍Midjourney简介：Midjourney是一个独立的研究实验室，专注于人工智能绘图，被广泛应用于设计、艺术创作、广告制作等领域。特点：以其强大的图像生成能力和跨界融合的创新特点著称，能够根据文本描述和视觉输入生成兼具故事性与视觉
文心一言vsGPT-4全面对比编程小郭文心一言 chatgpt java python 人工智能 ai
文心一言和GPT-4都是当前非常先进的人工智能语言模型，它们各自具有独特的特点和优势。以下是对这两款工具的全面比较：文心一言是由百度开发的一款大型人工智能语言模型，它基于强大的深度学习技术和海量的数据资源，具备出色的语言理解和生成能力。文心一言在中文处理方面尤为出色，能够准确理解中文语境和语义，生成流畅、自然的中文文本。文心一言还具备丰富的知识库和推理能力，能够回答各种问题，提供有用的信息和建议。
基于深度学习的认知架构的AI SEU-WYL 深度学习dnn 人工智能深度学习架构
基于深度学习的认知架构的AI是一类模仿人类认知过程的人工智能系统，旨在模拟人类感知、学习、推理、决策等复杂的认知功能。认知架构的目的是创建一个能够理解和处理复杂环境、实现自我学习和适应的AI系统。结合深度学习技术，这类AI可以更好地应对动态和复杂的任务需求。1.基于深度学习的认知架构的组成一个典型的基于深度学习的认知架构包含多个关键模块：感知模块：负责从外部环境中获取数据，处理和提取特征。深度学习
什么是AI显卡，英伟达与AMD显卡的全面对比 wit_@ 人工智能 python 算法 deep learning 大数据网络
什么是AI显卡？AI显卡是专门为人工智能计算任务设计和优化的图形处理器（GPU）。相比传统显卡，AI显卡具备更强的计算能力、更高的并行处理效率以及针对深度学习、数据科学等领域的特殊硬件支持。在人工智能领域，尤其是深度学习中，训练和推理任务需要处理大量的矩阵运算，这正是GPU擅长的领域。AI显卡通过高度并行的架构，可以显著提升训练速度和模型性能，同时降低功耗和延迟。常见的AI显卡用途包括：深度学习模
深入了解卷积神经网络（CNN）：图像处理与深度学习的革命性技术 wit_@ cnn python 机器学习深度学习 scikit-learn
深入了解卷积神经网络（CNN）：图像处理与深度学习的革命性技术导语卷积神经网络（CNN）是现代深度学习领域中最重要的模型之一，特别在计算机视觉（CV）领域具有革命性的影响。无论是图像分类、目标检测，还是人脸识别、语音处理，CNN都发挥了举足轻重的作用。随着技术的不断发展，CNN已经成为了解决众多实际问题的核心工具。但对于许多人来说，CNN仍然是一个相对复杂的概念，尤其是初学者可能会被其背后的数学原
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

图像检索文献总结(一)

图像检索新人 总结目前图像检索现状 方便自己与他人查看 资料收集自网络 如有侵权 请联系删除

Deep Image Retrieval: Learning global representations for image search. In ECCV, 2016.

【CVPR 2016】faster r-cnn features for instance search 笔记

整个网络结构

你可能感兴趣的:(深度学习)

图像检索新人总结目前图像检索现状方便自己与他人查看资料收集自网络如有侵权请联系删除