Titus W

【研一小白论文精读】Joint Generative and Contrastive Learning for Unsupervised Person Re-identification

Abstract

就是将GAN和对比学习模块结合起来，对比学习不是需要数据增强吗，就用GAN的视图生成器来做这个增强，还提出了一种对比学习的损失函数，实验也证明取得了SOTA。

Introduction

ReID的目标是从不同视图中识别物体，也即是根据可视化相似度从gallery中识别query，gallery和query其实就是对比学习中的两个试图，也是一大一小数据集和样本这样的一个关系。直白一点就是左边是传统对比学习的方法，只不过右边用GAN来代替数据增强的这种方法。。
这个生成器不是普通的生成器，作者先从无标签的数据集上生成了一种网状结构，之前的方法总是忽视这个人身材，这种网就可以联合得恢复身材和姿势，然后这个生成器就可以生成非常好的视图。一旦得到新的视图，我们就可以设计一些基于对比学习的伪标签，结合我们提出的损失函数最大化原始视图和生成视图之间的相似度。
对比学习和GAN是一起一起训练的，这是一个相互促进的过程，可以提高生成的质量。
**1.**提出了一种联合模型，将对比学习和GAN结合在一起。
**2.**在这个模型的生成器部分使用了网结构，和之前的方法对比不仅能考虑到人的姿势还能考虑到人的身材。
**3.**在对比学习模块中提出了一种视图不变的损失函数。
**4.**克服了以前基于gan的无监督ReID方法的局限性，这些方法严重依赖于标记源数据集，并且SOTA。

The method

View Generator

首先我们定义一个3D网络中的一个2D平面作为原始的基础平面Sori，我们分别旋转3d网络，并且继续随机选择一个二维投影作为一个新的平面Snew。其实目的就是使用3D模型旋转来模拟不同角度照相机。Sori，x，Snew分别得到的represention两两结合通过编码器得到两个表示，结合各自的判别器，其实也就是生成了两种数据。第一种网格和第二种数据的表示结合起来再次生成一个最终表示。
整个过程有如下几个优化目标：

1.视图的重构损失

2.特征的重构损失

3.GAN的对抗损失

最后相加就是这一阶段的总体优化目标

View Contrast

这里使用了memory bank，可以稳定伪标签和扩大负样本的数量，而且这个memory bank也是通过一个动量的方式去更新的。我们使用一种聚类的算法去生成伪标签，通过得到伪标签，我们可以定义正样本和负样本。给定一个图像x，我们从memory bank中随机抽取K个具有不同伪标签的实例和一个与x具有相同伪标签的实例表示fpos。f,fnew,fpos三个两两之间组成正样本对，fnew和K个实例组成负样本对。损失函数呢其实还是传统的InferNCE，因为正样本对有三组，三组之间两两互相结合，负样本对就那一组，三个函数嘛很简单，都加起来。因为最后是联合训练，所以再把上述两个加起来就是最后的损失函数。## Abstract
就是将GAN和对比学习模块结合起来，对比学习不是需要数据增强吗，就用GAN的视图生成器来做这个增强，还提出了一种对比学习的损失函数，实验也证明取得了SOTA。

Introduction

The method

View Generator

1.视图的重构损失

2.特征的重构损失

3.GAN的对抗损失

最后相加就是这一阶段的总体优化目标

View Contrast

第一次读综述不知道，其实用思维导图比直接读综述更好。而且这篇论文就像我的第一个课题的课本一样。

Abstract

这好像是一篇综述，就说SSL方法的表现都很好，并且能胜任很多downstream task，应用在视觉、NLP、还有图学习上。本文主要根据SSL的目标将SSL划分为3类：生成、对比、生成加对比（也叫对抗）。并且SSL为什么能work起来有更深的思考，最后简单的地讨论了SSL未来的方向。

Introduction

自监督学习好啊，在三个领域已经很强了，但是手动标签、泛化误差，虚假的相关性、对抗攻击有很强的依赖性。利用不同输入型号之间的相关性自动标签。自监督学习的特征有二：1.通过半自动的方式从数据本身获取标签。2.数据之间的相互预测。人们经常混淆自监督学习和无监督学习，首先自监督学习属于无监督学习，因为确实没有使用手工标签。然而真正的无监督学习主要方向还是检测这一类，例如聚类降维这些，但是自监督的主要方向是恢复，既然是恢复本质上又属于有监督。给出了一张图片来区分：

有监督学习：人为告诉他是牛。
无监督学习：啥也没有
自监督学习：从有相关信息的其他输入自行获取标签。而对比学习其实属于自监督学习的一种。自监督学习虽然不需要知道标签信息，就是知道是牛，但是还是需要知道那些是类似的那些是不同的，也就是人为指定的正负样本规则本身就是一种标签，其实本质上也是一种有监督学习。
最后这篇综述的贡献主要有三点：1.自监督学习的回顾。2.自监督学习的分类和方法。3.自监督学习方向。

Motivation of Self-supervised Learning

end-to-end的定义首先得理解什么是非端到端，传统机器学习模型，输入并不是原始数据，而直接输入特征，其实有时候数据的特征提取往往比模型算法还要重要。端到端的意思就是输入原始数据，直接输出最后结果。其实也就是说，端到端将分步解决的中间步骤连接整合在一起，成为一个黑盒子，我能看看到的只是输入的数据和输出的结果，就是从数据的端，到了结果的端。数据做了预处理，比如图像裁剪，句子分词仍然属于端到端。所以端到端的学习需要非常少的先验假设。

SSL主要分为三类：
Generative:自编码器的重构
Contrastive：latent representation的使用
Generative-Contrastive：GAN
区别：1）前两种的latent representation显式的且直接利用于下游任务，而GAN中的latent representation是隐式的。
2）后两种方法都有判别器，而第一种没有。
3）损失函数不同，分别使用MSE，InfoNCE，Wasserstein Distance。

Generative Self-supervised Learning

这种方法主要这么几种模型比较常用：Auto-regressive (AR) Model，Flow-based Model，Auto-encoding (AE) Model，Hybrid Generative Models，Pros and Cons。

Auto-regressive (AR) Model

第一种是自回归模型，自回归模型也叫贝叶斯网络结构，这种联合分布可以被分解为条件的乘积，其中每个变量的概率都取决于他先前的变量，所以自回归模型本质上是分解概率的过程。在自然语言处理中，自回归语言建模的目标通常是在正向自回归因子分解下最大化似然值。这种模型常见的代表有GPT、GPT-2这类使用Transformer解码器部分的结构。与GPT不同，GPT-2去掉了不同任务的微调过程。为了泛化不同的下游任务，GPT-2使用相同的输入可以有不同的输出。此外，自回归模型在CV领域拥有很多应用，比如PixelRNN或者PixelCNN等等，大致思路就是几种对图像逐像素建模的方法，就是右边的像素是通过左边的像素通过条件反射生成的。对于二维图像，自回归模型只能根据特定方向(如右和下)分解概率。为了处理长期的时间依赖性，作者开发了扩大的因果卷积来改善接受区域。此外，门控剩余块和跳跃连接被用来增强更好的表达能力。自回归模型也可以被用在图领域，比如图生成，提出GraphRNN，用深度自回归模型生成真实的图。GraphRNN可以看作是一个层次模型，图级RNN维护图的状态并生成新的节点，而边缘级RNN根据当前的图状态生成新的边。MRNN和CRNN都使用了强化学习的方法。MRNN主要采用基于rnn的网络进行状态表示，而GCPN采用基于gcn的编码器网络。自回归模型的优点是能够很好地对上下文依赖性建模。然而,一个AR模型的缺点是每一处的token Position只能从一个方向访问其上下文。

Flow-based Model

流模型的目标是从数据中估计复杂的高维密度p(x)。为了得到一个复杂的密度，我们希望将一系列描述不同数据特征的变换函数分别叠加，“一步一步”地生成。我们的目标是学习x和z之间的变换，这样x的密度就可以被描述出来。基于流的模型的优势在于映射x和z之间是可逆的。然而，它也需要x和z一定有相同的维数。fθ需要精心设计。因为它应该是可逆的，并且要计算出式中的雅可比行列式很容易。

函数f是连续可逆的也就是有反函数，z和x分别服从概率分布，所以他们的积分都是1，所以两个概率分布的绝对值是相等的，移项就可以得到上边的式子。x=f(z),所以反函数z=f(x)-1次方。这种方法是一种比较传统的机器学习方法。

Auto-encoding (AE) Model

自编码器再熟悉不过了，目的就是重构输入与输出之间的损失，由于其灵活性，AE模型可能是最流行的生成模型，有许多变体。

Basic AE Model

传统自编码器的目标是使模型的边际分布与数据分布之间的差异最小化。

Context Prediction Model（CPM）

在NLP中，自监督词嵌入的方法有CBOW和Sikp-Gram作为先驱工作，基于这些方法的启发。在此基础上，提出了许多网络嵌入模型
在相似的背景下预测目标

Denoising AE Model

去噪自编码器，一看名字就知道对噪声应该有很强的鲁棒性，比如掩码语言模型MLM是一个比较成功的语言模型，就是随机掩盖了一些token值，类似于完形填空。BERT就是利用掩码学习这样训练的。BERT之后，更多扩展的MLM也相继出现比如ERNIE。比较自回归模型而言，去噪自编码器预测token值可以访问双方的上下文信息，而非只有一方的信息。然而，如果给出了未隐藏的token，那么MLM假设预测的token是独立的(这在现实中并不存在)，这一事实长期以来一直被认为是其固有的缺陷。

Variational AE Model

变分自动编码模型假设数据是从潜在的(未观察到的)表示生成的，也叫VAE。VAE这篇论文也是比较经典了。

VAE

x是很高维度的随机变量，z的维度比x低很多，z倾向于一种根本质的描述。其实就是z和x之间的相互转化,也就是下面的双箭头就是VAE的主要内容。就是为了从x得到z，用了贝叶斯公式，因为维度太高有一项很难求，所以想用一个模型来近似概率分布。随后又介绍了VQ-VAE和VQ-VAE2。如今,VAE及其变体已广泛应用于计算机中视觉区域，如图像表示学习，图像生成视频生成等等。变分自编码模型也被用于图上的节点表示学习。

Hybrid Generative Models

混合生成模型顾名思义就是将上面提到的几种模型结合起来。

Pros and Cons

生成式自我监督学习成功的原因，在自我监督学习中最重要的是其恢复原始的能力，对下游任务没有假设的数据分布。总结而言有两个缺点：
首先，尽管生成式自我监督学习在生成任务中处于中心地位，但最近发现在某些分类场景中，生成式自我监督学习的竞争力远不如对比式自我监督学习，因为对比式学习的目标自然与分类目标一致。包括MoCo [52]， SimCLR [19]， BYOL[47]和SwAV[18]在内的作品在各种CV基准上都表现出了压倒性的性能。然而，在自然语言处理领域，研究者仍然依赖生成语言模型来进行文本分类。第二，生成目标的逐点性存在一些内在缺陷。

Contrastive Self-Supervised Learning

对比学习我可是再熟悉不过了

Context-Instance Contrast

上下文与实例的对比，也就是建立局部与全局之间的关联，大概有两种类型，PRP和MI。

Predict Relative Position

预测相对位置：许多数据在其各部分之间包含丰富的空间或序列关系。

maximize mutual information

最大化互信息：在应用中，MI因其复杂的计算而臭名昭著。一种常见的做法是最大化I的下端与NCE目标绑定。但是引入对比学习就很好了，Deep InfoMax为我们提供了一个新的范例促进自我监督学习的发展。的第一个有影响力的追随者是对比预测编码(CPC)[95]用于语音识别。

Instance-Instance Contrastive

尽管基于mi的对比学习取得了巨大的成功，一些研究对MI带来的实际改善提出了质疑。实例级表示，而不是上下文级表示，对于广泛的分类任务来说更为关键。例如，在一个分类为“狗”的图像中，虽然一定有狗的实例，但可能会出现一些其他不相关的上下文对象，如草。但对于图像分类来说，重要的是狗，而不是背景。另一个例子是句子情感分类，它主要依赖于少数但重要的关键词。

Cluster Discrimination

首先研究基于聚类的实例与实例之间的对比，也就是利用聚类产生伪标签，这种方法不行。

Instance Discrimination

其实就是moco，SimCLR, SwAV，BYOL，SimSiam这些，图结构有M3s这些。主要还是moco打破了一正一负，大大增加了负样本的数量。

Self-supervied Contrastive Pre-training for Semi-supervised Self-training

半监督自我训练的自我监督前对比训练：其实就是半监督加知识蒸馏的方法。
这里需要澄清半监督学习的概念，就是利用少量无监督数据和大量无监督数据。
Zoph等人研究了MoCo预训练和自我训练方法，其中首先对下游数据集(如COCO)进行训练，然后对未标记数据(如ImageNet)生成伪标签，最后，学生共同学习下游数据集上的真实标签和未标记数据上的伪标签。他们惊奇地发现，训练前的表现是有害的，而自我训练仍然受益于强大的数据增强。此外，更多的标签数据降低了前训练的价值，而半监督的自我训练总是提高。他们还发现训练前和自我训练的改进是相互正交的，即从不同的角度对绩效的贡献。预训练与自训练相结合的模型效果最好。SimCLR也验证了这个结论。自我监督对比前训练和半监督自我训练的成功结合，为未来数据高效的深度学习范式打开了我们的视野。预计还会有更多的工作来研究它们的潜在机制。

Pos and Cons

因为对比学习假设了下游的应用程序是分类，所以与生成模型相比，它在架构中只使用了编码器，而丢弃了解码器。因此，对比模型通常重量轻，在鉴别下游应用中表现更好。
但是也有缺点：1）对比学习在CV领域非常成功，但是在NLP领域不太行。很少有人提出在预训练阶段应用对比学习的算法，由于大多数语言理解任务是分类的，对比语言训练前方法应该比现有的生成语言模型更好。2）采样效率，采样方式千变万化，也很依赖于负样本，也不清楚负样本在对比学习中究竟是个什么角色。3）数据增强严重妨碍了离散数据，比如NLP领域和图领域。

Generative-Contrastive(Adversarial) Self-Supervised Learning

其实就是一个GAN：
dversarial loss is based on a paper [40]. The traditional GAN will train two models of generator and discriminator , and the objective function is the value function defined as
$ $\min _{G} \max _{D} V(D, G)=\mathbb{E}_{\boldsymbol{x} \sim p_{\text {data }}(\boldsymbol{x})}[\log D(\boldsymbol{x})]+\mathbb{E}_{\boldsymbol{z} \sim p_{\boldsymbol{z}}(\boldsymbol{z})}[\log (1-D(G(\boldsymbol{z})))]$ $ (11)
is a two-player minimax game with two expectations added. In the first term is sampled from the true distribution , so this term is 0 under the prior assumption that the discriminator is perfect. In the second term, is sampled from the noise distribution , and then fed to the generator, so this term is also 0 under the prior assumption that the discriminator is perfect. Without this prior hypothesis, the sum of the above two must be a negative number. In order to optimize the discriminator, should be close to 0, so should be maximized. But if the generator is perfect a priori assumption, the second term of will approach negative infinity, in order to train the generator, so to minimize.

Generate with Complete Input

就是GAN和GAN的变体，目的就是捕获完整信息。
在VQ-VAE2之前，GAN在图像生成任务上的表现优于纯生成模型，如自回归PixelCNN和自动编码器VAE。我们很自然地会想到这个框架如何有利于表征学习。于是说明了VAE与GAN之间的数学关系，这两种的核心思想是相反的。

Recover with Partial Input

正如我们上面提到的，GAN的架构不是为表征学习而生的，需要修改才能应用它的框架。而BiGAN和ALI选择直接提取隐式分布，其他一些方法如去噪自编码器DAE，掩码学习BERT又很像。比如超分辨率问题。

Pre-trained Language Model

Graph Learning

这两个方面用的不多，暂时就不看了。

Domain Adapation and Multi-modality Representaion

从本质上说，在对抗性学习中鉴别者是有用的
来匹配潜在表征之间的差异
分布和数据分布。这个函数自然
涉及领域适应和多模态表示问题，旨在对齐不同的表示
分布。[1]，[2]，[42][113]研究了GAN如何帮助
领域适应气候变化。[16]，[138]利用对抗抽样
提高阴性样品的质量。对于多模
表示法，[161]的图像到图像的转换，[114]的
文本样式转移，[27]的词到词的翻译和[112]
图像对文本的翻译显示出强大的对抗性
表示学习。

Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
[0948]基于JAVA的城市路网智慧管理系统的设计与实现阿鑫学长【毕设工场】 java python 人工智能毕业设计课程设计
毕业设计（论文）开题报告表姓名学院专业班级题目基于JAVA的城市路网智慧管理系统的设计与实现指导老师（一）选题的背景和意义开题报告背景与意义：随着我国城市化进程的加快，城市路网系统日益庞大复杂，交通管理面临的挑战愈发严峻。传统的路网管理模式由于信息更新不及时、数据处理效率低下、智能化程度不足等问题，已无法满足现代城市管理对高效、精准、智能交通管理的需求。因此，设计并实现一套基于Java的城市路网智
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
基于JAVA中的spring框架和jsp实现自然灾害论坛平台项目【附项目源码+论文说明】大雄是个程序员项目实践自然灾害论坛平台 java 项目源码 spring 毕业设计课程设计网页设计
摘要在上个世纪末期，也就是20世纪末，随着计算机技术的发展与进步和数据库方面的知识在互联网的大力运用，互联网技术以及网站技术在网上的大力推广，网上论坛（自然灾害论坛）也逐渐在网兴起，它的出现帮助了网上各种特定的群体进行一个在线的知识传递与信息的交流。本计算机自然灾害论坛设计，采用了JSP（JAVA）技术和MYSQL数据库开发，尝试实现了自然灾害论坛的基本功能以及帮助我们掌握了论坛技术的核心特点。该
穴位按摩培训系统Django-SpringBoot-php-Node.js-flask QQ188083800 django spring boot php
目录具体实现截图技术栈介绍系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示具体实现截图技术栈介绍本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。研究的选题立意明确，结构合理，研究内容充实，研究方法准确有
【读点论文】Chain Replication for Supporting High Throughput and Availability 寻雾&启示分布式系统论文阅读
在分布式系统中，强一致性往往和高可用、高吞吐是矛盾的。比如传统的关系型数据库，其保证了强一致性，但往往牺牲了可用性和吞吐量。而像NoSQL数据库，虽然其吞吐量、和扩展性很高，但往往只支持最终一致性，无法保证强一致性。由此ChainReplicationforSupportingHighThroughputandAvailability提出了链式复制协议，旨在保证高吞吐、高可用的同时，支持数据的强一
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
【论文阅读】实时全能分割模型万里守约论文阅读论文阅读图像分割图像处理计算机视觉
文章目录导言1、论文简介2、论文主要方法3、论文针对的问题4、论文创新点总结导言在最近的计算机视觉领域，针对实时多任务分割的需求日益增长，特别是在交互式分割、全景分割和视频实例分割等多种应用场景中。为了解决这些挑战，本文介绍了一种新方法——RMP-SAM（Real-TimeMulti-PurposeSegmentAnything），旨在实现实时的多功能分割。RMP-SAM结合了动态卷积与高效的模型
【软考论文】论软件系统架构评估罗小爬EX 软考（系统架构师）软考系统架构师论文
目录一、题目二、论文2.1摘要2.2正文三、扩展3.1基础知识3.2评估方式综合对比3.3SAAM基于场景的架构分析方法3.4ATAM架构权衡分析方法3.5质量属性一、题目对于软件系统，尤其是大规模的复杂软件系统来说，软件的系统架构对于确保最终系统的质量具有十分重要的意义，不恰当的系统架构将给项目带来高昂的代价和难以避免的灾难。对一个系统架构进行评估，是为了：分析现有架构存在的风险，检验设计中提出
论文阅读：2023 arxiv Multiscale Positive-Unlabeled Detection of AI-Generated Texts CSPhD-winston-杨帆论文阅读论文阅读人工智能
总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328MultiscalePositive-UnlabeledDetectionofAI-GeneratedTextshttps://arxiv.org/abs/2305.18149https://www.doubao.com/chat/211427064915225
论文阅读笔记——MAGICDRIVE: STREET VIEW GENERATION WITH DIVERSE 3D GEOMETRY CONTROL 寻丶幽风论文阅读笔记论文阅读笔记 3d 人工智能自动驾驶
MagicDrive论文MagicDrive通过对3D数据和文本数据的多模态条件融合和隐式视角转换，实现了高质量、多视角一致的3D场景生成。几何条件编码Cross-attention：针对顺序数据，适合处理文本标记和边界框等可变长度输入。Additiveencoderbranch：对于地图等网络状规则数据，能够有效保留空间结构。对于文本按照模版构建：“Adrivingsceneat{locatio
【笔记】扩散模型（五）：Classifier-Free Guidance 理论推导与代码实现 LittleNyima Diffusion Models 笔记机器学习深度学习
论文链接：Classifier-FreeDiffusionGuidance上一篇文章我们学习了ClassifierGuidance，这种方法通过引入一个额外的分类器，使用梯度引导的方式成功地实现了条件生成。虽然ClassifierGuidance可以直接复用训练好的diffusionmodels，不过这种方法的问题是很明显的，首先需要额外训练一个分类器，而且这个分类器不仅仅分类一般的图像，还需要分
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
【论文阅读】Availability Attacks Create Shortcuts 开心星人论文阅读论文阅读
还得重复读这一篇论文，有些地方理解不够透彻可用性攻击通过在训练数据中添加难以察觉的扰动，使数据无法被机器学习算法利用，从而防止数据被未经授权地使用。例如，一家私人公司未经用户同意就收集了超过30亿张人脸图像，用于构建商业人脸识别模型。为解决这些担忧，许多数据投毒攻击被提出，以防止数据被未经授权的深度模型学习。它们通过在训练数据中添加难以察觉的扰动，使模型无法从数据中学习太多信息，从而导致模型在未见
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
Transposed convolution（2016 IEEE）刘若里论文阅读人工智能计算机视觉学习网络笔记
论文标题FullyConvolutionalNetworksforSemanticSegmentation论文作者EvanShelhamer,JonathanLong,TrevorDarrell发表日期2016年05月01日GB引用>ShelhamerEvan,LongJonathan,DarrellTrevor.FullyConvolutionalNetworksforSemanticSegme
【论文复现】——基于SIFT特征点结合ICP的点云配准方法点云侠点云配准专题开发语言计算机视觉算法 3d c++
目录一、论文概述二、代码实现三、结果展示1、初始位置2、配准结果四、实验心得一、论文概述在点云配准过程中，针对迭代最近点(ICP)算法对点云初始位置依赖性强且迭代速度慢的问题，提出一种基于尺度不变特征变换(SIFT)特征点结合ICP的点云配准方法。首先利用SIFT算法提取待配准点云和目标点云的特征点;接着计算出特征点的快速点特征直方图(FPFH)特征;然后依据该特征使用采样一致性初始配准(SA
Description of a Poisson Imagery Super Resolution Algorithm 论文阅读青铜锁00 论文阅读 Radar 论文阅读
DescriptionofaPoissonImagerySuperResolutionAlgorithm1.研究目标与意义1.1研究目标1.2实际意义2.创新方法与模型2.1核心思路2.2关键公式与推导2.2.1贝叶斯框架与概率模型2.2.2MAP估计的优化目标2.2.3超分辨率参数α2.3对比传统方法的优势3.实验验证与结果3.1实验设计3.2关键结果4.未来研究方向（实波束雷达领域）4.1挑战
《基于自适应正负样本对比学习的特征提取框架》-核心公式提炼简洁版 2022年neural networks 阳光明媚大男孩学习深度学习人工智能论文笔记
论文源地址以下是从文档中提取的关于“基于对比学习的特征提取框架（CL-FEFA）”中正负样本对比学习实现的技术细节，包括详细的数学公式、特征提取过程以及特征表示方式的说明。1.正负样本的定义与构造在CL-FEFA框架中，正负样本的定义是动态且自适应的，基于特征提取的结果，而不是预先固定的。这种自适应性是CL-FEFA区别于传统对比学习（如SimCLR、SupCon）的一个关键点。定义方式：指示矩阵
【图像去噪】论文精读：CVPR 2025 | DnLUT: Ultra-Efficient Color Image Denoising via Channel-Aware Lookup Tables 十小大图像去噪深度学习计算机视觉人工智能图像处理论文阅读论文笔记
请先看【专栏介绍文章】：【图像去噪（ImageDenoising）】关于【图像去噪】专栏的相关说明，包含适配人群、专栏简介、专栏亮点、阅读方法、定价理由、品质承诺、关于更新、去噪概述、文章目录、资料汇总、问题汇总（更新中）文章目录前言Abstract1.Introduction2.Relatedworks2.1.ColorImagedenoising2.2.ReplacingCNNwithLUT3
QHDBO基于量子计算和多策略融合的蜣螂优化算法算法小狂人算法改进智能优化算法量子计算算法
2.DBO基本的蜣螂算法通过模拟蜣螂在自然界中的四种行为（滚动、产卵、觅食和偷窃）来执行种群位置更新。2.1滚动蜣螂在自然界中，蜣螂必须通过太阳导航，使其球滚动的路线尽可能直线。方程(1)用于原始论文中更新滚动蜣螂的位置：xi(t+1)=xi(t)+α⋅k⋅xi(t−1)+b⋅Δx(1)x_i(t+1)=x_i(t)+\alpha\cdotk\cdotx_i(t-1)+b\cdot\Deltax\
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
维普AIGC降重方法有哪些？ hjehheje AIGC
在学术写作和论文创作中，重复率过高是许多人面临的一大难题。随着科技的发展，维普AIGC为我们提供了一系列有效的降重方法。那么，维普AIGC降重方法有哪些呢？接下来就为大家详细介绍。语义理解与改写维普AIGC具备强大的语义理解能力。例如，当我们面对一段论述市场趋势的文字时，它能精准把握核心含义。假设原文是“当前智能手机市场呈现出快速增长的趋势，消费者对高性能手机的需求日益旺盛”，维普AIGC可能会将
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

【研一小白论文精读】Joint Generative and Contrastive Learning for Unsupervised Person Re-identification

Abstract

Introduction

The method

View Generator

1.视图的重构损失

2.特征的重构损失

3.GAN的对抗损失

最后相加就是这一阶段的总体优化目标

View Contrast

Introduction

The method

View Generator

1.视图的重构损失

2.特征的重构损失

3.GAN的对抗损失

最后相加就是这一阶段的总体优化目标

View Contrast

Abstract

Introduction

Motivation of Self-supervised Learning

Generative Self-supervised Learning

Auto-regressive (AR) Model

Flow-based Model

Auto-encoding (AE) Model

Basic AE Model

Context Prediction Model（CPM）

Denoising AE Model

Variational AE Model

VAE

Hybrid Generative Models

Pros and Cons

Contrastive Self-Supervised Learning

Context-Instance Contrast

Predict Relative Position

maximize mutual information

Instance-Instance Contrastive

Cluster Discrimination

Instance Discrimination

Self-supervied Contrastive Pre-training for Semi-supervised Self-training

Pos and Cons

Generative-Contrastive(Adversarial) Self-Supervised Learning

Generate with Complete Input

Recover with Partial Input

Pre-trained Language Model

Graph Learning

Domain Adapation and Multi-modality Representaion

你可能感兴趣的:(论文,深度学习)