象驮着的云

GAN论文2：DATA AUGMENTATION GENERATIVE ADVERSARIAL NET论文翻译和理解

【GAN论文2】：DATA AUGMENTATION GENERATIVE ADVERSARIAL NET

论文阅读

摘要
介绍
背景
模型

DATA AUGMENTATION GENERATIVE ADVERSARIAL NETWORK
学习
结构
数据集

DAGAN的训练与生成

在源域上DAGAN的训练
VANILLA分类器

使用匹配网络和数据增强网络 one-shot学习
结论

最近在研究数据增强用于扩充数据集训练，用以记录。
本人才疏学浅，以下翻译，如有错误，敬请指正。

论文阅读

摘要

神经网络的有效训练需要大量数据。在低维数据体系中，参数不确定，学习网络泛化性差。数据增强（Krizhevsky等，2012）通过更有效地使用现有数据来缓解这种情况。然而，标准数据增加仅产生有限的似乎真实的替代数据。鉴于有可能产生更广泛的增强，我们设计和训练生成模型来进行数据增强。
该模型基于图像条件生成对抗网络，从源域获取数据并学习获取任何数据项并将其生成为生成其他类内数据项。由于这个生成过程不依赖于类本身，它可以应用于新颖的看不见的数据类。
我们展示了数据增强生成对抗网络（DAGAN）很好地增强了标准的vanilla classifiers。我们还展示了DAGAN可以增强few-shot（迁移学习中的定义）学习系统，如匹配网络。我们在Omniglot上展示了这些方法，在EMNIST上学习了Omniglot上的DAGAN和VGG-Face数据。在我们的实验中，我们可以看到Omniglot的低数据体系实验（从69％到82％），EMNIST（73.9％到76％）和VGG-Face（4.5％到12％）的准确度提高了13％以上;在Omniglot的匹配网络中，我们观察到增长0.5％（从96.9％增加到97.4％）和EMNIST增长1.8％（从59.5％增加到61.3％）

介绍

在过去十年中，如果有足够的数据，深度神经网络已经在许多任务上产生了前所未有的性能。从图像分类，机器翻译（图片分类），自然语言处理，语音识别，以及综合，从人类游戏中学习，和强化学习等，他们跨越于不同的领域。在所有情况下，都使用了非常大的数据集，或者在强化学习的情况下，广泛使用。在许多现实的情境中，我们需要用有限的数据集来实现目标;在那些情况下，深度神经网络似乎不足，会过度拟合训练集并在测试集上产生较差的泛化。
多年来已经开发出多种技术来帮助防止过度拟合，如dropout，batch normalization，batch renormalisation或layer normalization。然而，在低维数据体系中，即使这些技术也不尽如人意，因为网络的灵活性如此之高。这些方法无法利用已知的输入不变性，这些输入不变性可能形成用于通知参数学习的良好先验知识。也可以通过将各种变换应用于原始数据集，从现有数据生成更多数据。这些变换包括随机平移，旋转和翻转以及高斯噪声的添加。这些方法利用我们知道不会影响类别的变换。这种技术似乎至关重要，不仅对于低数据情况，而且对于任何大小的数据集，实际上即使是在一些最大数据集上训练的模型也可以从这种实践中受益。
典型的数据增强技术使用数据受限的极易去调用的已知不变性。在本文中，我们认识到我们可以通过在不同的域（通常称为源域）中训练一种条件生成对抗网络（GAN）来学习更大的不变空间模型。然后，这可以应用于感兴趣的低数据域，即目标域。我们表明，即使在低维数据目标域中，这样的数据增强生成对抗网络（DAGAN）也能够进行有效的神经网络训练。由于DAGAN不依赖于类本身，它捕获跨类转换，将数据点移动到相同类的其他点。因此，它可以应用于新颖的未展示的类别。如图2所示。（对图2不是很理解）
我们还证明，学习好的DAGAN可以用于实现和有效地改进匹配网络的few-shot（在迁移学习中的概念，即很少的标注类别）目标域。它通过增加匹配网络和相关模型中的数据，从DAGAN生成的每个类的最相关的比较点来实现。这涉及切线距离的概念，但需要学习到的DAGAN定义的流形之间的距离为目标关键。见图1。
在本文中，我们训练DAGAN，然后使用（a）标准随机梯度神经网络训练和（b）特定的one-shot元学习方法评估其在低数据目标域上的表现。我们使用3个数据集，Omniglot数据集，EMNIST数据集和更复杂的VGG-Face数据集。从Omniglot训练的DAGAN用于生成Omniglot 未出现的目标域图片，而且即使在基本上不同的源和目标域之间变换时，对于EMNIST也证明有益。 VGG-Face数据集提供了更具挑战性的测试。我们提供了高质量的生成样本，并通过vanilla网络和匹配网络显示了分类任务的实质性改进。
这篇论文主要贡献如下：
1、使用新颖的生成对抗网络来学习数据增强的表示和过程。
2、展示来自单个新的数据点的真实数据增强样本。
3、DAGAN在数据量少的情况下的使用增强了标准分类器，表明所有任务的泛化性能都有显著提高。
4、DAGAN在元学习空间中的应用，表现出比以往所有通用的元学习(meta-learning )模型更好的表现。结果显示，Omniglot案例的性能超过现有技术的0.5％，EMNIST案例的性能超过了1.8％。
5.通过学习一个网络去生成测试案例中没有的突出的增强样例，有效的增强one-shot匹配网路。
据我们所知，这是第一篇通过生成新的数据增强策略展示在元学习方面最先进的论文。

背景

迁移学习和转换数据：one shot学习问题是数据集转换的一个特例，由图2中的图形模型总结。这个术语data shift概括了协变量移位的概念对多个域之间的变化情况。对于one shot学习，类分布有一个极端的变化 - 两个分布没有共同支持：旧的类具有零可能性而新的类从零移动到非零概率。然而，假设类条件分布具有一些共性，因此信息可以从源域转换到one-shot目标域（即生成新的数据）。
生成对抗式网络：特别的DCGAN具有区分真实和生成客观例子的能力，GAN可以学习复杂的联合密度。最近的对优化过程的改善能减少GAN学习过程中的模式崩溃。
数据增强通常用于分类问题。在模型中编码数据已知的不变性通常是非常重要的。通过从现有数据项转换生成其他数据项，可以更容易地对数据中的这些不变性进行编码。例如，手写字符的标签应该对位置，小旋转或剪切的小变化，强度的变化，笔画厚度的变化，大小的变化等不变。几乎所有数据增加的情况都来自先验已知的不变性。在本文之前，我们知道一些尝试学习数据增强策略的工作。一篇值得注意的论文是（Hauberg等，2016）的作品，其中作者在基础类上学习增强策略。这种方法不适合应用在需要新的类的数据集很少的情形下。
few-shot学习和meta-learning：从（Salakhutdinov等人，2012）开始，他们使用分层玻尔兹曼机，到现代深度学习架构使用分层变分自动编码器和最近基于one-shot生成模型的GAN方法，学习新的数据。一种早期但有效的one-shot学习方法涉及使用 Siamese networks。其他人使用非参数贝叶斯方法和条件变分自动编码器。通过几个示例，最近邻分类器或核分类器是显而易见的选择。因此，meta-learning 距离度量或加权核具有明显的潜力。跳过残留的成对网络也被证明特别有效。各种形式的记忆增强网络也被用于以增量方式整理关键稀疏信息。这些方法都没有将增强模型视为meta-learning的基础。

模型

如果我们知道在一定转换下类别不变，那么我们可以应用该转换来生成其他数据。如果我们不知道哪些转换可能有效，但我们有相关问题的其他数据，我们可以尝试从我们可以应用于我们的设置的那些相关问题中学习有效的转换（图1）。这是meta-learning 的一个例子;我们学习如何提高目标问题的方法。这是本文的主题。
生成性对抗方法是一种学习从密度匹配训练数据集密度D生成实例的方法。他们通过最小化生成的数据和真实数据之间的分布差异来学习。通过GAN学到的生成模型是下面的形式：

f是神经网络的函数，v是生成的数据，z是隐含的使生成变化的高斯变量。生成对抗网络可以被认为映射数据流型学习变换，z=0在数据域上给出一个点，在每个不同方向改变z映射出数据域。

DATA AUGMENTATION GENERATIVE ADVERSARIAL NETWORK

生成对抗网络也可以被用来映射数据数据增强域。给一个数据点x，我们可以学习输入的表达形式r=g(x)，也就是生成模型。联合模型可以采用以下形式：

神经网络f将输入数据的表示r和随机z作为输入，现在得到新的x我们可以：
获得数据点r * = g（x *）的生成有意义的表示，其封装了生成其他相关数据所需的信息。
•生成额外的增强数据补充原始的x *，可以在分类器中使用。这可以通过从标准高斯分布中采样z然后使用生成网络来生成增强数据。
我们在本文中使用的数据增强模型的精确形式在图3中给出。该模型的结构概述在图下详细说明。

上图：DAGAN结构。左：生成器网络由一个采用输入图像（来自c类）的编码器组成，将其向下投射到低维空间。随机向量（zi）被转换并与该向量连接;这些都被传递到解码器网络，生成增强图像。右：训练对抗性鉴别器网络以区分来自真实分布的样本（来自同一类的其他真实图像）和假分布（来自生成器网络的生成图像）。对抗训练引导网络从旧的属于同一类图像生成新图像，但看起来不同，可能是不同的样本。

学习

可以使用对抗方法在源域中学习数据增强模型。考虑由数据D 组成的源域和对应的目标值。我们使用改进的WGAN作为损失函数，其采用（a）一些输入数据点xi和来自同一类的第二数据点：xj使得ti = tj。（b）一些输入数据点xi和以xi为输入的生成器的输出。
最小化损失函数试图将生成的点（b）与真实点（a）区分开来。生成器被训练去最小化代表辨别能力的Wasserstein距离值。
应强调向鉴别器提供原始数据的重要性。我们希望确保生成器能够生成与当前数据点相关但不同的不同数据。通过向鉴别器提供关于当前数据点的信息，我们防止GAN简单地对当前数据点进行自动编码。同时我们不提供类别信息，因此必须学会以所有类别一致的方式进行概括。

结构

在主要实验中，我们使用了DAGAN生成器，它是UNet和ResNet的组合，我们称之为UResNet。 UResNet发生器总共有8个block，每个block具有4个卷积层，然后跟着一个下采样和上采样层。下采样层是具有步幅2的卷积，然后是leaky relu，batch normalisation和dropout。上采样是步幅1/2复制器，然后是卷积，leaky relu，batch normalisation和dropout。对于Omniglot和EMNIST实验，所有层都有64个滤波器。对于VGG-Faces，编码器的前2个block和解码器的最后2个block具有64个滤波器，并且编码器的最后2个块和解码器前2个块具有128个滤波器。
此外，UResNet生成器的每个块都有 skip connections。与标准ResNet一样，跨步的1x1卷积也在block之间传递信息，绕过块之间的非线性以帮助梯度流。最后，在网络每端的等效大小的过滤器之间引入skip connections（与UNet一样）。附录A给出了体系结构图和伪代码定义。
我们使用了DenseNet判别器，使用layer normalization而不是批量归一化;后者将打破WGAN目标函数的假设。 DenseNet由4个Dense Blocks和4个Transition Layers组成，正如（Huang et al。，2016）中所定义的那样。我们使用k = 64的增长率，每个Dense Block内有4个卷积层。对于鉴别器，我们还在每个Dense Block的最后一个卷积层使用了dropout，因为我们发现这可以提高样本质量。
我们使用学习率0.0001训练DAGAN 500个epochs，并且使用Adam参数β1= 0和β2= 0.9的Adam优化器训练。
对于每个分类实验，我们使用由4个Dense Block和4个Transition Layers组成的DenseNet分类器，其中k = 64，每个Dense Block在其中具有3个卷积层。分类器总共17层（即16层和1 个softmax层）。此外，我们在每个Dense Block的最后一个卷积层上应用了0.5的dropout。使用标准数据增强方式训练分类器：将随机高斯噪声添加到图像中（概率为50％），沿x和y轴随机移位（概率为50％），随机90度旋转（所有选择概率相等）。训练200个时期的分类器，学习率为0.001，以及β1= 0.9和β2= 0.99的Adam优化器。

数据集

我们在3个数据集上测试了DAGAN增强：Omniglot，EMNIST和VGG-Faces。所有数据集随机分为源域集，验证域集和测试域集。
对于分类器网络，每个字符（手写或人）的所有数据进一步分为2个测试用例（对于所有数据集），3个验证案例和根据实验的不同数量的训练案例。针对所有域中的所有示例的训练案例进行了分类器训练，在验证案例上进行了超参数选择。最后，仅针对目标域集的测试用例报告了测试性能。数据集拆分在每次测试中随机化。
对于one-shot网络，DAGAN训练在源域上完成，meta learning在源域上完成，并在验证域上进行验证。结果显示在目标域数据上。同样在目标域中，提供了不同数量的训练案例，并且在测试集中呈现了结果。
Omniglot数据被分为源域和目标域。对类的顺序进行混洗，使得源域和目标域包含不同的样本。前1200用作源域集，1201-1412用作验证域集，1412-1623用作目标域测试集。
EMNIST数据被分成包括类0-34的源域，验证域集包括类35-42并且测试域集包括类42-47。由于EMNIST数据集每个类有数千个样本，因此我们为每个类只选择了100个样本，这样我们就可以将任务设置为少数据。
在VGG-Face数据集案例中，我们从每个其中包含100个未损坏的图像的类中随机选择了100个样本，从而导致数据集中可用的全部2622个类中的2396个。在清洗之后，我们将结果数据集拆分为包含前1802个类的源域。测试域集包括类1803-2300，验证域集包括类2300-2396。

DAGAN的训练与生成

在源域上DAGAN的训练

DAGAN使用各种架构在 Omniglot源域上进行了训练：标准VGG，U-net和ResNet结构。越来越强大的网络证明了更好的生成器，更好的生成器是第4节描述的UResNet的生成器是我们的首选模型。图4显示了使用更强大的体系结构实现的生成样本的多样性。 DAGAN还在VGG-Faces源域上进行了训练。生成脸的示例在图5中给出。

VANILLA分类器

第一个测试是DAGAN如何能够增强在每个目标域上训练的vanilla分类器。DenseNet分类器首先仅针对实际数据（带有标准数据增强）进行训练，每个类别有5,10或15个例子。在第二种情况下，分类器也传入了DAGAN生成的增强数据。真实或伪造的标签也被传递到网络，以使网络能够学习如何最好地强调真实生成的数据。事实证明，最后一步对于最大化DAGAN增强的潜力至关重要。在每个训练周期中，为每个实例提供不同数量的增强样本（范围从1-10）;通过验证域上的性能选择最佳annotation rate。表1中给出了来自目标域的保持测试用例的结果。在每种情况下，数据增强都改进了分类性能。

使用匹配网络和数据增强网络 one-shot学习

待补

结论

数据增强是一种广泛适用的方法，用于提高数据量少情况下的性能，DAGAN是一种灵活的模型，可自动学习增强数据。除此之外，我们证明DAGANS即使在标准数据增强之后也能提高分类器的性能。
此外，在迁移学习标注数据很少的情况下通过meta-learning是最佳选择，它导致比其他最先进的学习方法有更好的性能。所有模型和方法的数据增强的一般性意味着DAGAN可以是任何数据不足的情况下的有价值的补充。

图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
医疗影像联邦学习可解释性算法研究智能计算研究中心其他
内容概要医疗影像分析领域的联邦学习技术正面临数据隐私保护与模型可解释性的双重挑战。本研究以跨机构医疗影像协作场景为核心，系统性探讨联邦学习框架下可解释性算法的创新路径，重点解决医疗AI模型在分布式训练中的透明度缺失问题。通过引入动态特征选择机制与可解释性注意力模块，算法在保持数据本地化处理的同时，实现了关键病灶特征的跨域关联与可视化解析。研究同步整合自动化数据增强流程与多维度评估指标（如F1值、召
大语言模型的训练数据清洗策略 gs80140 AI python
目录大语言模型的训练数据清洗策略1.数据去重与标准化问题解决方案示例代码（Python实现数据去重）：2.过滤有害内容问题解决方案示例代码（基于关键词过滤有害内容）：3.纠正数据不均衡问题解决方案示例代码（欠采样非均衡数据）：4.识别和纠正刻板印象问题解决方案示例代码（简单的数据增强）：5.处理低质量与无关数据问题解决方案示例代码（去除HTML标签）：6.处理时效性数据问题解决方案示例代码（基于时
yolov4 zzh- 笔记
V4贡献：亲民政策，单GPU就能训练的非常好，接下来很多小模块都是这个出发点两大核心方法，从数据层面和网络设计层面来进行改善消融实验，感觉能做的都让他给做了，这工作量不轻全部实验都是单GPU完成，不用太担心设备了Bagoffreebies(BOF)只增加训练成本，但是能显著提高精度，并不影响推理速度数据增强：调整亮度、对比度、色调、随机缩放、剪切、翻转、旋转网络正则化的方法：Dropout、Dro
论文阅读：Deep Stacked Hierarchical Multi-patch Network for Image Deblurring 行走的歌文献阅读图像处理计算机视觉机器学习深度学习图像去雨图像处理
这是一篇去模糊的文章，后来发现直接套用不合适，无法获取到相应的特征，遂作罢，简单记录一下。2019CVPR：DMPHN这篇文章是2019CVPR的一篇去模糊方向的文章，师兄分享的时候看了一下，后来也发现这个网络结构在很多workshop以及文章中都见过。文章：ArXiv代码：Github在去模糊领域，目前的多尺度和尺度循环模型存在一些问题：1)由粗到细方案中的去卷积/上采样操作导致运行时间昂贵;2
少样本数值型数据集 | 数据增强蒜蓉趣多多机器学习人工智能材料工程
对于小样本数字型数据集，数据增强的有效方法主要集中在创造新的样本、调整现有样本的特征、或者通过生成模型来模拟真实分布。下面是个人搜集到的方法及部分代码。希望对大家的科研/工作有所帮助！1.噪声注入(NoiseInjection)方法：在原始数据上添加少量的随机噪声，生成新的样本。噪声可以是高斯噪声、均匀分布噪声或其他分布的噪声。实现：对于每个特征，可以加上一个服从小均值和小方差的正态分布噪声，如X
Python第二十三课：自监督学习 | 无标注数据的觉醒程之编 Python全栈通关秘籍 python 开发语言人工智能机器学习
本节目标理解自监督学习的核心范式与优势掌握对比学习（ContrastiveLearning）框架实现图像掩码自编码器（MaskedAutoencoder）开发实战项目：亿级参数模型轻量化探索数据增强的创造性艺术一、自监督学习基础（AI的拼图游戏）1.核心思想解析学习范式数据需求生活比喻监督学习海量标注数据老师逐题批改作业无监督学习纯无标签数据自学杂乱笔记自监督学习自动生成伪标签玩拼图游戏（根据碎片
数据增强正在杀死你的模型：90%开发者不知道的回译质量陷阱人工智能
1回译增强的核心机理1.1跨语言语义重构原理目前文本数据增强方面效果较好的增强方法。回译数据增强（Back-translationAugmentation）是基于神经机器翻译的文本再生技术，其核心运作流程包含三个关键阶段：语义编码阶段：源语言文本通过NMT模型编码为中间语义表示跨语言迁移阶段：语义表示解码为目标语言文本（建议选择阿尔巴尼亚语、斯瓦希里语等低资源语种）语义重构阶段：目标语言文本二次编
【论文阅读方法】沐神课程：如何读论文晴空对晚照论文阅读论文阅读
一篇论文的一般结构titleabstractintroductionmethodexperienceconclusion三明治论文阅读法第一遍：海选title+abstract+conclusion——确定要不要读第二遍：精读对整个文章过一遍，知道每一块在做什么可以从标题开始读到最后，注意不用咬文嚼字，不要太细节，公式、证明等很细节的部分可以忽略掉重点弄清楚每一个图表，算法在做什么，x轴y轴每一个
论文阅读笔记——QLORA: Efficient Finetuning of Quantized LLMs 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习语言模型
QLoRA论文4-bit标准浮点数量化常见的量化技术是最大绝对值量化：XInt8=round(127absmax(XFP32)XFP32)=round(cFP32,XFP32)式(1)X^{Int8}=round(\frac{127}{absmax(X^{FP32})}X^{FP32})=round(c^{FP32},X^{FP32})\qquad\qquad\text{式(1)}XInt8=ro
增量预训练和微调的区别做个天秤座的程序猿大模型原理 webkit
文章目录前言一、增量预训练和微调的区别二、代码示例1.增量预训练示例2.微调示例3.代码的区别三、数据格式1.增量预训练2.微调3.示例4.小结四、数据量要求1.指导原则2.示例3.实际操作中的考虑4.小结前言增量预训练是一种在现有预训练模型的基础上，通过引入新的数据或任务来进一步训练模型的方法。这种方法的主要目的是在不从头开始训练模型的情况下，利用新数据或特定领域的数据增强模型的能力和性能。增量
医学文本分析中的命名实体识别：从理论到实践软件职业规划语言模型 unity 人工智能
1.数据预处理数据预处理是医学命名实体识别系统的基础步骤，其质量直接影响模型的训练效果和最终性能。数据预处理主要包括医学文本的标注、清洗以及数据增强三个方面。1.1医学文本的标注标注是数据预处理中的关键环节，其目的是将医学文本中的实体明确标记出来，以便模型能够学习到实体的特征和边界。标注的方式通常采用BIO标注法。1.1.1BIO标注法BIO标注法是一种广泛应用于命名实体识别任务的标注方式，它通过
生成对抗网络优化医疗影像分析方法智能计算研究中心其他
内容概要生成对抗网络（GAN）在医疗影像分析中的应用正经历从理论验证到临床落地的关键转型。本研究通过整合联邦学习算法与动态数据增强技术，构建了跨机构医疗影像协同分析框架，在保证患者隐私的前提下实现了数据资源的有效扩展。值得注意的是，算法优化过程中采用的三阶段特征工程策略——包括基于注意力机制的特征选择、多尺度特征融合以及可解释性特征映射——使模型决策透明度提升约37.6%。临床实践表明，将联邦学习
验证码识别：使用OCR技术识别图形验证码详解数据知道 2025年爬虫和逆向教程 ocr python 爬虫 OCR识别验证码识别图片验证码
文章目录一、基本原理二、所需工具2.1Python环境2.2图像处理库2.3OCR引擎2.4Python接口三、实现步骤3.1获取验证码图像3.2图像预处理3.3使用OCR进行字符识别3.4基本OCR识别样例四、提高识别准确率的方法4.1字符分割4.2使用深度学习模型4.3数据增强4.4集成多个OCR引擎五、实际应用中的注意事项六、总结验证码（CAPTCHA）是一种用于区分人类用户和自动化程序的安
从零开始：基于LLM大模型构建智能应用程序的完整指南 AI天才研究院 ChatGPT 人工智能
目录从零开始：基于LLM大模型构建智能应用程序的完整指南什么是LLM大模型如何利用LLM大模型构建智能应用程序1.收集和准备数据2.构建LLM大模型3.集成和部署4.监测和维护使用特定于私有领域的数据增强LLM检索增强生成(RAG)数据预处理、分块和检索技术零射击与少量射击提示和指导LLM大模型使用LLM进行推荐和聚类任务改善组织内的搜索体验考虑以上所有解锁的利基应用程序参考最近，围绕大型语言模型
Chebykan wx 文章阅读やっはろ深度学习
文献筛选[1]神经网络：全面基础[2]通过sigmoid函数的超层叠近似[3]多层前馈网络是通用近似器[5]注意力是你所需要的[6]深度残差学习用于图像识别[7]视觉化神经网络的损失景观[8]牙齿模具点云补全通过数据增强和混合RL-GAN[9]强化学习：一项调查[10]使用PySR和SymbolicRegression.jl的科学可解释机器学习[11]Z.Liu,Y.Wang,S.Vaidya,F
论文阅读：Personalized Purchase Prediction of Market with Wasserstein-Based Sequence Matching Narcissus`小暮一步步来学大数据推荐系统
PersonalizedPurchasePredictionofMarketwithWasserstein-BasedSequenceMatching概述问题背景及陈述预测算法步骤一：itemembeddings步骤二：计算wassersteinDistance步骤三：Wasserstein-BasedDynamicTimeWarping预测实验评价标准数据集对比的baseline结论市场篮子的应
论文阅读笔记：Graph Matching Networks for Learning the Similarity of Graph Structured Objects 游离态GLZ不可能是金融技术宅知识图谱机器学习深度学习人工智能
论文做的是用于图匹配的神经网络研究，作者做出了两点贡献:证明GNN可以经过训练，产生嵌入graph-leve的向量可以用于相似性计算。作者提出了一种新的基于注意力的跨图匹配机制GMN(cross-graphattention-basedmatchingmechanism)，来计算出一对图之间的相似度评分。（核心创新点）论文证明了该模型在不同领域的有效性，包括具有挑战性的基于控制流图(control
论文阅读 EEG-TCNet Plan-C- 论文阅读
EEG-TCNet:AnAccurateTemporalConvolutionalNetworkforEmbeddedMotor-ImageryBrain–MachineInterfaces1.Intrduction本文提出了一种新颖的时间卷积网络（TCN），在需要很少的可训练参数的情况下实现了出色的精度。EG-TCNET成功地推广了单个数据集，通过0.25的元效应优于MOABB的当前最新技术水平
论文阅读《Semantic Stereo Matching with Pyramid Cost Volumes》 cunese0088 深度学习
SSPCV-Net（语义立体匹配网络）目的：进一步捕捉视差的细节主要模块：数据集：SceneFlow,KITTI2012,KITTI2015,Cityscape(比较泛化能力)-------------------------------------------------------------------------------------------------------Concatevo
论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control 寻丶幽风论文阅读笔记论文阅读笔记人工智能机器人语言模型
π0论文π0π_0π0是基于预训练的VLM模型增加了actionexpert，并结合了flowmatching方法训练的自回归模型，能够直接输出模型的actionchunk（50）。π0采用FlowMatching技术来建模连续动作的分布，这一创新使模型能够精确控制高频率的灵巧操作任务，同时具备处理多模态数据的能力。架构受到Transfusion的启发：通过单一Transformer处理多目标任务
【论文阅读】Learning Transferable Visual Models From Natural Language Supervision（2021） Bosenya12 论文阅读
摘要State-of-the-art（最先进的）computervisionsystems（计算机视觉系统）aretrainedtopredictafixedsetofpredeterminedobjectcategories（被训练来预测一组固定的预定对象类别）.Thisrestrictedformofsupervision（受限制的监督形式）limitstheirgenerality（通用性）
InternVL：论文阅读 -- 多模态大模型(视觉语言模型) XiaoJ1234567 LLM 论文阅读语言模型人工智能多模态大模型 internVL
更多内容：XiaoJ的知识星球文章目录InternVL:扩展视觉基础模型与通用视觉语言任务对齐1.概述2.InternVL整体架构1）大型视觉编码器：InternViT-6B2）语言中间件：QLLaMA。3）训练策略（1）第一阶段：视觉-语言对比训练（2）第二阶段：视觉语言生成训练（3）第三阶段：监督微调（SFT）3.InternVL应用1）对于视觉感知任务2）对于对比任务3）对于生成任务4）对于
论文阅读-秦汉时期北方边疆组织的空间互动模式与直道的定位（中国） MilkLeong 论文阅读空间计算
论文英文题目：AspatialinteractionmodelofQin-HanDynastyorganisationonthenorthernfrontierandthelocationoftheZhidaohighway(China)发表于：journalofarchaeologicalscience，影响因子：3.030论文主要是使用空间互动模型来对秦汉时期的北方边疆直道进行定位和重建。分析
PointNet++改进策略：模块改进 | x-Conv | PointCNN，结合局部结构与全局排列提升模型性能我是瓦力 PointNet++改进策略人工智能深度学习计算机视觉
目录前言PointCNN实现细节1.XXX-Conv操作输入输出步骤2.PointCNN网络架构层级卷积分类与分割任务3.数据增强4.效率优化前言这篇论文介绍了一种名为PointCNN的方法，旨在从点云（pointcloud）数据中学习特征。传统卷积神经网络（CNN）在处理规则网格数据（如图像）时非常有效，但由于点云是无序且不规则的，直接在其上应用卷积操作会导致形状信息丢失，并对点的排列顺序敏感。
深度学习PyTorch之数据加载DataLoader @Mr_LiuYang 计算机视觉基础深度学习 pytorch 人工智能
深度学习pytorch之简单方法自定义9类卷积即插即用文章目录数据加载基础架构1、Dataset类详解2、DataLoader核心参数解析3、数据增强数据加载基础架构核心类关系图torch.utils.data├──Dataset(抽象基类)├──DataLoader(数据加载器)├──Sampler(采样策略)├──BatchSampler(批量采样)└──IterableDataset(流式数
一学就会的深度学习基础指令及操作步骤（6）迁移学习小圆圆666 深度学习迁移学习人工智能卷积神经网络
文章目录迁移学习模型准备数据增强模型训练模型微调和预测检查预测结果迁移学习迁移学习是将一个任务中学到的知识应用到另一个相关任务上，以提高新任务的学习效率和性能。优势：节省训练时间，提高模型性能，尤其在小数据场景下效果显著。核心是利用源域的知识来帮助目标域任务，比如在ImageNet上预训练的模型用于医疗影像分类。源域（SourceDomain）：已有知识的领域（如ImageNet图像库）。目标域（
深度学习 PyTorch 中 18 种数据增强策略与实现 @Mr_LiuYang 计算机视觉基础数据增强深度学习 torchvision transforms
深度学习pytorch之简单方法自定义9类卷积即插即用数据增强通过对训练数据进行多种变换，增加数据的多样性，它帮助我们提高模型的鲁棒性，并减少过拟合的风险。PyTorch提供torchvision.transforms模块丰富的数据增强操作，我们可以通过组合多种策略来实现复杂的增强效果。本文将介绍18种常用的图像数据增强策略，并展示如何使用PyTorch中的torchvision.transfor
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默