fan1102958151

W系列GAN（小白学GAN系列四）

PS：学习完WGAN之后，发现其实原WGAN中还存在一些不完善的地方，而也有很多后来人在填坑，本篇选取其中主要的两篇进行研究。阅读本篇之前，请先阅读Wasserstein GAN（小白学GAN系列三）

原文链接：WGAN-GP(https://arxiv.org/abs/1704.00028)

WGAN-DIV(https://arxiv.org/abs/1712.01026)

简介

WGAN中提出了“W距离”：

这里的Pr(x) 是真实样本的分布，Pg(y)是伪造分布，‖x−y‖是传输成本；而γ∈Π(Pr(x),Pg(y)) 的意思是说：γ 是任意关于下x，y 的二元分布，其边缘分布则为Pr(x) 和Pg(y) 。直观来看，γ 描述了一个运输方案，而‖x−y‖ 则是运输成本，Wc(Pr(x),Pg(y)) 就是说要找到成本最低的那个运输方案所对应的成本作为分布度量。

但是由于联合分布γ难以求解，所以将其转化成对偶问题：

其中f(x)是标量函数， $||f||_{L}$ 是Lipschitz范数：

$||f||_{L} = \max_{x\neq y}\frac{f(x)-f(y)}{||x-y||}$

即要满足 $|f(x)-f(y)| \leq {||x-y||}$

则WGAN的训练过程可以表达为 $\arg \min_{G} \max_{D,||D||_{L}\leq 1} \mathbb{E}_{x\sim P_{r}(x)}[D(x)]-\mathbb{E}_{z\sim P_{g}(z)}[D(G(z))]$

核心问题：如何保证 $||D||_{L}\leq 1$ 呢？

解决思路：

权重裁剪，即原WGAN中的方法，在优化判别器时每一步梯度下降后，将判别器的参数的绝对值裁剪到不超过某个固定常数。但是这种方式是很粗鲁的，直接限制了判别器优化步长，不仅训练慢且容易陷入局部最优出不来。
加惩罚项，通过构造一个合理的惩罚项，来使得在任何时候 $||D||_{L}\leq 1$ 条件都成立。
谱归一化，其本质也是抑制梯度下降更新的幅度，只不过他是在构造LOSS计算时加入，保证算出来的LOSS得到限制。

Improved Training of Wasserstein GANs

核心思路：既然要时刻都满足L约束的话，那么就干脆把L约束构造成惩罚项放到LOSS中。

即便引入了惩罚项L约束是在联合分布上的，即上式中 $\mathbb{P}_{\hat{x}}$ 是难以求解的，所以文中提出了一种取巧的方式来解决这个问题，即将真实样本与随机样本混合后在随机抽样来模拟在联合分布的样本中抽样的过程。其中的 $\lambda$ =10，是一个经验得出的系数。

Wasserstein Divergence for GANs

核心思路：提出“W散度”来代替“W距离”，那么相应的限制条件也发生了改变，加到LOSS中的惩罚项就不同。

“W散度”去除了L约束，但却保留了“W距离”可以描述Pr和Pg分布相似性的性质，具体证明可以到原论文中研读。那么直接看使用了“W散度”后，网络的训练流程如下：

简单来看当k=1，p=2它与WGAN-GP就只差一个常数项了，而上式中作者通过实验指出当K=2,P=6时，效果最好。

代码与实践

参考链接（https://github.com/WingsofFAN/PyTorch-GAN）

import argparse
import os
import numpy as np
import math
import sys

import torchvision.transforms as transforms
from torchvision.utils import save_image

from torch.utils.data import DataLoader
from torchvision import datasets
from torch.autograd import Variable

import torch.nn as nn
import torch.nn.functional as F
import torch.autograd as autograd
import torch

os.makedirs("images", exist_ok=True)

parser = argparse.ArgumentParser()
parser.add_argument("--n_epochs", type=int, default=200, help="number of epochs of training")
parser.add_argument("--batch_size", type=int, default=64, help="size of the batches")
parser.add_argument("--lr", type=float, default=0.0002, help="adam: learning rate")
parser.add_argument("--b1", type=float, default=0.5, help="adam: decay of first order momentum of gradient")
parser.add_argument("--b2", type=float, default=0.999, help="adam: decay of first order momentum of gradient")
parser.add_argument("--n_cpu", type=int, default=8, help="number of cpu threads to use during batch generation")
parser.add_argument("--latent_dim", type=int, default=100, help="dimensionality of the latent space")
parser.add_argument("--img_size", type=int, default=28, help="size of each image dimension")
parser.add_argument("--channels", type=int, default=1, help="number of image channels")
parser.add_argument("--n_critic", type=int, default=5, help="number of training steps for discriminator per iter")
parser.add_argument("--clip_value", type=float, default=0.01, help="lower and upper clip value for disc. weights")
parser.add_argument("--sample_interval", type=int, default=400, help="interval betwen image samples")
opt = parser.parse_args()
print(opt)

img_shape = (opt.channels, opt.img_size, opt.img_size)

cuda = True if torch.cuda.is_available() else False


class Generator(nn.Module):
    def __init__(self):
        super(Generator, self).__init__()

        def block(in_feat, out_feat, normalize=True):
            layers = [nn.Linear(in_feat, out_feat)]
            if normalize:
                layers.append(nn.BatchNorm1d(out_feat, 0.8))
            layers.append(nn.LeakyReLU(0.2, inplace=True))
            return layers

        self.model = nn.Sequential(
            *block(opt.latent_dim, 128, normalize=False),
            *block(128, 256),
            *block(256, 512),
            *block(512, 1024),
            nn.Linear(1024, int(np.prod(img_shape))),
            nn.Tanh()
        )

    def forward(self, z):
        img = self.model(z)
        img = img.view(img.shape[0], *img_shape)
        return img


class Discriminator(nn.Module):
    def __init__(self):
        super(Discriminator, self).__init__()

        self.model = nn.Sequential(
            nn.Linear(int(np.prod(img_shape)), 512),
            nn.LeakyReLU(0.2, inplace=True),
            nn.Linear(512, 256),
            nn.LeakyReLU(0.2, inplace=True),
            nn.Linear(256, 1),
        )

    def forward(self, img):
        img_flat = img.view(img.shape[0], -1)
        validity = self.model(img_flat)
        return validity


# Loss weight for gradient penalty
lambda_gp = 10

# Initialize generator and discriminator
generator = Generator()
discriminator = Discriminator()

if cuda:
    generator.cuda()
    discriminator.cuda()

# Configure data loader
os.makedirs("../../data/mnist", exist_ok=True)
dataloader = torch.utils.data.DataLoader(
    datasets.MNIST(
        "../../data/mnist",
        train=True,
        download=True,
        transform=transforms.Compose(
            [transforms.Resize(opt.img_size), transforms.ToTensor(), transforms.Normalize([0.5], [0.5])]
        ),
    ),
    batch_size=opt.batch_size,
    shuffle=True,
)

# Optimizers
optimizer_G = torch.optim.Adam(generator.parameters(), lr=opt.lr, betas=(opt.b1, opt.b2))
optimizer_D = torch.optim.Adam(discriminator.parameters(), lr=opt.lr, betas=(opt.b1, opt.b2))

Tensor = torch.cuda.FloatTensor if cuda else torch.FloatTensor


def compute_gradient_penalty_div(real_imgs,real_validity,fake_imgs,fake_validity):
    real_grad_out = Variable(Tensor(real_imgs.size(0), 1).fill_(1.0), requires_grad=False)
    real_grad = autograd.grad(
        real_validity, real_imgs, real_grad_out, create_graph=True, retain_graph=True, only_inputs=True
    )[0]
    real_grad_norm = real_grad.view(real_grad.size(0), -1).pow(2).sum(1) ** (p / 2)

    fake_grad_out = Variable(Tensor(fake_imgs.size(0), 1).fill_(1.0), requires_grad=False)
    fake_grad = autograd.grad(
        fake_validity, fake_imgs, fake_grad_out, create_graph=True, retain_graph=True, only_inputs=True
    )[0]
    fake_grad_norm = fake_grad.view(fake_grad.size(0), -1).pow(2).sum(1) ** (p / 2)

    div_gp = torch.mean(real_grad_norm + fake_grad_norm) * k / 2
    
    return div_gp



def compute_gradient_penalty_gp(D, real_samples, fake_samples):
    """Calculates the gradient penalty loss for WGAN GP"""
    # Random weight term for interpolation between real and fake samples
    alpha = Tensor(np.random.random((real_samples.size(0), 1, 1, 1)))
    # Get random interpolation between real and fake samples
    interpolates = (alpha * real_samples + ((1 - alpha) * fake_samples)).requires_grad_(True)
    d_interpolates = D(interpolates)
    fake = Variable(Tensor(real_samples.shape[0], 1).fill_(1.0), requires_grad=False)
    # Get gradient w.r.t. interpolates
    gradients = autograd.grad(
        outputs=d_interpolates,
        inputs=interpolates,
        grad_outputs=fake,
        create_graph=True,
        retain_graph=True,
        only_inputs=True,
    )[0]
    gradients = gradients.view(gradients.size(0), -1)
    gradient_penalty = ((gradients.norm(2, dim=1) - 1) ** 2).mean()
    return gradient_penalty




# ----------
#  Training
# ----------

batches_done = 0
for epoch in range(opt.n_epochs):
    for i, (imgs, _) in enumerate(dataloader):

        # Configure input
        real_imgs = Variable(imgs.type(Tensor))

        # ---------------------
        #  Train Discriminator
        # ---------------------

        optimizer_D.zero_grad()

        # Sample noise as generator input
        z = Variable(Tensor(np.random.normal(0, 1, (imgs.shape[0], opt.latent_dim))))

        # Generate a batch of images
        fake_imgs = generator(z)

        # Real images
        real_validity = discriminator(real_imgs)
        # Fake images
        fake_validity = discriminator(fake_imgs)
        
        #WGAN_GP的LOSS计算
        # Gradient penalty
        gradient_penalty = compute_gradient_penalty_gp(discriminator, real_imgs.data, fake_imgs.data)
        # Adversarial loss
        d_loss = -torch.mean(real_validity) + torch.mean(fake_validity) + lambda_gp * gradient_penalty

#--------------------------------------------------------------------------------
        #WGAN_div的LOSS计算
        # Compute W-div gradient penalty
        # div_gp = compute_gradient_penalty_div(real_imgs,real_validity,fake_imgs,fake_validity)

        # Adversarial loss
        # d_loss = -torch.mean(real_validity) + torch.mean(fake_validity) + div_gp
        
#---------------------------------------------------------------------------------


        d_loss.backward()
        optimizer_D.step()

        optimizer_G.zero_grad()

        # Train the generator every n_critic steps
        if i % opt.n_critic == 0:

            # -----------------
            #  Train Generator
            # -----------------

            # Generate a batch of images
            fake_imgs = generator(z)
            # Loss measures generator's ability to fool the discriminator
            # Train on fake images
            fake_validity = discriminator(fake_imgs)
            g_loss = -torch.mean(fake_validity)

            g_loss.backward()
            optimizer_G.step()

            print(
                "[Epoch %d/%d] [Batch %d/%d] [D loss: %f] [G loss: %f]"
                % (epoch, opt.n_epochs, i, len(dataloader), d_loss.item(), g_loss.item())
            )

            if batches_done % opt.sample_interval == 0:
                save_image(fake_imgs.data[:25], "images/%d.png" % batches_done, nrow=5, normalize=True)

            batches_done += opt.n_critic

minist测试

WGAN WGAN_GP WGAN_div

从上述结果来看，WGAN系列的改进是很成功的，并且从改进的趋势来看从WGAN，到WGAN_GP，再到WGAN_div，其实是在逐渐放宽关于“Wasserstein距离”的限制条件，虽然都基于“Wasserstein距离”所构造出的损失函数，但其实在改进的过程中都是将“Wasserstein距离”改换成了约束相对更弱LOSS来优化判别器。令人陷入深思的是，条件放宽不但没有使得模式搜索困难，反而使得模式建立的更快，从上面测试的MINIST数据来看，三种网络均以同样的学习率和迭代次数来优化，WGAN到最后都未能生成足够好的数据，WGAN_GP迭代到总次数五分之四时生成较为好的数据，WGAN_div迭代到总次数五分之三时生成较为好的数据。

在查阅文献的时候，发现了一篇文章也验证了这个现象,《How Well Do WGANs Estimate the Wasserstein Metric》对许多基于“Wasserstein距离”的GAN网络架构进行了实验和分析也得出了相应的结论：即并不是越接近"Wasserstein距离"的LOSS函数就表现越好。

这个现象的出现其实也并不出乎意料，以下是一些个人的猜想，可能不正确，希望大家指教。我们都知到数据样本分布只是能近似代表数据真实的分布，而我们实际使用GAN网络在学习的是数据样本分布，而其与数据的真实分布还是存在着偏差的。“Wasserstein距离”能够很好地刻画出两个分布之间的距离，可以让生成器学习到数据样本的分布，但是实际上我们期望得到的是数据的真实分布。

可能有点绕，用一个例子来解释：我们希望用GAN生成手写的阿拉伯数字，实际上呢就是我们希望生成网络学会一个映射从高斯分布映射到手写阿拉伯数字的数据分布；但是在现实中我们是无法获得所有手写阿拉伯数字的样本，于是我们使用MINIST数据集来作为替代品；于是，我们在优化判别器时就把“更接近手写阿拉伯数字的数据分布”的目标替代为“更接近MINIST的数据分布”；那么当生成器生成了一个相对接近“手写阿拉伯数字的数据分布”，却相对“MINIST的数据分布”的样本时，严格的“Wasserstein距离”会对它加上“惩罚”让其远离“手写阿拉伯数字的数据分布”而靠近“MINIST的数据分布”，导致最终结果反而表现下降；然而，我们放宽“Wasserstein距离”让生成器学习到的分布靠近“MINIST的数据分布”到一定范围内，而不是以完全趋同为目标，那么当生成器学习到接近“MINIST的数据分布”的分布时，可能这个分布更接近“手写阿拉伯数字的数据分布”，因此效果就更好了。如下图，在条件放宽后，或许无法很好地拟合到“MINIST的数据分布”，但我们可能拟合到“手写阿拉伯数字的数据分布”。

Pytorch使用手册-DCGAN 指南（专题十四） AI专题精讲 Pytorch入门到精通 pytorch 人工智能 python
1.Introduction本教程将通过一个示例介绍DCGANs（深度卷积生成对抗网络）。我们将训练一个生成对抗网络（GAN），在给它展示大量真实名人照片后，它能够生成新的“名人”图片。这里的大部分代码来源于PyTorch官方示例中的DCGAN实现，而本文档将对该实现进行详细解释，并阐明这种模型的运行机制及其背后的原因。无需担心，你不需要事先了解GAN的知识，但初次接触的读者可能需要花一些时间来理
对象的行为-状态影响行为，行为影响状态 Java版蜡笔小新 java 学习开发语言
小白Java学习记录4一周掌握Java入门知识学习内容：对象的行为学习产出：你可以传值给方法d.bark(3);方法会运用形参。调用的一方会传入实参。实参是传给方法的值。当传入放后就成了形参。参数跟局部（local）变量是一样的。它有类型与名称，可以在方法内运用。重点是：如果某个方法需要参数，你就一定得传东西给它。那个东西得是适当类型的值。Dogd=newDog（）；d.bark（3）；voidb
用故事与视觉化打造“高光“统计报告：5个实战技巧梦想画家数据分析工程数据工程分析工程
你是否有过这样的经历？花费数小时整理的数据报告，却被同事评价为"又厚又臭"？别担心，这绝不是你的错——90%的统计报告都毁在不会讲故事。本文将带你用叙事经济学+视觉设计思维，把冷冰冰的数据变成让人欲罢不能的"数据故事会"，掌握让数据开口说话的秘密。1.别让数据成了"睡美人"：唤醒它的故事基因想象你正在给董事会讲一个悬疑剧：“去年Q2销售额神秘下滑（悬念），我们像福尔摩斯一样追查线索（行动），发现竟
COMP 315: Cloud Computing for E-Commerce 后端
Assignment1:JavascriptCOMP315:CloudComputingforE-CommerceFebruary20251IntroductionAcommontaskwhenbackendprogrammingisdatacleaning,whichistheprocessoftakinganinitialdatasetthatmaycontainerroneousorinco
Android com.facebook.react:react-native:+ 版本问题小铁-Android react native android
Executionfailedfortask':app:desugarBetaDebugAndroidTestFileDependencies'.>Couldnotresolveallfilesforconfiguration':app:betaDebugRuntimeClasspath'.>Failedtotransformreact-native-0.71.0-rc.0-debug.aar(c
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
挑战20天学完JavaSE第四天——方法的定义、调用和方法重载呆呆why care 挑战20天学完javaSE java 笔记改行学it 程序人生
Java方法是语句的集合，它们在一起执行一个功能。方法是解决一类问题的步骤的有序组合。方法包含于类或对象中。方法在程序中被创建，在其他地方被引用。设计方法的原则:方法的本意是功能块，就是实现某个功能的语句块的集合。我们设计方法的时候，最好保持方法的原子性，就是一个方法只完成1个功能，这样利于我们后期的扩展。方法的命名规则：首字母小写驼峰命名方法的定义Java的方法类似于其它语言的函数，是一段用来完
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
大二下开始学数据结构与算法--07,单项循环链表的实现爱我的你不说话链表数据结构
自习所完成的任务单向循环链表代码的实现和测验任务学课程到p28复现相关代码感悟其实这个教程上的观念，跟我刚开始理解想的并不一样，我以为会是：头节点使实例化的节点的循环链表，但是，教程给的更像是存在头节点，但头节点没有实际意义的添加了尾节点单项循环链表（跟之前单向不循环链表相比，更像是只多了一尾节点）。#include#include#includeusingnamespacestd;//存在头节点
Java基础笔记（小白友好版）代码什么的真不会呀 java 笔记开发语言
Java基础笔记（小白友好版）1.Java简介Java是一种广泛使用的计算机编程语言，由詹姆斯·高斯林（JamesGosling）在1995年创建Java的口号是"一次编写，到处运行"（WriteOnce,RunAnywhere）Java程序需要先编译成字节码（.class文件），然后在Java虚拟机（JVM）上运行主要特点：面向对象：一切皆对象，代码更清晰易懂平台无关性：可以在Windows、M
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
大二下开始学数据结构与算法--06，判断两个节点是否相交，删除链表倒数第K个节点爱我的你不说话链表数据结构
自习所完成的任务完成函数判断单项链表是否相交的代码编写和测试。完成函数删除倒数第K个节点的代码编写和测试。感悟其实这篇是昨天晚上写的，但是昨天下午在实验室呆了一下，然后写完这些代码后感觉脑袋昏沉，晚上十点就回宿舍了，想着看会儿书，但是，没看成，还是玩手机了。感觉坚持做一件事，还挺难的，老是为自己找逃避的借口，比如说周三晚上跟舍友出去吃，就放下了写代码的每日任务。我在想，是不是应该改变一下观念，以进
面向对象(进阶)(‘封装‘,‘多态‘,‘对象属性‘,‘类属性‘,‘类方法‘,‘对象方法‘及其应用场景) 烈焰猩猩 python
‘封装’,'多态’及其应用场景一,封装及其应用场景封装的定义属于面向对象的三大特征之一,就是隐藏对象的属性和现实细节,仅对外提供公共的访问方式.(我们学的函数,类,都是封装的体现).封装的格式__属性名__属性名()封装的好处和弊端好处提高代码的安全性.由私有化来保证提高代码的的复用性.由函数来保证弊端代码量增加了.因为私有的内容外界想访问,必须提供公共的访问方式,代码量就增加了.封装的案例案例需
普通人学习AI应该如何入手？2025年最新AI大模型学习路线+全套学习资料，适合新手小白！小城哇哇人工智能学习大数据语言模型 AI大模型 agi ai
引言随着人工智能（AI）技术的飞速发展，越来越多的人开始意识到掌握这项技能的重要性。然而，对于许多没有编程背景或数学基础的人来说，进入AI领域似乎是一个遥不可及的梦想。但实际上，通过合理的规划和适当的学习资源，任何人都可以逐步掌握AI的核心知识，并应用到实际工作中去。本文将为普通读者提供一份详细的2025年最新AI大模型学习路线图，并附带一套完整的自学资料，帮助您从零基础起步，顺利开启AI学习之旅
【猫狗分类】Pytorch VGG16 实现猫狗分类1-数据清洗+制作标签文件努力的小巴掌 pytorch分类项目 pytorch 分类人工智能
Pytorch猫狗分类用Pytorch框架，实现分类问题，好像是学习了一些基础知识后的一个小项目阶段，通过这个分类问题，可以知道整个pytorch的工作流程是什么，会了一个分类，那就可以解决其他的分类问题，当然了，其实最重要的还是，了解她的核心是怎么工作的。那首先，我们的第一个项目，就做猫狗的分类。声明：整个数据和代码来自于b站，链接：使用pytorch框架手把手教你利用VGG16网络编写猫狗分类
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
区跨链密码学 NO如果密码学
1.哈希算法（Hash）❓1.1什么是哈希算法？区块链中为什么需要哈希？哈希算法是一种不可逆的、确定性的、固定长度的散列函数，用于将输入数据映射成固定长度的字符串。在区块链中的作用：数据完整性：确保区块内容未被篡改（MerkleTree）。唯一标识：区块哈希值用于唯一标识区块。密码学安全性：哈希值难以逆推，保证安全性。常见哈希算法：SHA-256（比特币）：固定256位输出，抗碰撞强。Keccak
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
收入突破 5 万，从大专生到大模型开发-第二篇（下）智码工坊 AI编程程序人生
第二篇下：实战案例拆解——我用AI干掉80%重复工作大家好，我是明聪，98年逆袭的大模型研发工程师，前Java转型幸存者，湖北荆州人，毕业武汉某职校。学习心得：突出“普通人破局”的真实挣扎深夜破防：我也想过放弃1：学RAG时，连续3天卡在向量数据库检索效果，甚至想“回去干Java算了”。直到发现LangChain-Chatchat开源项目，直接套用现成框架，才重拾信心。2：第一次面试被质疑“半路出
C/C++学习路线概述 DustWind丶 C/C++c++
根据如下视频和文章总结：想做C语言/C++开发?这些才是你该学的东西！C语言/C++直通企业级开发的详细学习路线节选：肝了半个月，我整理出了这篇嵌入式开发学习学习路线+知识点梳理目录1C/C++学习概述1.1C语言的基础知识1.2C++的基础知识2C/C++编程学习四大件2.1数据结构和算法2.2操作系统2.3计算机网络2.3.1计算机网络分层2.3.2典型协议（以TCP/IP四层模型举例）2.4
Golang-Queue 项目常见问题解决方案施余牧
Golang-Queue项目常见问题解决方案queueQueueisaGolanglibraryforspawningandmanagingaGoroutinepool项目地址:https://gitcode.com/gh_mirrors/queu/queue项目基础介绍Golang-Queue是一个使用Go语言编写的库，用于创建和管理Goroutine池。该库允许根据机器有限的CPU数量创建多个
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
5-1 使用ECharts将MySQL数据库中的数据可视化上课的牛马实训大数据
方法一：使用PythonFlask框架搭建API对于技术小白来说，使用ECharts将MySQL数据库中的数据可视化需要分步骤完成。以下是详细的实现流程：一、技术架构‌后端服务‌：使用PythonFlask框架搭建API（简单易学，适合新手）数据库连接‌：通过Python的pymysql库连接MySQL前端可视化‌：HTML+JavaScript+ECharts数据流向‌：MySQL数据库→Pyt
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

W系列GAN（小白学GAN系列 四）

简介

Improved Training of Wasserstein GANs

Wasserstein Divergence for GANs

代码与实践

你可能感兴趣的:(小白学GAN,pytorch,深度学习)

W系列GAN（小白学GAN系列四）