Bingyu Xin

[论文笔记] LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS

ICLR2019在审文章，作者单位DeepMind

总述

文章希望既保证GAN生成图像的保真度又保证生成图像的多样性。对此，作者认为他们有三点贡献：
1、论证了GANs能通过scaling来提升性能。他们使用与原先技术相比，2~4倍的参数量和8倍的batch size，引入了两种简单的结构调整方法来提升网络的可扩展性，并修改一种正则化方案来提高conditioning。
2、上述修改产生的另一种影响是，模型非常适用于“trucation trick”，它是一种简单的采样技术，可以对样本多样性与保真性进行外部地细粒度地调节。
3、发现大型GAN特有的不稳定性，并从经验上对他们进行描述。经过分析表明通过现有技术与创新的技术的结合能够减少这种不稳定性，但是训练时完全的稳定性只能通过以较大地牺牲模型表现来实现。

作者训练的class-condition GAN在ImageNet上的表现很好（128X128分辨率），与state-of-art相比，Inception Score(IS)从52.52提升到166.3，Frechet Inception Distance(FID)从18.65下降到9.6.

Scaling up GANs

Baseline 模型

基于SA-GAN结构，使用hinge-loss作为GAN的目标函数。使用class-conditional BN向生成器G中加入类别信息，用projection向鉴别器D中加入类别信息。优化设置与原SA-GAN论文相同，但学习率减半，D每更新两次，G更新一次。对G的权重采用滑动平均(但文章发现progressive learning对模型并不必要)。不同于其他论文使用 $\mathcal{N}(0,0.02I)$ 或Xavier进行初始化，本文使用正交初始化。BN层的统计值是基于所有设备上的统计，不同于标准实现采用基于每个设备的统计。

A. 加大 BATCH SIZE

基于此模型，作者发现，将batch size提高为原来8倍，IS分数提升约46%.大的batchsize一方面提高模型表现，使模型更快收敛；另一方面，作者发现，这种scaling使得模型更不稳定，训练中很容易collapse。

B. 提高通道数

接着，作者尝试将模型中每层的通道数提高50%，参数量翻番，这使得IS分数进一步提升21%。

C. 共享嵌入层

作者还发现，条件BN中嵌入类别c占用了很多的权重，文章于是采用共享的嵌入来取代独立的层嵌入。这降低了内存与计算成本，模型训练速度提高37%。

D. 多层级潜在空间

此外，作者使用了多种hierarchical latent spaces，即将噪声向量 $z$ 输入到生成器的不同层中，而不是仅仅输入到第一层。这种做的直觉思路是用潜在空间来直接影响不同分辨率以及不同层次下的特征。hierarchical latents降低了计算量与内存占用，模型表现提升4%，训练速度提高18%。

E. 截断技巧

一般的噪声向量服从分布 $z\sim\mathcal{N}(0,I)$ ，但该技巧为其采样设置一个阈值，当采样超过该阈值时，重新采样，以使得采样点落入阈值范围。减小该阈值会发现，GAN生成的图像多样性降低，质量提高。如下图所示，从左到右为逐渐降低阈值。

作者在此处将IS类比为precision，FID类比为recall，通过改变截断的阈值，做出FID-IS曲线如下。阈值减小，多样性下降，质量提高，IS对多样性并不敏感，而FID对多样性和质量都敏感。所以可以看到，最初FID会有提高，但当阈值越来越小时，模型多样性下降，FID急剧下降。

[论文笔记] LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS_第2张图片

直接使用截断技巧对很多模型来说是有问题的，会导致saturation artifacts，如下图所示：

[论文笔记] LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS_第3张图片

为解决这个问题，作者希望通过限制G变得更平滑来使得 $z$ 的全部空间能投射到好的输出样本上。作者尝试使用正交正则化，即直接应用正交条件：
$R_\beta(W)=\beta||W^TW-I||_F^2$
其中 $W$ 是权值矩阵， $\beta$ 是超参数。但是这个正则化被认为太过于limiting，因此作者使用了该正则化的改进形式：
$R_\beta(W)=\beta||W^TW\odot(1-I)||_F^2$
其中 $1$ 表示元素全为1的矩阵。
作者发现，不使用正交正则化，仅有16%的模型可以截断；使用正交正则化后，60%的模型可以被截断。

上述各种改进的效果对比如下表所示：
从左到右依次是Batch size，通道数，参数量，共享嵌入层，多层级潜在空间，正交正则，迭代次数，FID,IS分数。

Scaling导致的模型不稳定性分析

生成器G

鉴别器D

评价指标

常用评价指标，用来判断GAN生成的图片的质量好坏。下面给出其定义，计算方式以及代码。

Inception Score (IS)

最初在Improved Techniques for Training GANs (2016)一文中提出。将GAN生成的图像输出到Inception模型中，得到条件标签分布 $p (y ∣ x)$ 。包含有意义目标的图像的 $p (y ∣ x)$ 熵值会较小；此外，我们还希望GAN模型能产生更多样的图像，因此 $\int{p(y|x=G(z))dz}$ 应该有较高的边际熵。综合这两点，提出metric如下：
$exp(\mathbb{E}_\mathbf{x}\mathbf{KL}(p(y|x)||p(y)))$

指数形式使得值更方便比较。实际写代码的时候， $p (y ∣ x)$ 就是每张图输入到Inception的输出，而 $p (y)$ 就是所有图的Inception输出均值。
pytorch代码如下：

#https://github.com/sbarratt/inception-score-pytorch/blob/master/inception_score.py
import torch
from torch import nn
from torch.autograd import Variable
from torch.nn import functional as F
import torch.utils.data

from torchvision.models.inception import inception_v3

import numpy as np
from scipy.stats import entropy

def inception_score(imgs, cuda=True, batch_size=32, resize=False, splits=1):
    """Computes the inception score of the generated images imgs
    imgs -- Torch dataset of (3xHxW) numpy images normalized in the range [-1, 1]
    cuda -- whether or not to run on GPU
    batch_size -- batch size for feeding into Inception v3
    splits -- number of splits
    """
    N = len(imgs)

    assert batch_size > 0
    assert N > batch_size

    # Set up dtype
    if cuda:
        dtype = torch.cuda.FloatTensor
    else:
        if torch.cuda.is_available():
            print("WARNING: You have a CUDA device, so you should probably set cuda=True")
        dtype = torch.FloatTensor

    # Set up dataloader
    dataloader = torch.utils.data.DataLoader(imgs, batch_size=batch_size)

    # Load inception model
    inception_model = inception_v3(pretrained=True, transform_input=False).type(dtype)
    inception_model.eval();
    up = nn.Upsample(size=(299, 299), mode='bilinear',align_corners=True).type(dtype)
    def get_pred(x):
        if resize:
            x = up(x)
        x = inception_model(x)
        return F.softmax(x).data.cpu().numpy()

    # Get predictions
    preds = np.zeros((N, 1000))

    for i, batch in enumerate(dataloader, 0):
        batch = batch.type(dtype)
        batchv = Variable(batch)
        batch_size_i = batch.size()[0]

        preds[i*batch_size:i*batch_size + batch_size_i] = get_pred(batchv)

    # Now compute the mean kl-div
    split_scores = []

    for k in range(splits):
        part = preds[k * (N // splits): (k+1) * (N // splits), :]
        py = np.mean(part, axis=0)
        scores = []
        for i in range(part.shape[0]):
            pyx = part[i, :]
            scores.append(entropy(pyx, py)) #calculate KL-div using entropy(a,b)
        split_scores.append(np.exp(np.mean(scores)))

    return np.mean(split_scores), np.std(split_scores)

if __name__ == '__main__':
    class IgnoreLabelDataset(torch.utils.data.Dataset):
        def __init__(self, orig):
            self.orig = orig

        def __getitem__(self, index):
            return self.orig[index][0]

        def __len__(self):
            return len(self.orig)

    import torchvision.datasets as dset
    import torchvision.transforms as transforms

    cifar = dset.CIFAR10(root='data/', download=True,
                             transform=transforms.Compose([
                                 transforms.Scale(32),
                                 transforms.ToTensor(),
                                 transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
                             ])
    )

    IgnoreLabelDataset(cifar)

    print ("Calculating Inception Score...")
    print (inception_score(IgnoreLabelDataset(cifar), cuda=True, batch_size=32, resize=True, splits=10))

计算得到cifar-10图片集Inception Score 分数均值约为9.3701，方差为0.1496。
Inception Score 本身有许多缺陷，具体见这篇文章。

Fréchet Inception Distance (FID)

Inception Score的一个缺点是它没有用到真实世界样本的统计值来和生成样本作比较。用 $p(\cdot)$ 表示生成模型产生的样本分布， $p_\omega(\cdot)$ 表示真实样本的分布。当给定均值与方差时，高斯分布是熵最大的分布。两个高斯分布的距离用Fréchet distance来度量。均值方差为 $(m, C)$ 的高斯分布 $p(\cdot)$ 和均值方差为 $(m_\omega,C_\omega)$ 的高斯分布 $p_\omega(\cdot)$ 的Fréchet 距离 d(.,.) 被定义为Fréchet Inception Distance(FID)，由下式给出：
$d^2((m,C),(m_\omega,C_\omega))=||m-m_\omega||_2^2+\mathbf{Tr}(C+C_\omega-2(CC_\omega)^{1/2})$

为计算FID，类似于将图像输入到Inception模型中得到Inception Score，不同的是，FID使用最后一个pooling层作为编码层，对这个编码层来计算均值 $m_\omega$ 和协方差 $C_\omega$
代码如下：

#https://github.com/mseitzer/pytorch-fid/blob/master/fid_score.py
def calculate_frechet_distance(mu1, sigma1, mu2, sigma2, eps=1e-6):
    """Numpy implementation of the Frechet Distance.
    The Frechet distance between two multivariate Gaussians X_1 ~ N(mu_1, C_1)
    and X_2 ~ N(mu_2, C_2) is
            d^2 = ||mu_1 - mu_2||^2 + Tr(C_1 + C_2 - 2*sqrt(C_1*C_2)).
    Stable version by Dougal J. Sutherland.
    Params:
    -- mu1   : Numpy array containing the activations of a layer of the
               inception net (like returned by the function 'get_predictions')
               for generated samples.
    -- mu2   : The sample mean over activations, precalculated on an 
               representive data set.
    -- sigma1: The covariance matrix over activations for generated samples.
    -- sigma2: The covariance matrix over activations, precalculated on an 
               representive data set.
    Returns:
    --   : The Frechet Distance.
    """

    mu1 = np.atleast_1d(mu1)
    mu2 = np.atleast_1d(mu2)

    sigma1 = np.atleast_2d(sigma1)
    sigma2 = np.atleast_2d(sigma2)

    assert mu1.shape == mu2.shape, \
        'Training and test mean vectors have different lengths'
    assert sigma1.shape == sigma2.shape, \
        'Training and test covariances have different dimensions'

    diff = mu1 - mu2

    # Product might be almost singular
    covmean, _ = linalg.sqrtm(sigma1.dot(sigma2), disp=False)
    if not np.isfinite(covmean).all():
        msg = ('fid calculation produces singular product; '
               'adding %s to diagonal of cov estimates') % eps
        print(msg)
        offset = np.eye(sigma1.shape[0]) * eps
        covmean = linalg.sqrtm((sigma1 + offset).dot(sigma2 + offset))

    # Numerical error might give slight imaginary component
    if np.iscomplexobj(covmean):
        if not np.allclose(np.diagonal(covmean).imag, 0, atol=1e-3):
            m = np.max(np.abs(covmean.imag))
            raise ValueError('Imaginary component {}'.format(m))
        covmean = covmean.real

    tr_covmean = np.trace(covmean)

    return (diff.dot(diff) + np.trace(sigma1) +
            np.trace(sigma2) - 2 * tr_covmean)


def calculate_activation_statistics(images, model, batch_size=64,
                                    dims=2048, cuda=False, verbose=False):
    """Calculation of the statistics used by the FID.
    Params:
    -- images      : Numpy array of dimension (n_images, 3, hi, wi). The values
                     must lie between 0 and 1.
    -- model       : Instance of inception model
    -- batch_size  : The images numpy array is split into batches with
                     batch size batch_size. A reasonable batch size
                     depends on the hardware.
    -- dims        : Dimensionality of features returned by Inception
    -- cuda        : If set to True, use GPU
    -- verbose     : If set to True and parameter out_step is given, the
                     number of calculated batches is reported.
    Returns:
    -- mu    : The mean over samples of the activations of the pool_3 layer of
               the inception model.
    -- sigma : The covariance matrix of the activations of the pool_3 layer of
               the inception model.
    """
    act = get_activations(images, model, batch_size, dims, cuda, verbose)
    mu = np.mean(act, axis=0)
    sigma = np.cov(act, rowvar=False)
    return mu, sigma


def _compute_statistics_of_path(path, model, batch_size, dims, cuda):
    if path.endswith('.npz'):
        f = np.load(path)
        m, s = f['mu'][:], f['sigma'][:]
        f.close()
    else:
        path = pathlib.Path(path)
        files = list(path.glob('*.jpg')) + list(path.glob('*.png'))

        imgs = np.array([imread(str(fn)).astype(np.float32) for fn in files])

        # Bring images to shape (B, 3, H, W)
        imgs = imgs.transpose((0, 3, 1, 2))

        # Rescale images to be between 0 and 1
        imgs /= 255

        m, s = calculate_activation_statistics(imgs, model, batch_size,
                                               dims, cuda)

    return m, s


def calculate_fid_given_paths(paths, batch_size, cuda, dims):
    """Calculates the FID of two paths"""
    for p in paths:
        if not os.path.exists(p):
            raise RuntimeError('Invalid path: %s' % p)

    block_idx = InceptionV3.BLOCK_INDEX_BY_DIM[dims]

    model = InceptionV3([block_idx])
    if cuda:
        model.cuda()

    m1, s1 = _compute_statistics_of_path(paths[0], model, batch_size,
                                         dims, cuda)
    m2, s2 = _compute_statistics_of_path(paths[1], model, batch_size,
                                         dims, cuda)
    fid_value = calculate_frechet_distance(m1, s1, m2, s2)

    return fid_value

探索光之奥秘：Ray Optics - 一个强大的光学模拟工具缪昱锨Hunter
探索光之奥秘：RayOptics-一个强大的光学模拟工具ray-opticsAwebappforcreatingandsimulating2Dgeometricopticalscenes,withagalleryof(interactive)demos.项目地址:https://gitcode.com/gh_mirrors/ra/ray-optics在这个链接中，你将发现一个开源项目——，它是一个
PostgreSQL 介绍 candy662 postgresql
PostgreSQL是一个免费的对象-关系数据库服务器(ORDBMS)，在灵活的BSD许可证下发行。PostgreSQL开发者把它念作post-gress-Q-L。PostgreSQL的Slogan是"世界上最先进的开源关系型数据库"。参考内容：PostgreSQL10.1手册什么是数据库？数据库（Database）是按照数据结构来组织、存储和管理数据的仓库。每个数据库都有一个或多个不同的API用
机器学习与分布式机器学习_经理人的机器学习–您需要知道的 cumian8165 算法神经网络大数据编程语言 python
机器学习与分布式机器学习Ifyouaremanagingatechteamasaproductorprojectmanager,hereiswhatyouneedtoknowaboutmachinelearning.如果您要以产品或项目经理的身份管理技术团队，这是您需要了解的有关机器学习的知识。Machinelearninganddeeplearninghavebeenpopularbuzzwor
GFPGAN - 腾讯开源的图形修复算法修复算法小众AI AI开源开源算法人工智能
GFPGAN是腾讯开源的人脸修复算法，它利用预先训练好的面部修复算法，并且封装了各种丰富多样的先验因素进行盲脸(blindface)修复，可以对老照片进行很好的修复。35800Stars5900Forks345Issues11贡献者ApacheLicensePython语言代码:https://github.com/TencentARC/GFPGAN更多AI开源软件：AI开源-小众AI主要功能盲修
panda3d python_Panda3D weixin_39994949 panda3d python
Panda3DPanda3Disagameengine,aframeworkfor3DrenderingandgamedevelopmentforPythonandC++programs.Panda3Disopen-sourceandfreeforanypurpose,includingcommercialventures,thankstoitsliberallicense.Tolearnmore
【深度学习】常见模型-生成对抗网络（Generative Adversarial Network, GAN） IT古董人工智能深度学习机器学习深度学习生成对抗网络人工智能
生成对抗网络（GenerativeAdversarialNetwork,GAN）是一种深度学习模型框架，由IanGoodfellow等人在2014年提出。GAN由生成器（Generator）和判别器（Discriminator）两个对抗网络组成，通过彼此博弈的方式训练，从而生成与真实数据分布极为相似的高质量数据。GAN在图像生成、文本生成、数据增强等领域中有广泛应用。核心思想GAN的核心是两个神经
UML太抽象了，活动图中传递的object，可没说是什么类型。 workflower UML建模 uml 统一建模语言
Inthefigurebelow,theobjectnoderectangleOrderislinkedtoaclassdiagramthatfurtherdefinesthenode.Theclassdiagramshowsthatfillinganorderrequiresorder,lineitem,andthecustomer’strim-and-finishrequirements.An
通过ChatGPT使用Mermaid.js生成时间序列图、组织结构图等百态老人生成式AI 经验分享前端人工智能
1、用mermaid.js生成京东网站改版时间序列图以下是使用Mermaid.js生成的京东网站改版时间序列图：gantttitle京东网站改版时间序列图dateFormatYYYY-MM-DDsection基础功能改版登录注册界面:done,2018-01-15,10d购物车页面优化:done,2018-02-10,10d商品详情页改版:done,2018-03-15,15d收银台页面改版:do
Python 深度学习实战：生成对抗网络 AI天才研究院深度学习实战 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍生成对抗网络（GenerativeAdversarialNetwork，GAN）是近年来较火热的深度学习模型之一，其在图像合成、视频生成、文本数据生成等领域均取得了不俗的效果。与传统的机器学习模型不同，GAN可以生成真实有效的数据，无需人工标注数据。它由两部分组成：生成器（Generator）和判别器（Discriminator）。生成器通过学习，根据噪声或随机变量（latentvar
WGAN - 瓦萨斯坦生成对抗网络池央生成对抗网络人工智能神经网络
1.背景与问题生成对抗网络（GenerativeAdversarialNetworks,GANs）是由IanGoodfellow等人于2014年提出的一种深度学习模型。它包括两个主要部分：生成器（Generator）和判别器（Discriminator），两者通过对抗训练的方式，彼此不断改进，生成器的目标是生成尽可能“真实”的数据，而判别器的目标是区分生成的数据和真实数据。虽然传统GAN在多个领域
Pytorch实现论文：对GAN的交替优化 LJ1147517021 GAN系列生成对抗网络计算机视觉人工智能 pytorch 机器学习深度学习
简介这次带来的是ClosingtheGapBetweenTheoryandPracticeDuringAlternatingOptimizationforGANs，Gans交替优化中缩小理论与实践的差距这篇论文的一个核心代码在ACGAN模型上的效果测试，核心是修改了损失函数部分的计算。作者的实验是在StyleGAN上进行的。论文简介论文题目：ClosingtheGapBetweenTheoryan
avr定时中断_中断及其使用 AVR cumubi7552 java 多线程物联网单片机 epoll
avr定时中断Interruptsarebasicallyeventsthatrequireintermediateattentionbythemicrocontroller.Whenaninterrupteventoccursthemicrocontrollerpausesitscurrenttaskandattendtotheinterruptbyexecutinganinterruptser
WPF拖拽交互全攻略及实现自定义拖拽控件及数据交换技巧解析 Nita. WPF WPF自定义控件 .NET wpf .NET c#1024程序员节
目录1.基本概念2.实现拖拽功能概述需要要实现基本的拖放，完成以下任务：其他操作示例3.1设置拖拽源，拖拽开始3.2设置拖拽效果DragDropEffects3.3设置放置目标，处理拖拽数据拖拽输入DragEnter事件DragOver事件拖拽离开DragLeave事件拖拽结束Drop事件3.其他实际使用中遇到的问题实现拖拽交换数据的自定义控件效果思路解析具体实现参考1.基本概念拖拽（Dragan
Pandas简单介绍 NN今天敲代码了吗 python python
Pandashastwoworkhorsedatastructures:SeriesandDataFrame.SeriesASeriesisaone-dimensionalarray-likeobjectcontaininganarrayofdata(ofanyNumPydatatype)andanassociatedarrayofdatalabels,calleditsindex.#1.crea
Windows10环境vagrant+VirtualBox虚拟机无法创建私有网络的解决方案。 XiaoYu_3328 运维操作系统
报错信息==>default:Clearinganypreviouslysetnetworkinterfaces...Therewasanerrorwhileexecuting`VBoxManage`,aCLIusedbyVagrantforcontrollingVirtualBox.Thecommandandstderrisshownbelow.Command:["hostonlyif","cr
[论文笔记]自监督sketch-to-image生成：Self-Supervised Sketch-to-Image Synthesis 沉迷单车的追风少年深度学习-计算机视觉 sketch 深度学习计算机视觉
前言：2020年顶会同时出现了两篇很有意思的论文《Self-SupervisedSketch-to-ImageSynthesis》和《UnsupervisedSketch-to-PhotoSynthesis》，分别用自监督和无监督的方法做sketch-to-image生成，可以说是GANs在这一任务中表现的巅峰。目录主要贡献主要工作域转换模型TOMPS：边缘图、铅笔画图、草图sketch之间的区别
【论文笔记】：DuBox: No-Prior Box Objection Detection via Residual Dual Scale Detectors Activewaste #Anchor-free #特征层面 #小目标检测 DuBox anchor-free
&Title:DuBox:No-PriorBoxObjectionDetectionviaResidualDualScaleDetectorsGithubaddrNone&Summary介绍了一种新的一阶段检测方法Dubox，它可以在没有先验框的情况下检测物体。设计的双尺度残差单元具有多尺度特性，使双尺度检测器不再独立运行。高层检测器学习低层检测器的残差。Dubox增强了启发式引导的能力，进一步使
智能体/Agent概念详解张少侠25 人工智能
智能体/Agent概念详解1.1AIAgent体系介绍1.1.1什么是AIAgentAgent在接触AI前大部分人对这个词的定义是代理而在AI模型领域更愿意称之为智能体代理我们都知道是什么意思,那么智能体呢?LoganKilpatrick，OpenAI开发者关系负责人给出的介绍如下Agent（智能体）=一个设置了一些目标或任务，可以迭代运行的大型语言模型。这与大型语言模型（LLM）在像ChatGP
用GANs生成艺术作品的创新探索：人工智能与艺术的奇妙碰撞 Echo_Wish 前沿技术人工智能人工智能 gan python
用GANs生成艺术作品的创新探索：人工智能与艺术的奇妙碰撞随着人工智能技术的飞速发展，生成对抗网络（GenerativeAdversarialNetworks，GANs）在图像生成、视频生成、音频合成等领域展现出了惊人的创造力。特别是在艺术创作方面，GANs以其独特的生成能力，为艺术家和创作者提供了新的灵感和工具。本文将探讨GANs在艺术作品生成中的应用与创新，并通过具体代码示例展示其实现过程。一
《CPython Internals》阅读笔记：p152-p176 codists 读书笔记 python
《CPythonInternals》学习第10天，p152-p176总结，总计25页。一、技术总结1.addinganitemtoalistmy_list=[]my_list.append(obj)上面的代码涉及两个指令：LOAD_FAST,LIST_APPEND。整章看下来这有这点算是可以记的了，其它的只感觉作者在零零碎碎的罗列内容。二、英语总结(生词：1)无。关于英语的注解同步更新汇总到htt
DeepSpeed 常见问题解决方案申晓容Lucille
DeepSpeed常见问题解决方案DeepSpeedDeepSpeedisadeeplearningoptimizationlibrarythatmakesdistributedtrainingandinferenceeasy,efficient,andeffective.项目地址:https://gitcode.com/gh_mirrors/de/DeepSpeed1.项目基础介绍和主要编程语言
【论文速读】| 评估并提高大语言模型生成的安全攻击探测器的鲁棒性 llm
基本信息原文标题：EvaluatingandImprovingtheRobustnessofSecurityAttackDetectorsGeneratedbyLLMs原文作者：SamuelePasini,JinhanKim,TommasoAiello,RocíoCabreraLozoya,AntoninoSabetta,PaoloTonella作者单位：UniversitàdellaSvizze
【论文笔记】AutoML: A survey of the state-of-the-art（下篇） pip install USART 学习笔记论文阅读记录论文阅读算法深度学习
目录4.ModelGeneration模型生成4.1SearchSpace搜索空间4.1.1Entire-structuredsearchspace基于整个架构的4.1.2Cell-basedsearchspace基于Cell的空间4.1.3Hierarchicalsearchspace层次化的空间4.1.3Morphism-basedsearchspace基于“态射”的空间4.2网络优化方法（搜
DCGAN - 深度卷积生成对抗网络：基于卷积神经网络的GAN 池央生成对抗网络 cnn 深度学习
深度卷积生成对抗网络（DCGAN，DeepConvolutionalGenerativeAdversarialNetwork）是生成对抗网络（GAN）的一种扩展，它通过使用卷积神经网络（CNN）来实现生成器和判别器的构建。与标准的GAN相比，DCGAN通过引入卷积层来改善图像生成质量，使得生成器能够生成更清晰、更高分辨率的图像。DCGAN提出了一种通过卷积结构来提高图像生成效果的策略，并在多个领域
论文笔记 U-Net: Convolutional Networks for Biomedical Image Segmentation 城南皮卡丘 #深度学习 caffe 人工智能
摘要：人们普遍认为，深度网络的成功训练需要数千个带注释的训练样本。在本文中，我们提出了一种网络和训练策略，该策略依赖于大量使用数据增强来更有效地使用可用的注释样本。该体系结构包括用于捕获上下文的收缩路径和用于实现精确定位的对称扩展路径。我们表明，这样的网络可以从很少的图像进行端到端训练，并且在ISBI挑战中优于先前的最佳方法（滑动窗口卷积网络）,用于分割电子显微堆栈中的神经元结构。使用在透射光显微
AIGC视频生成模型：Meta的Emu Video模型好评笔记 #Meta AIGC-视频 AIGC 机器学习人工智能 transformer 论文阅读深度学习面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Meta的视频生成模型EmuVideo，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言相关工作文本到图像（T2I）扩散模型视频生成/预测文本到视频（T2V）生成分解生成方法预备知识EmuVideo生成步骤图
项目进度管理：如何使用甘特图实现精准跟踪？
一、甘特图——项目进度管理的得力助手（一）甘特图的基本概念与构成甘特图（GanttChart）又称横道图、条状图，出现于20世纪初，是一种常用于项目管理的、按照时间进度标出工作活动的图表，以提出者亨利・L・甘特（HenrryL.Ganntt）先生的名字命名。它是一个二维平面图，用横轴表示项目进度或活动时间，比如可以按日期为单位，展示项目的整体时间范围，像从项目启动到结束所涵盖的天数、周数、月数等；
用大数据“喂养”出来的AI模型ChatGPT 爆火是大数据、大算力、强算法的支撑，中国缺乏的什么？ Ai17316391579 深度学习服务器人工智能
先来了解一下ChatGPT的基本情况ChatGPT本质属于生成式人工智能，属于无监督或半监督的机器学习。与之相关的还有Discriminativemodeling区分式模型，区分式模型大多属于监督式学习。生成性人工智能目前有两种主要的框架：GAN（GenerativeAdversarialNetwork）和GPT（GenerativePre-trainedTransformer）。GAN目前广泛应
深入理解AIGC背后的核心算法：GAN、Transformer与Diffusion Models 忘梓. 杂文 AIGC 算法生成对抗网络
深入理解AIGC背后的核心算法：GAN、Transformer与DiffusionModels前言随着人工智能技术的发展，AIGC（AIGeneratedContent，人工智能生成内容）已经不再是科幻电影中的幻想，而成为了现实生活中的一种新兴力量。无论是自动生成文章、绘制图像、生成音乐还是创作视频，AIGC都在各个内容创作领域崭露头角。然而，这些“智能创作”的背后究竟依赖于哪些算法？今天，我们将
AIGC视频生成国产之光：ByteDance的PixelDance模型好评笔记 AIGC-视频补档 AIGC 计算机视觉人工智能深度学习机器学习论文阅读面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言输入训练和推理时的数据处理总结相关工作视频生成长视频生成方法模型架构
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe