weixin_30660027

CVPR2018 精彩论文合集

Unsupervised Person Image Synthesis in Arbitrary Poses

#Image Synthesis

CVPR 2018 Spotlight 论文，ReID + GAN 换 pose。

本文用了较多的篇幅讲 loss function，pose 的提取用的是 OpenPose 这个库。

其 loss 分为三部分：

1. Image Adversarial Loss：即传统 GAN 的 loss；

2. Pose Loss：pose 差异，生成后的图片再用 OpenPose 提取 pose 信息做差值；

3. Identity Loss：此为关键，又分为两部分，分别是 content 和 style loss，其中 content 用于保证生成图和原图在某 pretrain model 生成的 feature map 一致， style 则是利用 Gram matrix 生成某种 feature map，然后作比对。

论文链接

https://www.paperweekly.site/papers/1864

笔记链接

https://zhuanlan.zhihu.com/p/35626886

Person Transfer GAN to Bridge Domain Gap for Person Re-Identification

#Person ReID

CVPR 2018 RE-ID Spotlight 一篇，这篇文章主要 contribution 有以下两点：

1. 提出了一个新的更大的数据集，更为细致：考虑到了视角，光照等更为细致的因素，具体参数可以直接看文章；

2. 多个数据集间的差异，即 domain-gap，通过 GAN 来生成和模仿，类似文章：Camera Style Adaptation for Person Re-identification，个人认为创意是有的，可以作为 data augmentation 的一个方法，但实现难度上并没有很大。

论文链接

https://www.paperweekly.site/papers/1557

代码链接

https://github.com/JoinWei-PKU/PTGAN

数据集链接

http://www.pkuvmc.com/publications/msmt17.html

笔记链接

https://zhuanlan.zhihu.com/p/35626478

Disentangled Person Image Generation

#Image Generation

在 NIPS 2017 上，该团队已经为我们贡献了 Pose Guided Person Image Generation 这篇非常棒的文章，在 CVPR 2018 中，他们推出的更新的这篇文章不仅仅解决了换 pose 问题，还实现了”随心所欲“的换装换 pose，入选今年的 Spotlight。

在这里提到的前一篇文章可复现度很高，可以尝试。

该模型分为三个分支：

1. 运用 OpenPose 这个库，生成 pose 的 18 个 dots，并将这 concat 进 decoder 之前的 feature map 中；

2. 在经过卷积运算后的 feature map 上，运用 mask 将前后景分离，背景的 feature map 也是直接 concat 进最后的 feature map 中；

3. 核心是前景的处理上，用 7 个 ROI 进一步将前景解开，然后用公用的 encoder 生成前景的 feature map。

论文链接

https://www.paperweekly.site/papers/1865

笔记链接

https://zhuanlan.zhihu.com/p/35626735

Practical Block-wise Neural Network Architecture Generation

#Network Generation

CVPR 2018 Oral 一篇，本文主要提出了通过封装模块（block-wise）的方法，运用增强学习设计生成网络架构的方法。

封装模块思路：

作者本人对增强学习和动态规划理解有限，模块生成的总体思路是 Q-Learning 及动态规划，其中提到了运用 reward shaping 优化设计过程，当是本文亮点之一。

设计完网络后，生成对应任务的准确率，作为 q-value（即 reward），然后再次重新生成网络。

此外，文章还提到了部分 trick：

在 reward 中将复杂度和计算复杂度纳入；
early-stopping

论文链接

https://www.paperweekly.site/papers/1866

笔记链接

https://zhuanlan.zhihu.com/p/35639635

Deep Layer Aggregation

#Convolutional Neural Networks

CVPR 2018 Oral，topic：网络设计模块化。

如名所示，提出了 aggregation 的具体思路，并在层融合上提出了具体方式。

论文链接

https://www.paperweekly.site/papers/1867

笔记链接

https://zhuanlan.zhihu.com/p/35641068

Learning Face Age Progression: A Pyramid Architecture of GANs

#Face Age Progression

CVPR 2018 Oral，intro 和 related works 主要讲了现有方案大多将年龄信息优先而 identity 信息次之，换句话说，就是生成不同年龄的同时，identity 信息不能很好保留。

Generator 部分不做介绍，无亮点，本文亮点在 loss 部分。

文中提出了特征提取器用于提出特定特征，原因是作者认为相同年龄段的不同人脸有着相同的的纹理等特定信息，而这个提取器就是提取出这些特征。此外，该分类器是经过 age 分类任务预训练好了的。

文中和今年很多思路一样，考虑到了 low-level 和 high-level 信息，将第 2、4、7 等层信息 concat 起来，作为 d 的输入。

identity 信息的保留和上一个 extractor 类似，在人脸分类数据集上预训练，然后拿来直接当 extractor。

论文链接

https://www.paperweekly.site/papers/1868

笔记链接

https://zhuanlan.zhihu.com/p/35661176

Convolutional Neural Networks with Alternately Updated Clique

#Convolutional Neural Network

北大团队提出的新的 block 设计，achieves the performance of the state of the art with less parameters.

block 内部更新的核心思路可以直接看这个公式，每一层更新时的输入是比他低的层的更新后的输出加上比他高的层更新前的输出。

由于 block 内任意两层互连，故实现了 top-bottom refinement，也就实现了 attention 机制。

还提到了部分 technique：

1. channel-wise attention mechanism

2. Bottleneck and compression

论文链接

https://www.paperweekly.site/papers/1713

代码链接

https://github.com/iboing/CliqueNet

笔记链接

https://zhuanlan.zhihu.com/p/35661397

Unsupervised Discovery of Object Landmarks as Structural Representations

#Object Detection

CVPR 2018 Oral，今年 CVPR Landmark 和 Attention 这两个词出现的频率很高。

Landmark Detector

本文采用的是名为 hourglass 的网络构架，以图片作为输出，该网络输出 k+1 个 channel，含有 k 个 landmark 和背景。对不同 landmark 用 softmax 生成 confidence。

在如图公式中，Dk(u,v) 意思是第 k channel 中坐标为 (u,v) 的值，Dk 是 weight map，与对应坐标相乘，再除以总的权重和坐标乘积的和，从而生成该 channel 的 landmark 的 normalized 坐标。

Soft Constrain

为了保证我们生成的诸 landmark 及其坐标是表达的我们想要的 landmark 而非其他 latent repre，文章提出了几个 soft constrain：

1. Concentration Constrain：

计算两个坐标轴上坐标的方差，设计如图示 loss 是为了使方差尽可能小。

这里做了一个近似，使之转换成了 Gau dis，更低的熵值意味着 peak 处更多的分布，换句话说，就是使 landmark 尽可能地突出出来。

2. Separation Constrain：

由于刚刚开始训练时候的输入时纯 random distribution，故可能导致提取出的 landmark 聚集在中心，可能会导致 separation 效果不好，因此而落入 local optima，故设计了该 loss。

这个 loss 也不难理解，将不同 channel 间的坐标做差值，使得不同 landmark 尽可能不重叠。

3. Equivariance Constrain

这个比较好理解，就是某一个 landmark 在另一个 image 中变换坐标时应该仍能够很好地定位，在这里，作者介绍了他们实现 landmark 变换坐标的几个trick。

4. Cross-object Correspondence

本文模型认为不能保证同一 object 在不同情况检测时绝对的 correspondence，文章认为这应该主要依赖于该特定 pattern 能够在网络生成的激活值展现一定的共性。

Local Latent Descriptors

这个 des 的目的是解决一个 delimma：除了我们定义的 landmark，可能还有一些 latent representation，要复原一个 image，仅仅 landmarks 是绝对不够的，所以需要一些其他的信息作为一个补充，但表达他们又有可能影响 landmark 的表达。

在这里，文章又用了另一个 hourglass network，如图中左下角的 F，就在我们之前提到的 concentration costrain 中，用一个高斯分布来将该 channel 对应的 landmark 突出出来。

在这里，文章将他当做 soft mask 来用，用 mask 提取后再用一个 linear operator 来讲这些 feature map 映射到一个更低维的空间，至此，local latent descriptor 就被生成了。

Landmark-based Decoder

第一步，Raw score map.

第二步，normalize.

第三步，生成最终图像。

在这里，wk 是 landmark-specific operator。

简言之，Dk 是我们提出的 landmark 位置信息，fk 是对应 landmark 的 descriptor。

这里又提到了一个 dilemma：在用 mask 的时候，越多的 pixel 被纳入是最理想的，但纳入太多又使得边缘的锐利不能体现，因为该文用了多个不同的超参数来尝试。

论文链接

https://www.paperweekly.site/papers/1869

笔记链接

https://zhuanlan.zhihu.com/p/35693735

An Analysis of Scale Invariance in Object Detection - SNIP

#Object Detection

CVPR 2018 Oral，如下图，文章主要解决网络处理不同 scale 图片的网络策略。

▲ 读图中配字，理解文章针对的问题

▲ 图2

▲ 图3

如上面两个图示，三种网络的训练方式和效果一目了然。

结论是：当我们要检测小的物体时，在输入是大的 scale 的网络上预训练、在高分辨率作为输入的网络上预训练、在upsample后的图片作为输入的网路上预训练，对检测小物体有益。

第 4 部分讲了用了 DeformableRFCN 模型，第 5 部分主要讨论了在不同分辨率下训练，在同样的高分辨率 test 的结果及其分析：

1. 在中分辨率下训练的模型比在高分辨率下训练的模型效果差，原因很简单，因为后者训练测试的分辨率相同，但并没有拉开很大的差距，为什么呢？因为中高 scale 的 object 被变得太大以致不能被检测到；

2. 作者随后在高分辨率下训练了只针对 80pixel 下 Object 检测的模型，但结果比在中分辨率下的效果差了很多，为什么呢？因为忽视中高 scale 的 Object 对训练影响非常大；

3. 作者又用多分辨率训练模型（MST），但仍因为过小或过大的 Object 影响，效果仍不理想。

Scale Normalization for Image Pyramids

第 6 部分，作者提出了最终的模型。该模型的输入分辨率最低 480*800，最高 1400*2000，对于训练中过大或者过小 scale 的 Object，模型选择直接忽略，训练只针对在 scale 的一个范围内的 Object。

后面就是训练细节和 trick，详情可以翻看论文。

论文链接

https://www.paperweekly.site/papers/1870

笔记链接

https://zhuanlan.zhihu.com/p/35697040

Wasserstein Introspective Neural Networks

#Introspective Neural Networks

CVPR 2018 Oral，同时也是目前为止个人印象最深刻的一篇文章。

文章主要做的事情就是提出了基于 Wasserstein 的 INN，该组已经在 ICCV，NIPS 等多次提出并改进该模型，该模型主要做的就是将 GAN 中的 G 和 D 结合起来。

文章最开始给了一下最基本的 notation，然后介绍了如何将 INN 与 Wasserstein 结合起来并给出了必要的数学证明。

▲ 算法

上图为分类过程 loss 的设计，图中两个公式，前者是目标函数，很容易理解，后者则是正则项，正则项是以随机的 a 来生成真数据（x+）与生成的假数据（x-）的 mixture。

合成部分

合成部分的公式中，简言之，就是以生成图与原图的相似度作为衡量标准。

图中引用的 21，29 是作者的前面两篇文章，分别是 NIPS 2017 和 ICCV 2017，作者在这篇文章中并未给出任何证明，后期本人应该会补上这两篇的笔记。

论文链接

https://www.paperweekly.site/papers/1871

代码链接

https://github.com/kjunelee/WINN

笔记链接

https://zhuanlan.zhihu.com/p/35699851

Im2Flow: Motion Hallucination from Static Images for Action Recognition

#Action Recognition

CVPR 2018 Oral，本文思路很清晰且已读，具体细节可以看文章，这里仅仅把总体思路讲一下。

用 u-net 训练一个模型：输入是一个静态的帧，输出的预测的五帧光流信息，模型在 YouTube 数据集上训练。

该模型 loss 分两部分，一部分是将生成的五帧光流信息与 YouTube 数据集的 groundtruch 对比，另一部分是将生成的光流信息与真实的光流信息送进某网络（在 ucf101 上预训练过的 resent）计算欧式距离；前者是要求准确，后者是为了更好保留 high-level 的动作信息。

最终将 rgb 和预测的光流作为标准 two-stream 模型的输入进行预测。

论文链接

https://www.paperweekly.site/papers/1872

笔记链接

https://zhuanlan.zhihu.com/p/35702085

What have we learned from deep representations for action recognition?

#Deep Spatiotemporal Representations

CVPR 2018 Zisserman 的新论文，这篇文章就是 two-stream 模型中间层的可视化方法，换句话说，就是探寻 two-stream 模型学到了怎样的时空信息。

生成总共分为两个步骤，详情如上图：计算出输入的偏导，将计算出来的梯度用学习率 scale 并加到当前输入上。

Activation Maximization

本文还提到了两个正则方法：

1. 防止过大的值

2. 限制低频信息

论文链接

https://www.paperweekly.site/papers/1873

笔记链接

https://zhuanlan.zhihu.com/p/35703892

Squeeze-and-Excitation Networks

#Neural Networks

今年的 Oral，令人印象深刻的一篇文章，网上解读很多，相当于在 channels 上加了一个 attention 机制，给不同的 channel 不同的权重。

这篇文章行文思路清晰，哪怕学习写论文也要看一看。

Squeeze

简言之就是全局平均池化，是因为低层的感受野太小导致效果差。

Excitation

这个环节主要是搞清 channels 之间的关系及重要性。这里作者提出了两个要求：

1. 灵活，作者解释：能够学习 channels 间非线性的关系；

2. 必须学习一个非互斥关系，因为设计的 block 是为了强调多个 channels 而非一个。

这里设计了两个全连接层，一个降维，一个升回原来的维度。对于降维再升维，作者给出的解释是为了降低计算复杂度和协助泛化。

论文链接

https://www.paperweekly.site/papers/1725

代码链接

https://github.com/hujie-frank/SENet

笔记链接

https://zhuanlan.zhihu.com/p/35704334

Actor and Action Video Segmentation from a Sentence

#Video Object Segmentation

CVPR 2018 Oral，本文定义了一个新的任务：给出一个句子，根据该句子分割视频中的 actor 及其 action。

主要有三大部分：

1. Textual Encoder：使用 word2vec 的预训练模型，句子中的每个词被编码成 1x300 的 vector，一个句子则声称 nx300 的 matrix，通过 padding 使句子们 size 统一，网络构造详情见文章；

2. Video Encoder: encode the actor and its action. 网络构型采用 state of the art 的运用 3d filte r的 I3D model，后面又提到 follow 了 two stream 模型，未做很多解释，只说同时学习 RGB 和光流信息；

3. Decoding with dynamic filters：这里又提到了 dynamic conv filters，这是我第二次见到这个，感觉还是有必要读一下，若网上解读不多，会后期发出笔记。

为了保持同样的分辨率，使用了 deconv，deconv 的应用上有一些创新和 trick，详情请翻读论文。

模型的训练

训练时模型的输入：视频片段，sentence，segmentation mask。

▲ loss function

公式中的 r 表达的是不同的分辨率，作者解释是将多个分辨率纳入考虑，形成一种类似 skip-connnection 的效果。

论文链接

https://www.paperweekly.site/papers/1875

笔记链接

https://zhuanlan.zhihu.com/p/35718996

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

#Visual Question Answering

CVPR 2018 Oral，主题是 attention+VQA，这是笔者作者读的第一篇关于这个领域的问题，可能难免会有讲得不够透彻的地方，欢迎批评指正和讨论。

本文的主要思路是用 faster-rcnn 提取出 proposal，然后用其做 image captioning 或者 VQA，该方法取得了 2017 VQA Challenge 的第一名。

Bottom-Up Attention Model

简言之，该部分就是直接复用了 faster-rcnn，提取出超过特定阈值的区域，并提取出其平均池化特征。

Captioning Model

在这里作者提到，该文的 captioning 系统即便在没有基于 faster rcnn 的前提下，也有着相当好的体现，具体效果可以看 experiment 部分。

该部分作者未能讲得非常透彻，主要是对 NLP 理解相当有限，后面会更新这部分的讲解，这部分主要做的事情是用两层 lstm，以 faster rcnn 生成的 feature 和 sentence 做输入，生成对应 features 的 attention weights。

该部分由两层 LSTM 组成：

▲ h的右上标的12分别代表attention，language lstm的输出

1. 第一层 LSTM：top-down attention

在这里直接将 faster-rcnn 阶段生成的 region feature 称为 V，该层的输入时将：平均池化后的 v，上一时刻 language LSTM 的输出，之前生成的 words，concat 起来。

对于某一个时刻 attention lstm 的输出，生成一个 normalized attention weight，如下图：

2. 第二层 LSTM：language

该层将 faster-rcnn 阶段生成的 region feature 与 attention LSTM 的输出 concat 起来作为这一层的输入。

▲ 很容易理解，不做解释

3. Objectives

该部分作者只是引用并复用了已有方法。

VQA Model

先将问题用 GRU encode 成 the hidden state q，这个 q 又当做 top-down 系统的输入，即上面提到的两层 lstm，生成 attention weight。

论文链接

https://www.paperweekly.site/papers/754

代码链接

https://github.com/peteanderson80/bottom-up-attention

笔记链接

https://zhuanlan.zhihu.com/p/35778768

Embodied Question Answering

#Visual Question Answering

CVPR 2018 Schedule 上的第一篇 Oral，这篇文章主要定义了一个新的 task 并给出了一个数据集。

任务定义：将一个 agent 随机丢进一个房间，向他提出一个问题，这个 agent 需要自己导航并回答问题。

▲ 问题类型，大家可以大致理解下

数据集问题，场景的生成都是用已经存在的 method 生成的，详情可以翻阅论文。

这个 task 总体来说对于 agent 提出了四个要求：vision，language，navigation，question answering，文章还给出了各个部分的具体结构，很容易理解。

▲ 训练策略

论文链接

https://www.paperweekly.site/papers/1268

笔记链接

https://zhuanlan.zhihu.com/p/35791145

Taskonomy: Disentangling Task Transfer Learning

#Transfer Learning

CVPR 2018 Oral，本文定义了一个新的任务，针对在视觉内的迁移学习，并提出了一个蛮大的数据库，然后还有 Malik，Savarese 两位大牛挂名，感觉很值得关注。

定义的任务是这样的：vision task 类目很多，只针对某个问题来解决的话，会需要很大的标注的数据集，但我们不难想到的是，一个视觉任务的解决应该能够一定程度的解决另一个视觉任务，毕竟一个成熟模型的构建意味着对该 image 的一定的理解，而这部分的理解的一部分或许对另一个 task 有助益，例，物体 relation 的理解对深度信息的学习毫无疑问是有着助益的。

首先做一个 notation 说明：source task 是指我们已经有着足够标注数据集或者信息，能够解决的问题，target task 则是指待解决，希望通过前者的迁移学习来解决的问题。

有三个阶段：

Step I: Task-Specific Modeling

encoder-decoder 结构，不需过多解释。

Step II: Transfer Modeling

这里的 transfer function 就是一个 decoder，他的输入时多个 source task encoder 的 encoder 的输出。

这里作者提出了设计时应当考虑到的因素：

1. accessibility：首先，应该含有潜在的能够解决 target task 的信息，因此文章设计了一个小结构，用其基于小规模数据测试 accessibility；

2. higher-order transfers：多输入，过滤掉有着更低 contribution 的 representation 的 filter 策略；

3. transitive transfers

Step III: Ordinal Normalization using Analytic Hierarchy Process (AHP)

简言之，就是计算不同的 source 对一个 target task 的贡献度。

Step IV: Computing the Global Taxonomy

计算全局的一个 contribution graph。

论文链接

https://www.paperweekly.site/papers/1876

代码链接

https://github.com/StanfordVL/taskonomy

笔记链接

https://zhuanlan.zhihu.com/p/35833517

Detail-Preserving Pooling in Deep Networks

#Convolutional Neural Networks

CVPR 2018 Oral，顾名思义，提出了保留 detail 的池化方法。

max/avg pooling 一个只选取最大而忽略与周围像素的关联性，一个重视关联性却又直接抹平，并且在实际梯度计算中也有一些 drawback，所以该文提出了这个新方法，一句话概括，就是在池化过程中学了一个动态的 weight。

Notation：在此，我们以 I& 代替文章中出现的

，ID 代指

。

Detail-Preserving Image Downscaling

▲ I是原图，O是output，[]表示取对应坐标像素值

▲ 如图所示，ID是用近似高斯分布的filtersmooth后的图像

作者总结：DPID 计算的是 weighted average of the input，周围的像素中，越近或者 difference 越大的值能够给最终的 output 更高的 contribution。

以上这一部分是一个铺垫。

Detail-Preserving Pooling

作者这部分就是将上一部分提出的 downscale 思想转化成文章的 DPP（如 title）简言之，就是将上部分中的 L2 NORM 替换成一个可学习的 generic scalar reward function。

首先给出 weight 的表示：

▲ α和λ就是我们要学习的参数

这里用了 constrain 来保证两个参数为非负。

这里给出了两种 reward function：

▲ 这里为了简洁，将λ省略掉了

可以看到，相对而言，后者更倾向与给比中心像素高的像素更高权重，前者则是给差距大的更高权重。

后面，作者又补充了 I& 的生成：

论文链接

https://www.paperweekly.site/papers/1877

代码链接

https://github.com/visinf/dpp

笔记链接

https://zhuanlan.zhihu.com/p/35938826

High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

#Image Synthesis

CVPR 2018 Oral，本文解决了 GAN 生成高分辨率突破的问题，分辨率达到了 2048*1024，方法精细，值得深入来看。

先来看 Generator：

如图所示，中间部分的 G1 在低分辨率情况下训练，然后在前后又分别加上 G2，注意左边部分的 G2 的输出和 G1 的输出 concat 之后，作为右边 G2 的输入。

再来看 D：这里的 discriminator 是 multi-scale，有着三个针对不同尺寸的 D，三个尺寸分别是原尺寸，二分之一，四分之一。放缩尺寸的理由不难理解，receptive field 大小的问题。

▲ objective中，三个D都纳入考虑

Improved Adversarial Loss

一句话概括：在 D 的中间多个层抽取 feature map，作为分类和训练依据。

Using Instance Map

个人认为是本文最 inspiring 的一点，先放对比图。

图胜千言，boundary map 一方面更加精细，也对边缘的处理上给出了看起来很理想的解决方案。具体的对比解释可以去文中寻找。

b map 的提取不难理解，主要是基于 semantic labels。

Learning an Instance-level Feature Embedding

这部分是基于前面提到的 instance level 信息，做一个精细化的 embedding。在 generator 的输入中，除了 ori img，boundary map 之外，还有 low-dimensional feature。

为了生成这些 low-dim feature，作者又设计了一个标准的 encoder-decoder 来生成。在这个 encoder 训练好之后，还用生成的特征做了一个聚类，从而可以控制生成图片的 style。

论文链接

https://www.paperweekly.site/papers/1278

代码链接

https://github.com/NVIDIA/pix2pixHD

笔记链接

https://zhuanlan.zhihu.com/p/35955531

Feature Space Transfer for Data Augmentation

#Data Augmentation

CVPR 2018 Oral，简言之，就是用 GAN 生成新数据。

结构没太多新意，也不会很难理解，就是在 appearance 和 pose 上分离。

在网络设计上，作者提到了三点：

1. 为了避免网络只是单纯的 match feature pairs，如上图所示，只是学习 the residual；

▲ 即source和target的feature vector的差

2. appearance 和 pose 分开训练，pose 的学习便可以全监督训练学习；

3. appearance 和 pose 分开训练，能够使对这两个属性的学习上更加 balance。

论文链接

https://www.paperweekly.site/papers/1878

笔记链接

https://zhuanlan.zhihu.com/p/35956505

StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation

#GAN

CVPR 2018 Oral，首先要解释一下 domain 的定义：

这里的 domain 是指针对数据集中的 attribute，根据 attribute 来划分的，比如就性别这个 attri 而言，男是一个 domain，女是一个，相对于发色而言，金发是一个 domain，黑发是一个 domain。

随后作者提出，如果要 cross domain 来训练 GAN，太麻烦了，n 个 domain 需要 n(n-1) 个 translator，作者在本文提出了一个可以解决 multiple domain translation 的 translator。

▲ 整个网络结构，下面文字讲得很清楚了

Adversarial Loss：这部分设计无太多新意。

Domain Classification Loss：简言之，分成了两个部分，第一个部分负责在 D 讲 real img classify 到正确 domain label，第二个部分，则是负责激励 G 将 fake img 向 target domain label 靠近。

Reconstruction Loss：简言之，就是 cycleGAN 采用的那种 loss，具体请参见 cycleGAN，是为了保证 cross-domain 过程中只更改我们想要更改的部分。

论文链接

https://www.paperweekly.site/papers/1227

代码链接

https://github.com/yunjey/StarGAN

笔记链接

https://zhuanlan.zhihu.com/p/35967629

Discriminative Learning of Latent Features for Zero-Shot Recognition

#Zero-Shot Learning

CVPR 2018 Oral，Zero-Shot Learning 就是寻求将学习到的特征映射到另一个空间中，从而 map 到 seen 及 unseen 的属性或者 label 上。

这篇文章的主要亮点在于学习了已定义label的同时，学习了latent attribute（隐含属性）。

已有方案的 drawbacks：

1. 在映射前，应当抽取 image 的 feature，传统的用 pretrain model 等仍不是针对 zero-shot learning (ZSL) 特定抽取特征的最优解；

2. 现有的都是学习 user-defined attribute，而忽略了 latent representation；

3. low-level 信息和的空间是分离训练的，没有大一统的 framework。

本文便是对应着解决了以上问题。

Notation：

FNet：抽取 img 的 feature；

ZNet：定位最 discriminative 的区域并将其放大；

ENet：将 img feature 映射到另一个空间。

下面我们先介绍各个子网络：

FNet (The Image Feature Network)

这部分直接借用了已有的 VGG19、GoogleNet，不细讲。

ZNet (The Zoom Network)

这里的目的是定位到能够增强我们提取的特征的辨识度的r egion，这个 region 同时也要与某一个我们已经定义好了的 attribute 对应。

ZNet 的输入是 FNet 最后一个卷积层的输出。在这里运用某个已有的激活函数方法，将我们定位好了的 region 提取出来，即将 crop 操作在网络中直接实现。

然后，将 ZNet 的输出与 original img 做 element-wise 的乘法，最后，将 region zoom 到与 original img 相同的尺寸。

如图，再讲该输出输入到另一个 FNet（第一个 Fnet 的 copy）。

ENet (The Embedding Network)

这里作者提出了一个 score 用于衡量 img feature 和 attribute space 的相似性（兼容性）。

ENeT 将 img feature 映射到 2k dim 的空间中，1k 是对应于已经定义了的 label，并用 softmax loss。另 1k 则是对应潜藏属性，为了使这些特征 discriminative，作者使用了 triplet loss。

论文链接

https://www.paperweekly.site/papers/1879

笔记链接

https://zhuanlan.zhihu.com/p/36030705

Relation Networks for Object Detection

#Object Detection

CVPR 2018 Oral，本文设计了一个考虑 relation 的 module，来增强 object detection 的性能。

对于每一个 object，都将其余所有 object 的 appearance 和坐标纳入考虑，增加在已有的 feature 上。

文中以倒推的方式给出表达，首先是最终表达（n-th Object 的 relation feature）：

▲ fA的上标m是指第m个

▲ 式子左边的值是其余objects对这个Object的影响

▲ 本式的更具体解释清翻看论文

再一点就是 fG 的处理：

这里有两步，首先将两个物体的 fG 映射到高维表示，即 εG。

第二步则是将该特征用 wG 映射到 scalar weight，max 的使用起到了类似 RELU 的作用，对几何关系表示的权重做了一个限制。

再一个就是为了保证几何特征在变换中的不变性（invariant to translation and scale transformations），做了如下变换：

再将上图特征做了一个映射，映射过程未做过多解释，只是做了一个引用。该文与其他类似方法最大的区别便是将几何信息纳入考虑。

最终的表示不难理解：

就是将某一物体原有的 appearance feature 和其余所有 Object 与该物体的 realation feature 加起来，为了保证维度一直，在 relation feature 生成时就已经将 feature 维度压缩，从而 concat 之后的 relation feature 与 fA 对应。

随后给出了证明，该 module 输入输出维度一致。

总得来说，这篇笔记还不够透彻，后面会更新更补充，核心思想就是将文中引用的 scaled dot product attention 做了一个应用。

论文链接

https://www.paperweekly.site/papers/1880

笔记链接

https://zhuanlan.zhihu.com/p/36033824

Semi-parametric Image Synthesis

#Image Synthesis

CVPR 2018 Oral，来自 CUHK，这里设计的模型以 semantic layout 输入，输出真实的相片般的图片。

▲ 最上面一排是输入，下面是输出

模型的训练基于是由 layout 和 color img 组成的 pair，用这样的 pair 生成 memory bank。

Notation：我们用 M 表示 memory bank。

test 的时候，对于一个 semantic label map，我们的模型将其 segment，并从 M 中基于形状等信息找到对应的component。match 的块的填充将要被填充到一个 canvas 上，由一个网络完成；为了预防重叠，设计了另一个网络来设计填充的顺序。

canvas 和 input layout 作为 synthesis network 的输入，生成最终的输出。

M 的表示

所谓的 memo bank 就是 segments 的一个 bank，基于 semantic label map 生成。

每一个 segment 定义了三个属性，颜色，binary mask，semantic map（该 segment 周围的 context，并在一个 bounding box 范围内）。

Retrieval

对于一个新的 semantic layout，对于每一个 segment，计算出上面提到的三个属性，基于下面的 score 计算方法，从 M 选出最 match 的块：

▲ 两个iou分别衡量的是segment本身shape，该segment周围context

Transformation

在本阶段，通过旋转，放缩等变换，将选取的 segment 变得更加 match。

▲ objective

test 的时候 segment 之间不是完美契合的，所以训练的时候我们的训练数据也应当是不完全契合的，故直接用 mask 来做 map 是不行的，这里作者用 random affine transformation。

Canvas

这一阶段则是将 transform 后的 segment 放到一个 canvas 上，为了解决重叠问题，设计了一个 ordering network，这里的思路挺让人耳目一新的，为了训练这样一个网络，使用了深度信息，对于没有深度信息的数据集，则是使用预测 depth 信息的网络生成。

Image Synthesis

The image synthesis network f takes as input the semantic layout L, the canvas C, the target semantic layout and a binary mask that indicates missing pixels in the canvas.

论文链接

https://www.paperweekly.site/papers/1881

笔记链接

https://zhuanlan.zhihu.com/p/36073450

Synthesizing Images of Humans in Unseen Poses

#Action Recognition

CVPR 2018 Oral，Pose 合成。

网络的输入是 original img，original pose，target pose，并预设 original img 和 target img 背景一样，人是同一个。首先前后景分离，然后针对前景（即人），针对身体的不同部分做细致的 segment。

Pose Representation

人身体的 pose 用 14 个 dots 表示，在 dots 处还加入了高斯噪声，有利于 regularization，且有利于网络更快学习到这个特征。

Source Image Segmentation

分前后景，前景又对应着已经定义好了的身体部分（10 个）。采用 u-net，输入是 original img 和 pose 的 concat，输出是各个部分的 mask。

Foreground Spatial Transformation

这一过程则是将分割后的 segment 和 target pose 一一对应起来，并作相应的旋转，放缩等。

Foreground Synthesis

前一阶段我们已经根据 target pose 将各个 segment 位置变换好了，简言之，就是把人的是个部分拆开来，然后根据目标姿势重新组合，这一步则是将其彻底的合成，使其具备和真实照片一眼的一致性。

也是用的 u-net，输入为 target pose 和已经 segments，输出时 foreground 和 target mask。

Background Synthesis

这部分则是处理新的 target 之间的孔洞，无新意。

Loss Function

两部分组成 VGG LOSS：将 VGG19 的前 16 层的输出 concat 并计算 L1 距离。传统的 GAN loss。

论文链接

https://www.paperweekly.site/papers/1882

笔记链接

https://zhuanlan.zhihu.com/p/36076119

转载于:https://www.cnblogs.com/noahzhixiao/p/10142444.html

你可能感兴趣的:(CVPR2018 精彩论文合集)

DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
2022现在哪个打车软件比较好用又便宜实惠的打车软件合集高省APP珊珊
这是一个信息高速传播的社会。信息可以通过手机，微信，自媒体，抖音等方式进行传播。但同时这也是一个交通四通发达的社会。高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码777777，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
女儿考研完报考雅思捡拾流年
是否我过于焦虑？会不会无形间让女儿觉得压力太大了啊。2022年对于我们家来说是不平常的一年。女儿今年大四，为了准备考研，暑假也没回家，年初去了学校到了年末才回家。女儿自己一个人面对考研，没有参加培训，大四学校作业论文等课业也多，她同时也是很努力复习考研的。在疫情开放很多羊的时期，女儿终于顺顺利利参加12月24、25号的考研，我们和家人都觉得女儿回家来要好好休息调养。可女儿回到家，我再查阅考研信息，
《前夫如龙》王昊江琼（独家小说）精彩TXT阅读海边书楼
《前夫如龙》王昊江琼（独家小说）精彩TXT阅读主角：王昊江琼简介：离婚那天，她视他如泥土。谁曾想，消息一出，天下震动！可关注微信公众号【风车文楼】去回个书号【203】，即可免费阅读【前夫如龙】全文！江芸并未听出华少龙声音里的冷漠，依旧一脸笑容道：“是啊，那个废物哪儿配得上我姐？这些年，我姐对他仁至义尽了。以后，华少爷可以多跟我姐接触接触，只有华少爷这样的人，才配得上我姐啊！”江琼低着头，微微有些娇
❤学习《家庭教育指导师》第三天分享❤ 温暖富足女神
时光飞逝，转眼来到了第3天的学习，今天上午的领导讲话与故事分享时间虽然有点长，但却带给大家很大的启发：亲人的离世，让我们更加珍惜身边的眼前人;导师们的心历路程让我们感动、敬佩与深受启发！每个人的生命都是独一无二的，每个人的生命都那么的珍贵与精彩！每个人的生命又那么的不容易与耐抗挫折！每个人来到这个人世间，都会有它的使命感，当强大的内心力量被唤醒时，他将无所不能！慧萍老师带我们体验的“一分钟击掌”与
python批量读取tiff文件_Python Pillow批量转换tif格式到jpg weixin_39557797
最近因为想要整下网站的壁纸，从网站下载了别人整理好的合集压缩包，解压之后，却发现里面的文件都是tif的，tif格式网站和电脑都不认的，根本不能作壁纸。这时候，就需要转换图片格式了，首先我找了几款转换格式的软件，发现效果都不好，要不是不支持tif格式，要不就是转换出来的图片糊的不行。最终，还是决定用Python的Pillow库来写一个脚本，完成这个任务。下面是整个的小脚本----importosim
黄景瑜工作人员怒怼营销号！肖战事件就是他的前车之鉴板凳吃瓜小分队
无论社会怎样浮躁，我们自己也不可以浮躁。战胜浮躁的关键是明白自己真正的需要，保持一颗平常心，不要盲目攀比，不要羡慕别人，更不要唯利是图。一辈子很短，我们不能总是望着别人的精彩，羡慕着别人的人生，而忘记了经营自己生活，要知道，通过努力，你也能成为让人仰望的明星。如今，随着娱乐产业越来越成熟，每年的新星也是扎堆冒出。在我看来，与前几年不同的是，如今的新生代质量明显好过从前。“更专业了，更有礼貌了”也是
5月23日能量阅读打卡 free森
当我走在人生路上的时候，我只能往前因为身后是飞逝的光阴。如果我因为过去与未来而瞻前顾后我的道路与生命进程就会停下来我的生命就会成为恐惧的俘虏所以我不应该因为过去与未来而驻足即便我的道路上充满了坎坷，即便我的道路上充满了考验，可是坎坷与考验都不能成为我停下的理由！我要跟坎坷说对不起，我爱你！我要跟考验说请原谅，谢谢你！我要在人生路上勇往直前，面对坎坷与重重生命的考验，我要毅然高歌猛进去追求精彩的人生
买书与美好同行
今天真是痛快，连收三个快递，十本书。周三时，薛老师讲课说让准备大字注音版的《左传》，因为《史记》的读书纵轴上开始串上《左传》这一横轴了。《史记》已经读到了《秦本纪》，里面有关晋文公部分，老师说结合《左传》里面的相关具体内容读更精彩更明白，于是大家纷纷移步淘宝或者拼多多，寻找大字注音版《左传》。两个网上都有，且都在搞活动，于是找好了果断下单。去年在群里和大家一块儿买《史记》时，已经同时买了中华书局三
《错嫁傻王：王妃她又黑化了》南君宥乔洛染（独家小说）精彩TXT阅读海边书楼
《错嫁傻王：王妃她又黑化了》南君宥乔洛染（独家小说）精彩TXT阅读主角：南君宥乔洛染简介：堂堂21世纪金牌特种兵乔洛染，穿来的第一天，就被人诬陷私通被逼投江。而前来解救她的，正是她的夫婿——智力受损的痴傻王爷南君宥。傻子娶了一个不贞女，全京城都在等着看他们的笑话。殊不知，乔洛染一手医术济天下，一手制毒退万敌。关注微信公众号【花车文学】去回个书號【36】，即可阅读【错嫁傻王：王妃她又黑化了】小说全文
寓美于心琴韵无声
今天是“语文湿地2021网络年会”第一天。年会早上七点在尹东老师和王君老师的激情开幕致辞中开始。一天下来听了八节课，真是“八仙过海，各显神通。”精彩纷呈。愚笨如我，真的是找不出一个恰切的词来形容她们的美妙绝伦。今天一口气吃下了饕餮盛宴，留待日后慢慢反刍吧。今天的压轴大戏是王君老师的《若爱，深深爱；若写，深情写》——跟《土地的誓言》学意象铺排”艺术。又加上是最后一节听的，印象最为深刻。凭着印象先略记
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
自动写论文的网站推荐这5款实用类工具小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款实用类工具推荐，特别是千笔-AIPassPaper。1.千笔-AIPassPaper千笔-AIPassPaper是一款功能强大且全面的AI论文写作助手，用户只需输入基本的研究需求和关键词，便能迅速生成一篇完整的论文。该工具利用先进的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
4款毕业论文参考文献格式生成器（附加详细步骤）小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在撰写毕业论文时，参考文献的格式规范是至关重要的。为了帮助学生和学者们更高效地生成符合要求的参考文献格式，本文将详细介绍四款推荐的参考文献格式生成器，并提供详细的使用步骤。1.千笔-AIPassPaper千笔-AIPassPaper是一款先进的AI辅助论文写作工具，不仅能够自动生成大纲、开题报告，还能一键生成参考文献。AI论文，免费大纲，10分钟3万字https://www.aipaperpass
AI论文写作推荐哪个好？分享5款AI论文写作带数据图表网站小猪包333 写论文人工智能深度学习计算机视觉
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款推荐的AI论文写作工具，包括千笔-AIPassPaper。千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文写作助手，旨在帮助用户快速生成高质量的论文内容。AI论文，免费大纲，10分钟3万字https:
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
四个男人的坦言：让男人念念不忘的女人，很爱“惹麻烦” 霜粉
或许，在许多女人看来，令男人恋恋不忘的，一定是那个令他情窦初开的女人，抑或是那个他爱而不得的人，甚至有可能是那个当初和他在一起时，对他百般温柔和眷恋的女人。其实，很多时候，令男人恋恋不忘的，都并不是这几种女人。自然，这几种女人可能带给了男人独特的感受，给他的人生旅途间带来了片刻的精彩。可是，这却未必就是他日后难以忘怀的女人。那些让男人念念不忘的女人，她不一定青春年少，也不一定美丽动人，但她一定是在
酒店床装车出货臧冰
一百多套的酒店床、圆床，床垫终于出货了，可惜还没装完，明天将继续出货，辛苦了各位小伙伴们！图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App我是两个孩子的宝妈，经营着一间软体家具厂，“伊力威斯”是我们的品牌。这是我的第178篇原创日记。栽一棵树最好的时间是十年前跟今天，写日记亦是如此，抓住今天，我们将收获更精彩的人生！
毕业论文附录一般都写什么?大学生写论文是干嘛用的写个原创论文人工智能深度学习 AI写作 chatgpt 论文阅读
毕业论文的附录通常包含一些在正文中不便于展示或详细阐述的内容，但对理解论文整体又具有重要意义的资料。具体来说，附录可能包含以下内容：AI论文，免费大纲，10分钟3万字，查重高于15%退费，支持数据图表！！AIPaperPass-AI论文写作指导平台AIPaperPass是AI原创论文写作平台，免费千字大纲，5分钟生成3万字初稿，提供答辩汇报ppt、开题报告、任务书等，40篇真实中英文知网参考文献，
每日OJ_牛客_马戏团（模拟最长上升子序列） GR鲸鱼 c++算法开发语言牛客数据结构
目录牛客_马戏团（模拟最长上升子序列）解析代码牛客_马戏团（模拟最长上升子序列）马戏团__牛客网搜狐员工小王最近利用假期在外地旅游，在某个小镇碰到一个马戏团表演，精彩的表演结束后发现团长正和大伙在帐篷前激烈讨论，小王打听了下了解到，马戏团正打算出一个新节目“最高罗汉塔”，即马戏团员叠罗汉表演。考虑到安全因素，要求叠罗汉过程中，站在某个人肩上的人应该既比自己矮又比自己瘦，或相等。团长想要本次节目中的
【加密算法基础——RSA 加密】 XWWW668899 网络服务器笔记 python
RSA加密RSA（Rivest-Shamir-Adleman）加密是非对称加密，一种广泛使用的公钥加密算法，主要用于安全数据传输。公钥用于加密，私钥用于解密。RSA加密算法的名称来源于其三位发明者的姓氏：R:RonRivestS:AdiShamirA:LeonardAdleman这三位计算机科学家在1977年共同提出了这一算法，并发表了相关论文。他们的工作为公钥加密的基础奠定了重要基础，使得安全通
因为付出，所以精彩江南雨1
新年第一天，我哪里都没有去。就在家里读书写字，想一想我的人生很平淡：童年是不懂忧虑的。小时候在家里，有父母长辈的疼爱。六岁上的学，那年祖父过世了。祖母继续疼着我，天天给我讲故事，在物质匮乏的年代还能给我做骨头粥、蒸鸡蛋之类的美食。父母虽然贫困，但是只要我需要的学习资料都会给我买，我是1981年开始读小学一年级，小学四五年级的时候父亲就给我订阅了《中国少年报》。家里有不少果树，每年都有梨子、龙眼、番
程序员架构师主要是做什么_程序员架构师：职责、技能与挑战绿色小猪
免费备考资料（2024年11月软考）：历年试题+视频课合集+电子讲义点击领取>>>免费刷题：2024年11月软考备考刷题点此进入>>>程序员架构师的角色定位在软件开发领域，程序员架构师是一个至关重要的角色。他们不仅需要深入理解业务需求，还要将其转化为技术上的解决方案。程序员架构师是项目中的技术领航者，负责制定和维护软件系统的整体架构，确保系统的可扩展性、可维护性和性能。他们的工作涉及从概念化到实现
《拖延心理学》（一）你为什么会拖延？|木盒笔记纯se蓝调
《拖延心理学》是帮助你向拖延症宣战的一本书，作者简·博克和莱诺拉·袁是全球知名的拖延症治疗专家。大概每个人或多或少总会有一点拖延症的行为。比如明天要叫论文了，今天你还没有写好，你一边在焦虑症怎么办，一边又拿着手机漫无目的的刷新闻；比如你想了很久准备减肥，但是迟迟又没有行动，想着今天晚上少吃一点吧、明天我就开始运动。今天分析的笔记来告诉你“你为什么会拖延？”，解读人杨坚。有人说拖延就像巨大的泥沼，让
2024年华为杯数学建模研赛C题思路代码+论文助攻 DS数模 2024华为杯数学建模华为 2024华为杯 2024研究生数学建模 2024研赛
2024年华为杯研究生数学建模竞赛（以下简研赛）将于9月21日上午8时正式开始。下文包含：2024研赛思路解析、研赛参赛时间及规则信息说明、好用的数模技巧及如何备战数学建模竞赛C君将会第一时间发布选题建议、所有题目的思路解析、相关代码、参考文献、参考论文等多项资料，帮助大家取得好成绩。2024年研赛将于9月21日上午8时正式开始这里有些资料，大家可以看看：【2024最全国赛研赛数模资料包】C君珍贵
《乖，摸摸头》精彩桥段摘要第二說
职业是职业，事业是事业，没必要把职业升迁和事业成就混为一谈，也没必要把一份工作当唯一的轴心，别把工作和生活硬搞成对立面，兼顾温饱没有错，可一辈子被一份工作拴死，那也太无趣了。——《大冰.乖，摸摸头》精彩桥段摘要
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
冬奥会开幕式快乐小鱼儿_9911
今天观看了冬奥会开幕式，立春，冬奥，元素的融合，精彩的设计。开幕式融合了太多的高科技，向世界展现了大国的风采。飘扬的雪花，美丽的舞蹈。雪的轻灵，花的妩媚，构成了美丽的圣火图。整个开幕式，大气，漂亮，鸟巢上方绚丽的烟花，点亮了夜空！开幕式结束了，带着我们的祝福，奥运健儿，再创佳绩。
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文