Paper_weekly

CVPR 2018值得一看的25篇论文，都在这里了 | 源码 & 解读

作者丨李光睿

学校丨重庆大学本科在读

研究方向丨计算机视觉

Unsupervised Person Image Synthesis in Arbitrary Poses

#Image Synthesis

CVPR 2018 Spotlight 论文，ReID + GAN 换 pose。

本文用了较多的篇幅讲 loss function，pose 的提取用的是 OpenPose 这个库。

其 loss 分为三部分：

1. Image Adversarial Loss：即传统 GAN 的 loss；

2. Pose Loss：pose 差异，生成后的图片再用 OpenPose 提取 pose 信息做差值；

3. Identity Loss：此为关键，又分为两部分，分别是 content 和 style loss，其中 content 用于保证生成图和原图在某 pretrain model 生成的 feature map 一致， style 则是利用 Gram matrix 生成某种 feature map，然后作比对。

论文链接

https://www.paperweekly.site/papers/1864

笔记链接

https://zhuanlan.zhihu.com/p/35626886

Person Transfer GAN to Bridge Domain Gap for Person Re-Identification

#Person ReID

CVPR 2018 RE-ID Spotlight 一篇，这篇文章主要 contribution 有以下两点：

1. 提出了一个新的更大的数据集，更为细致：考虑到了视角，光照等更为细致的因素，具体参数可以直接看文章；

2. 多个数据集间的差异，即 domain-gap，通过 GAN 来生成和模仿，类似文章：Camera Style Adaptation for Person Re-identification，个人认为创意是有的，可以作为 data augmentation 的一个方法，但实现难度上并没有很大。

论文链接

https://www.paperweekly.site/papers/1557

代码链接

https://github.com/JoinWei-PKU/PTGAN

数据集链接

http://www.pkuvmc.com/publications/msmt17.html

笔记链接

https://zhuanlan.zhihu.com/p/35626478

Disentangled Person Image Generation

#Image Generation

在 NIPS 2017 上，该团队已经为我们贡献了 Pose Guided Person Image Generation 这篇非常棒的文章，在 CVPR 2018 中，他们推出的更新的这篇文章不仅仅解决了换 pose 问题，还实现了”随心所欲“的换装换 pose，入选今年的 Spotlight。

在这里提到的前一篇文章可复现度很高，可以尝试。

该模型分为三个分支：

1. 运用 OpenPose 这个库，生成 pose 的 18 个 dots，并将这 concat 进 decoder 之前的 feature map 中；

2. 在经过卷积运算后的 feature map 上，运用 mask 将前后景分离，背景的 feature map 也是直接 concat 进最后的 feature map 中；

3. 核心是前景的处理上，用 7 个 ROI 进一步将前景解开，然后用公用的 encoder 生成前景的 feature map。

论文链接

https://www.paperweekly.site/papers/1865

笔记链接

https://zhuanlan.zhihu.com/p/35626735

Practical Block-wise Neural Network Architecture Generation

#Network Generation

CVPR 2018 Oral 一篇，本文主要提出了通过封装模块（block-wise）的方法，运用增强学习设计生成网络架构的方法。

封装模块思路：

作者本人对增强学习和动态规划理解有限，模块生成的总体思路是 Q-Learning 及动态规划，其中提到了运用 reward shaping 优化设计过程，当是本文亮点之一。

设计完网络后，生成对应任务的准确率，作为 q-value（即 reward），然后再次重新生成网络。

此外，文章还提到了部分 trick：

在 reward 中将复杂度和计算复杂度纳入；
early-stopping

论文链接

https://www.paperweekly.site/papers/1866

笔记链接

https://zhuanlan.zhihu.com/p/35639635

Deep Layer Aggregation

#Convolutional Neural Networks

CVPR 2018 Oral，topic：网络设计模块化。

如名所示，提出了 aggregation 的具体思路，并在层融合上提出了具体方式。

论文链接

https://www.paperweekly.site/papers/1867

笔记链接

https://zhuanlan.zhihu.com/p/35641068

Learning Face Age Progression: A Pyramid Architecture of GANs

#Face Age Progression

CVPR 2018 Oral，intro 和 related works 主要讲了现有方案大多将年龄信息优先而 identity 信息次之，换句话说，就是生成不同年龄的同时，identity 信息不能很好保留。

Generator 部分不做介绍，无亮点，本文亮点在 loss 部分。

文中提出了特征提取器用于提出特定特征，原因是作者认为相同年龄段的不同人脸有着相同的的纹理等特定信息，而这个提取器就是提取出这些特征。此外，该分类器是经过 age 分类任务预训练好了的。

文中和今年很多思路一样，考虑到了 low-level 和 high-level 信息，将第 2、4、7 等层信息 concat 起来，作为 d 的输入。

identity 信息的保留和上一个 extractor 类似，在人脸分类数据集上预训练，然后拿来直接当 extractor。

论文链接

https://www.paperweekly.site/papers/1868

笔记链接

https://zhuanlan.zhihu.com/p/35661176

Convolutional Neural Networks with Alternately Updated Clique

#Convolutional Neural Network

北大团队提出的新的 block 设计，achieves the performance of the state of the art with less parameters.

block 内部更新的核心思路可以直接看这个公式，每一层更新时的输入是比他低的层的更新后的输出加上比他高的层更新前的输出。

由于 block 内任意两层互连，故实现了 top-bottom refinement，也就实现了 attention 机制。

还提到了部分 technique：

1. channel-wise attention mechanism

2. Bottleneck and compression

论文链接

https://www.paperweekly.site/papers/1713

代码链接

https://github.com/iboing/CliqueNet

笔记链接

https://zhuanlan.zhihu.com/p/35661397

Unsupervised Discovery of Object Landmarks as Structural Representations

#Object Detection

CVPR 2018 Oral，今年 CVPR Landmark 和 Attention 这两个词出现的频率很高。

Landmark Detector

本文采用的是名为 hourglass 的网络构架，以图片作为输出，该网络输出 k+1 个 channel，含有 k 个 landmark 和背景。对不同 landmark 用 softmax 生成 confidence。

在如图公式中，Dk(u,v) 意思是第 k channel 中坐标为 (u,v) 的值，Dk 是 weight map，与对应坐标相乘，再除以总的权重和坐标乘积的和，从而生成该 channel 的 landmark 的 normalized 坐标。

Soft Constrain

为了保证我们生成的诸 landmark 及其坐标是表达的我们想要的 landmark 而非其他 latent repre，文章提出了几个 soft constrain：

1. Concentration Constrain：

计算两个坐标轴上坐标的方差，设计如图示 loss 是为了使方差尽可能小。

这里做了一个近似，使之转换成了 Gau dis，更低的熵值意味着 peak 处更多的分布，换句话说，就是使 landmark 尽可能地突出出来。

2. Separation Constrain：

由于刚刚开始训练时候的输入时纯 random distribution，故可能导致提取出的 landmark 聚集在中心，可能会导致 separation 效果不好，因此而落入 local optima，故设计了该 loss。

这个 loss 也不难理解，将不同 channel 间的坐标做差值，使得不同 landmark 尽可能不重叠。

3. Equivariance Constrain

这个比较好理解，就是某一个 landmark 在另一个 image 中变换坐标时应该仍能够很好地定位，在这里，作者介绍了他们实现 landmark 变换坐标的几个trick。

4. Cross-object Correspondence

本文模型认为不能保证同一 object 在不同情况检测时绝对的 correspondence，文章认为这应该主要依赖于该特定 pattern 能够在网络生成的激活值展现一定的共性。

Local Latent Descriptors

这个 des 的目的是解决一个 delimma：除了我们定义的 landmark，可能还有一些 latent representation，要复原一个 image，仅仅 landmarks 是绝对不够的，所以需要一些其他的信息作为一个补充，但表达他们又有可能影响 landmark 的表达。

在这里，文章又用了另一个 hourglass network，如图中左下角的 F，就在我们之前提到的 concentration costrain 中，用一个高斯分布来将该 channel 对应的 landmark 突出出来。

在这里，文章将他当做 soft mask 来用，用 mask 提取后再用一个 linear operator 来讲这些 feature map 映射到一个更低维的空间，至此，local latent descriptor 就被生成了。

Landmark-based Decoder

第一步，Raw score map.

第二步，normalize.

第三步，生成最终图像。

在这里，wk 是 landmark-specific operator。

简言之，Dk 是我们提出的 landmark 位置信息，fk 是对应 landmark 的 descriptor。

这里又提到了一个 dilemma：在用 mask 的时候，越多的 pixel 被纳入是最理想的，但纳入太多又使得边缘的锐利不能体现，因为该文用了多个不同的超参数来尝试。

论文链接

https://www.paperweekly.site/papers/1869

笔记链接

https://zhuanlan.zhihu.com/p/35693735

An Analysis of Scale Invariance in Object Detection - SNIP

#Object Detection

CVPR 2018 Oral，如下图，文章主要解决网络处理不同 scale 图片的网络策略。

▲ 读图中配字，理解文章针对的问题

▲ 图2

▲ 图3

如上面两个图示，三种网络的训练方式和效果一目了然。

结论是：当我们要检测小的物体时，在输入是大的 scale 的网络上预训练、在高分辨率作为输入的网络上预训练、在upsample后的图片作为输入的网路上预训练，对检测小物体有益。

第 4 部分讲了用了 DeformableRFCN 模型，第 5 部分主要讨论了在不同分辨率下训练，在同样的高分辨率 test 的结果及其分析：

1. 在中分辨率下训练的模型比在高分辨率下训练的模型效果差，原因很简单，因为后者训练测试的分辨率相同，但并没有拉开很大的差距，为什么呢？因为中高 scale 的 object 被变得太大以致不能被检测到；

2. 作者随后在高分辨率下训练了只针对 80pixel 下 Object 检测的模型，但结果比在中分辨率下的效果差了很多，为什么呢？因为忽视中高 scale 的 Object 对训练影响非常大；

3. 作者又用多分辨率训练模型（MST），但仍因为过小或过大的 Object 影响，效果仍不理想。

Scale Normalization for Image Pyramids

第 6 部分，作者提出了最终的模型。该模型的输入分辨率最低 480*800，最高 1400*2000，对于训练中过大或者过小 scale 的 Object，模型选择直接忽略，训练只针对在 scale 的一个范围内的 Object。

后面就是训练细节和 trick，详情可以翻看论文。

论文链接

https://www.paperweekly.site/papers/1870

笔记链接

https://zhuanlan.zhihu.com/p/35697040

Wasserstein Introspective Neural Networks

#Introspective Neural Networks

CVPR 2018 Oral，同时也是目前为止个人印象最深刻的一篇文章。

文章主要做的事情就是提出了基于 Wasserstein 的 INN，该组已经在 ICCV，NIPS 等多次提出并改进该模型，该模型主要做的就是将 GAN 中的 G 和 D 结合起来。

文章最开始给了一下最基本的 notation，然后介绍了如何将 INN 与 Wasserstein 结合起来并给出了必要的数学证明。

▲ 算法

上图为分类过程 loss 的设计，图中两个公式，前者是目标函数，很容易理解，后者则是正则项，正则项是以随机的 a 来生成真数据（x+）与生成的假数据（x-）的 mixture。

合成部分

合成部分的公式中，简言之，就是以生成图与原图的相似度作为衡量标准。

图中引用的 21，29 是作者的前面两篇文章，分别是 NIPS 2017 和 ICCV 2017，作者在这篇文章中并未给出任何证明，后期本人应该会补上这两篇的笔记。

论文链接

https://www.paperweekly.site/papers/1871

代码链接

https://github.com/kjunelee/WINN

笔记链接

https://zhuanlan.zhihu.com/p/35699851

Im2Flow: Motion Hallucination from Static Images for Action Recognition

#Action Recognition

CVPR 2018 Oral，本文思路很清晰且已读，具体细节可以看文章，这里仅仅把总体思路讲一下。

用 u-net 训练一个模型：输入是一个静态的帧，输出的预测的五帧光流信息，模型在 YouTube 数据集上训练。

该模型 loss 分两部分，一部分是将生成的五帧光流信息与 YouTube 数据集的 groundtruch 对比，另一部分是将生成的光流信息与真实的光流信息送进某网络（在 ucf101 上预训练过的 resent）计算欧式距离；前者是要求准确，后者是为了更好保留 high-level 的动作信息。

最终将 rgb 和预测的光流作为标准 two-stream 模型的输入进行预测。

论文链接

https://www.paperweekly.site/papers/1872

笔记链接

https://zhuanlan.zhihu.com/p/35702085

What have we learned from deep representations for action recognition?

#Deep Spatiotemporal Representations

CVPR 2018 Zisserman 的新论文，这篇文章就是 two-stream 模型中间层的可视化方法，换句话说，就是探寻 two-stream 模型学到了怎样的时空信息。

生成总共分为两个步骤，详情如上图：计算出输入的偏导，将计算出来的梯度用学习率 scale 并加到当前输入上。

Activation Maximization

本文还提到了两个正则方法：

1. 防止过大的值

2. 限制低频信息

论文链接

https://www.paperweekly.site/papers/1873

笔记链接

https://zhuanlan.zhihu.com/p/35703892

Squeeze-and-Excitation Networks

#Neural Networks

今年的 Oral，令人印象深刻的一篇文章，网上解读很多，相当于在 channels 上加了一个 attention 机制，给不同的 channel 不同的权重。

这篇文章行文思路清晰，哪怕学习写论文也要看一看。

Squeeze

简言之就是全局平均池化，是因为低层的感受野太小导致效果差。

Excitation

这个环节主要是搞清 channels 之间的关系及重要性。这里作者提出了两个要求：

1. 灵活，作者解释：能够学习 channels 间非线性的关系；

2. 必须学习一个非互斥关系，因为设计的 block 是为了强调多个 channels 而非一个。

这里设计了两个全连接层，一个降维，一个升回原来的维度。对于降维再升维，作者给出的解释是为了降低计算复杂度和协助泛化。

论文链接

https://www.paperweekly.site/papers/1725

代码链接

https://github.com/hujie-frank/SENet

笔记链接

https://zhuanlan.zhihu.com/p/35704334

Actor and Action Video Segmentation from a Sentence

#Video Object Segmentation

CVPR 2018 Oral，本文定义了一个新的任务：给出一个句子，根据该句子分割视频中的 actor 及其 action。

主要有三大部分：

1. Textual Encoder：使用 word2vec 的预训练模型，句子中的每个词被编码成 1x300 的 vector，一个句子则声称 nx300 的 matrix，通过 padding 使句子们 size 统一，网络构造详情见文章；

2. Video Encoder: encode the actor and its action. 网络构型采用 state of the art 的运用 3d filte r的 I3D model，后面又提到 follow 了 two stream 模型，未做很多解释，只说同时学习 RGB 和光流信息；

3. Decoding with dynamic filters：这里又提到了 dynamic conv filters，这是我第二次见到这个，感觉还是有必要读一下，若网上解读不多，会后期发出笔记。

为了保持同样的分辨率，使用了 deconv，deconv 的应用上有一些创新和 trick，详情请翻读论文。

模型的训练

训练时模型的输入：视频片段，sentence，segmentation mask。

▲ loss function

公式中的 r 表达的是不同的分辨率，作者解释是将多个分辨率纳入考虑，形成一种类似 skip-connnection 的效果。

论文链接

https://www.paperweekly.site/papers/1875

笔记链接

https://zhuanlan.zhihu.com/p/35718996

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

#Visual Question Answering

CVPR 2018 Oral，主题是 attention+VQA，这是笔者作者读的第一篇关于这个领域的问题，可能难免会有讲得不够透彻的地方，欢迎批评指正和讨论。

本文的主要思路是用 faster-rcnn 提取出 proposal，然后用其做 image captioning 或者 VQA，该方法取得了 2017 VQA Challenge 的第一名。

Bottom-Up Attention Model

简言之，该部分就是直接复用了 faster-rcnn，提取出超过特定阈值的区域，并提取出其平均池化特征。

Captioning Model

在这里作者提到，该文的 captioning 系统即便在没有基于 faster rcnn 的前提下，也有着相当好的体现，具体效果可以看 experiment 部分。

该部分作者未能讲得非常透彻，主要是对 NLP 理解相当有限，后面会更新这部分的讲解，这部分主要做的事情是用两层 lstm，以 faster rcnn 生成的 feature 和 sentence 做输入，生成对应 features 的 attention weights。

该部分由两层 LSTM 组成：

▲ h的右上标的12分别代表attention，language lstm的输出

1. 第一层 LSTM：top-down attention

在这里直接将 faster-rcnn 阶段生成的 region feature 称为 V，该层的输入时将：平均池化后的 v，上一时刻 language LSTM 的输出，之前生成的 words，concat 起来。

对于某一个时刻 attention lstm 的输出，生成一个 normalized attention weight，如下图：

2. 第二层 LSTM：language

该层将 faster-rcnn 阶段生成的 region feature 与 attention LSTM 的输出 concat 起来作为这一层的输入。

▲ 很容易理解，不做解释

3. Objectives

该部分作者只是引用并复用了已有方法。

VQA Model

先将问题用 GRU encode 成 the hidden state q，这个 q 又当做 top-down 系统的输入，即上面提到的两层 lstm，生成 attention weight。

论文链接

https://www.paperweekly.site/papers/754

代码链接

https://github.com/peteanderson80/bottom-up-attention

笔记链接

https://zhuanlan.zhihu.com/p/35778768

Embodied Question Answering

#Visual Question Answering

CVPR 2018 Schedule 上的第一篇 Oral，这篇文章主要定义了一个新的 task 并给出了一个数据集。

任务定义：将一个 agent 随机丢进一个房间，向他提出一个问题，这个 agent 需要自己导航并回答问题。

▲ 问题类型，大家可以大致理解下

数据集问题，场景的生成都是用已经存在的 method 生成的，详情可以翻阅论文。

这个 task 总体来说对于 agent 提出了四个要求：vision，language，navigation，question answering，文章还给出了各个部分的具体结构，很容易理解。

▲ 训练策略

论文链接

https://www.paperweekly.site/papers/1268

笔记链接

https://zhuanlan.zhihu.com/p/35791145

Taskonomy: Disentangling Task Transfer Learning

#Transfer Learning

CVPR 2018 Oral，本文定义了一个新的任务，针对在视觉内的迁移学习，并提出了一个蛮大的数据库，然后还有 Malik，Savarese 两位大牛挂名，感觉很值得关注。

定义的任务是这样的：vision task 类目很多，只针对某个问题来解决的话，会需要很大的标注的数据集，但我们不难想到的是，一个视觉任务的解决应该能够一定程度的解决另一个视觉任务，毕竟一个成熟模型的构建意味着对该 image 的一定的理解，而这部分的理解的一部分或许对另一个 task 有助益，例，物体 relation 的理解对深度信息的学习毫无疑问是有着助益的。

首先做一个 notation 说明：source task 是指我们已经有着足够标注数据集或者信息，能够解决的问题，target task 则是指待解决，希望通过前者的迁移学习来解决的问题。

有三个阶段：

Step I: Task-Specific Modeling

encoder-decoder 结构，不需过多解释。

Step II: Transfer Modeling

这里的 transfer function 就是一个 decoder，他的输入时多个 source task encoder 的 encoder 的输出。

这里作者提出了设计时应当考虑到的因素：

1. accessibility：首先，应该含有潜在的能够解决 target task 的信息，因此文章设计了一个小结构，用其基于小规模数据测试 accessibility；

2. higher-order transfers：多输入，过滤掉有着更低 contribution 的 representation 的 filter 策略；

3. transitive transfers

Step III: Ordinal Normalization using Analytic Hierarchy Process (AHP)

简言之，就是计算不同的 source 对一个 target task 的贡献度。

Step IV: Computing the Global Taxonomy

计算全局的一个 contribution graph。

论文链接

https://www.paperweekly.site/papers/1876

代码链接

https://github.com/StanfordVL/taskonomy

笔记链接

https://zhuanlan.zhihu.com/p/35833517

Detail-Preserving Pooling in Deep Networks

#Convolutional Neural Networks

CVPR 2018 Oral，顾名思义，提出了保留 detail 的池化方法。

max/avg pooling 一个只选取最大而忽略与周围像素的关联性，一个重视关联性却又直接抹平，并且在实际梯度计算中也有一些 drawback，所以该文提出了这个新方法，一句话概括，就是在池化过程中学了一个动态的 weight。

Notation：在此，我们以 I& 代替文章中出现的，ID 代指。

Detail-Preserving Image Downscaling

▲ I是原图，O是output，[]表示取对应坐标像素值

▲ 如图所示，ID是用近似高斯分布的filtersmooth后的图像

作者总结：DPID 计算的是 weighted average of the input，周围的像素中，越近或者 difference 越大的值能够给最终的 output 更高的 contribution。

以上这一部分是一个铺垫。

Detail-Preserving Pooling

作者这部分就是将上一部分提出的 downscale 思想转化成文章的 DPP（如 title）简言之，就是将上部分中的 L2 NORM 替换成一个可学习的 generic scalar reward function。

首先给出 weight 的表示：

▲ α和λ就是我们要学习的参数

这里用了 constrain 来保证两个参数为非负。

这里给出了两种 reward function：

▲ 这里为了简洁，将λ省略掉了

可以看到，相对而言，后者更倾向与给比中心像素高的像素更高权重，前者则是给差距大的更高权重。

后面，作者又补充了 I& 的生成：

论文链接

https://www.paperweekly.site/papers/1877

代码链接

https://github.com/visinf/dpp

笔记链接

https://zhuanlan.zhihu.com/p/35938826

High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

#Image Synthesis

CVPR 2018 Oral，本文解决了 GAN 生成高分辨率突破的问题，分辨率达到了 2048*1024，方法精细，值得深入来看。

先来看 Generator：

如图所示，中间部分的 G1 在低分辨率情况下训练，然后在前后又分别加上 G2，注意左边部分的 G2 的输出和 G1 的输出 concat 之后，作为右边 G2 的输入。

再来看 D：这里的 discriminator 是 multi-scale，有着三个针对不同尺寸的 D，三个尺寸分别是原尺寸，二分之一，四分之一。放缩尺寸的理由不难理解，receptive field 大小的问题。

▲ objective中，三个D都纳入考虑

Improved Adversarial Loss

一句话概括：在 D 的中间多个层抽取 feature map，作为分类和训练依据。

Using Instance Map

个人认为是本文最 inspiring 的一点，先放对比图。

图胜千言，boundary map 一方面更加精细，也对边缘的处理上给出了看起来很理想的解决方案。具体的对比解释可以去文中寻找。

b map 的提取不难理解，主要是基于 semantic labels。

Learning an Instance-level Feature Embedding

这部分是基于前面提到的 instance level 信息，做一个精细化的 embedding。在 generator 的输入中，除了 ori img，boundary map 之外，还有 low-dimensional feature。

为了生成这些 low-dim feature，作者又设计了一个标准的 encoder-decoder 来生成。在这个 encoder 训练好之后，还用生成的特征做了一个聚类，从而可以控制生成图片的 style。

论文链接

https://www.paperweekly.site/papers/1278

代码链接

https://github.com/NVIDIA/pix2pixHD

笔记链接

https://zhuanlan.zhihu.com/p/35955531

Feature Space Transfer for Data Augmentation

#Data Augmentation

CVPR 2018 Oral，简言之，就是用 GAN 生成新数据。

结构没太多新意，也不会很难理解，就是在 appearance 和 pose 上分离。

在网络设计上，作者提到了三点：

1. 为了避免网络只是单纯的 match feature pairs，如上图所示，只是学习 the residual；

▲ 即source和target的feature vector的差

2. appearance 和 pose 分开训练，pose 的学习便可以全监督训练学习；

3. appearance 和 pose 分开训练，能够使对这两个属性的学习上更加 balance。

论文链接

https://www.paperweekly.site/papers/1878

笔记链接

https://zhuanlan.zhihu.com/p/35956505

StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation

#GAN

CVPR 2018 Oral，首先要解释一下 domain 的定义：

这里的 domain 是指针对数据集中的 attribute，根据 attribute 来划分的，比如就性别这个 attri 而言，男是一个 domain，女是一个，相对于发色而言，金发是一个 domain，黑发是一个 domain。

随后作者提出，如果要 cross domain 来训练 GAN，太麻烦了，n 个 domain 需要 n(n-1) 个 translator，作者在本文提出了一个可以解决 multiple domain translation 的 translator。

▲ 整个网络结构，下面文字讲得很清楚了

Adversarial Loss：这部分设计无太多新意。

Domain Classification Loss：简言之，分成了两个部分，第一个部分负责在 D 讲 real img classify 到正确 domain label，第二个部分，则是负责激励 G 将 fake img 向 target domain label 靠近。

Reconstruction Loss：简言之，就是 cycleGAN 采用的那种 loss，具体请参见 cycleGAN，是为了保证 cross-domain 过程中只更改我们想要更改的部分。

论文链接

https://www.paperweekly.site/papers/1227

代码链接

https://github.com/yunjey/StarGAN

笔记链接

https://zhuanlan.zhihu.com/p/35967629

Discriminative Learning of Latent Features for Zero-Shot Recognition

#Zero-Shot Learning

CVPR 2018 Oral，Zero-Shot Learning 就是寻求将学习到的特征映射到另一个空间中，从而 map 到 seen 及 unseen 的属性或者 label 上。

这篇文章的主要亮点在于学习了已定义label的同时，学习了latent attribute（隐含属性）。

已有方案的 drawbacks：

1. 在映射前，应当抽取 image 的 feature，传统的用 pretrain model 等仍不是针对 zero-shot learning (ZSL) 特定抽取特征的最优解；

2. 现有的都是学习 user-defined attribute，而忽略了 latent representation；

3. low-level 信息和的空间是分离训练的，没有大一统的 framework。

本文便是对应着解决了以上问题。

Notation：

FNet：抽取 img 的 feature；

ZNet：定位最 discriminative 的区域并将其放大；

ENet：将 img feature 映射到另一个空间。

下面我们先介绍各个子网络：

FNet (The Image Feature Network)

这部分直接借用了已有的 VGG19、GoogleNet，不细讲。

ZNet (The Zoom Network)

这里的目的是定位到能够增强我们提取的特征的辨识度的r egion，这个 region 同时也要与某一个我们已经定义好了的 attribute 对应。

ZNet 的输入是 FNet 最后一个卷积层的输出。在这里运用某个已有的激活函数方法，将我们定位好了的 region 提取出来，即将 crop 操作在网络中直接实现。

然后，将 ZNet 的输出与 original img 做 element-wise 的乘法，最后，将 region zoom 到与 original img 相同的尺寸。

如图，再讲该输出输入到另一个 FNet（第一个 Fnet 的 copy）。

ENet (The Embedding Network)

这里作者提出了一个 score 用于衡量 img feature 和 attribute space 的相似性（兼容性）。

ENeT 将 img feature 映射到 2k dim 的空间中，1k 是对应于已经定义了的 label，并用 softmax loss。另 1k 则是对应潜藏属性，为了使这些特征 discriminative，作者使用了 triplet loss。

论文链接

https://www.paperweekly.site/papers/1879

笔记链接

https://zhuanlan.zhihu.com/p/36030705

Relation Networks for Object Detection

#Object Detection

CVPR 2018 Oral，本文设计了一个考虑 relation 的 module，来增强 object detection 的性能。

对于每一个 object，都将其余所有 object 的 appearance 和坐标纳入考虑，增加在已有的 feature 上。

文中以倒推的方式给出表达，首先是最终表达（n-th Object 的 relation feature）：

▲ fA的上标m是指第m个

▲ 式子左边的值是其余objects对这个Object的影响

▲ 本式的更具体解释清翻看论文

再一点就是 fG 的处理：

这里有两步，首先将两个物体的 fG 映射到高维表示，即 εG。

第二步则是将该特征用 wG 映射到 scalar weight，max 的使用起到了类似 RELU 的作用，对几何关系表示的权重做了一个限制。

再一个就是为了保证几何特征在变换中的不变性（invariant to translation and scale transformations），做了如下变换：

再将上图特征做了一个映射，映射过程未做过多解释，只是做了一个引用。该文与其他类似方法最大的区别便是将几何信息纳入考虑。

最终的表示不难理解：

就是将某一物体原有的 appearance feature 和其余所有 Object 与该物体的 realation feature 加起来，为了保证维度一直，在 relation feature 生成时就已经将 feature 维度压缩，从而 concat 之后的 relation feature 与 fA 对应。

随后给出了证明，该 module 输入输出维度一致。

总得来说，这篇笔记还不够透彻，后面会更新更补充，核心思想就是将文中引用的 scaled dot product attention 做了一个应用。

论文链接

https://www.paperweekly.site/papers/1880

笔记链接

https://zhuanlan.zhihu.com/p/36033824

Semi-parametric Image Synthesis

#Image Synthesis

CVPR 2018 Oral，来自 CUHK，这里设计的模型以 semantic layout 输入，输出真实的相片般的图片。

▲ 最上面一排是输入，下面是输出

模型的训练基于是由 layout 和 color img 组成的 pair，用这样的 pair 生成 memory bank。

Notation：我们用 M 表示 memory bank。

test 的时候，对于一个 semantic label map，我们的模型将其 segment，并从 M 中基于形状等信息找到对应的component。match 的块的填充将要被填充到一个 canvas 上，由一个网络完成；为了预防重叠，设计了另一个网络来设计填充的顺序。

canvas 和 input layout 作为 synthesis network 的输入，生成最终的输出。

M 的表示

所谓的 memo bank 就是 segments 的一个 bank，基于 semantic label map 生成。

每一个 segment 定义了三个属性，颜色，binary mask，semantic map（该 segment 周围的 context，并在一个 bounding box 范围内）。

Retrieval

对于一个新的 semantic layout，对于每一个 segment，计算出上面提到的三个属性，基于下面的 score 计算方法，从 M 选出最 match 的块：

▲ 两个iou分别衡量的是segment本身shape，该segment周围context

Transformation

在本阶段，通过旋转，放缩等变换，将选取的 segment 变得更加 match。

▲ objective

test 的时候 segment 之间不是完美契合的，所以训练的时候我们的训练数据也应当是不完全契合的，故直接用 mask 来做 map 是不行的，这里作者用 random affine transformation。

Canvas

这一阶段则是将 transform 后的 segment 放到一个 canvas 上，为了解决重叠问题，设计了一个 ordering network，这里的思路挺让人耳目一新的，为了训练这样一个网络，使用了深度信息，对于没有深度信息的数据集，则是使用预测 depth 信息的网络生成。

Image Synthesis

The image synthesis network f takes as input the semantic layout L, the canvas C, the target semantic layout and a binary mask that indicates missing pixels in the canvas.

论文链接

https://www.paperweekly.site/papers/1881

笔记链接

https://zhuanlan.zhihu.com/p/36073450

Synthesizing Images of Humans in Unseen Poses

#Action Recognition

CVPR 2018 Oral，Pose 合成。

网络的输入是 original img，original pose，target pose，并预设 original img 和 target img 背景一样，人是同一个。首先前后景分离，然后针对前景（即人），针对身体的不同部分做细致的 segment。

Pose Representation

人身体的 pose 用 14 个 dots 表示，在 dots 处还加入了高斯噪声，有利于 regularization，且有利于网络更快学习到这个特征。

Source Image Segmentation

分前后景，前景又对应着已经定义好了的身体部分（10 个）。采用 u-net，输入是 original img 和 pose 的 concat，输出是各个部分的 mask。

Foreground Spatial Transformation

这一过程则是将分割后的 segment 和 target pose 一一对应起来，并作相应的旋转，放缩等。

Foreground Synthesis

前一阶段我们已经根据 target pose 将各个 segment 位置变换好了，简言之，就是把人的是个部分拆开来，然后根据目标姿势重新组合，这一步则是将其彻底的合成，使其具备和真实照片一眼的一致性。

也是用的 u-net，输入为 target pose 和已经 segments，输出时 foreground 和 target mask。

Background Synthesis

这部分则是处理新的 target 之间的孔洞，无新意。

Loss Function

两部分组成 VGG LOSS：将 VGG19 的前 16 层的输出 concat 并计算 L1 距离。传统的 GAN loss。

论文链接

https://www.paperweekly.site/papers/1882

笔记链接

https://zhuanlan.zhihu.com/p/36076119

点击标题查看更多论文解读：

脑洞大开的机器视觉多领域学习模型结构
当前深度神经网络模型压缩和加速都有哪些方法？
新型RNN：将层内神经元相互独立以提高长程记忆
视觉跟踪之端到端的光流相关滤波
CycleGAN：图片风格，想换就换
基于GAN的字体风格迁移
基于置信度的知识图谱表示学习框架

▲ 戳我查看招聘详情

#岗位推荐#

平安人寿AI研发团队2018社会招聘、校园招聘全面启动！

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 访问作者知乎专栏

你可能感兴趣的:(CVPR 2018值得一看的25篇论文，都在这里了 | 源码 & 解读)

Mariadb-Server的二进制安装 linux土老帽 linux土老帽 mariadb linux centos
搭建环境：OS:centos7.6版本mariadb:mariadb-10.2.25-linux-x86_64.tar.gz#下载地址：DownloadMariaDBServer-MariaDB.org1.创建用户组useradd-r-s/sbin/nologin-d/data/mysqlmysql#创建用户-r系统账户-s指定shell/sbin/nologin-d指定家目录但是不创建原因是系统
【k近邻】 K-Nearest Neighbors算法原理及流程 F_D_Z 机器学习方法数理算法学习机器学习 k近邻算法 k-近邻算法
【k近邻】K-NearestNeighbors算法原理及流程【k近邻】K-NearestNeighbors算法距离度量选择与数据维度归一化【k近邻】K-NearestNeighbors算法k值的选择【k近邻】Kd树的构造与最近邻搜索算法【k近邻】Kd树构造与最近邻搜索示例k近邻算法（K-NearestNeighbors，简称KNN）是一种常用的监督学习算法，可以用于分类和回归问题。在OpenCV中
C++正则表达式语法 Coding小公仔 c/c++c++正则表达式开发语言
在C++中，正则表达式是处理文本模式匹配和字符串操作的强大工具。C++11及以后的标准库提供了头文件，支持正则表达式的使用。下面是C++正则表达式的核心语法规则和用法：一、基本正则表达式语法1.普通字符直接匹配自身，例如：a匹配字符a。2.元字符（需转义）具有特殊含义的字符，需用反斜杠\转义（在C++字符串中需用双反斜杠\\）。.：匹配除换行符外的任意字符。^：匹配字符串的开头。$：匹配字符串的结
MySql主从备份Slave 甚享享 mysql 数据库
Mysql主从备份可以在除主服务器外的其他服务器是部署从库，用于实时备份生产环境数据，核心是mysql的log-bin日志（二进制日志），主库开启bin日志后，从库通过日志同步(SlaveI/O)和回放(SlaveSQL)实现数据同步.因为设置主从备份时，需要指定主库lob-bin日志运行行数，所以之前的数据需要通过“数据同步”或者手动同步完成修改配置文件Linux:my.cnfWindows:m
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
高通手机跑AI系列之——姿态识别伊利丹~怒风 Qualcomm 智能手机人工智能 AI编程 python arm
环境准备手机测试手机型号：RedmiK60Pro处理器：第二代骁龙8移动--8gen2运行内存：8.0GB，LPDDR5X-8400，67.0GB/s摄像头：前置16MP+后置50MP+8MP+2MPAI算力：NPU48TopsINT8&&GPU1536ALUx2x680MHz=2.089TFLOPS提示：任意手机均可以，性能越好的手机速度越快软件APP：AidLux2.0系统环境：Ubuntu2
高通手机跑AI系列之——实时头发识别伊利丹~怒风 Qualcomm 智能手机 AI编程 python arm 人工智能
环境准备手机测试手机型号：RedmiK60Pro处理器：第二代骁龙8移动--8gen2运行内存：8.0GB，LPDDR5X-8400，67.0GB/s摄像头：前置16MP+后置50MP+8MP+2MPAI算力：NPU48TopsINT8&&GPU1536ALUx2x680MHz=2.089TFLOPS提示：任意手机均可以，性能越好的手机速度越快软件APP：AidLux2.0系统环境：Ubuntu2
高通手机跑AI系列之——手部姿势跟踪伊利丹~怒风 Qualcomm 智能手机 AI编程 python arm 人工智能
环境准备手机测试手机型号：RedmiK60Pro处理器：第二代骁龙8移动--8gen2运行内存：8.0GB，LPDDR5X-8400，67.0GB/s摄像头：前置16MP+后置50MP+8MP+2MPAI算力：NPU48TopsINT8&&GPU1536ALUx2x680MHz=2.089TFLOPS提示：任意手机均可以，性能越好的手机运行速度越快软件APP：AidLux2.0系统环境：Ubunt
mysql主从备份_mysql实现主从备份 Lucas HC mysql主从备份
mysql主从备份的原理:主服务器在做数据库操作的时候将所有的操作通过日志记录在binlog里面，有专门的文件存放。如localhost-bin.000003，这种，从服务器和主服务配置好关系后，通过I/O线程获取到这个binlog文件然后写入到从服务器的relaylog(中继日志)中，然后从服务器执行从服务器中的sql语句进行数据库的同步。实现：准备:两台服务器，mysql环境，可以是Windo
java spi 好处_Java SPI 实战 Gaven Wang java spi 好处
SPI全称为(ServiceProviderInterface)，是JDK内置的一种服务提供发现机制，可以轻松实现面向服务的注册与发现，完成服务提供与使用的解耦，并且可以实现动态加载SPI能做什么利用SPI机制，sdk的开发者可以为使用者提供扩展点，使用者无需修改源码，有点类似Spring@ConditionalOnMissingBean的意思动手实现一个SPI例如我们要正在开发一个sdk其中有一
【iOS越狱开发】iOS越狱步骤1之环境搭建 JR_Wang2491 MAC 移动苹果 ios ios iphone ipad
这段时间都是研究iOS越狱事情，如今我会一点一点的把自己学到的遇到的问题会陆续编写出来，让大家一起讨论，也让做逆向的朋友有个交流平台机会，废话不多说！！一、学习条件至少1~2年iOS开发经验基本UI界面操作多线程网络基本操作数据储存基本操作一台苹果手机，建议至少iPhone5S（因为从5S开始支持arm64架构）或者至少是iPadAir、iPadmini2等支持arm64架构的设备系统至少iOS8
Mysql 主从备份龙那个猫robot 数据库 mysql
英文好的可以直接去mysql官网查看https://dev.mysql.com/doc/refman/5.7/en/replication.html1环境准备我这里准备两套linux虚拟机，主mysql服务器,从mysql服务区ip192.168.1.30ip192.168.1.1001.1备份主mysql数据库1.2从数据库恢复主mysql数据库1.3配置主mysql服务器配置server-id
手机屏像素缺陷修复及相关液晶线路激光修复原理 syncon12 科技制造 3d
摘要手机屏像素缺陷严重影响显示效果，而液晶线路异常是导致像素缺陷的关键因素之一。激光修复技术凭借高精度与非接触特性，能够有效修复液晶线路，进而改善像素显示。本文分析手机屏像素缺陷类型，探究液晶线路激光修复原理、工艺及参数优化，为提升手机屏显示质量提供理论支撑。引言随着手机屏向高分辨率、高刷新率方向发展，像素密度不断提升，像素缺陷问题愈发凸显。液晶线路作为控制像素显示的核心结构，其断路、短路、信号传
使用 Docker 部署 MySQL 8
使用Docker部署MySQL8详细指南MySQL是一个广泛使用的开源关系型数据库管理系统。通过Docker部署MySQL8可以快速搭建一个可移植、可扩展的数据库环境。本文将详细介绍如何使用Docker部署MySQL8，并讲解如何根据需求配置MySQL。从拉取镜像开始的详细步骤1.拉取MySQL8镜像首先，从DockerHub拉取MySQL8的官方镜像。dockerpullmysql:8.0mys
让一个程序在后台运行 Hi_kenyon python linux 网络
PartI:如何让一个程序在后台运行，在关闭终端的时候，命令或者进行不会被中断在Linux上，如果你希望一个命令在后台持续运行，即使你关闭终端，它不会被终止，有几种常用的方法可以实现这个目的：方法一：使用nohupnohup（nohangup）命令可以让进程忽略挂起（HUP）信号，这样即使关闭终端也不会结束。nohupyour-command>output.log2>&1&your-command
数电·优先编码器 CD4532的使用方法 Hi_kenyon 单片机嵌入式硬件
如何使用CD4532编码器CD4532是一个8输入优先编码器的集成电路芯片。它有8个输入信号（D0至D7），3个输出信号（A0至A2），以及一个有效输出信号（EO），这个信号可以用来判断是否有输入信号为高电平。这个芯片的功能是将8个输入信号编码为一个3位的二进制数，其中D7具有最高的优先级。使用CD4532的步骤如下：连接电源：将Vdd（芯片的第16脚）连接到+5V电源，将Vss（芯片的第8脚）连
Markdown编辑器写文章方法 Joel Jin 笔记
Markdown编辑器欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导入导出导入欢迎使用Mar
Docker+Portainer 离线安装 qq_30024063 docker 容器运维
1.Docker安装步骤一：官网下载docker安装包步骤二：解压安装包;tar-zxvfdocker-24.0.6.tgz步骤三：将解压之后的docker文件移到/usr/bin目录下;cpdocker/*/usr/bin/步骤四：将docker注册成系统服务;vim/etc/systemd/system/docker.service然后在文件中添加以下内容，退出并保存（:wq!）[Unit]D
SQl中多使用EXISTS导致多查出了一条不符合条件的数据 yangchanghua111 sql 数据库
原本的部分条件如下andi.is_complement='20'andi.yxbz='1'AND(i.nameLIKEconcat('%','红','%')OREXISTS(SELECT*FROMcommodity_suit_composecscWHEREcsc.suit_id=i.IDANDcsc.compose_nameLIKEconcat('%','红','%')))查寻i表的name和cs
ubuntu切换目录命令 Joel Jin ubuntu ubuntu linux
UbuntuLinux命令查看目录信息1.切换目录命令的使用cd~效果:cd..效果:cd.效果cd-效果1.切换目录命令的使用命令说明cd目录切换到指定目录cd~切换到当前用户的主目录cd…两个点切换到上一级目录cd.切换到当前目录cd-切换到上一次目录cd~效果:root@root1:~#cd/etc/acpiroot@root1:/etc/acpi#cd~root@root1:~#cd…效果
linux服务器上创建一个文件需要授权一次的问题根源：umask qq_30024063 linux 运维服务器
umask命令用于设置文件的默认权限掩码。文件的权限掩码决定了新建文件的默认权限。umask命令的语法如下：umask[-S][模式]其中，-S选项用于以符号方式显示当前的权限掩码。模式表示要设置的新的权限掩码，可以使用八进制或者符号两种方式。在Linux系统中，每个文件都有三个属性：所有者权限、所属组权限和其他用户权限。每个属性有读、写和执行三个权限，分别用r、w和x表示。对于每一个属性，权限可
矩阵题解——搜索二维矩阵 II【LeetCode】 chao_789 我的学习记录矩阵篇_刷题笔记矩阵算法线性代数 leetcode python
240.搜索二维矩阵II1.1核心思想问题描述：给定一个mxn的二维矩阵，矩阵的每一行从左到右递增，每一列从上到下递增。判断目标值target是否存在于矩阵中。解决思路：从矩阵的右上角（或左下角）开始搜索。如果当前元素等于target，返回True。如果当前元素小于target，则排除当前行（因为当前行的所有元素都小于target）。如果当前元素大于target，则排除当前列（因为当前列的所有元素
矩阵题解——螺旋矩阵 II【LeetCode】 chao_789 我的学习记录矩阵篇_刷题笔记算法 leetcode python 数据结构矩阵
59.螺旋矩阵II第一个算法：基于层数和偏移量的方法算法逻辑思路：初始化阶段：创建n×n的零矩阵，设置起始点(0,0)，计算需要循环的层数(n//2)，初始化计数器为1核心循环逻辑：通过偏移量控制每一层的边界外层循环：遍历每一层(offset从1到loop)内层四个循环：按顺时针方向填充当前层左→右：填充上边，范围[starty,n-offset)上→下：填充右边，范围[startx,n-offs
mongodb替代品SequoiaDB的安装使用码农下的天桥 mongodb sequoiadb 数据库
前言1、为什么不直接使用mongodb啊？答：mongodb的使用协议是SSPL，一旦使用需要将你服务器程序都开源处理–或者给钱。非常不好，而SequoiaDB号称能够兼容mongodb协议，这次来安装试试。mongodb-SSPL，SequoiaDB是AGPL3，勉强比mongodb的协议可用。至少不修改则不用开源。准备工作首先去官网下载：www.sequoiadb.com我下载的版本是：也不知
MySQL备份和恢复
MySQL常用管理命令1.创建登录用户mysql>createuserzhangsan@'%'identifiedby'123456';#%指任意的远程终端2.测试用户登录#yuminstallmysql-y#mysql-uzahngsan-p123456-h192.168.109.1503.用户为自己更改密码mysql>setpasswore=password('新密码')4.root给其他用户
ENSP---通过配置实现client使用域名访问HTTP服务器 W111115_ 计算机网络---HCIA 服务器运维 http 网络协议
1.拓补图拓补图2.需求1.有一个完整的网关（路由器）；2、左右两边通过交换机建立两个网段；3、Client通过IP访问http服务器、Client通过域名访问http服务器；4、使用192.168.1.0/24进行合理分配；3.需求分析1.给PC1、PC2、Client、百度服务器配置IP地址、掩码、网关。
DHCP协议---动态主机配置协议 W111115_ 计算机网络---HCIA linux 网络运维网络协议服务器
什么是DHCPDHCP（DynamicHostConfigurationProtocol，动态主机配置协议），前身是BOOTP协议，是一个局域网的网络协议，使用UDP协议工作，统一使用两个IANA分配的端口：67（服务器端），68（客户端）。DHCP通常被用于局域网环境，主要作用是集中的管理、分配IP地址，使client动态的获得IP地址、Gateway地址、DNS服务器地址等信息，并能够提升地址
【LlamaIndex核心组件指南 | 模型篇】一文通晓 LlamaIndex 模型层：LLM、Embedding 及多模态应用全景解析
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
Python_计算两个省市之间的直线距离_2506 夏天里的肥宅水 PYTHON python spring 开发语言
更新代码上一版链接importpandasaspdimporttimeimportpickleimportosimportsysfromgeopy.geocodersimportNominatimfromgeopy.distanceimportgeodesicfromtqdmimporttqdm#ConfigurationINPUT_FILE=r"距离.xlsx"#输入文件路径OUTPUT_FIL
【SequoiaDB】4 巨杉数据库SequoiaDB整体架构 Alen_Liu_SZ 巨杉数据库 SequoiaDB架构编目节点协调节点数据节点巨杉数据库
1整体架构SequoiaDB巨杉数据库作为分布式数据库，由数据库存储引擎与数据库实例两大模块组成。其中，数据库存储引擎模块是数据存储的核心，负责提供整个数据库的读写服务、数据的高可用与容灾、ACID与发你不是事务等全部核心数据服务能力。数据库实例模块则作为协议与语法的适配层，用户可根据需要创建包括MySQL、PostgreSQL与SparkSQL在内的结构化数据实例；支持JSON语法的MongoD
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla