Najlepszy

自动上色论文《Learning Diverse Image Colorization》

Abstract
作者指出，着色问题是ill-posed以及模棱两可的，是典型的多模态问题。过去的着色问题往往只考虑其最有可能的着色方案；而作者希望通过这篇论文对着色问题的本质建模，并生成具有空间连贯性(long-scale spatial co-ordination)的着色结果。作者通过变分自编码器（VAE）学习色域的低维度的embedding，并设计损失函数来避免模糊的输出结果，以及考虑到像素颜色的不均匀分布。最后，作者为灰度图像和色域的低维度嵌入之间的多模态分布建立了条件模型。验证表示，此模型效果优于传统的条件变分自编码模型，以及较有名的cGAN模型。
Introduction
上色问题要求较高，因为需要考虑局部特征以及大尺度的空间特征。由于只考虑局部特征会导致生成的结果图片失去耦合性，因此需要考虑一种既考虑对每个像素的估计(per-pixel color estimates)，又考虑空间连贯性的方法。这种方式对于需要多个预测的许多模糊的视觉任务是常见的,即：从静态图像[1]生成运动场，合成未来帧[2]，延时视频[3]，交互式分割和姿势估计[4]等。

一个解决方法是使用条件模型P(C|G),C是图片的色域，G是灰度图片。可以在条件模型上画一些样本点 ${C_k\}_{k=1}^N$ 从而获得多样的着色结果。然而，这种详细的条件模型设计起来很难，因为C和G在高维空间中离散分布。因此作者使用了降维的思想，使用VAE（变分自编码器），将色域C用他的低维度的嵌入结果z来表示；之后使用混合密度网络(MDN)学习多模态条件模型P(z|G)。灰度图G的特征由一个着色卷积神经网络[5]的7层卷积结果生成。这些特征将空间结构与逐像素的特征编码。最后在测试阶段，作者使用多个样本 ${z_k\}_{k=1}^N~P(z|G)$ ,并使用VAE解码器获得对应的着色结果 $C_k$ 。本文通过对色域的空间结构进行编码，并通过在条件模型上采样获得空间相关的多样化着色。

贡献如下：
1、作者通过学习平滑的低维嵌入（Embedding）以生成具有高保真度的相应色域。
2、通过在灰度图特征和低维嵌入之间学习多模态条件模型，从而生成多样性的着色。
3、本方法在着色问题上可超过CVAE和cGAN。
对色域的编码与解码
本文通过VAE（变分自编码器）来进行色域嵌入：除此之外，本文也使用了一种有效的解码器从而从给定的Embedding中生成真实化的色域。本文不使用常见的L2误差，因为它会带来过度平滑或褪色的色域。
解码器损失
特异性
top-k主成分 $P_k$ 是在色域的高度差异空间中具有最大方差的投影的方向。因此，产生主要沿着top-k主成分变化的色域，以生成的色域中的特异性为代价来减少L2损失。为了避免这一点，本文沿着top-k主成分投影生成的色域 $f(z,\theta)$ 和Ground Truth色域C。本文使用k = 20。接下来，作者将沿着每个主成分的这些投影之间的差除以从训练集中估计的相应标准偏差 $\sigma_k$ 。这鼓励所有主要组成部分的变化在本文的损失中处于平等地位。将残差除以第k个（对于本文的情况为第20个）组分的标准偏差。使用这些距离和残差的平方和可以写出特异性损失 $\mathcal{L}_{mah}$
$\mathcal{L}_{mah} = \sum_{k=1}^{20}\frac{||[C-f(z,\theta)^TP_k||_2^2}{\sigma_k^2}+\frac{||C_{res} - f_{res}(z,\theta)||_2^2}{\sigma_{20}^2}$
$C_{res} = C - \sum_{k=1}^{20}C^TP_kP_k$
$f_{res}(z,\theta) = f(z,\theta) - \sum_{k=1}^{20}f(z,\theta)^TP_kP_k$
上述损失使用马氏距离。
着色性
本文使用经验概率估计(或归一化直方图)H的颜色在量化的“ab”色域的计算。对于像素p，本文对其进行量化去获得其bin并检索 $\frac{1}{H_p}$ 的逆矩阵。 $\frac{1}{H_p}$ 被用于在预测的颜色 $f_p(z,\theta)$ 与Ground Truth $C_p$ 之间进行平方项的预测。本文可以写出这个损失函数 $\mathcal{L}_{hist}$
$\mathcal{L}_{hist}=||(H^{-1})^T[C - f(z,\theta)]||_2^2$
梯度
本文还使用第一个损失项，鼓励生成的色域具有与Ground Truth相同的梯度。将水平和垂直梯度算子写做 $\nabla h$ 和 $\nabla v$ 。梯度的loss为： $\mathcal{L}_{grad}=||\nabla_hC-\nabla_hf(z,\theta)||_2^2+||\nabla_vC - \nabla_vf(z,\theta)||_2^2$
解码器整体的损失函数为 $\mathcal{L}_{dec} = \mathcal{L}_{hist}+\lambda_{mah}\mathcal{L}_{mah}+\lambda_{grad}\mathcal{L}_{grad}$
这里设置超参数 $\lambda_{mah}=0.1$ 以及 $\lambda_{grad} =10^{-3}$
编码器的损失函数用KL散度表示。
相对于解码器的损失函数，本文将该损失函数加权 $10^{-2}$ 倍。这放松了对低维嵌入的正则化，但是对解码器产生的色域的保真度给出了更大的提高。本文对嵌入空间的宽松约束并没有产生不利影响。因为本文的条件模型（参考第4节）设法产生解码为自然色彩的低维嵌入。
条件模型(灰度图G到低维嵌入z)
混合密度网络(MDN)对目标向量的条件概率分布进行建模，将高斯混合作为输入。这将考虑一对多的映射并允许目标向量使用多个基于同一个输入值的结果来显示出最终的多样性。
MDN损失本文使用MDN函数来进行条件概率分布的建模。 $P (z ∣ G)$ 是一个有M个组成部分的高斯混合模型。损失函数在对数域中将该模型函数最小化。 $\mathcal{L}_{mdn}$ 作为MDN损失函数， $\pi_i$ 代表混合结果的系数， $\mu_i$ 作为其平均值， $\sigma$ 代表对于GMM的固定球面协方差。MDN损失函数如下：
$\mathcal{L}_{mdn}=-log(P(z|G)) = -log\sum_{i=1}^M\pi_i(G,\phi)\mathcal{N}(z|\mu_i(G,\phi),\sigma)$
对loss进行优化的难度很大，因为其包括了对指数化的 $e^{-\frac{-||z-\mu_i(G,\phi)||_2^2}{2\sigma^2}}$ 的加和的取对数。当网络训练开始的时候， $\mu_i(G,\phi)||_2$ 很高，会导致在指数计算中出现数值下溢。为了避免数值下溢，本文选择高斯分量 $m=argmin_i||z-\mu_i(G,\phi)||_2$ 来预测平均值最接近基准值的z，并且每个训练步骤仅优化该部分。损失函数从而用如下方式表示：
$\mathcal{L}_{mdn} =-log\pi_m(G,\phi) +\frac{||z - \mu_m(G,\phi)||_2^2}{2\sigma^2}$
直观地，这种最小近似解决了MDN网络的可识别性（或对称性）的问题，因为我们将灰度级特征与上述的部分（比如第m个组件）联系起来。其他部分可通过附近的灰度特征进行自由优化。本文之后证明，这种基于MDN的策略比CVAE和cGAN可以产生更好的多样化着色结果。
VAE的架构：

MDN的输入是来自[30]的灰度级特征G，并且具有28×28×512的维度。我们在MDN的输出GMM中使用8个组件(component)。输出层包括用于平均数的8×d激活层和用于8个组件的混合权重的8次Softmax激活函数。我们使用0.1的固定球面方差。 MDN网络使用5个卷积层，然后是两个全连接层，可以写成：Input(28×28×512)→CReLU（5,1,384）→B→CReLU（5,1,320）→B→CReLU （5,1,288）→B→CReLU（5,2,256）→B→CReLU（5,1,128）→B→FC（4096）→FC（8×d + 8）。
同样，MDN是一个具有12个卷积层和2个全连接层的网络，前7个卷积层在[30]的任务上进行了预训练并保持固定。
在测试时，我们可以从MDN中采样多个嵌入，然后使用VAE解码器生成各种颜色。然而，为了以主成分分析的方式研究不同的着色，我们采用不同的过程。我们按照混合权重 $\pi_i$ 的降序对预测均值 $\mu_i$ 进行排序，并使用这些top-k（k = 5）均值作为下图所示的不同颜色。

[1]J. Walker, C. Doersch, A. Gupta, and M. Hebert. An uncertain future: Forecasting from static images using variational autoencoders. In European Conference on Computer Vision, 2016. 1, 4
[2]T. Xue, J. Wu, K. L. Bouman, and W. T. Freeman. Visual dynamics: Probabilistic future frame synthesis via cross convolutional networks. In NIPS, 2016. 1, 4
[3]Y. Zhou and T. L. Berg. Learning Temporal Transformations from Time-Lapse Videos, pages 262–277. Springer International Publishing, 2016. 1, 4
[4] D. Batra, P. Yadollahpour, A. Guzmn-Rivera, and G. Shakhnarovich. Diverse m-best solutions in markov random fields. In ECCV (5), volume 7576 of Lecture Notes in Computer Science, pages 1–16. Springer, 2012. 1
[5]R. Zhang, P. Isola, and A. A. Efros. Colorful image colorization. ECCV, 2016. 1, 2, 3, 5

项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

自动上色论文《Learning Diverse Image Colorization》

你可能感兴趣的:(LDR2HDR)