just_sort

卷积姿态机(单人姿态识别)论文阅读 CVPR2016

项目代码：https://github.com/CMU-Perceptual-Computing-Lab/convolutional-pose-machines-release
论文原文：https://arxiv.org/abs/1602.00134
推荐一篇写的特别好的总结博文：http://blog.csdn.net/zimenglan_sysu/article/details/52077138
参考文章：http://blog.csdn.net/twt520ly/article/details/79224226

Convolutional Pose Machines

摘要

Pose Machines为学习丰富的隐式空间模型提供了一个顺序预测框架。在这项工作中，我们展示了一个系统的设计，为什么卷积网络可以被纳入到姿态机框架去学习图像特征和图像相关空间模型的任务的姿态估计。本文的贡献是隐式地建模结构化预测任务中的变量之间的长期依赖关系，如关节姿态估计。我们通过设计一个由卷积网络组成的顺序架构来实现这一点，直接在前一阶段的信念图上进行操作，不需要明确的图形模型式推理就可以对零件位置进行日益精确的估计。我们的方法通过提供自然的学习目标函数来强化中间监督，从而补充反向传播的梯度并调整学习过程，从而解决了在训练期间特征的梯度消失的困难。我们展示了最先进的性能，并在包括MPII，LSP和FLIC数据集在内的标准基准测试中胜出了各种竞争方法。

1。介绍

我们引入卷积姿态机（CPMs）来进行关节姿态估计。 CPM继承了姿态机架构的好处 - 图像和多部分线索之间的远程依赖性的隐式学习，学习和推理之间的紧密集成，模块化的顺序设计 - 并将它们与卷积架构提供的优势相结合：直接从数据中学习图像和空间上下文的特征表示的能力; 一个可区分的架构，允许全局联合反向传播训练和有效处理大型训练数据集的能力。
CPM包含一系列卷积网络，为每个部分的位置重复生成2D信念图。在CPM的每个阶段，图像特征和前一阶段产生的信念图被用作输入。信念图为后续阶段提供了对每个部分的位置空间不确定性的表达式非参数编码，使得CPM能够学习丰富的与图像相关的空间模型。我们不是使用图形模型或专门的后处理步骤来明确地解析这样的信念映射，而是学习直接在中间信念图映射上操作的卷积网络，并学习部分之间关系的隐式图像相关空间模型。总体上提出的多级架构是完全可区分的，因此可以使用反向传播以端到端的方式进行培训。
在CPM的特定阶段，部分置信图的空间背景为后续的阶段提供了明确的线索。因此，CPM的每一个阶段都会生成置信图，其中
每个阶段的位置都有不同的估计值(例如图1)。为了捕捉各部分之前的长期相互作用，我们顺序预测框架中每一个阶段的网
络设计都是通过在图像和置信图上实现了一个大的感受野来达到的。我们通过实验发现，置信地图上的大型感受野对于学习
长距离的空间关系是很重要的，并且提高了准确率。

在CPM中组合多个卷积网络导致整个网络具有许多层，在学习期间存在梯度消失的风险。反向传播渐变强度减弱，因为它们通过网络的许多层传播，可能会发生此问题。虽然最近的研究表明，监督中间层的非常深的网络有助于学习，但是它们大多局限于分类问题。在这项工作中，我们展示了如何对结构化预测问题如姿态估计，CPM自然地提出了一个系统的框架，补充梯度，并指导网络定期通过执行中间监督产生越来越准确的信念地图。我们还讨论了这种顺序预测体系结构的不同训练方案。我们的主要贡献是（a）通过卷积体系结构的顺序组合来学习隐式空间模型，以及（b）设计和训练这种体系结构的系统方法，以学习结构化预测任务的图像特征和图像相关空间模型，不需要借助任何图形模型风格推断。我们在MPII，LSP和FLIC数据集的基准上，综合分析联合训练多级架构和重复中间监督的效果，达到了目前最好。(state-of-the-art )

2。相关工作

经典的关节姿态估计方法是图像结构模型，其中身体各部分之间的空间相关性被表示为具有运动学先验的连接肢体的树形结构图形模型。这些方法在人的所有肢体都可见的图像上是成功的，但是易于出现特征性错误，例如由于树形结构模型未捕获的变量之间的相关性而出现的重复图像证据。Kiefel的工作是基于图形结构模型，但在底层图形表示方面有所不同。分层模型表示分层树结构中不同尺度和大小的部件之间的关系。这些模型的基本假设是较大的部分（对应于全肢而不是关节）通常可以具有有区别的图像结构，其可以更容易检测，并且因此有助于推测较小的，难以检测的部件的位置。非树模型结合了引入循环的相互作用来微调树结构，可以额外的捕捉边缘对称性，遮挡和长距离关系。这些方法通常在学习和测试时间都必须依赖近似推理，因此必须将空间关系的精确建模与允许有效推理的模型进行权衡，通常使用简单的参数形式来进行快速推理。相反，基于顺序预测框架的方法通过直接训练一个推理过程来学习一个潜在的变量之间复杂相互作用的隐式空间模型。
最近，人们对使用卷积架构进行关节姿态轨迹的模型产生了兴趣。Toshev采取使用标准的卷积结构直接回归笛卡尔坐标的方法。最近的研究将图像映射为置信图，并借助于需要手动设计的能量函数或空间概率先验的启发式初始化的图形模型，以去除回归后的置信图上的异常值。其中一些还利用专门的网络模块进行精确的修复。在这项工作中，我们展示了回归置信图适合输入到具有大的感受野的卷积神经网络，以学习隐式空间的参数，而不需要手工设计先验信息，并且在没有专门的初始化和专用的精确度的情况下成为了业界最强。Pfister还使用了一个具有大感受野的网络的模块来捕获隐式空间模型。由于卷积的可微性，我们的模型可以进行全局训练，Tompson和Steward也讨论了联合训练的好处。
Carreira等人利用误差反馈迭代地改善了部分检测的深度网络，但是使用了笛卡尔表示，因为其不能保持空间不确定性并导致精度较低的精度。在这项工作中，我们展示了顺序预测框架如何利用保留的不确定性来保存丰富的空间上下文，通过强化中间局部监督来解决梯度消失的问题。

3。方法

3.1.姿势机

我们把第p个身体部位表示为 Yp∈Z⊂R2 ,其中Z是一张图片里面所有位置的集合。我们的目标是对P个pair预测输出值 Y=(Y1,Y2,...,YP) 。姿势机由一系列多级预测因子组成(见图2a和图2b)，这些预测变量被训练用来预测层次结构中每个层次中每个部分的位置。
定义 pth 是图片的第p个位置， Yp∈Z ，Z是二维图像， YP 表示坐标(u,v)， xz 表示在位置z的特征。对于每一个阶段 t∈1,2,...,T ，每一个阶段都有一个多分类器 gt() 。对于每一个阶段 t∈1,2,...,T ，每一个阶段都有一个多分类器 gt() ，得到预测结果 Yp=z，∀z∈Z
第一阶段需要初始化：
g1(xz)→bp1(Yp=z)，对于p∈0,...,P
b 是一个的得分，代表了第一阶段的分类器 g1 对于第 p 个位置的预测结果为z的分数，也可以表示为 bp1[u,v]=bp1[Yp=z]
对于后面阶段(t>1)
gt(x′z,Ψt(z,bt−1))→bpt(Yp=z),p∈0,...,P+1 其中 Ψ 可以映射出前一阶段的分数对阶段的影响，对于所有的阶段 x′t=xt

3.2。卷积姿态机

我们演示了使用CNN代替Pose Machine直接从数据中学习到图像和上下文信息。CNN是完全可微的，从而使CPM在所有的阶段都可以直接进行端到端的联合训练。我们提出了CPM的结构，结合了CNN的优点和Pose machine的隐式姿态空间建模能力。

3.2.1使用图片的局部信息进行关键点定位

CPM的第一阶段仅仅从局部图片信息获取部位的信度图。图2.c展示了网络结构从局部图像信息出发，利用深度卷积神经网络进行目标区域检测。证据是局部的，因为网络的第一阶段的感知野被限制在输出像素的周围一小部分。我们使用的网络结构由五个卷积层和两个1x1卷积层组成，得到的结果再经过一个全连接层。在测试后，为了提高训练的精度，我们需要对输入图像调整为368x368。神经网络的感知野是160x160像素。该结构可以看做是一个图片和一个160x160的滑动窗口在上面移动，最后得到P+1维度的向量，代表了每一个部位的得分值。
为什么要使用1x1卷积？
1x1卷积的大小是1x1，没有考虑吧前一层的局部信息之间的关系，1X1卷积可以加深网络结构，在InceptionNet中用来降维。
1.降维：在卷积过程中，多个通道的值一般情况下会转换为单通道，如果之前有x个通道，现在使用y个卷积核进行卷积，那么得到的feature map在通道维度上就是y。
2.进行非线性处理：卷积后进行非线性激活。

3.2.2通过学习空间上下文特征序列预测

3.3使用卷积姿态机进行学习

上文所述的检测结果中使用了深层次的神经网络，因此很容易导致梯度消失。发现反向传播过程中梯度下降的强度受中间层的数量影响。
幸运的是，PM的时序预测序列框架天然可以训练深层模型的过程中，来解决这个问题。PM的每一个阶段都会重复的产生信度图来表示每一个部位的定位。我们引导网络的运行结果到达一个预期的效果，通过定义一个损失函数在每一个阶段的输出位置来最小化预测结果与每一部分理想的信度图的 l2 距离。每一个部分 p 的理想信度图记作：
bp∗(Yp=z)
产生的方式是通过肢体每一部位 p 的真实位置的高斯分布值作为上述的值。我们定义最小化输出中的代价函数为：
ft=∑P+1p=1∑z=Z||bpt(z)−bz∗||2 ,其中 p 遍历每一个部位， z 表示对应的区域。然后将每一个阶段的损失函数加起来得到：
F=∑Tt=1ft
我们使用标准随梯度下降法去全局训练 T 个时刻的网络参数。为了在后续的阶段中共享 X′ ，我们们在后面的阶段中对应的网络层中共享权重,也就是说每个stage是相似的。

ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt