KirutoCode

Yolo-6D(Real-Time Seamless Single Shot 6D Object Pose Prediction)理解

文章目录

本文创新点
作者Ideal来源
作者方法

核心思想
算法流程

点的信息
网络结构
3D框置信度计算
3D框Anchor的选择
九个关键点的计算
PnP
loss计算

实验
性能
参考文献

文中所有灰色引用部分都是在阅读文章时的思考，阅读时可直接跳过灰色部分，不会影响内容

本文创新点

从一个RGB图像预测他的6D位姿估计，不需要多阶段也不需要检验多种假设，也不需要精确的目标纹理模型，精准度足够不需要后期处理。
提出了一个新的CNN结构，直接预测目标的射影顶点的2D图像位置，然后用PnP算法估计目标的3D位姿。

相比之下其他的算法：

运行速度随着检测物体的数量直线上升，而作者的方法运行时间和目标数量关系不大，保持稳定。
现存的一些算法都需要微调他们的结果，这样就导致了每个物体检测都超时了，作者不需要微调速度更快

但是：
作者的方法需要先验3D模型知识

作者Ideal来源

ta mu gong, o mu zi a

作者方法

没什么很新的方法，就把方法和训练写一起了

核心思想

用网络预测3D包围盒角落的射影的2D位置，这涉及到预测比2D包围盒回归更多的2D点。得到了2D的角落射影，再加上先验3D点信息，直接用PnP算法就是能求出6D位姿

Deep3Dbox只用了四个点，难道是预测的物体的中心点？再加上一些看似立体的、Deep3Dbox并没有预测的点？

算法流程

点的信息

用9个控制点参数化每个目标的3D模型，好处：
这几个参数能用在任意形状和拓扑的刚体上，九个点展开到2D图像很方便，而且对许多人造物体有语义意义。

咋还用这么多？八个不够吗，中心点有啥用
答：也不一定非要用9点法表示，也可以用其他方法
在这些点里面，选择紧凑的3D包围盒的八个角点来拟合3D模型。
第九个点当形心
有了形心是不是比较好判断方向？

网络结构

用全卷积加工输入的2D图片，如Figure 1 (a)

$Figure\ 1\ (a)$
用的是v2的yolo，共使用23个卷积层和5个最大池化层，选择 $S = 13$ 。还允许网络高层添加转移层来使用fine-grained特征。从维度是 $26\times 26 \times 512$ 的层提取出了特征，卷积成 $13 \times 13 \times 256$ 后和 $13\times 13 \times 1024$ 特征图结合。

为了获得更精细的特征？很像残差，这样对预测小尺度物体有好处，是为了这个吗？

当网络的下采样用32因子的时候，就用32的倍数的分辨率作为图象输入 ${320,352,...,608\}$ ，以此来增强对不同size物体的鲁棒性。

然后将图片分到2D规则网格 $S\times S$ 中去。

$Figure\ 1\ (c)$

上图的每个cell中都包含着一个( $9\times 2 + 1 + C$ )的特征向量，存放的是9个点( $18$ )、目标的分类概率( $C$ )和整体的置信度( $1$ )，如下图所示。

$Figure\ 1\ (e)$

3D框置信度计算

在2D框的预测中，会根据object_confidence分数和IoU来进行筛选，在3D框的预测中，也需要这一步操作，但是3D的IoU求起来很麻烦，所以作者就用下面的公式计算置信度：

yolo v2的 confidence=P(object) *IOU

$这个图中的公式不对，应如下：$

$c (x)$ 是置信度函数值
$D_T(x)$ 是预测的2D点到真实点之间的欧式距离

所以是全部的点吗？可能是
答：就是全部的点，然后计算平均值

3D框Anchor的选择

以上是单目标检测，多目标的话就要引入Anchor的概念：
当物体间靠的很近或者相互遮挡时，他们的中心可能在一个cell中，这种情况，作者给每个cell提供五个anchor，每个anchor都会有一套数据，然后训练的时候选择2D框和真实框IoU最大的那个。

IoU大于0.5就认为检测是正确的。

这个2D框是指yolov2预测出来的？不应该啊，预测的是九个点，还是说把这九个点平面化了，然后和真实的

所以，就算有靠的很近的，也不会全部标出来，还是选择当前IoU最大的一个显示出来，这时网络的输出就变成了 $13\times 13\times (9\times 2 + 1 +C)\times 5$

九个关键点的计算

Figure 1 (e)

在9对预测的2D坐标点中，形心点是相对于cell左上角的偏移 $c_x,c_y)$ ,将偏移量限制在 $(0, 1)$ 中，其他的角点就不管了，都不会在cell中，这将迫使网络首先为对象找到近似的cell位置，然后改进它的八个角位置。

根据这句话就应该知道：其他的八个点不需要在cell中，所以也就不需要sigmoid操作，知道了这一点下面就不应该不理解了

中心点的计算：
$g_x = f(x) + c_x\\ g_y = f(y) + c_y$

$f ()$ 在形心的情况下是一个1D sigmoid 函数，在八个角点的情况下的单元函数

这是什么神奇算法？是八个点的sigmoid加在一块就是中心点了？
答：不是的，这里理解不好是翻译问题：
where f(·) is chosen to be a 1D sigmoid function in case of the centroid and the identity function in case of the eight corner points.
$f ()$ 在形心的情况下是一个1D sigmoid 函数，在八个角点的情况下的单元函数

特殊情况：
对于那大的物体，中心点可能在两个cell的交接处(点还有半径？？offset变成了1？？好巧啊)

这种情况怎么处理呢？分别看两个的分数？还是说两个cell都不会给出分数？应该都会给，选最大的一个
答：找有最大置信度的cell周围 $3\times 3$ 个cell，对每个cell的角点做加权平均，权重是他们的confidence 分数，找出加权分数最大的？这么说每个角点都有个分数？不应该啊

PnP

最后，有了预测的3D包围盒的投影点和真实的3D模型包围盒点，用PnP算法就能估计出位姿

这还得提前知道3D模型才行，好像挺难拜托预知3D模型的限制

loss计算

整个训练网络的loss：
$\lambda_{pt}L_{pt} + \lambda_{conf}L_{conf}+\lambda_{id}L_{id}$

对于坐标和置信度损失用的 $L_2$ 损失函数，分类用的交叉熵。

一个提高模型稳定性的技巧：给confidence减权，当cell中有物体的时候把 $\lambda_{conf}$ 设置成5.0，当cell中没物体的时候 $\lambda_{conf}$ 设置成0.

实验

backbone：
用的是ImageNet初始网络来训练，一开始把 $\lambda_{conf}$ 设置成了0来进行预训练，然后，根据有无物体设置 $\lambda_{conf}$ 。

为什么预训练要把置信度设置为0？
答：一开始的置信度预测效果是很差的，连坐标都预测不准也就不用谈什么置信度了。当坐标预测稍微准了点的时候，再开始置信度的训练。

参数设置：
将指数的 $\alpha$ 参数设置成了2，距离阈值设置成了30像素。

学习率是0.001，每100个epoch除以10.
数据增强：
为防止过拟合，随机选择色调、饱和度、曝光来做1.2倍的处理。还随机平移和缩放20%。

度量：
在使用重投影误差时，我们认为当使用重投影误差的物体3D网格顶点的2D投影与地面真实位姿之间的平均距离小于5像素时，姿态估计是正确的

现在看好像不重要，怎么度量直接看比赛的度量方法就行。

训练数据操作：
作者使用训练集提供的mask标注，将图片中的物体抠出来，然后给安上别的背景图片

这样是不是更好训练，更容易识别，但是鲁棒性不会降低吗？还是说换了背景，关联性更小，鲁棒性更高，防止神经网络学习到了背景和物体之间的联系？

性能

$不同 s i z e 的输入$

$速度与目标数量的关系$

$训练结果展示$

参考文献

知乎文章

jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息