KirutoCode

【6Dof位姿估计】DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion论文理解

DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion论文理解

本文创新点\贡献
本文IDEA来源
方法

方法概述
特征提取

Dense color image feature embedding
Dense 3D point cloud feature embedding
Pixel-wise Dense Fusion

预测Pose

6D Object Pose Estimation
Iterative Refinement

实验结果
总结

本文创新点\贡献

RGB-D对于少纹理和暗光条件不错，使用RGBD生成了点云信息

提出了能结合颜色和深度信息的方法
不需要ICP的端到端的微调网络

论文代码

本文IDEA来源

RGB和深度信息各有特点，而想解决一些复杂环境非融合不行，所以就想融合做

保持原本数据结构的情况下融合特征
通过探索不同数据间的本质映射来稠密的逐像素混合

方法

方法概述

两阶段，第一阶段生成语义分割，然后，对于每个分割的对象，将masked深度像素(转换为3D点云)和一个被mask的边界框裁剪的图像patch提供给第二阶段。

第二阶段包括四个部分：

一个全卷积网络，将crop的图像颜色信息映射成颜色特征嵌入
用PointNet处理masked3D点云，将每个点加工成一个几何特征嵌入
逐像素的融合，合并两个嵌入，输出基于无监督置信度评分的物体6D姿态估计
迭代的自微调方法，循环训练网络

特征提取

Semantic Segmentation：
预测 $N + 1$ 个通道，每个通道都是二值化的Mask，使用的现成的分割框架[ posecnn 2017]

分开提取的原因：
虽然在RGB帧和depth帧的形式相似，但是信息存在的空间不同，所以分开生成嵌入信息，来保证本质信息不变

Dense color image feature embedding

目标：
提取能在3D点特征和图像特征建立稠密对应的每个像素点特征的网络

作用：
这个网络是一个编码-解码结构，将 $\times W \times 3$ 映射到 $\times W \times d_{rgb}$ 的特征空间，每个位置的特征向量都代表对应位置的输入信息的表面特征

结构：
由Resnet-18和4个上采样层组成，输出通道是128

Dense 3D point cloud feature embedding

输入：
利用相机内参转换成了点云，使用PointNet相似的机构来提取几何特征

改动：
PointNet提出使用对称结构(max-pooling)在处理无序点集时实现排列不变性。原始体系结构将原始点云作为输入，并学习对每个点附近的信息和点云作为一个整体进行编码，作者提出几何嵌入网络，通过映射每个 $P$ 点到一个 $d_{geo}$ 维度的特征空间来生成稠密的每个点特征，但是做了改动，使用average-pooling而不是max-pooling

结构：
MLP + 平均池化reduction函数，输出通道是128

Pixel-wise Dense Fusion

提出动机：
从分割的地方生成稠密的颜色和深度特征，但是遮挡和分割错误会让前面包含一些其他物体的像素特征，还有可能有一些背景的特征，所以这个网络能解决这个问题

操作：
局部全像素融合，而不是全局融合，仔细的选择物体看的见的部分，并且最小化遮挡和分割的噪声

为什么局部融合能有这样的效果，是怎么做的呢？
答：局部应该就是使用crop的意思，每次把crop放入网络的
为什么对之前做的分类的实验没有用呢？

密集融合程序首先将每个点的几何特征与对应的图像特征像素关联起来，这些特征像素是基于已知摄像机固有参数在图像平面上的投影的

就是3D点和对应的外形特征咯，就是上面的两个嵌入向量咯，关联是什么意思？如何关联？
答：关联就是按照3D点和3D点投影的2D点一一对应的关系，feature map连接到一起，特征像素就是图像上的点

前面获得的特征对连起来，送到另一个网络使用对称的减函数来生成固定大小的全局特征向量

对称减函数就是平均池化

然后使用全局稠密融合特征(就是这一步生成的，绿色)来自充实每个稠密像素特征(前面的红色和蓝色)，以此来提供全局上下文

就是利用这个信息提取了全局特征后，有把提取的全局特征结合回去了，这样添加了一个全局的上下文信息

然后把最后的全像素的特征送到一个神经网络里，每个生成一个位姿预测，所以就是一系列位姿 $P$ ，然后用自监督的方法选一个最好的，思想来自[ Pointfusion: Deep sensor fusion for 3d bounding box estimation 2017]

或许跟那个M的生成差不多？比较下二者选择的差异，那个是选中位数
nice兄弟

预测Pose

Per-pixel self-supervised confidence：
使用网络对每个预测输出置信度 $c_i$

6D Object Pose Estimation

不对称情况，计算用pose变换之后的距离：
$L^p_i = \frac{1}{M}\sum_j||(Rx_j + t) - (\hat{R}_ix_j + \hat{t}_i)||$
其中 $x_j$ 表示 $M$ 的第 $j$ 个点，这些点是随即从该3D模型里选择的， $i$ 表示在所有的稠密像素中第 $i$ 个混合特征生成的位姿

这个意思就是所有的预测都挺准的，才算好吗？然后从中算最优还是生成最优呢？我觉得生成比较好

对称情况，最小化最近的那个距离：
$L^p_i = \frac{1}{M}\sum_j\min_{0Lip=M1j∑0<k<Mmin∣∣(Rxj+t)−(R^ixk+t^i)∣∣$

这个意思是对于每个挑出来的3D点，都要和所有的点算一下距离，取最小的那个，计算量加了很多，这样就能学好吗？感觉这块处理的并不好
答：其实是用的knn找点的对应，然后算distance

所有的loss就是：
$\frac{1}{N}\sum_iL^p_i$

加上置信度做正则化后：
$\frac{1}{N}\sum_i(L^p_ic_i - w\log(c_i))$
其中 $N$ 是从所有的预测 $P$ 中随机采样的， $w$ 是用来平衡的超参，设为0.01

为什么是这样的，而不是之前常见的除法呢？
这样的话，置信度高的就比较平滑，大家都差不多，而置信度低的，差距就很大，而前面的置信度越低loss越低是不合理的，所以第二项就蛮有效果
不过感觉还是不太科学，还要引入这种超参

选择置信度最高的作为最后的结果

Iterative Refinement

输入准备：
将点云按照预测出来的pose做对应变换，得到变换后的点云

操作：
使用单独的一个新的网络，但是还是用到了之前的嵌入特征，不过输入的是全局特征(绿色)而不是三合一特征，经历 $K$ 次迭代获得最后最好的pose:
$\hat{p} = [R_K|t_K] \cdot [R_{K-1}|t_{K-1}] \cdot \cdot \cdot [R_0|t_0]$

然而在代码中微调网络的输入只有新生成的点云和图像的嵌入坐标，并没有涉及最初的点云特征

结构：
四个卷积层组成，这里设 $K = 2$ ，后期才用，一开始的时候初始位姿太垃圾，微调也学不到啥

通过点云来微调可能确实不错，全局特征那里有正确的点云信息，点云之间微调必然是比投影到RGB再微调好吧

实验结果

感觉分都很高了呀，但是实际预测的时候感觉不是那么理想:

总结

感觉对点云的利用还不是很充分？应该能提供更多的约束？

对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul