本周下载human3.6M数据集时,发现有相机外参和内参的概念不懂,于是去补习了下相机成像模型的原理,然后根据上周学习的综述,在实现3dhpe的方法中,作者在经典实现方法中,又分了基于图形结构解决方法和以位姿结构为基础的时空解决方法。这是不同现在主流的基于各个深度学习模型的解决方法,因此我下载了一篇基于图形结构相关论文进行学习。
This week, when downloading the Human3.6M dataset, I encountered concepts related to camera extrinsics and intrinsics that I didn’t understand. As a result, I revisited the principles of camera imaging models. Following the overview I studied last week, the authors of the 3D human pose estimation (3dhpe) method classify classical implementation methods into those based on graphical structures and those based on pose structures in the spatial-temporal domain. These approaches differ from the current mainstream methods based on various deep learning models. Consequently, I downloaded a paper related to graphical structure for further study.
针孔相机模式(Pinhole Camera Model,PCM),也称小孔相机模型,这种成像方式目前常见于 当前基于Lenses+Cameras的成像系统。
针孔成像系统
上述的成像系统有三个元素构成,实物、带孔的挡板(相机镜头、透镜、晶状体等)、成像面(相机Sensor、胶片、视网膜)。实物中的光线会通过透光孔(挡板上的小孔)在成像面上进行成像。当我们逐步缩小孔径,就能够实现成像面和实物光束一一对应,在这种理想假设下面,我们就可以得到针孔成像模型。
整个成像系统进行建模。整体坐标系建立如下:
定义透光孔为O点,O点在成像面垂直映射的点为C’, 则线段OC’ 构成了成像系统中的光轴,这之间的距离f称之为焦距。实物上的点P, 通过O点可以映射到成像面中的点P‘。在上述假设下,所有的P=[x, y, z]T, 都可以映射到对应成像平面上的点P‘ = [x’, y’]T。
在上述坐标系下,根据相似三角形原理,我们能够得到P‘ 与P 的关系, 即三角形相似,那么就可以得到如下表示:
而目前光学系统中。一般都是采用凸透镜成像
依然是可以根据焦距、和画布上的坐标推断出真实图像的世界坐标信息。
由于相机镜头中透镜的存在,使得成像过程中光线的传播会产生新的影响:一、透镜形状对光线传播的影响,称为径向畸变,二、透镜位置对光线传播的影响,成为切向畸变。用极坐标的表示方法 [ r , θ ] T [ r , θ ] T [ r , θ ] T [ r , θ ] T [r,\theta]^{T}[r,θ] T [r,θ]T[r,θ]T[r,θ]T能更好的理解相机畸变模型,其中,r表示图像中的一点到原点的距离,θ表示与过原点的水平线之间的夹角。径向畸变主要和r rr有关,切向畸变主要和θ有关。
桶形畸变是由于图像的放大率随着与光轴之间的距离增加而减小,因此桶形畸变也称为负径向畸变。假设 ( x d i s t o r t e d , y d i s t o r t e d ) ( x d i s t o r t e d , y d i s t o r t e d ) ( x d i s t o r t e d , y d i s t o r t e d ) ( x d i s t o r t e d , y d i s t o r t e d ) (x_{distorted},y_{distorted})(x distorted ,y distorted ) (xdistorted,ydistorted)(xdistorted,ydistorted)(xdistorted,ydistorted)为畸变后的坐标, ( x , y ) ( x , y ) ( x , y ) ( x , y ) (x,y)(x,y) (x,y)(x,y)(x,y)为未畸变的坐标,它们之间的关系有:
2)枕形畸变
枕形畸变是由于图像的放大率随着与光轴之间的距离增加而增加,因此枕形畸变也称为正径向畸变。假设 ( x d i s t o r t e d , y d i s t o r t e d ) ( x d i s t o r t e d , y d i s t o r t e d ) ( x d i s t o r t e d , y d i s t o r t e d ) ( x d i s t o r t e d , y d i s t o r t e d ) (x_{distorted},y_{distorted})(x distorted ,y distorted ) (xdistorted,ydistorted)(xdistorted,ydistorted)(xdistorted,ydistorted)为畸变后的坐标, ( x , y ) ( x , y ) ( x , y ) ( x , y ) (x,y)(x,y) (x,y)(x,y)(x,y)为未畸变的坐标,它们之间的关系有:
3)切向畸变
在相机组装过程中由于不能使透镜和成像平面严格平行而引起的畸变成为切向畸变,切向畸变主要与θ有关.
示意图
畸变校正一般有两种方法:1.整个图像去畸变后再讨论空间坐标。2、逐点去畸变处理后再讨论空间坐标,一般采用第一种方法。
上述说了透镜成像中畸变的问题,回到本节的主旨:完整的成像过程是怎么样的?如何由现实世界的物体,通过相机,投影到数字图像中来?
现实世界中,我们可以通过定义世界坐标系来确定物体和相机之间的相对位置,然后图像是由像素构成的,每一个像素点,就是一个坐标,因此这就涉及到坐标变换的问题。
现实世界中一点p,其反射一条光线通过相机的光心o,达到像素平面上。这就是成像过程。但是需要建立不同的坐标系,从而能够根据成像的图像推断出对应物体的相关信息。因此一张二维图像,所蕴含的信息量是非常大的。
而实际成像平面就应该是倒向,但是一般的数码相机呈现的图片都是正向的,这是因为数码相机 呈现的图像是经过翻转的。
简单用语言描述四个坐标系之间的关系:世界坐标系通过平移和旋转得到相机坐标系。相机坐标系通过成像模型中的相似三角形原理得到图像坐标系。图像坐标系通过平移和缩放得到像素坐标系。
**世界坐标系(world coordinate system)**用户定义的三维世界的坐标系,坐标原点由用户自定义,为了描述目标物在真实世界里的位置而被引入。单位为m 。
相机坐标系在相机上建立的坐标系,以光心为坐标原点,光轴为z zz轴为了从相机的角度描述物体位置而定义,作为沟通世界坐标系和图像/像素坐标系的中间一环。单位为m。
图像坐标系为了描述成像过程中物体从相机坐标系到图像坐标系的投影关系而引入,方便进一步得到像素坐标系下的坐标。单位m。
像素坐标系为了描述物体成像后的像点在数字图像上坐标而引入,是我们真正从相机内读取到的信息所在的坐标系。单位为pixel。
这是世界坐标系到像素坐标系的变化关系:前两个矩阵是相机内参、后一个矩阵是相机外参。
1.扩展了图像结构中的外观模型以使用彩色和深度图像;
2.提出了一种新颖的深度图像特征描述符;
3.扩展PS中的变形模型以使用更可靠的3D约束;
4. 提出了一种有效的算法来减小 3D 状态空间的大小,以使精确推理易于处理;
5. 生成新的临床医生姿势数据集;
在本文中,我们提出了一种新颖的基于视觉的方法来解决真实手术室中的临床医生检测和姿势估计问题。这种方法依靠 RGB-D 相机同时捕获的彩色和深度图像来应对上述操作环境的挑战。该方法基于图形结构 (PS) 框架(Felzenszwalb 和 Huttenlocher,2005),这是 HPE 基于部件的主要方法。它依赖于基于颜色的身体部位外观模型和部位之间的成对变形模型,这些模型通过其 2D 像素位置和方向进行参数化。实际上,在手术室等视觉复杂的环境中,彩色图像可能并不总是携带足够的描述性信息。因此,我们通过结合颜色和深度信息构建鲁棒且有辨别力的外观模型。我们还提出了一种新的深度图像描述符,称为深度差异直方图(HDD),它对深度级别的变化进行编码。它使用小卷积核来提高效率,并提供描述每个表面相对于其邻居的表示。
某手术室进行七个半天的现场手术期间记录图像,手动生成了两种类型的注释:场景中存在的所有临床工作人员的上半身边界框,用于评估人体检测;临床工作人员的上半身姿势,至少一半的上半身部分可见,用于评估人体姿势估计。
7 个半天的记录中均匀选择的 1451 个带注释的帧和 173 个未注释的负帧组成。
1.FMP(Flexible mixtures of parts)
S ( I , l , t ) = ∑ i ∈ V w i t i ⋅ ρ ( I , l i ) + ∑ i j ∈ E w i j t i , t j ⋅ ψ 2 D ( l i − l j ) + ∑ i ∈ V b i t i + ∑ i j ∈ E b i j t i , t j , \begin{aligned} S(I, l, t)= & \sum_{i \in V} w_i^{t_i} \cdot \rho\left(I, l_i\right)+\sum_{i j \in E} w_{i j}^{t_i, t_j} \cdot \psi_{2 D}\left(l_i-l_j\right) \\ & +\sum_{i \in V} b_i^{t_i}+\sum_{i j \in E} b_{i j}^{t_i, t_j}, \end{aligned} S(I,l,t)=i∈V∑witi⋅ρ(I,li)+ij∈E∑wijti,tj⋅ψ2D(li−lj)+i∈V∑biti+ij∈E∑bijti,tj,
FMP方法使用一组身体部位来表示人体姿势(Yang和Ramanan,2013)。姿态估计被分解为与部件之间的成对约束相结合的一组2D部件检测。
其中,在具有 Np 个部位的模型中,l = (l1, …, lNp ) 表示使用所有身体部位的位置的人的姿势。第一项是零件外观模型,第二项是强制成对约束的变形模型。最后两项是捕获部分兼容性,其中 b ti i 是为部分 i 选择特定混合类型的分数,b ti,tj ij 编码部分类型的共现概率。
2.RGB-D 数据上的 3D 图形结构
考虑到同步且对齐的彩色和深度图像的可用性,很自然地会想到可以从补充信息中受益的模型。这可以在PS框架中通过扩展外观和变形来实现模型:
S ( I , D , l , t ) = ∑ i ∈ V w i t i ⋅ ϕ ( I , D , l i ) + ∑ i j ∈ E w i j t i , l j ⋅ ψ 3 D ( D , l i , l j ) + ∑ i ∈ V b i t i + ∑ i j ∈ E b i j t i , t j , \begin{aligned} S(I, D, l, t)= & \sum_{i \in V} w_i^{t_i} \cdot \phi\left(I, D, l_i\right)+\sum_{i j \in E} w_{i j}^{t_i, l_j} \cdot \psi_{3 D}\left(D, l_i, l_j\right) \\ & +\sum_{i \in V} b_i^{t_i}+\sum_{i j \in E} b_{i j}^{t_i, t_j}, \end{aligned} S(I,D,l,t)=i∈V∑witi⋅ϕ(I,D,li)+ij∈E∑wijti,lj⋅ψ3D(D,li,lj)+i∈V∑biti+ij∈E∑bijti,tj,
其中 D 是对齐的深度图像,ψ3D 对 3D 成对约束进行建模。 φ(I, D, li) 是通过连接从彩色和深度图像中提取的特征来计算的。按照文献中的常见做法,我们在强度图像上使用 HOG 描述符 (I-HOG)。我们比较了深度图像上的三个描述符,即 D-HOG(应用于深度图像的 HOG)、HONV(Tang 等人,2013)和 HDD。
3.HDD(深度差异直方图)
深度图像对物体表面距离进行编码。深度相机。因此,我们提出了一种基于相对表面距离变化提取特征的深度图像描述符。
其中 s ∈ {1, . 。 ., n} 是深度图像的比例。 Ps(x,y)和Ds(x,y)分别是尺度s的深度图像块和位置(x,y)处的深度值。通过块中心处的深度值的倒数对响应进行归一化,保证了该特征是深度不变的。卷积还应用于尺度空间以对不同空间邻域的变化进行编码。为了计算描述符,卷积响应被量化,图像也被划分为不重叠的窗口,称为单元。然后通过计算内核、尺度和量化级别的 3D 直方图来计算每个单元的描述符。
4.3D 成对约束
res是根据内参得到的相机像素的分辨率。由于节点可以存储在二维数组中,因此可以在恒定时间内访问这些候选节点。由于 2D 标准无法保证相应的 3D 节点位于距离 maxDist3D 内,因此在所有潜在候选节点中进一步检查此条件。 maxDist3D 选择 0.9 m 的大距离,以确保不会错过全局最优值。
一旦构建了邻域图,它就会在(9)中用于在所有身体部位之间传播分数。
PCK结果。五种变形模型与七种不同外观模型的比较。每一行显示外观模型与二维成对约束ψ2D或所提出的三维成对约束之一ψ1−4 3D组合作为变形模型的评估结果。
注():带I-HOG的ψ2D为FMP(Yang和Ramanan,2013)。
PCK 结果。五种变形模型结合七种不同外观模型的比较。每行显示与 2D 成对约束 ψ2D 或建议的 3D 成对约束 ψ1−4 3D 之一结合作为变形模型的外观模型的评估结果。
注():ψ2D 与 I-HOG 是 FMP(Yang 和 Ramanan,2013)。
使用AP分数的人员检测结果。在相同的外观模型上,我们的方法的两个变体与DPM进行了比较。
N表示一组带注释的员工,他们的上半身至少有一半在视图中可见。N+D包含视图中出现的所有带注释的职员
在交叉验证的第一次折叠中,为检测正常工作人员计算的精确度-召回曲线。DPM、ψ2D和ψ3D与I-HOG和I-HOG+HDD表示相结合的结果。
本文提出了一种基于图像结构的手术室人体姿势估计和检测方法。通过设计基于颜色和深度图像的外观模型以及基于 3D 成对约束的变形模型,我们将 PS 扩展到 RGB-D 数据的 3D。本文还提出了深度图像的一个新功能,即深度差异直方图,它以粗糙、多尺度和深度不变的表示形式对表面水平变化进行编码。
此外,实验结果表明,3D 成对约束如何显着改善手术室等杂乱繁忙的环境中临床医生检测和姿势估计的结果。这一改进的关键是使用 3D 信息来 (1) 构建 3D 节点; (2)减少状态空间连通图中的边数; (3) 通过考虑节点之间的 3D 距离在状态空间中传播信息,同时保留精确解。
上周的综述文献所引用的文献太多,总共分为从解决目标的角度分两个大类:单人3dhpe、多人3dhpe,再细分为4个小类:从2d推断到3d、直接生成3d;自上而下(把所有人的关键点先标记出来,再进行分到各个人身上)、自下而上(目前主流方法:在图像中,先把具体的各个人给目标识别出来,然后再进行标点)。从采用的解决方法上:又分为经典解决方法、和深度学习解决方法。需要各个方向主要精读最相关、最具有代表性的文章进行学习。