提出将人体部位与个体联系起来的非参数化方法— P A F s PAFs PAFs,实现自底向上的实时多人姿态估计,在性能和效率上均实现当时最优的结果。
首先预测一组图像中人体部位位置的 2 D 2D 2D 置信图 S S S,以及一组表示部位相似性的 2 D 2D 2D 矢量场 L L L,它们表示部位之间的关联程度。集合 S = ( S 1 , S 2 , … , S J ) S=\left(\mathbf{S}_{1}, \mathbf{S}_{2}, \ldots, \mathbf{S}_{J}\right) S=(S1,S2,…,SJ) , S j ∈ R w × h \mathbf{S}_{j} \in \mathbb{R}^{w \times h} Sj∈Rw×h, j ∈ { 1 … J } j \in\{1 \ldots J\} j∈{1…J}。集合 L = ( L 1 , L 2 , … , L C ) \mathbf{L}=\left(\mathbf{L}_{1}, \mathbf{L}_{2}, \ldots, \mathbf{L}_{C}\right) L=(L1,L2,…,LC) 有 C C C 个矢量场,每个肢体一个。其中, L c ∈ R w × h × 2 \mathbf{L}_{c} \in \mathbb{R}^{w \times h \times 2} Lc∈Rw×h×2, c ∈ { 1 … C } c \in\{1 \ldots C\} c∈{1…C}, L c \mathbf{L}_c Lc 中的每个图像位置编码一个 2 D 2D 2D 向量。最后,通过贪婪推理解析置信度图和亲和场,以输出图像中所有人的 2 D 2D 2D 关键点。
为每一阶段的两个分支网络分别设计损失函数,对损失进行空间加权,来解决一些数据集不能完全标记所有人的问题。
f S t = ∑ j = 1 J ∑ p W ( p ) ⋅ ∥ S j t ( p ) − S j ∗ ( p ) ∥ 2 2 f L t = ∑ c = 1 C ∑ p W ( p ) ⋅ ∥ L c t ( p ) − L c ∗ ( p ) ∥ 2 2 \begin{aligned} f_{\mathrm{S}}^{t} &=\sum_{j=1}^{J} \sum_{\mathrm{p}} \mathbf{W}(\mathbf{p}) \cdot\left\|\mathbf{S}_{j}^{t}(\mathbf{p})-\mathbf{S}_{j}^{*}(\mathbf{p})\right\|_{2}^{2} \\ f_{\mathrm{L}}^{t} &=\sum_{c=1}^{C} \sum_{\mathbf{p}} \mathbf{W}(\mathbf{p}) \cdot\left\|\mathbf{L}_{c}^{t}(\mathbf{p})-\mathbf{L}_{c}^{*}(\mathbf{p})\right\|_{2}^{2} \end{aligned} fStfLt=j=1∑Jp∑W(p)⋅∥∥Sjt(p)−Sj∗(p)∥∥22=c=1∑Cp∑W(p)⋅∥∥Lct(p)−Lc∗(p)∥∥22
其中, W \mathbf{W} W 为二进制 m a s k mask mask,当图像位置 p p p 没有注释时, W ( p ) = 0 \mathbf{W(p)=0} W(p)=0,避免训练时惩罚 T P \mathbf{TP} TP 预测。每个阶段的中间监督通过定期补充梯度来解决梯度消失问题。总损失为:
f = ∑ t = 1 T ( f S t + f L t ) f=\sum_{t=1}^{T}\left(f_{\mathrm{S}}^{t}+f_{\mathrm{L}}^{t}\right) f=t=1∑T(fSt+fLt)
G T GT GT 置信图根据标注的人体关键点位置生成,以多人为例,第 k k k 个人的第 j j j 个可见部位的置信图表示为 S j , k ∗ \mathbf{S}_{j, k}^{*} Sj,k∗:
S j , k ∗ ( p ) = exp ( − ∥ p − x j , k ∥ 2 2 σ 2 ) \mathbf{S}_{j, k}^{*}(\mathbf{p})=\exp \left(-\frac{\left\|\mathbf{p}-\mathbf{x}_{j, k}\right\|_{2}^{2}}{\sigma^{2}}\right) Sj,k∗(p)=exp(−σ2∥p−xj,k∥22)
其中, p ∈ R 2 \mathbf{p} \in \mathbb{R}^{2} p∈R2, x j , k \mathbf{x}_{j, k} xj,k 为关键点标注位置。则,
S j ∗ ( p ) = max k S j , k ∗ ( p ) \mathbf{S}_{j}^{*}(\mathbf{p})=\max _{k} \mathbf{S}_{j, k}^{*}(\mathbf{p}) Sj∗(p)=kmaxSj,k∗(p)
L c , k ∗ ( p ) = { v if p on limb c , k 0 otherwise \mathbf{L}_{c, k}^{*}(\mathbf{p})=\left\{\begin{array}{ll}{\mathbf{v}} & {\text { if } \mathbf{p} \text { on limb } c, k} \\ {0} & {\text { otherwise }}\end{array}\right. Lc,k∗(p)={v0 if p on limb c,k otherwise
当点 p p p 在 k k k 的肢体 c c c 上时, L c , k ∗ ( p ) \mathbf{L}_{c, k}^{*}(\mathbf{p}) Lc,k∗(p) 等于从关键点 j 1 j_1 j1 指向关键点 j 2 j_2 j2 的单位向量。否则为零向量。肢体上的点必须满足以下条件:
0 ≤ v ⋅ ( p − x j 1 , k ) ≤ l c , k and ∣ v ⊥ ⋅ ( p − x j 1 , k ) ∣ ≤ σ l 0 \leq \mathbf{v} \cdot\left(\mathbf{p}-\mathbf{x}_{j_{1}, k}\right) \leq l_{c, k} \text { and }\left|\mathbf{v}_{\perp} \cdot\left(\mathbf{p}-\mathbf{x}_{j_{1}, k}\right)\right| \leq \sigma_{l} 0≤v⋅(p−xj1,k)≤lc,k and ∣v⊥⋅(p−xj1,k)∣≤σl
其中肢体长度: l c , k = ∥ x j 2 , k − x j 1 , k ∥ 2 l_{c, k}=\left\|\mathbf{x}_{j_{2}, k}-\mathbf{x}_{j_{1}, k}\right\|_{2} lc,k=∥xj2,k−xj1,k∥2
肢体宽度: σ l \sigma_{l} σl 为像素距离
最终 P A F s PAFs PAFs 为图像中所有人的平均亲和场:
L c ∗ ( p ) = 1 n c ( p ) ∑ k L c , k ∗ ( p ) \mathbf{L}_{c}^{*}(\mathbf{p})=\frac{1}{n_{c}(\mathbf{p})} \sum_{k} \mathbf{L}_{c, k}^{*}(\mathbf{p}) Lc∗(p)=nc(p)1k∑Lc,k∗(p)
其中, n c ( p ) n_c(\mathbf{p}) nc(p) 为点 p \mathbf{p} p 处所有人产生的非零向量个数。
测试阶段,通过沿着连接候选部位位置的线段,计算相应 P A F PAF PAF 上的线积分来测量候选部位检测之间的关联。
E = ∫ u = 0 u = 1 L c ( p ( u ) ) ⋅ d j 2 − d j 1 ∥ d j 2 − d j 1 ∥ 2 d u E=\int_{u=0}^{u=1} \mathbf{L}_{c}(\mathbf{p}(u)) \cdot \frac{\mathbf{d}_{j_{2}}-\mathbf{d}_{j_{1}}}{\left\|\mathbf{d}_{j_{2}}-\mathbf{d}_{j_{1}}\right\|_{2}} d u E=∫u=0u=1Lc(p(u))⋅∥dj2−dj1∥2dj2−dj1du
p ( u ) \mathbf{p}(u) p(u) 为两个人体部位 d j 1 d_{j1} dj1 和 d j 2 d_{j2} dj2 的位置插值。
p ( u ) = ( 1 − u ) d j 1 + u d j 2 \mathbf{p}(u)=(1-u) \mathbf{d}_{j_{1}}+u \mathbf{d}_{j_{2}} p(u)=(1−u)dj1+udj2
实际中通过对 u u u 均匀采样,然后求和来近似积分。
通过对检测置信度图执行非最大值抑制,以获得一组离散的部位候选位置。每个部位可能生成多个候选,经过组合生成大量的候选肢体。通过在 P A F PAF PAF 上计算线积分来对每个候选肢体打分。找到最优解的问题对应于一个已知为 N P NP NP 难的 K K K 维匹配问题。
在这篇文章中,作者提出了一种贪婪的简化方法,能够始终产生高质量的匹配。推测原因是成对关联分数隐含地编码了全局上下文,这是由于 P A F PAF PAF 网络的感受野很大。
D J = { d j m : j ∈ { 1 … J } , m ∈ { 1 … N j } } \mathcal{D}_{\mathcal{J}}=\left\{\mathbf{d}_{j}^{m} :\right.j \in\{1 \ldots J\}, m \in\left\{1 \ldots N_{j}\right\} \} DJ={djm:j∈{1…J},m∈{1…Nj}}
d j m \mathbf{d}_{j}^{m} djm 表示部位 j j j 的第 m m m 个候选。接下来需要确定部位对构成的肢体。 z j 1 j 2 m n ∈ { 0 , 1 } z_{j_{1} j_{2}}^{m n} \in\{0,1\} zj1j2mn∈{0,1}表示 d j 1 m \mathbf{d}_{j1}^{m} dj1m 和 d j 2 n \mathbf{d}_{j2}^{n} dj2n 是否相连。目标是找到最优分配方案:
Z = { z j 1 j 2 m n : j 1 , j 2 ∈ { 1 … J } , m ∈ { 1 … N j 1 } , n ∈ { 1 … N j 2 } } \mathcal{Z}=\left\{z_{j_{1} j_{2}}^{m n} :\right.j_{1}, j_{2} \in\{1 \ldots J\}, m \in\left\{1 \ldots N_{j_{1}}\right\}, n \in\left\{1 \ldots N_{j_{2}}\right\} \} Z={zj1j2mn:j1,j2∈{1…J},m∈{1…Nj1},n∈{1…Nj2}}
寻找最佳关联简化为最大权重二部图匹配问题。该问题中,结点为 D j 1 D_{j1} Dj1 和 D j 2 D_{j2} Dj2,边是两组结点间所有可能的连接。每条边的权重为之前计算的线积分 E E E。二部图中的匹配是以没有两条边共享一个结点的方式选择的边的子集。优化的目标是为选定的边找到最大权重的匹配:
max Z c E c = max Z c ∑ m ∈ D j 1 ∑ n ∈ D j 2 E m n ⋅ z j 1 j 2 m n \max _{\mathcal{Z}_{c}} E_{c}=\max _{\mathcal{Z}_{c}} \sum_{m \in \mathcal{D}_{j_{1}}} \sum_{n \in \mathcal{D}_{j_{2}}} E_{m n} \cdot z_{j_{1} j_{2}}^{m n} ZcmaxEc=Zcmaxm∈Dj1∑n∈Dj2∑Emn⋅zj1j2mn
s.t. ∀ m ∈ D j 1 , ∑ n ∈ D j 2 z j 1 j 2 m n ≤ 1 ∀ n ∈ D j 2 , ∑ m ∈ D j 1 z j 1 j 2 m n ≤ 1 \begin{aligned} {\text { s.t. } \quad \forall m \in \mathcal{D}_{j_{1}}, \sum_{n \in \mathcal{D}_{j_{2}}} z_{j_{1} j_{2}}^{m n} \leq 1} \\ {\forall n \in \mathcal{D}_{j_{2}}, \sum_{m \in \mathcal{D}_{j_{1}}} z_{j_{1} j_{2}}^{m n} \leq 1} \end{aligned} s.t. ∀m∈Dj1,n∈Dj2∑zj1j2mn≤1∀n∈Dj2,m∈Dj1∑zj1j2mn≤1
通过 H u n g a r i a n Hungarian Hungarian 算法获取最优匹配。
当涉及到寻找多人的全身姿态时,确定 Z Z Z 是一个 K K K 维匹配问题。这个问题是 N P NP NP 难并且有许多松弛存在。作者为优化添加两个松弛。
结果表明最小贪婪推理很好地近似了全局解,只需要计算成本的一小部分。原因是相邻树节点之间的关系是由 P A F s PAFs PAFs 显式建模的,但在内部,不相邻树节点之间的关系是由 C N N CNN CNN 隐式建模的。这一特性的出现是因为 C N N CNN CNN 有一个大的感受野,并且来自非相邻树节点的 P A F s PAFs PAFs 也影响预测的 P A F PAF PAF 。因此,优化可以被简化为:
max Z E = ∑ c = 1 C max Z c E c \max _{\mathcal{Z}} E=\sum_{c=1}^{C} \max _{\mathcal{Z}_{c}} E_{c} ZmaxE=c=1∑CZcmaxEc
因此,可以独立地获得每种肢体类型的肢体连接候选。对于所有肢体连接候选,可以将共享相同部位检测候选的连接,组合成多人的全身姿势。在树结构上的优化方案比在全连接图上的优化快几个数量级。
主要贡献—— P A F s PAFs PAFs:
主要是贡献— P A F s PAFs PAFs,论文中涉及的具体的深度学习的实现细节不多,感觉这一块有一些提升的空间,可以尝试结合深度学习网络设计、损失函数设计方面的一些新的方法。