神经网络--姿态识别论文综述备忘录

关于姿态的论文下载及意义的有关说明(2017年11月23日):

链接1–(较为概括但简略)

首先是知乎有一个2017年姿态方面的论文/相关工作的一个总结。所以直接照搬过来,一个比较高屋建瓴的综述性的文章。https://zhuanlan.zhihu.com/p/27293180 《VALSE2017系列之三:人体姿态识别领域年度进展报告》[1]。这篇综述性质的科普问所幸被收录在一个该领域的以为研究博士的知乎收藏夹中,里面该领域的内容比较丰富,也一并先收在此备忘录中,以便后期整理:[阿尔博士珍] https://www.zhihu.com/collection/165388562 。按时间节点来分的话::2014年:{07/09/11},2015年:{06/17},2016年:{03,04,05,15},2017年:{02}。括号里面的编号是链接1给出的17篇参考文献中的编号,不知道这些编号代表什么paper,不用担心,链接2给出了同样的顺序,所以也暂时不用下载了。

其实呢,转了几圈知乎/csdn,发现这个圈是有边界的。本着善始善终的精神,继续将收集到的二手资料罗列起来。

链接2–(相比链接1有最新的更新,结合链接4)

知乎上另外一个话题拉了一个姿态估计的清单:《深度学习从入门到放弃之CV-Pose estimation目录
》https://zhuanlan.zhihu.com/p/31171930 [2]。源自于列表式综述《深度学习从入门到放弃之CV总目录》 https://zhuanlan.zhihu.com/p/31116104 。链接2里面包含的文章索引和链接1的2015年及以前的paper是一样的,但多了几篇2016-2017年的文章。
2015—-Pose-based CNN Features for Action Recognition
2015—-Flowing ConvNets for Human Pose Estimation in Videos (Tompson)
2016—-Advancing Hand Gesture Recognition with High Resolution Electrical Impedance Tomography
2016—-CPM—-Convolutional Pose Machines (Wei)
2016—-Stacked hourglass—-Stacked Hourglass Networks for Human Pose Estimation (精度高于Wei和Tompson)#1 {经典文章,可以精读,对照实验很好}
2016—-Structured Feature Learning for Pose Estimation (王晓刚)
2016—-Adversarial PoseNet: A StructureawareConvolutional Network for Human Pose Estimation
链接4评论是:Hourglass之后的这两篇都是微调多一些,理论不一样,准确度提升也不大。
2016—-Deep Learning of Local RGB-D Patches for 3D Object Detection and 6D Pose Estimation
接下来是多人的姿态识别
2016—-DeepCut—-Joint Subset Partition and Labeling for Multi Person Pose Estimation
2016—-DeepCut—-Joint Subset Partition and Labeling for Multi Person Pose Estimation_poster
2016—-DeeperCut—-DeeperCut A Deeper, Stronger, and Faster Multi-Person Pose Estimation Model
2017—-ArtTrack: Articulated Multi-person Tracking in the Wild (deepercut的作者,也用到了bottom-u的方法,先确定人体,在预测关节)
这些都是Top-down方法,先检测body part proposal,在归类为不同的人。速度最快是200s/frame
2017—-PAF—-Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields (bottom-up方法,速度可以达到200FPS)#2 {具有启发性,可以精读}

2017—-CVPR2017 oral—-CDC_Conv-De-Conv Networks for Precise Temporal Action Localization

2017—-Multi-Context_Attention_for_Human_Pose_Estimation #3 {是Hourglass的增强版,结构更强一些,关键能很好理解残差网络的应用,建议精读}
2017—-Human Pose Estimation using Global and Local Normalization #4 {方法的核心是一种类似于图像预处理的方法,所以这种方法不是主流方法,性能有天花板,可以略读}
2017—-PyraNet—-Learning Feature Pyramids for Human Pose Estimation #5 {这篇论文创新点不是特别大,但是是一篇很有高度的文章,强烈建议精读}

最新的文章:
Mask R-CNN (何凯明,基于faster RCNN,计算量增加不大)
G_RMI (Towards accureate multi-person estimation in the wild) 分三个阶段,检测人体,预测heatmap,融合heatmap和offset。

Associative Embedding: End-to-End Learning for Joint Detection and Grouping(效果超过何G_RMI和谷歌Mask RCNN)#6 {文章有点晦涩,但是是纯神经网络思维,可以精读}
RMPE: Regional Multi-Person Pose Estimation(上交大的论文,主要解决imperfect proposal,从而单人姿态估计更好) #7 {文章是Hourglass的单人姿态检测SPPE在多人场景下的扩展,有启发性,可以精读}
(暂时(时间:2017年11月23日)先研究的论文先标注为黑色,倾斜下划线为接下来要研究的论文)

链接3–(偏行为预测和视频分类)

链接是15年pose的。同样的来自于知乎的行为识别:https://www.zhihu.com/question/33272629 [3]里面有几篇代表性的文章链接,由此见回答质量比较高。总结一下:(blog作者Xiaolong Wang)
LEAR - Improved Trajectories Video Description作者对它(Improved Dense Trajectories(IDT) + fisher vector)评价很高,文章是2013年的,但代码是在不断更新的。
arxiv.org/abs/1406.2199《Two-Stream Convolutional Networks for Action Recognition in Videos
》,作者评价不高,说难以复现,且效果和IDT 无差。
《Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors》是一个IDT的改进结果,同样的有开源代码,是15年的文章。

也有几个2017年的回答
有个中科院计算机所的课题组的链接:https://github.com/jindongwang/activityrecognition 大致介绍了从课题组的角度出发对行为识别的资料的总结。行为识别的定义是基于“多种传感器可以用于行为识别,如最常用的加速度计、陀螺仪、蓝牙与WiFi等”做的预测。在这里 http://blog.csdn.net/zijin0802034/article/details/72677150?locationNum=2&fps=1 给出了更详细的定义,预测视频分类。
另外3位给出的链接比较多,但要细读。先列这儿:
分别是一个名为diff专家的/Mr.JK的以及xiaollz的。

但有多人赞同的综述类的两篇文章是[1605.04988] Going Deeper into Action Recognition: A Survey (有40页)以及Deep Learning for Video Classification and Captioning(36页)。

链接4–(姿态识别,比较靠谱)

一个分条析屡较清楚的还有CSDN上的一篇博客:《人体姿态估计综述(Human Pose Estimation Overview) 》http://blog.csdn.net/qq_36165459/article/details/78320535?locationNum=5&fps=1 [4]
CSDN上单人/多人姿态估计paper及链接:《人体姿态估计 - Human Pose Estimation Papers》 http://blog.csdn.net/zziahgf/article/details/78203621 。

然后接下来上CSDN收集到的资料。
训练数据集:《人体姿态估计数据集整理(Pose Estimation/Keypoint》 http://blog.csdn.net/qq_36165459/article/details/78332172?locationNum=6&fps=1 。
翻译或理解:
1.《基于3D卷积神经网络的人体行为理解(论文笔记) 》
2.《Learning Spatiotemporal Features with 3D Convolutional Networks》 http://blog.csdn.net/xiaofei0801/article/details/72896354 。

http://lear.inrialpes.fr/people/wang/improved_trajectories

你可能感兴趣的:(神经网络论文选读,神经网络,姿态识别,论文)