目录
时间
内容
具体
知识点
评分
数据
领域调研
ChatGPT询问
论文:
开源代码:
nullhttps://competition.huaweicloud.com/information/1000041855/circumstance
主题:智能驾驶场景(疲劳/分神驾驶检测),利用端侧算力单元与云上算力中心协同,让车辆能够更准确更迅速的检测疲劳/分神驾驶,及时提醒司机,减少交通事故。
参赛选手需要识别出驾驶过程中的闭眼、哈欠、打电话、左顾右盼等疲劳/分神行为,为了兼顾算法的精度和速度,参赛选手可以协同利用端侧设备和云侧平台的算力。
其中初赛阶段的判分在云侧进行,参赛选手必须基于华为云AI开发平台ModelArts开发,提交适配云侧ModelArts的算法包;
复赛与决赛阶段的判分在线下进行,参赛选手需要提交适配端侧设备的算法包 + 适配云侧ModelArts的算法包(若为纯端侧方案,则不需要云侧部分),以及方案介绍PPT等。
疲劳/分神驾驶行为的识别,会综合利用到计算机视觉领域的目标检测、关键点检测、图像分类等基础技术;为提升识别效率,也需要用到剪枝、量化、蒸馏、batch推理等模型方面的优化,以及异步、多线程、pipeline并行等应用层面的优化。因此,本次比赛会综合考察参赛选手的基础理论掌控、模型设计优化、应用开发优化等方面的能力。参赛选手可选用搭载OpenHarmony等系统的开发板、小车、摄像头等终端硬件来模拟车辆。
大赛组委会将为参赛选手提供数据集(标注了行为类别的视频片段),选手需要根据自己选择的技术路线进行更精细的标注,再进行相应模型的训练和应用的开发。测试集为多段视频,选手提交的算法包需要以视频为单位输出对应的类别,每段视频输出一个结果,格式为json字符串,举例如下:
{
"result":
{
"category":0,
"duration":6000
}
}
其中,category为驾驶行为类别编号(见下表的数据说明),duration为算法推理耗时(单位为毫秒)。大赛组委会将在3月底提供baseline(包含文档以及代码),供参赛选手参考。
1. 基于2D卷积神经网络(CNN)的方法(2014-2016年):这些方法将视频帧作为输入,使用2D卷积神经网络对每个帧进行分类,然后将分类结果组合成整个视频的分类结果。这些方法的代表包括C3D和Two-Stream CNN。
2. 基于3D卷积神经网络(CNN)的方法(2017年以后):这些方法直接将视频作为输入,使用3D卷积神经网络对整个视频进行分类,可以捕捉视频中的时间信息。这些方法的代表包括I3D和SlowFast。
3. 基于注意力机制的方法(2018年以后):这些方法通过学习注意力权重来关注视频中的重要部分,从而提高分类性能。这些方法的代表包括Non-Local和Self-Attention.
4. 基于图神经网络的方法(2019年以后):这些方法将视频转化为图形结构,然后使用图神经网络进行分类。这些方法的代表包括ST-GCN和TSM。
这些方法在视频动作分类领域取得了很大的成功,未来还有很多研究方向,如如如何提高模型的泛化能力和鲁棒性、如何应对复杂场景等。
可以基于googlesholar和GitHub给我推荐重要的论文和开源代码
**chatgpt**: 当然可以,以下是一些值得关注的论文和开源代码:
1. Tran, Du, et al. "Learning spatiotemporal features with 3d convolutional networks." ICCV 2015.
2. Carreira, Joao, and Andrew Zisserman. "Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset." CVPR 2017.
3. Feichtenhofer, Christoph, et al. "SlowFast networks for video recognition." ICCV 2019.
4. Wang, Limin, et al. "Temporal segment networks: Towards good practices for deep action recognition." ECCV 2016.
5. Wang, Xiaolong, et al. "Non-local neural networks." CVPR 2018.
1. C3D:https://github.com/facebookarchive/C3D
2. I3D:https://github.com/deepmind/kinetics-i3d
3. SlowFast:https://github.com/facebookresearch/SlowFast
4. TSM:https://github.com/mit-han-lab/temporal-shift-module
5. ST-GCN:https://github.com/yysijie/st-gcn
这些论文和代码都是视频动作分类领域的重要贡献,值得学习和借鉴。
**user**: 可以给我推荐一些更新、更近期的视频动作分类的研究工作吗
**chatgpt**: 当然可以,以下是一些近期的视频动作分类的研究工作:
1. "Rethinking Spatial Dimensions of Convolutional Filters for Video Classification",CVPR 2021.
2. "Dual-stream Network with Multi-scale Attention for Action Recognition",TIP 2021.
3. "Gated Spatio-Temporal CNNs for Video Classification",CVPR 2020.
4. "Learning Cross-Modal Temporal Representations from Unpaired Data",CVPR 2021.
5. "Multi-modal and Multi-view Models for Video Captioning and Retrieval",TIP 2021.
这些研究工作都是近年来在视频动作分类领域取得的重要进展,值得关注和学习。
**user**: 都有开源代码吗
**chatgpt**: 有的研究工作提供了开源代码,有的则没有。以下是提供了开源代码的研究工作:
1. "Rethinking Spatial Dimensions of Convolutional Filters for Video Classification":https://github.com/okankop/Revisiting-Spatial-Dimensions-for-Video-Classification
2. "Dual-stream Network with Multi-scale Attention for Action Recognition":https://github.com/Anfany/DMA-Net
3. "Gated Spatio-Temporal CNNs for Video Classification":https://github.com/zhengyima/Gated-ST-CNN
4. "Multi-modal and Multi-view Models for Video Captioning and Retrieval":https://github.com/yytzsy/VMZ
这些开源代码提供了实现论文方法的参考,可以帮助研究者更好地理解和复现论文中的方法。
**user**: 目前效果最好,效率最高的视频动作分类工作是哪一个呢?
**chatgpt**: 目前效果最好、效率最高的视频动作分类工作没有一个明确的答案,因为这取决于具体的任务和数据集。不同的任务和数据集会有不同的性质和难度,需要根据具体情况选择最适合的方法。
通常来说,在实际应用中,除了分类准确率之外,还需要考虑模型的运行速度和计算资源消耗等因素。因此,一些轻量级的模型和优化技术也受到了广泛关注。
总体来说,目前一些基于3D卷积神经网络(CNN)的方法,如SlowFast和I3D,在多个数据集上都取得了不错的性能和效率。同时,一些轻量级的模型,如TSM和MobileNetV3,也在一些数据集上取得了不错的性能和效率。当然,具体的选择还需要根据具体需求和实际情况来决定。