第十八届“挑战杯”-基于端云算力协同的疲劳驾驶智能识别-2023.03.28

目录

时间

内容

具体

知识点

评分

数据

领域调研

ChatGPT询问

论文:

开源代码:


nullicon-default.png?t=N2N8https://competition.huaweicloud.com/information/1000041855/circumstance

时间

第十八届“挑战杯”-基于端云算力协同的疲劳驾驶智能识别-2023.03.28_第1张图片

 

内容

主题:智能驾驶场景(疲劳/分神驾驶检测),利用端侧算力单元与云上算力中心协同,让车辆能够更准确更迅速的检测疲劳/分神驾驶,及时提醒司机,减少交通事故。

具体

参赛选手需要识别出驾驶过程中的闭眼、哈欠、打电话、左顾右盼等疲劳/分神行为,为了兼顾算法的精度和速度,参赛选手可以协同利用端侧设备和云侧平台的算力。

其中初赛阶段的判分在云侧进行,参赛选手必须基于华为云AI开发平台ModelArts开发,提交适配云侧ModelArts的算法包;

复赛与决赛阶段的判分在线下进行,参赛选手需要提交适配端侧设备的算法包 + 适配云侧ModelArts的算法包(若为纯端侧方案,则不需要云侧部分),以及方案介绍PPT等。

知识点

疲劳/分神驾驶行为的识别,会综合利用到计算机视觉领域的目标检测、关键点检测、图像分类等基础技术;为提升识别效率,也需要用到剪枝、量化、蒸馏、batch推理等模型方面的优化,以及异步、多线程、pipeline并行等应用层面的优化。因此,本次比赛会综合考察参赛选手的基础理论掌控、模型设计优化、应用开发优化等方面的能力。参赛选手可选用搭载OpenHarmony等系统的开发板、小车、摄像头等终端硬件来模拟车辆。

评分

大赛组委会将为参赛选手提供数据集(标注了行为类别的视频片段),选手需要根据自己选择的技术路线进行更精细的标注,再进行相应模型的训练和应用的开发。测试集为多段视频,选手提交的算法包需要以视频为单位输出对应的类别,每段视频输出一个结果,格式为json字符串,举例如下:

 {

    "result":

        {

            "category":0,

            "duration":6000

        }

 }

 其中,category为驾驶行为类别编号(见下表的数据说明),duration为算法推理耗时(单位为毫秒)。大赛组委会将在3月底提供baseline(包含文档以及代码),供参赛选手参考。

数据

第十八届“挑战杯”-基于端云算力协同的疲劳驾驶智能识别-2023.03.28_第2张图片

 

第十八届“挑战杯”-基于端云算力协同的疲劳驾驶智能识别-2023.03.28_第3张图片

 

领域调研

1. 基于2D卷积神经网络(CNN)的方法(2014-2016年):这些方法将视频帧作为输入,使用2D卷积神经网络对每个帧进行分类,然后将分类结果组合成整个视频的分类结果。这些方法的代表包括C3D和Two-Stream CNN。

2. 基于3D卷积神经网络(CNN)的方法(2017年以后):这些方法直接将视频作为输入,使用3D卷积神经网络对整个视频进行分类,可以捕捉视频中的时间信息。这些方法的代表包括I3D和SlowFast。

3. 基于注意力机制的方法(2018年以后):这些方法通过学习注意力权重来关注视频中的重要部分,从而提高分类性能。这些方法的代表包括Non-Local和Self-Attention.

4. 基于图神经网络的方法(2019年以后):这些方法将视频转化为图形结构,然后使用图神经网络进行分类。这些方法的代表包括ST-GCN和TSM。

这些方法在视频动作分类领域取得了很大的成功,未来还有很多研究方向,如如如何提高模型的泛化能力和鲁棒性、如何应对复杂场景等。

ChatGPT询问

可以基于googlesholar和GitHub给我推荐重要的论文和开源代码

**chatgpt**: 当然可以,以下是一些值得关注的论文和开源代码:

论文:

1. Tran, Du, et al. "Learning spatiotemporal features with 3d convolutional networks." ICCV 2015.

2. Carreira, Joao, and Andrew Zisserman. "Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset." CVPR 2017.

3. Feichtenhofer, Christoph, et al. "SlowFast networks for video recognition." ICCV 2019.

4. Wang, Limin, et al. "Temporal segment networks: Towards good practices for deep action recognition." ECCV 2016.

5. Wang, Xiaolong, et al. "Non-local neural networks." CVPR 2018.

开源代码:

1. C3D:https://github.com/facebookarchive/C3D

2. I3D:https://github.com/deepmind/kinetics-i3d

3. SlowFast:https://github.com/facebookresearch/SlowFast

4. TSM:https://github.com/mit-han-lab/temporal-shift-module

5. ST-GCN:https://github.com/yysijie/st-gcn

这些论文和代码都是视频动作分类领域的重要贡献,值得学习和借鉴。

**user**: 可以给我推荐一些更新、更近期的视频动作分类的研究工作吗

**chatgpt**: 当然可以,以下是一些近期的视频动作分类的研究工作:

1. "Rethinking Spatial Dimensions of Convolutional Filters for Video Classification",CVPR 2021.

2. "Dual-stream Network with Multi-scale Attention for Action Recognition",TIP 2021.

3. "Gated Spatio-Temporal CNNs for Video Classification",CVPR 2020.

4. "Learning Cross-Modal Temporal Representations from Unpaired Data",CVPR 2021.

5. "Multi-modal and Multi-view Models for Video Captioning and Retrieval",TIP 2021.

这些研究工作都是近年来在视频动作分类领域取得的重要进展,值得关注和学习。

**user**: 都有开源代码吗

**chatgpt**: 有的研究工作提供了开源代码,有的则没有。以下是提供了开源代码的研究工作:

1. "Rethinking Spatial Dimensions of Convolutional Filters for Video Classification":https://github.com/okankop/Revisiting-Spatial-Dimensions-for-Video-Classification

2. "Dual-stream Network with Multi-scale Attention for Action Recognition":https://github.com/Anfany/DMA-Net

3. "Gated Spatio-Temporal CNNs for Video Classification":https://github.com/zhengyima/Gated-ST-CNN

4. "Multi-modal and Multi-view Models for Video Captioning and Retrieval":https://github.com/yytzsy/VMZ

这些开源代码提供了实现论文方法的参考,可以帮助研究者更好地理解和复现论文中的方法。

**user**: 目前效果最好,效率最高的视频动作分类工作是哪一个呢?

**chatgpt**: 目前效果最好、效率最高的视频动作分类工作没有一个明确的答案,因为这取决于具体的任务和数据集。不同的任务和数据集会有不同的性质和难度,需要根据具体情况选择最适合的方法。

通常来说,在实际应用中,除了分类准确率之外,还需要考虑模型的运行速度和计算资源消耗等因素。因此,一些轻量级的模型和优化技术也受到了广泛关注。

总体来说,目前一些基于3D卷积神经网络(CNN)的方法,如SlowFast和I3D,在多个数据集上都取得了不错的性能和效率。同时,一些轻量级的模型,如TSM和MobileNetV3,也在一些数据集上取得了不错的性能和效率。当然,具体的选择还需要根据具体需求和实际情况来决定。

你可能感兴趣的:(#,比赛,人工智能,计算机视觉,华为云,比赛)