从计算机视觉算法实训走向落地尝试

极市平台视觉AI工程项目实训周是个怎样的流程?参加实训周的同学又有怎样的经历体验?我们邀请了9月实训周打榜昵称为ysc的同学分享自己的实训周经验。

ysc同学在实训周期间完成多个实训项目的实战,均取得了优异的成绩,并受邀进行拉横幅识别的项目落地封装,现在也在与极市平台官方算法工程师火热地打交道,为算法合作落地努力中!

下边一起来看下他的实训周经验分享吧!9月份我参加了极市平台举办的计算机视觉算法实训周,期间完成多个实训项目的实战,均取得了不错的成绩,并受邀进行拉横幅识别的项目落地封装,现在也在与极市平台官方算法工程师一起为算法合作落地努力中!

一、我是怎么参加极市平台实训周的?

本人菜鸟硕士一名,本科毕设的时候接触过目标检测和跟踪相关的内容,比较感兴趣,后来硕士期间就继续从事视觉相关的研究。和实验室师兄聊天的时候,师兄给我推了极市平台公众号,并表示公众号上经常发布各种和视觉相关的推文,可以参考学习。某天我看到了公众号上关于实训周的推文,看到有导师带队,打榜还有奖励,觉得是一个非常不错的机会,于是报名参加了。

二、实训周的流程与内容

实训周的流程其实并不复杂,在平台上注册账号,然后选择自己感兴趣的项目报名打榜。在刚注册账号的时候,有新手项目给大家熟悉平台,熟悉模型建立,训练,测试和封装的整个过程,极市平台上也有很多优秀的大佬分享整个流程及自己的代码,非常的nice!实训周期间有老师一直在群里回答学生的各种问题,帮助学生解决各种报错和bug,也会有集体培训,带同学们过一遍整个流程,感觉跟着老师走,完成整个过程拿到分数并不难。

三、打榜思路和策略

我打榜的项目是火焰识别,有幸也是打到了榜一,接下来将围绕该项目展开具体描述。

3.1 算法目标

监控区域内有红色火焰/火苗产生,算法需要识别出来,提高执法效率,减少损失。识别场景是街道,环境要求是白天,或光线充足。

3.2 数据分析

数据集图片是jpg格式,标注格式是voc的,如果使用yolo系列模型,需要自己将格式转为yolo的训练格式,网上有很多代码教程。训练集和测试集的数量个人感觉足够大了,如果感觉不够,可以采取角度变化,光线变化的方式来增大数据集进行训练。

006C3FgEgy1h783gedwa2j314i03sabk
因为我本人对yolo系列比较熟悉,因此最先想到是使用yolo模型,yolov5系列是我感觉体积比较小,速度比较快的模型,因为yolov6/7并不太熟悉,所以我选择了yolov5模型,其次,因为模型测试不仅有精度得分,还有性能分:

从计算机视觉算法实训走向落地尝试_第1张图片
因此我首先确定是选用yolov5s模型,首攻精度,又不失速度。

从计算机视觉算法实训走向落地尝试_第2张图片

3.3 训练策略

训练过程中,我一般预设的训练周期都是300epoch,作为一个基准,如果过拟合了就减少,精度不高就再加;
其次,训练的batch_size在允许的范围内建议越大越好,越大,模型过拟合的可能性就越小,我试过32和64,都是可以运行的;
再细节的训练的话,就是可以freeze微调某一部分了,这个比较考验个人能力,如果有能力可以使用;
TensorRT几乎是必须了。TensorRT是Nvidia为了加速基于GPU训练模型的推理而设计,能有效加速模型的推理部署。且精度基本不会受到影响;
优化器的选择也有很多,模型默认使用的是SGD,因为在我训练过程中模型精度还不错,就没有进行修改,也可以尝试用其他优化器。

3.4 关于SDK封装

最开始火焰识别的封装是在打榜到达0.7分以后开始的,我使用的是官方提供的demo,配合着官方的视频讲解,修改对应的部分就行,没有什么难度。
后边我又报名了其它项目,拉横幅识别项目因为排名前三,被邀请参加封装。这个项目有意思的地方在于,返回的并不是识别框中心点的坐标和高度宽度,而是识别框四个顶点的坐标,这个是需要我们注意的,在模型测试和封装过程中,都要进行相应的修改,看懂代码报警的逻辑,如果凭借自己知识经验和搜索引擎搜索学习了仍然不懂也没关系,平台有专门负责封装的技术人员会解答你的相关问题。

四、实训周小结

本次实训周我顺利通过了,并获得了相应的实训周证书。后边平台熟悉了,我报名了很多榜,有三个拿到了模型榜第一名,感觉还是挺不容易的。整个过程中,平台的工作人员很和蔼,回答问题很及时,导师也是非常的负责,基本上发问题到群里,很快就有回复。部署第一个项目是最难的,因为会遇到各种bug,但是跑通的那一刻是真的快乐!!后续就是提高精度的折磨过程了,总之整个实训周还是学到了很多的东西,后续能参加封装的课程也是非常开心,希望能够进一步提高自己的实力,让自己越来越强。

你可能感兴趣的:(计算机视觉,计算机视觉,算法,人工智能)