计算机视觉定义/openmmlab 体系/机器学习与卷积神经网络

目录

1.计算机视觉

1.1目标检测

1.2图像分割

1.3图像分类

2.openmmlab的体系(主要摘取了感兴趣的几个库)

3.机器学习、卷积神经网络

4.大神推荐的如今建议入门的领域:


1.计算机视觉

是对图像,视频此类图像类信息进行特征提取等以获取信息的技术;

1.1目标检测

拥有多位置信息,由物体的左上角和右下角来获取位置;其锚定框将由五个参数决定(四个位置参数与一个标签)。目标检测按照检测对象目标可以分为专用目标检测和通用目标检测。

1.2图像分割

进行像素级别的框选是任务是图像分割,它分为两种:

(1)语义分割:不管目标,只管像素,只管类别;

(2)实例分割:要管目标,区分出每一个物体;

(3)全景分割:在实例分割之外还进行整个环境的感知与分割。

1.3图像分类

计算机视觉的基础任务,在此基础上加上检测头/分割头/关键点检测头等可以得到其他任务的目标,换句话来说,目标检测,图像分割,关键点检测等任务他们可以说是CV的下游任务。

2.openmmlab的体系(主要摘取了感兴趣的几个库)

mmdeploy:是用于部署在服务器,开发板等有着企业不同平台需求和环境特色的设备中

mmdetection3d:通过激光雷达的点云数据进行3D的锚定框绘制与3D环境下的感知

mmtrack:进行视频进行连续逐帧的目标检测与追踪

mmaction2:进行视频行为理解,动作检测;以此引申的有意义的下游任务:检测吵架和打架...

mmediting:图像修复,超分辨率,目标/背景的抠图,图像生成。

mmrazor:蒸馏,轻量

一些建议:

  • 可以使用mmdetection去使用复现好的官方算法来完成论文中需要的结果表现的对比。
  • 很推荐在学习过程中参考openmmlab module zoo与dataset zoo中完成复现的文章甚至是benchmark设置,让自己对于实验有着更加清晰的全面的了解。

3.机器学习、卷积神经网络

机器学习:程序通过数据中总结学习经验,并以此为基础解决同类的新的问题。

又可以称为“统计机器学习”,因为得到的结果是概率。

训练的目标:图片

梯度下降的方法:优化器之间的区别,adam,带动量的优化器SGD... (这是optimization部分,之前自己_base_ config的时候出过相关问题,也对于优化器有点兴趣)

  • CS231N 训练神经网络第二部分有关于优化器的描述。
计算机视觉定义/openmmlab 体系/机器学习与卷积神经网络_第1张图片 torch带的optimization

 

卷积神经网络:

局部连接:像素局部相关 (依卷积核大小)

共享权重:平移不变性 (卷积核的参数共享)

上述两个特性以此节约大量参数

卷积核的权重和感受野的像素进行点乘反映了卷积核提取的特征

池化 -> 下采样;可以降低resolution,减少计算量; 

一个重要的代码块举例:

通用封装 torch.nn.Module

计算机视觉定义/openmmlab 体系/机器学习与卷积神经网络_第2张图片 继承了torch.nn.Module的一个块的举例

在代码中可以经常见到如上图般堆砌的功能层;在init下定义需要用到的细节功能,再于forward下完成一个个细节的具有顺序的堆叠,以最后完成整个接口功能。

4.大神推荐的如今建议入门的领域:

 

 

 

你可能感兴趣的:(计算机视觉,cnn)