OpenMMLabAI实战营1.计算机视觉与OpenMMlab开源算法体系笔记

视频链接

基础知识

可执行任务

Classification 分类
Semantic Segmention 与原图相同的长宽
精准定位
Detection 框
Segmention 分割

分类、检测(定位)、分割
图像识别
按目标划分:通用目标检测、专用
图像生成(例地图生成)
视频理解:时间

发展历史

2012年 AlexNet 大幅下降
2015 ResNet 超越人类分辨 152 层
1860-80
1960 边缘检测
1991 人脸检测 Eigen Face
视觉特征 卷积核
人工设计不鲁棒 学习特征核
大型数据库 ImageNet 2006
2010 人工设计HOG、LBP
2012 AlexNet
GAN 图像生成
AIGC、大模型、Nerf(神经渲染)
2018 OpenMMlab

MMLAB框架

MMDet 目标检测、实例分割、全景分割
MMDet3D 点云数据
MMCls 分类
MMSeg 语义分割
MMPose 骨骼 MMHuman3D 人体重建
MMtracking 追踪
MMaction2 行为识别
MMOCR 文本识别
MMEditing 修复、超分辨率、生成、抠图
特点:调包、画好重点、前沿

Torch及机器学习知识

机器学习 数据中学习经验,解决特定问题
监督学习、无监督学习、自监督学习(前预测后)、强化学习(获得最大收益)
原始转成特征再进行分类
线性分类器 始终为平面,可写为矩阵即wx+b
非线性分类 +非线性激活层
学习解决步骤、训练、验证、应用

训练

损失函数 交叉熵损失
L(P,y)=-log(P_y)
优化器 梯度下降 Adam 加动量逃离最小值
反向传播,对各个参数求偏导
训练过度造成过拟合

CNN

卷积神经网络 CNN 考虑二维结构
卷积层-激活层-池化层
卷积核通道数与输入通道数相同
卷积核个数与输出通道数相同
H 高 F核大小 p填充 s 步长
m a t h H ′ = ⌊ H − F + 2 p S ⌋ + 1 math H^{\prime}=\left\lfloor\frac{H-F+2 p}{S}\right\rfloor+1 mathH=SHF+2p+1
池化 最大池化、平均池化
全连接层
概率输出层

你可能感兴趣的:(计算机视觉,深度学习)