AI基础实战营Day1

摘要

本节课由同济子豪兄主讲,主要介绍计算机视觉基础以及初始openmmlab,相关ppt的pdf文件下载(可下载的课件远小于直播的课件,02/01~02/14 每晚 19:30-21:00 直播)

计算机视觉基础

本部分从计算视觉的任务出发,认识计算视觉技术的主要应用,并简单介绍传统机器学习和深度学习在计算机视觉任务中的具体方法。

计算机视觉任务

计算机视觉是一门让计算机学会 "看"的学科,研究如何自动理解图像和视频中的内容。 具体的任务如:分类任务、分割任务、检测任务、生成任务、以及多模态相关的任务。

AI基础实战营Day1_第1张图片

分类任务虽然相对简单,但在大数据集上进行分类任务训练,保存的模型可以迁移到其他下游任务。互联网巨头往往热衷训练大的视觉模型。

分割任务又根据是否区分同类型不同个体,分为区分个体的实例分割和不区分个体的语意分割。

目标检测则是在分类的基础上,进一步确定物体的位置和大小。

计算视觉应用

人脸识别、看图识物、自动驾驶、图像视频风格转换、虚拟主播等。

基于传统机器学习的计算机视觉

特征工程加分类器,其中体征工程中人工工作量大,且鲁棒性差(应用场景单一)。

比较著名的图像特征工程有:LBP、SITF、HOG。

分类器往往是支持向量机(SVM)

AI基础实战营Day1_第2张图片

基于深度学习的计算机视觉

深度学习又称统计学习,是数据驱动的一种模型构建方式,用一个拟合能力很强的模型,在大量数据上进行拟合。而模型的基本单元是全连接层(一个全连接层等于SVM、单层感知机)。

计算机视觉中绕不开的计算单元是卷积层,图像先转为若干可以有重复部分的局部区域,局部区域通过卷积核映射为新图像的点,卷积核是图像局部到点的公共映射函数,计算的方式也是全连接。

关于卷积推荐一个github可视化项目

初始OPENMMLAB

openmmlab是一个中国开发者主导的基于pytorch的计算机视觉开源算法体系。

基本复现了主流的计算机视觉算法,并保持较快的更新,不仅可以方便写论文的baseline,还可以减少在从事创造性工作时重复造轮子的时间。

以分割任务为列,最新支持到2022年的骨干网络。作为工具的同时,还可以实时提供实时热门算法模型。

你可能感兴趣的:(ai实战营笔记,python,深度学习,pytorch)