OpenMMLab第一课笔记

视觉就是对图像和视频这种图片数据类型通过计算机的算法进行数据挖掘和处理,计算机视觉就是要开发一套算法对图像或者视频这种图像信息进行数据挖掘
计算机视觉解决的三大基础性问题
分类
检测
分割
语义分割 把每一个像素对应的类别抠出来,不管有几个物体,或者物体之间是否有重叠,只把每一个像素进行分类
实例分割 不仅把像素抠出来,还要把同一类别的不同物体区分出来,实例分割比语义分割难,因为要区分每一个物体

图像分类:只需要告诉我们图像中有哪些物体,哪些类别
目标检测要把每一个物体用框给他框出来,并且每个框要分类
语义分割: 不管重合的物体,不管一个和两个物体
实力分割:要区分每一个物体
从难易程度而言----实例分割是最难的,图像分类是最简单的
目标检测和实力分割都是要区分每一个单独的物体
图像分类和语义分割不需要区分单独物体
从像素的力度而言,语义分割和实例分割它都是要对像素层面进行精确的抠图
目标检测也需要输出精准的像素坐标构建这个框
而图像分类不需要进行像素力度的数据挖掘,其他三个都是像素密度的
图像分类是计算机视觉的一个基础任务,图像分类的进一步拉动了整个计算机视觉发展
深度学习就是用深度神经网络来解决数据挖掘问题,可以用神经网络去干各种事情,让他下围棋,做强化学习就是阿尔法go,做图像分类就变成了alex net
计算机视觉是一门让计算机学会看的学科,既要理解图像或者是视频,完成分类,检测,分割和关键点检测这几个基础任务

计算机视觉应用 无人驾驶的车道线检测,视觉的辅助驾驶
图像生成,风格迁移 ,对图像进行识别完,更难的是对视频进行理解,因为视频它增加了一个时间维度,所以如何利用视频前面的帧数和后面的帧数是非常重要的
AI能不能定义出一段视频里边高能的一些片段

全景分割就是在实力分割的基础上把背景也要算进来—对于无人驾驶是很重要的,无人驾驶的车需要知道背景
训练集就是平时作业题
测试集就是高考题
目标是通过平时作业题的训练。使我们在高考上能考的很好,最终成绩以高考分数来决定的,如果平时学的很好,高考考砸了称为过拟合就是训练集上损失函数很小,但是测试函数上损失很大,理想状态是都很好,但是如果都很不好就是欠拟合,平时作业题没写好,高考也没写好
极大似然估计就是想使得所有样本都被预测正确的这个事件概率最大化,把每一个样本正确类别的预测概率相乘
神经网络的训练流程:1.计算样本的损失 2.计算样本损失的梯度 3.根据梯度信息更新参数
卷积神经网络需要把一个图片的每一个像素展成一个长向量输入到神经网络中
整个卷积神经网络是由卷积层,池化层和全连接层组成的

你可能感兴趣的:(计算机视觉,人工智能)