斯坦福计算机视觉公开课个人笔记——图像分类

目录

序言:

第一次课(introduction to convolution):

第二次课(Image Classification):

       图像的构成:

       为什么要进行图像分类:

       如何进行图像分类

       线性分类器的引入:

序言:

        目前自己是本二的一名学生,自己想完成涉及计算机视觉领域中关于行为识别的一个项目制作,自己的学习方式经历了以下几个阶段:

        1、b站中直接直接搜索相关问题的答案:

                跟着博主进行学习。例如去年十二月份开始,考虑到需要使用到目标检测中的ssd算法,便使用博主给的代码,可是这样的得到的只是一个结果,最初的时候连代码运行出来显示的人形框是怎么得到的都不知道,天真地以为模型自己就可以生成这个框,到后来慢慢才知道,通过训练模型能够返回预测到的类的标签、预测框的坐标,然后画出图矩形框来框出人。发现直接在b站搜索答案并不能解决我的问题,b站的博主多是为了解决某一个特定的问题比如yolov5+测距,代码会直接根据这个任务来,其中的过程是不知道,自己想要修改也能难,包括一些参数,想要优化代码也无从下手,便想着从源头开始学习。

        2、看论文,尝试使用论文的源码:

                经过了第一个阶段,自己开始尝试在知网、谷歌学术搜索有没有与我想解决的问题类似的。于是便开始了找论文找技术。目前确定了需要使用的技术是时空行为检测,正在学习YOWO v2并且尝试能否改进。想要改进就需要知道神经网络的底层原理,并且要有代码编写能力,于是开始学习斯坦福的计算机视觉公开课。

        以下类内容是自己的理解,希望看到的同学,捡有用的就行。也希望有大佬能批评指证。

第一次课(introduction to convolution):

        主体上介绍了计算机视觉的产生已经其在相关领域的应用。例如:目标检测与测距相结合可以应用到汽车制造领域,实现自动避障的功能。

第二次课(Image Classification):

        图像的构成:

                图像的是由h × w × n的矩阵构成的,这个n就是常说的通道,彩色图的n为3,其通过三三原色进行组合形成不同的颜色,灰度图的n为1,表示该图像每一个像素点仅存放一个值。

        为什么要进行图像分类:

                这是计算机视觉领域的一个基础性的问题,比如人脸识别、目标检测的基础性任务都是需要先进行图像的分类。

        如何进行图像分类

                图像分类对于我们人类而言,一堆图片中有猫、狗、飞机等类别的图片,我们抽出其中一张图片,分辨出它属于哪一种标签。计算机执行图像分类任务,以最近邻算法为例,可以这样描述:十张带有标签的图像(训练集),现在从验证集中得到一张新的照片,接下来便让其与训练集中的图像进行比对,比对的方式有计算曼哈顿距离L1、欧式距离L2(将两张图片的矩阵进行距离计算得到的值越大表明图像差异越大,如图1所示)。                                                      

斯坦福计算机视觉公开课个人笔记——图像分类_第1张图片 图1

                如果使用最近临算法对图像进行分类,会受一些离群点的影响,于是便出现了k近临算法,也就是找距离目标图像最近的k个图像,然后由这k个图像进行投票最终得出该图像的类别 (图2)。

斯坦福计算机视觉公开课个人笔记——图像分类_第2张图片 图2

                但是这个k的值应该取什么,目前数据集被划分为了训练集和测试集,但是我们不应该使用测试集来进行非最后的验证,于是便出现了验证集,把训练再次拆分为新的训练集和验证集,我们可以在此基础上测试k取何值的时候,训练的效果最好。

                为了更好的利用训练集,在数据集很小的时候,便出现了交叉验证的方法,也就是把训练集划分为多份,依次取其中的一份作为验证集,进行模型准确性的评估(图3)。

斯坦福计算机视觉公开课个人笔记——图像分类_第3张图片 图3

         线性分类器的引入:

                对于最近邻算法,实际上没有训练出来一个模型,它只是让待预测图像与带有标签的图像进行比对而已,这样并不符合我们的期望,我们更希望的是能够训练很慢,预测很快。因此引入线性分类器(图4)。

斯坦福计算机视觉公开课个人笔记——图像分类_第4张图片 图4

                线性分类器的目的是为了给出待预测图片在各个类的得分,比如数据集中有10个类,经过线性分类器后,会输出1列 10个值,这个值就是图片在各个类的得分(图5)

斯坦福计算机视觉公开课个人笔记——图像分类_第5张图片 图5

                在线性分类器中,将2 × 2的图像拉成一列,形成4 × 1的矩阵,W便是设置的权重,其为3 × 4的矩阵,其中3为数据集中存在的类的个数,4为对应于该类设置的权重,W与X相乘在加上偏置便得到之后的3 × 1的矩阵,其中的值便是待预测图像在各个类的得分情况。

                因此训练好的线性分类器W可以看作是一些模板,将待预测的图像与它们进行比对,与模板相似的得分高,反之则低。取出W中的行进行可视化(图6)

图6


        

你可能感兴趣的:(计算机视觉,笔记,计算机视觉,深度学习,人工智能)