cs231n第一讲笔记整理

任务时长:

11/29——11/30

任务标题:

学习计算机视觉发展历史及一些计算机视觉任务概念

任务简介:

观看第一讲:课程简介 1,2,3课时视频

任务详解:

第一讲:课程简介
·1计算机视觉概述
对课程和计算机视觉的简单介绍,介绍一些斯坦福的课程
Ps:关注一下图像数据来源有哪些
·2计算机视觉历史背景
动物视觉历史
猫视觉的试验,猫的初级视觉细胞对边缘产生回应
计算机视觉发展历史 (直接分类–›手动提取特征–›神经网络)
目标检测的数据集合 pascal voc
Imagenet数据集合
2012年之后cnn总会获得iamgent的比赛冠军
Ps: sift feature 是什么,可以用来干什么。金字塔匹配思想是什么,可以用来干什么。 hog特征是什么,可以用来干什么。了解一下pascal voc数据集合及imagenet数据集合
·3课程后勤
图像的一些任务:图像分类,目标检测,图像描述
Imagenet比赛中的一些代表模型
Cnn在1998年被严乐春初次使用
Ps: 图像任务有哪些,解决什么样的图像问题 在imagenet比赛中成绩突破是哪一个网络 既然神经网络早就存再为什么神经网络最近才兴起

视频链接:
cs231n视频https://www.bilibili.com/video/av58778425?from=search&seid=16015632984101705617

作业

1. 图像的数据主要来源有哪些 (列举几个即可)
MNIST
cs231n第一讲笔记整理_第1张图片
MNIST是一个手写数字数据库,它有60000个训练样本集和10000个测试样本集,每个样本图像的宽高为28*28。此数据集是以二进制存储的,不能直接以图像格式查看。

Imagenet
cs231n第一讲笔记整理_第2张图片
Imagenet数据集有1400万幅图片,涵盖2200个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。

CIFAR
cs231n第一讲笔记整理_第3张图片
CIFAR-10包含10个类别,50,000个训练图像,彩色图像大小:32x32,10,000个测试图像。CIFAR-100与CIFAR-10类似,包含100个类,每类有600张图片,其中500张用于训练,100张用于测试;这100个类分组成20个超类。图像类别均有明确标注。
cs231n第一讲笔记整理_第4张图片

2. sift feature 是什么,可以用来干什么。金字塔匹配思想是什么,可以用来干什么。 hog特征是什么,可以用来干什么。

  • sift feature是基于特征的目标识别,其思路就是用一个目标去匹配另一个目标。通过观察该目标的某些特征,这些特征具有表现性和不变性,所以目标识别首要的任务是在该目标上确认这些关键特征,然后把这些特征与相似的目标进行匹配,这比匹配整个目标要容易的多。
  • 金字塔匹配思想是图片里有各种特征,这些特征可以告诉我们图片属于哪种场景,是风景还是厨房等。这个算法从图片的不同部分提取特征,并把他们放在一起作为一个特征描述符,然后在特征描述符上做一个SVM(support vector machine)。
  • 方向梯度直方图(Histogram of Oriented Gradient,HOG)是指把一些特征放在一起后,研究如何在实际的图片中合理地设计人体姿态以及辨认人体姿态。

3. 神经网络早就存再为什么神经网络最近才(提示:从数据和硬件方面考虑)
计算能力得到提高,有大量的数据集
4. 图像任务有哪些,解决什么样的图像问题(eg:图像分类就是看图片中的物体具体是什么。)
图像分类:以一张图片作为输入,从固定的类别集合中选出该图像所属的类别
目标检测:识别图像中的物体
图像摘要:通过一张图片来生成一段语句用以描述这张图片

参考: 深度学习视觉领域常用数据集汇总 https://www.jianshu.com/p/9990284bc4d5

你可能感兴趣的:(cs231n,cs231n学习笔记)