a study of visual data
visual data has exploded to a ridiculous degree
手机上两三个摄像头,more camera than people,视觉传感器,摄像头终端,产生很多视觉数据
visual data构成互联网上传输的的大部分数据
80%的流量都是视频,visual date
理解和利用这些来赚钱
每经过1s有5hours视频上传到YouTube
如果object recognition is too hard,先做object segmentation
start to gain momentum 开始加速发展
face detection
基础科学到实际应用
相机角度,光线,遮挡,视角,目标自身的变化
identify criticalfeatures which tends to remain diagnostic and invariant
具有表现型和不变性 的重要特征
recognize holistic scenes全面的场景
1、我们是否具备识别真实世界中每一个物体的能力
2、大部分机器学习算法
graphical model,support vector machine 支持向量机
AdaBoost
可视化数据很复杂
overfit 模型维数往往较高,一堆参数要调优,当训练数据量不够
3、以来识别尽可能多的物体
克服机器学习的瓶颈,过拟合问题
由此诞生imageNet
some clever crowd engineering trick
to sort ,clean,label each of images
imageNet,15millon~40million
目标检测算法的发展推到一个新的高度
push forward the algorithm development of object recognition into another phrase
imageNet classification error rate 降低到和肉眼识别一样低
使得错误率显著下降的获奖算法是一种 convolutional neural network model
深度学习这个领域look at what these models,principles,good practice 模型的原理
convolutional neutral model or deep learning model模型容量和能力在计算机其他领域 NLP,speech recognition
object detection,image captioning图片摘要,根据图片生成一段句子
the setup in
object detection is a little bit different rather than classfying an entire images
用在图像分类中的工具可以在 caption等等中用到
since then,there has been alotof effort focused in tuning and tweaking微调 these algorithms
计算机的计算速度,data
Convolutional neutral networks 90年代已经出现
tackle more ambiguous problems
activity recognition
this is by no means a standard approach at this point
from their external knowledge储备知识
despite the massive progress in the field that we’ve had over the past several years
计算机视觉的运用还有待发掘,攫取更深层次的图片蕴含信息
numpy 短短几行代码做相当多的运算,超级重要 向量化操作
800×600pixels
每个像素由三个数字表示(RGB)
巨大数列giant array
难以从中提取喵咪的特性,称作semantic gap
challenge:viewpoint variation 视角不同,像素组合网格不同但仍然是一只猫
光线
物体的姿势和位置
algorithm must be robust to that
occlusion
background clutter背景混乱
背景像猫的纹理
intraclass variation
类内种类差别, 不同
根据猫猫的轮廓特征等等制定一系列explicit set of rules
困难,当识别对象改变时需要重新制定规则
so the insight that, sort of, makes this all work is this idea of the data-driven approach
基于此!!!
不写具体的分类规则,抓取数据大量猫的图片数据集
有了数据集,训练机器来分类
Machine Learning: Data-Driven Approach
1、Collect a dataset of images and labels
2、Use Machine Learning to train a classifier
3、Evaluate the classifier on new images
函数API发生改变,
训练函数:接受图片和标签,输出模型
预测函数,接收模型 和要识别的图片
数据驱动类的算法
to be a little more concrete,具体来说
一个叫做CIFAR-10的数据集,常用的测试数据集
最邻近算法
the nearest neighbor algorithm
如何比对两幅图片?采用怎样的比较函数
L1-distance 也叫曼哈顿距离
dumb stupid
训练是连续的过程
只需要存储数据,无论数据集有多大,都将是一个恒定的时间
测试时,需要
将test image和数据集中N个训练实例进行比对
期待的是训练过程可以缓慢(在数据中心进行,可以负担起非常大的运算量),测试过程需要快,CNN就满足这一
另一种常见的选择是L2,欧氏距离