关于cv的调研报告

关于cv的调研报告

目前,随着人工智能第三次高潮的到来,机器学习,深度学习的迅猛发展,计算机视觉已经成为当前人工智能领域发展最快速,落地最顺利的技术之一。随着计算机视觉技术的日渐成熟,人们对安全和效率需求的提高,未来计算机视觉市场规模也将迎来突破性发展。

一、 计算机视觉的方向:

1. 图像分类

2. 目标检测

3. 图像分割

4. 风格迁移

5. 图像重构

6. 超分辨率

7. 图像及视频编辑

8. 人脸识别

9. 视频/监控分析

10. 驾驶辅助/智能驾驶

11. 文字识别

1. 图像分类(Image Classification)

图像分类,也可以称为图像识别,顾名思义,就是辨别图像是什么,或者说图像中的物体属于什么类别。
图像分类根据不同分类标准可以划分为很多种子方向。
比如根据类别标签,可以划分为:
• 二分类问题,比如判断图片中是否包含人脸;
• 多分类问题,比如鸟类识别;
• 多标签分类,每个类别都包含多种属性的标签,比如对于服饰分类,可以加上衣服颜色、纹理、袖长等标签,输出的不只是单一的类别,还可以包括多个属性。
根据分类对象,可以划分为:
• 通用分类,比如简单划分为鸟类、车、猫、狗等类别;
• 细粒度分类,目前图像分类比较热门的领域,比如鸟类、花卉、猫狗等类别,它们的一些更精细的类别之间非常相似,而同个类别则可能由于遮挡、角度、光照等原因就不易分辨。
根据类别数量,还可以分为:
• Few-shot learning:即小样本学习,训练集中每个类别数量很少,包括 one-shot 和 zero-shot ;
• large-scale learning:大规模样本学习,也是现在主流的分类方法,这也是由于深度学习对数据集的要求。
常用的图像分类数据集:
• Mnist:手写数字数据集,包含 60000 张训练集和 10000 张测试集。
• Cifar:分为 Cifar10 和 Cifar100。前者包含 60000 张图片,总共10个类别,每类 6000 张图片。后者是 100 个类别,每个类别 600 张图片。类别包括猫狗鸟等动物、飞机汽车船等交通工具。
• Imagenet:应该是目前最大的开源图像数据集,包含 1500 万张图片,2.2 万个类别。

2. 目标检测(Object Detection)

目标检测通常包含两方面的工作,首先是找到目标,然后就是识别目标。
目标检测可以分为单物体检测和多物体检测,即图像中目标的数量。
目标检测领域,其实有很多方法,其发展史如下所示:

从上图可以知道有几个方法系列:
• R-CNN,2013
• Fast R-CNN,2015
• Faster R-CNN,2015
• Mask R-CNN,2017
• YOLO,2015
• YOLOv2,2016
• YOLOv3,2018
• SSD,2015
• FPN,2016
常用的数据集:
• VOC 2012
• MS COCO

3. 图像分割(Object Segmentation)

图像分割是基于图像检测的,它需要检测到目标物体,然后把物体分割出来。
图像分割可以分为三种:
• 普通分割:将不同分属于不同物体的像素区域分开,比如前景区域和后景区域的分割;
• 语义分割:普通分割的基础上,在像素级别上的分类,属于同一类的像素都要被归为一类,比如分割出不同类别的物体;
• 实例分割:语义分割的基础上,分割出每个实例物体,比如对图片中的多只狗都分割出来,识别出来它们是不同的个体,不仅仅是属于哪个类别。

4. 风格迁移(Style Transfer)

风格迁移是指将一个领域或者几张图片的风格应用到其他领域或者图片上。比如将抽象派的风格应用到写实派的图片上。
一般数据集采用常用的数据集加一些著名的艺术画作品,比如梵高、毕加索等。

5. 图像重构(Image Reconstruction)

图像重构,也称为图像修复(Image Inpainting),其目的就是修复图像中缺失的地方,比如可以用于修复一些老的有损坏的黑白照片和影片。通常会采用常用的数据集,然后人为制造图片中需要修复的地方。

6. 超分辨率(Super-Resolution)

超分辨率是指生成一个比原图分辨率更高、细节更清晰的任务。
通常超分辨率的模型也可以用于解决图像恢复(image restoration)和修复(inpainting),因为它们都是解决比较关联的问题。
常用的数据集主要是采用现有的数据集,并生成分辨率较低的图片用于模型的训练。

7. 图像及视频编辑

2016 年,Google 举行了一场「人工智能作家」的画展。通过一个名叫「DeepDream」的艺术生成器,谷歌可以将神经网络由内部传送到外部。不是识别图像,而是创作图像。有人称这些机器做的画为「机器之梦」。
目前市场上也出现了很多运用及机器学习算法对图像进行处理,可以实现对图片的自动修复、美化、变换效果等操作。并且越来越受到用户青睐。
近日,全球知名的数字媒体编辑软件供应商 Adobe,也加入了人工智能的大潮,发布了旗下首个基于深度学习和机器学习的底层技术开发平台——Adobe Sensei。
代表公司:美图秀秀、泼辣熊、SenseTime 商汤科技、微禾迅科技等。

8. 人脸识别

人脸识别技术目前已经广泛应用于金融、司法、军队、公安、边检、政府、航天、电力、工厂、教育、医疗等行业。据业内人士分析,我国的人脸识别产业的需求旺盛,需求推动导致企业敢于投入资金。目前,该技术已具备大规模商用的条件,未来三到五年将高速增长。而今年,这一技术有望在金融与安防领域迎来大爆发。
数据集:
• LFW
• CelebA
• MS-Celeb-1M
• CASIA-WebFace
• FaceScrub
• MegaFace

9.视频/监控分析

在企业数量统计中,「视频/监控分析」是人工智能「视觉与图像」领域中第二大热门应用。
代表企业:SenseTime 商汤科技、DeepGlint 格灵深瞳、依图科技、云天励飞、深网视界等。
人工智能技术可以对结构化的人、车、物等视频内容信息进行快速检索、查询。这项应用使得让公安系统在繁杂的监控视频中搜寻到罪犯的有了可能。在大量人群流动的交通枢纽,该技术也被广泛用于人群分析、防控预警等。
视频/监控领域盈利空间广阔,商业模式多种多样,既可以提供行业整体解决方案,也可以销售集成硬件设备。将技术应用于视频及监控领域在人工智能公司中正在形成一种趋势,这项技术应用将率先在安防、交通甚至零售等行业掀起应用热潮。

10.驾驶辅助/智能驾驶

随着汽车的普及,汽车已经成为人工智能技术非常大的应用投放方向,但就目前来说,想要完全实现自动驾驶/无人驾驶,距离技术成熟还有一段路要走。
不过利用人工智能技术,汽车的驾驶辅助的功能及应用越来越多,这些应用多半是基于计算机视觉和图像处理技术来实现。

代表企业:纵目科技、TuSimple 图森科技、驭势科技、MINIEYE 佑驾创新、中天安驰等。
Mobileye 是一家以色列计算机视觉公司,是公认的全球一流驾驶辅助公司。在今年 3 月份,英特尔以 153 亿美元高价收购了 Mobileye,以布局自动驾驶。此事件成为以色列历史上最贵的一次科技收购案,也引起了市场的广泛关注。

11.文字识别

计算机文字识别,俗称光学字符识别,它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。这是实现文字高速录入的一项关键技术。
今年三月份,海康威视研究院预研团队基于深度学习技术的 OCR(Optical Character Recognition,图像中文字识别)技术,刷新了 ICDAR Robust Reading 竞赛数据集的全球最好成绩,并在「互联网图像文字」、「对焦自然场景文字」和「随拍自然场景文字」三项挑战的文字识别(Word Recognition)任务中取得第一。同期参赛的有来自 82 个国家的 2367 支队伍参加,其中包括 Google、微软、百度、三星、旷视等团队。
代表企业:海康威视、合合信息、鼎识科技、易道博识等。

二、 国内高校研究团队

北京
清华大学:龙明盛,黄高,艾海舟,张长水(Big eyes laboratory 大眼睛实验室),丁贵广(Multimedia Intelligence Group),朱文武,朱军,苏航,鲁继文,徐枫,刘烨斌,张钹,胡事民,刘永进,孙富春,王健民
北京大学:林宙辰,查红彬,施柏鑫,曾刚 ([email protected]),刘家瑛,穆亚东,黄铁军,段凌宇,郭宗明,连宙辉,张史梁
中科院:跨媒体计算研究组
中科院计算所:高文(VIPL 视觉信息处理与学习研究组),陈熙霖,山世光,黄庆明,常虹,许倩倩,阚美娜,王瑞平,王树徽
中科院自动化所:谭铁牛(智能感知与计算研究中心),李子青(生物识别与安全技术研究中心),模式识别重点实验室,王亮,赫然,程健,董未名,胡卫明,机器视觉课题组:吴毅红,申抒含,兴军亮,黄凯奇,胡包钢,雷震
中科院信工所:王蕊,操晓春
中科院深圳先进院:乔宇
北京交通大学:信息科学研究所
北京航空航天大学:王蕴红(智能识别与图像处理实验室),黄迪,李甲,刘祥龙,刘偲(CoLab可乐实验室),陆峰(感知交互增强智能 研究室),盛律,徐迈
北京邮电大学:郭军(北邮模式识别实验室)
北京理工大学:沈建冰,贾云得
哈尔滨
哈尔滨工业大学:左旺孟
大连
大连理工大学:卢湖川,李培华
天津
南开大学: 程明明(南开大学媒体计算实验室) ,杨巨峰(计算机视觉实验室)
天津大学:计算机视觉实验室
西安
西安交通大学:孟德宇,韩九强,郑南宁(人工智能与机器人研究所),薛建儒,龚怡宏,袁泽剑,王进军,钱学明
西安电子科技大学:高新波,董伟生
西北工业大学:聂飞平,戴玉超,何明一
南京
南京大学:吴建鑫,王利民,曹汛(CITE),马展(VISION LAB),岳涛,任桐炜,周志华(LAMDA)
东南大学:耿新(PALM)
南京理工大学:唐金辉(智能媒体分析实验室),杨健
南京信息工程大学:刘青山
上海
上海交通大学:卢策吾,严骏驰(SJTU-ThinkLab 上海交通大学思维工场实验室),张拳石,计算机视觉实验室
复旦大学:薛向阳,姜育刚,付彦伟
上海科技大学:高盛华( SVIP LAB ),虞晶怡,何旭明,屠可伟
杭州
浙江大学:蔡登,何晓飞,宋明黎( VIPA 视觉智能与模式分析组 ),朱建科,李玺,章国锋,周晓巍,廖子承,庄越挺
西湖大学:李子青
合肥
中国科学技术大学:周文罡,张天柱,查正军
武汉
华中科技大学:白翔,王兴刚
武汉大学:杜博(地学智能感知与机器学习研究组),姚剑( CVRS Lab 计算机视觉与遥感实验室 ) ,陈震中,涂志刚,夏桂松
长沙
国防科技大学:郭裕兰
成都
电子科技大学:段立新,徐增林,未来媒体研究中心:申恒涛,杨阳,宋井宽
厦门
厦门大学:纪荣嵘(媒体分析与计算实验室),丁兴号(智能数据分析与处理实验室)
广州
中山大学: 郑伟诗,林倞,梁小丹,张冬雨,李冠彬
华南理工大学:贾奎,金连文
深圳
南方科技大学:郑锋
香港中文大学(深圳):韩晓光
香港
香港城市大学:视频检索小组,Antoni Bert Chan,Rynson Lau ,Hongbo Fu
香港中文大学:多媒体实验室,汤晓鸥,王晓刚,李鸿升,林达华,周博磊,贾佳亚
香港科技大学:Chi Keung Tang,权龙,Pedro V. Sander,陈启峰,Shaojie Shen,Dit-Yan YEUNG,Sai-Kit Yeung
香港大学:Yizhou Yu,Ping Luo
香港理工大学:张磊
香港浸会大学:Yiu Ming Cheung
台湾
中研院:Yen-Yu Lin
台湾大学:王钰强(Vision & Learning Lab),徐宏民,庄永裕
国立清华大学:孙民
台湾交通大学:邱维辰

三、 企业研究团队

微软亚洲研究院:计算机视觉研究组,王井东,曾文军,代季峰
微软剑桥研究院:ML与CV研究组
微软:交互式视觉媒体研究组
IBM研究院
谷歌研究院
三菱电子研究实验室
Adobe研究院
迪士尼研究院
Facebook:FAIR 人工智能实验室 ,何凯明
旷视研究院:孙剑,张祥雨,魏秀参,危夷晨,俞刚,范浩强
商汤科技研究院:闫俊杰,石建萍,伊帅,邵婧,武伟,赵瑞,张展鹏,任思捷,孙文秀,严琼
腾讯AI Lab:张正友
字节跳动:人工智能实验室
360人工智能研究院
阿里达摩院:任小枫,华先胜
百度研究院:杨睿刚
京东AI研究院:梅涛
图森未来:王乃岩,侯晓迪
依图:颜水成
Momenta:任少卿

参考链接
• Applications of Deep Learning for Computer Vision
• Browse state-of-the-art
• http://bbs.cvmart.net/topics/481/outstanding-Computer-Vision-Team
• https://36kr.com/p/5074487

四、 经典模型算法

人脸识别算法主要包含三个模块:
人脸检测(Face Detection):确定人脸在图像中的大小和位置,也就是在图像中预测anchor;
人脸对齐(Face Alignment):它的原理是找到人脸的若干个关键点(基准点,如眼角,鼻尖,嘴角等),然后利用这些对应的关键点通过相似变换(Similarity Transform,旋转、缩放和平移)将人脸尽可能变换到标准人脸;
人脸特征表征(Feature Representation):它接受的输入是标准化的人脸图像,通过特征建模得到向量化的人脸特征,最后通过分类器判别得到识别的结果。关键点是怎样得到不同人脸的有区分度的特征,比如:鼻子、嘴巴、眼睛等。

早期算法:
子空间(线性降维)
PCA(主成成分分析) :尽量多地保留原始数据的保留主要信息,降低冗余信息;
LDA(线性判别分析):增大类间差距,减小类内差距。
非线性降维: 流形学习、加入核函数。
ICA(独立成分分析):比PCA效果好,比较依赖于训练测试场景,且对光照、人脸的表情、姿态敏感,泛化能力不足。
HMM(隐马尔科夫) : 和前面这些算法相比,它对光照变化、表情和姿态的变化更鲁棒。

早期:数据和模型结构;
后期:loss,从而得到不同人脸的有区分度的特征。

常用算法总结:
特征提取(找到若干个关键点)
(1) SIFT (尺度不变特征变换) 具有尺度不变性,可在图像中检测出关键点。
(2) SURF(加速稳健特征,SIFT加速版)
核心:构建Hessian矩阵,判别当前点是否为比邻域更亮或更暗的点,由此来确定关键点的位置。
优:特征稳定;
缺:对于边缘光滑的目标提取能力较弱。
(3) ORB
结合Fast与Brief算法,并给Fast特征点增加了方向性,使得特征点具有旋转不变性,并提出了构造金字塔方法,解决尺度不变性.
ORB算法的速度是sift的100倍,是surf的10倍。
经显示观察到,ORB算法在特征点标记时数量较少,如图:
SIFT、SURF、ORB实现
(4) FAST角点检测
FAST的方法主要是考虑像素点附近的圆形窗口上的16个像素
如果要提高检测速度的话,只需要检测四个点就可以了,首先比较第1和第9个像素,如果两个点像素强度都在中心像素强度t变化范围内(及都同中心点相似),则说明这不是角点,如果接下来检测第5和13点时,发现上述四点中至少有三个点同中心点不相似,则可以说明这是个角点。
非极大值抑制:如果存在多个关键点,则删除角响应度较小的特征点。
(5) HOG (方向梯度直方图)
(6) LBP(局部二值特征)论述了高维特征和验证性能存在着正相关的关系,即人脸维度越高,验证的准确度就越高。
(7)Haar

计算机视觉中的相关算法的源代码
https://blog.csdn.net/zhuquan945/article/details/53485030

cv入门课程:
https://study.163.com/course/introduction/1005098023.htm

你可能感兴趣的:(CV,AI)