作为人工智能的关键领域之一的计算机视觉近期再次成为了热点,那么你真的了解什么是计算机视觉吗?
一、什么是计算机视觉?
计算机视觉,英文Computer Vision,简称CV。计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等。
二、计算机视觉和机器视觉有何区别?
事实上,二者经常会被混淆,甚至有些“专家”也没分清。
简单的说,二者最大的区别,在于技术要求的侧重点不一样,甚至差别很大。 计算机视觉(CV),主要是对质的分析,比如分类识别,这是一个杯子那是一条狗。或者做身份确认,比如人脸识别,车牌识别。或者做行为分析,比如人员入侵,徘徊,遗留物,人群聚集等。
机器视觉(MV),主要侧重对量的分析,比如通过视觉去测量一个零件的直径,一般来说,对准确度要求很高。
三、计算机视觉主要任务是什么?
计算机视觉的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的信息。计算机视觉任务的主要类型有以下几种:
1、物体检测
物体检测是视觉感知的第一步,也是计算机视觉的一个重要分支。物体检测的目标,就是用框去标出物体的位置,并给出物体的类别。
物体检测和图像分类不一样,检测侧重于物体的搜索,而且物体检测的目标必须要有固定的形状和轮廓。图像分类可以是任意的目标,这个目标可能是物体,也可能是一些属性或者场景。
2、物体识别(狭义)
计算机视觉的经典问题便是判定一组图像数据中是否包含某个特定的物体,图像特征或运动状态。这一问题通常可以通过机器自动解决,但是到目前为止,还没有某个单一的方法能够广泛的对各种情况进行判定:在任意环境中识别任意物体。
现有技术能够也只能够很好地解决特定目标的识别,比如简单几何图形识别、人脸识别、印刷或手写文件识别,或者车辆识别。而且这些识别需要在特定的环境中,具有指定的光照,背景和目标姿态要求。
3、图像分类
一张图像中是否包含某种物体,对图像进行特征描述是物体分类的主要研究内容。一般说来,物体分类算法通过手工特征或者特征学习方法对整个图像进行全局描述,然后使用分类器判断是否存在某类物体。
图像分类问题就是给输入图像分配标签的任务,这是计算机视觉的核心问题之一。这个过程往往与机器学习和深度学习不可分割。
4、物体定位
如果说图像识别解决的是what,那么,物体定位解决的则是where的问题。利用计算视觉技术找到图像中某一目标物体在图像中的位置,即定位。
目标物体的定位对于计算机视觉在安防、自动驾驶等领域的应用有着至关重要的意义。
5、图像分割
在图像处理过程中,有时会需要对图像进行分割来提取有价值的用于后继处理的部分,例如筛选特征点,或者分割一或多幅图片中含有特定目标的部分等。
图像分割指的是将数字图像细分为多个图像子区域(像素的集合,也被称作超像素)的过程。图像分割的目的是简化或改变图像的表示形式,使得图像更容易理解和分析。更精确地说,图像分割是对图像中的每个像素加标签的一个过程,这一过程使得具有相同标签的像素具有某种共同视觉特性。
“图像语意分割”是一个像素级别的物体识别,即每个像素点都要判断它的类别。它和检测的区别是,物体检测是一个物体级别的,他只需要一个框,去框住物体的位置,而通常分割是比检测要更难的问题。
计算机视觉是通过创建人工模型来模拟本由人类执行的视觉任务。其本质是模拟人类的感知与观察的一个过程。这个过程不止识别,而是包含了一系列的过程,并且最终是可以在人工系统中被理解和实现的。
四、哪些计算机视觉公司值得关注?
目前在计算机视觉领域已经涌现出商汤科技、旷视科技、依图科技、超多维科技等一批独角兽公司,我们选取了三个比较有特色的公司作简单介绍。
旷视科技Face++:
旷视科技成立于2011年10月,以深度学习和物联传感技术为核心,立足于自有原创深度学习算法引擎Brain++,深耕金融安全,城市安防,手机AR,商业物联,工业机器人五大核心行业。发展至今,旷视已在北京、西雅图、南京设立独立研究院,并在十余个核心城市设立分部。
旷视的核心人脸识别技术Face++曾被美国著名科技评论杂志《麻省理工科技评论》评定为2017全球十大前沿科技,同时公司入榜全球最聪明公司并位列第11名。在中国科技部火炬中心“独角兽”榜单中,旷视排在人工智能类首位。
大事件:
2012年8月,旷视科技获得联想之星和联想创投天使投资;
2013年获得创新工场A轮融资;
2015年3月获得创新工场、启明创投B轮融资,并于与阿里巴巴达成战略合作;
2016年11月获得建银国际、富士康集团B+轮融资,融资金额1亿美元。
2017年10月获得国有资本风险投资基金、蚂蚁金服、富士康集团4.6亿美元C轮融资。
商汤科技:
公开资料显示,商汤科技成立于2014年11月,是中国一家计算机视觉和深度学习原创技术的创新型科技公司,也是一家市场价值超过100亿人民币的独角兽企业,致力于引领人工智能核心“深度学习”的技术突破,构建人工智能、大数据分析行业解决方案。
目前,商汤科技已与众多知名战略合作伙伴和大客户建立合作,赋能AI于多个行业,迅速落地包括人脸识别、图像识别、视频分析、无人驾驶、医疗影像识别等各类应用技术。此外,商汤科技以人工智能技术服务于各大安防监控公司、银行金融机构、手机厂商、机器人厂商、多家移动APP厂商以及政府公安等客户。
目前,该公司估值已经达到15亿美元,成为名副其实的独角兽公司。
大事件:
2014年11月获得IDG资本A轮数千万美元。
2016年4月获得StarVC A+轮数千万美元。
2017年7月获得4.1亿美元的B轮融资,此次融资包括B1、B2两轮。B1轮由著名私募公司鼎晖领投;B2轮由赛领资本领投,中金公司、基石资本、招商证券(香港)、华兴私募股权基金、晨兴资本、光际资本、尚珹投资、中平资本、东证资本、华融国际、东方国际、TCL资本、盈峰控股、著名投资人梁伯韬等近20家顶级投资机构、战略伙伴参投。
超多维
深圳超多维科技集团成立于2004年,是全球领先的计算视觉生态体系的开创者和引领者。超多维在计算视觉技术领域具有持续的研发能力,拥有覆盖计算视觉关键技术领域全产业链的完整专利布局。迄今,已在全球范围内申请专利超过1000余项,82%以上为发明专利。其中,3D显示技术专利数量世界领先。2013年,超多维获得“中国国家技术发明一等奖”,成为深圳市首家获此国家最高技术殊荣的企业。
与前面的两家计算机视觉公司不太一样,超多维成立时间较早,业务也有所差异。除去哎深度信息获取、信息比对之外,超多维在3D呈现上有较大的优势。2016年12月,超多维收购酷派移动即ivvi手机,成为其最大股东。超多维逐渐发力布局C端,其在今年4月发布裸眼3D手机ivvi K5。
据悉,未来超多维将逐步搭建起以核心技术优势为基石,完善的智能计算视觉生态体系(包括裸眼3D、VR、AR、视觉信息模糊计算、AI等),加速开发和布局以深度学习、图形图像计算、模糊逻辑计算等核心技术为支撑,具有创新性的个人消费类市场互联网应用及行业垂直领域的专业应用。
超多维集团相关负责人曾表示,超多维希望通过搭建一个计算视觉系统,让普通人具备专业的判别水准,让人类见到未来。通过3D视觉采集、视觉思考完成人类视觉处理整个过程,借助AR改善人类和机器的交互方式,利用智能3D视觉成像展示,为用户提供一种全新的服务和交互方式。
大事件:
2012-2014年,连续三年荣获中国专利优秀奖
2013年,荣获“中国国家技术发明一等奖”国家级最高荣誉
2016年,超多维与深圳鑫根投资基金管理有限公司联合成立“深圳超多维鑫根股权投资管理有限公司”,并正式设立首期20亿元人民币的“超多维鑫根产业基金”。
2016年12月,超多维收购ivvi手机,计算机视觉开始发力C端;2017年4月,ivvi裸眼3D手机k5发布。
2017年,深圳超多维科技集团宣布与中信信托、聚信泰富联合成立“计算视觉产业投资基金”,基金首期规模达100亿人民币。