计算机视觉是一门研究如何使机器“看”的科学,是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。形象地说,就是给计算机安装上眼睛(照相机)和大脑(算法),让计算机能够感知环境。
计算机视觉产业链全景图谱
一、计算机视觉产业链上下游概述:
上游-基础层 :包括硬件支持(芯片及基础硬件)、算法支持和数据支持。
芯片:GPU、FPGA、ASIC;
基础硬件:光源、镜头、工业相机、图像采集卡、图像处理单元、视觉处理软件;
算法支持:SVM、DNN、CNN、深度学习;
数据支持: 真实数据、模拟数据。
中游-技术层:提供CV行业所需要的具体技术,如:视频对象提取、视频追踪、人像识别、场景识别、字符识别、物体识别、对比检验、图像识别、图像分割、图像重构、图像生成、目标检测…等。
下游-应用层:包括所有的互联网、系统开发、终端开发,而各种领域的应用又为基础层不断提供数据支持。应用领域包括:智慧安防、电商消费、智慧金融、手机娱乐、交通领域、智能家居、工业领域、医疗卫生、物流领域、商品识别、广告营销…等。
计算机视觉产业链全景图谱
二、计算机视觉行业现状:
上游-基础层:硬件仍被国外巨头把控
硬件主要还是由国外巨头把控,国内市场份额不足,特别是芯片领域和算法算力方面,我国还是有一定距离,但在数据方面,我国市场巨大,应用广泛,不断积累的大量数据也在弥补先天的不足,并可能通过数据不断优化算法,形成反超。
芯片被 Intel、Nvidia 等传统芯片厂商把控;国内发展起步晚,新型芯片厂商尚未崛起,规模应用有待时日;加之美国封锁,对荷兰ASML施压,目前我国无法进口只能依靠自身摸索技术,种种限制,国内企业需要较长周期突破壁垒。
深度学习开源平台以谷歌的 Tensorflow、Faceboo的PyTorch、BVLC的 Caffe等为主,其它大部分的企业的深度学习框架多为二次开发。
中游-技术层:国内技术日趋弯道超车,部分技术已处于领先地位
在物体检测识别技术方面:商汤科技在2016ImageNet挑战赛中,蝉联视频物体检测冠军。同时一举揽下物体检测、视频物体检测和场景分析三项冠军,19年发表的TSD算法大幅度提高目标检测精度,荣获Open Images Object Detection Challenge 2019 冠军。
在人脸识别算法方面:2018年全球人脸识别算法测试结果,中国包揽了前五名,其中依图科技的算法包揽了前两名,商汤科技获得第三名和第四名,中国科学院深圳先进技术研究院的算法获得第五名,旷视科技算法也获得第八名好成绩。
下游-应用层:我国应用层成果广泛,已形成了全面布局行业解决方案。特别在安防、金融、互联网领域市场增长迅速,颇具竞争优势。
三、计算机视觉市场格局
国内计算机视觉行业集中度高,头部企业突出。随着人工智能深度学习算法的快速成熟,中国诞生了一批基于计算机视觉算法技术的人工智能企业,这些创业企业是计算机视觉市场的主要参与力量之一。
中国计算机视觉厂商具有基于基础算法进行改进和优化并形成各自特有算法的技术能力。目前,头部企业已逐渐占据主要市场份额,且集中度越来越高。据数据显示,商汤科技(17.4%)、旷视科技(15.2%)、云从科技(9.8%)、依图科技(9.0%)四家企业占国内计算机视觉应用市场份额的51.4%。
近年获投的计算机视觉创业企业所选的细分赛道主要集中于零售、安防、制造、政务、医疗等行业。其中,零售行业占比最大,为64.4%,其可基于场景化营销、商品识别分析等应用提升营销转化率,实现门店运营的智能化改革;安防行业是计算机视觉最早落地的场景,占比为50.7%,其主要利用安防影像智能分析协助城市治理等领域的智能化转型。
四、我国计算机视觉产业面临的挑战
一是如何在不同的应用领域和其他技术更好的结合,计算机视觉在解决某些问题时可以广泛利用大数据,已经逐渐成熟并且可以超过人类,而在某些问题上却无法达到很高的精度;
二是如何降低计算机视觉算法的开发时间和人力成本,目前计算机视觉算法需要大量的数据与人工标注,需要较长的研发周期以达到应用领域所要求的精度与耗时;
三是如何加快新型算法的设计开发,随着新的成像硬件与人工智能芯片的出现,针对不同芯片与数据采集设备的计算机视觉算法的设计与开发也是挑战之一。
五、计算机视觉产业名词解释
GPU:图形处理器(英语:graphics processing unit,缩写:GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。
FPGA:FPGA(Field Programmable Gate Array)是在PAL (可编程阵列逻辑)、GAL(通用阵列逻辑)等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。
ASIC:ASIC(Application Specific Integrated Circuit)即专用集成电路,是指应特定用户要求和特定电子系统的需要而设计、制造的集成电路。用CPLD(复杂可编程逻辑器件)和 FPGA(现场可编程逻辑门阵列)来进行ASIC设计是最为流行的方式之一,它们的共性是都具有用户现场可编程特性,都支持边界扫描技术,但两者在集成度、速度以及编程方式上具有各自的特点。
工业相机:工业相机是机器视觉系统中的一个关键组件,其最本质的功能就是将光信号转变成有序的电信号。选择合适的相机也是机器视觉系统设计中的重要环节,相机的选择不仅直接决定所采集到的图像分辨率、图像质量等,同时也与整个系统的运行模式直接相关。
图像采集卡:图像采集卡(Image Capture Card),又称图像捕捉卡,是一种可以获取数字化视频图像信息,并将其存储和播放出来的硬件设备。很多图像采集卡能在捕捉视频信息的同时获得伴音,使音频部分和视频部分在数字化时同步保存、同步播放。
SVM: SVM使用铰链损失函数(hinge loss)计算经验风险(empirical risk)并在求解系统中加入了正则化项以优化结构风险(structural risk),是一个具有稀疏性和稳健性的分类器 。SVM可以通过核方法(kernel method)进行非线性分类,是常见的学习(kernel learning)方法之一。SVM被提出于1964年,在二十世纪90年代后得到快速发展并衍生出一系列改进和扩展算法,在人像识别、文本分类等模式识别(pattern recognition)问题中有得到应用。
『五度易链』致力于通过绘制产业全景图,明确精准招商路径,研究产业链各个环节的企业分布情况。依据产业链现状,分析重点产品上下游及配套环节,摸清家底,剖析产业链、提取价值链,变“地毯式招商”为“地图式招商”。