3月27日下午，第51期阿里云产品发布会-智能视觉产品隆重发布，本次产品发布会首次面向全网用户深入的解读了智能视觉的前世今生。

行业背景

随着人工智能的技术不断成熟，AI逐渐在各行业内落地。在新零售领域，我们通过物体识别判断货品位置和数量；甚至在养猪场，用AI技术检测养猪的位置及数量等等。然而除了一些非常成熟的基础感知层AI能力如人脸识别、OCR等可以直接应用，实际上绝大部分场景都需要用业务标注数据来进行单独训练的，所以定制化的需求越来越多。每个定制化的模型，都是需要算法工程师通过大量的自身业务标注数据，经过不断的演算、测试、训练，来搭建深度神经网络模型。而实际上传统企业想要自建训练模型又将面临着专业人才十分稀缺、开发落地周期冗长等等困境。

如此一来，如何以最低的成本实现AI技术落地变成了行业急需解决的问题。

新一代视频AI服务——智能视觉

近期，阿里云发布智能视觉产品，帮助零机器学习背景、零算法基础的企业或者开发者们，实现高质量定制化模型训练的快速落地，具备图像分类、物体检测、直播识别等AI能力，可有效应用于视频监控、互联网短视频内容识别归类、新零售物件统计、工业质检等场景。

有了智能视觉，即使零算法基础的开发者，都可以进行页面化一键式训练和预测。通过上传少量业务数据，快速训练定制化模型，最快10分钟完成训练和部署。

智能视觉整体的产品架构是：用户通过对象存储OSS导入或本地上传图片训练集，对图像及图像内物体进行标签管理，实现一键训练（目前已经支持图像分类和物体检测），标注好之后一键生成迭代，生成业务定制专属模型，并可以通过迭代来不断完善模型的准召率、精准度，最终以API的形式将模型训练能力快速输出应用于业务之中，同时支持对图片、视频、直播流、监控流等多种格式的预测。

智能视觉技术原理

市场上大部分AI的服务是基于图片进行处理，在面对视频的时候，通常把视频按照固定的时间间隔采样出来，批量截取画面并进行结果汇聚。这样对视频的处理方式普遍存在时效性差、稳定差、复杂性高、信息丢失等问题。

基于阿里云视频云团队多年音视频编解码、媒体处理相关技术经验，智能视觉构建全新的面向视频架构：把视频作为第一类对象（First-Class Object）来看待。把视频解码、时间域分析、智能汇聚、音频处理等引入到系统里面来，把视频处理和AI计算有机结合，以面向视频的方式，在视频处理的同时完成AI计算，精简的流程能够大幅度缩短处理时间，从时间维度提升分析效果，并能简化业务架构，让用户聚焦在核心业务的发展上。为用户提供高效稳定、简单易用、功能丰富的视频AI服务。

点击阅读阿里云高级技术专家周源：《面向视频的全新AI架构 ——智能视觉技术全解》全文

智能视觉产品优势

一、少量样本，更高精度

在深度学习层面，在其他条件相同的情况下，数据越多训练效果是越好的。这就产生了一个问题，更好的效果一定需要更多的数据，这需要花费大量的人力去标注。

智能视觉采用数据增广策略，增加数据的多样性，加强模型泛化能力，对图像进行旋转、斜切、仿射变换、对比度调整、色度变化、水平镜像等变换，增加数据量，同时保持增广数据的真实性，实现了少量数据情况下效果增强10-15%的训练效果，同时有效降低标注数据的人力和时间成本。

二、迁移学习，训练高效

智能视觉运用迁移学习的技术，根据自然图像中的基础边缘、色块、纹理的规律来归纳物体特征，并且通过在浅层网络中复用这些基础特征，来减少标注数据，能以更快的时间、更高的质量生成业务场景相关数据，大幅度减少数据需求，进一步减少计算量，达到缩短新模型训练时间的效果。大概规模在100张的图片，生成模型只需要10分钟。

三、全面模型效果评估，快速迭代

基于阿里云视频云团队多年丰富的视频处理经验，针对用户训练的模型给出专业的、全面的效果评估，同时用户也可以选择自己上传图片、直播、监控等视频流输入进行校验，如果觉得准确率不够高的话，还可以再次上传数据进行再一次训练，实现快速迭代。

四、全界面化操作，降低人力和时间成本

有了智能视觉，就意味着原本需要众多专业AI和算法工程师才能搭建好的AI模型，现在在控制台上通过简单的点击和上传图片，甚至完全不需要代码，就可以完成了，整个过程操作简单，从数据、模型到接口，一站式服务，全界面化管理，可以节省大量的人力成本和时间成本，实现快速落地。

如何接入智能视觉

在发布会中，智能视觉的产品经理袁华良为网友演示了从零开始搭建一个训练模型的整个过程。

第一步，在阿里云官网智能视觉产品详情页快速了解产品信息，申请开通，审批通过后登录控制台，按照指引完成开通。

第二步，首次登陆，点击马上创建模型。

第三步，添加模型，上传图片，在图片中进行标注。为了让训练的数据更接近真实效果，建议一个模型至少有2个分类，每个分类的图片不少于15张。上传完成后，点击一键训练即可。

第四步，训练结果返回后，可以看控制台中看到准确率、召回率、mAP等数据。当训练结果评估或者校验结果不理想的时候，可以将新图片加入训练集，重新进行标注，进行再一次训练与模型迭代。

目前控制台支持本地导入数据，API接口也支持从OSS、直播流、监控流的数据导入，点击查看具体的接入文档详情。

应用场景

智能视觉可应用在视频监控领域，根据监控画面中的内容，判断是否为出现违规现象，如出现车辆，打斗等；同时可以应用在互联网短视频领域，基于图像对内容识别归类，进行精准推送，提升用户的点击率和观看体验；在新零售领域，智能视觉可以检测实体店货架中的货品摆放位置及数量统计，减少巡检工作量。同时，在工业质检、农业养殖、医疗诊断等场景也可以有很好的应用。