新基建浪潮下,作为人工智能的动力和“灵魂”,数据服务行业正在高速增长。
6月17日,百度智能云举办线上Techday技术分享日,畅聊AI基础数据服务行业新机遇、新增长和社会价值。百度智能云数据众包作为国内最大的AI数据服务提供者,2019年业务年度增长率超50%,正在为各行各业智能化转型提供动能,促进智能经济发展。同时,百度智能云数据众包预计5年内为山西提供超过5万个就业岗位,支持后疫情时代“保就业”。
近年来,国内AI发展驶入快车道,而作为AI技术发展的基石,数据需求与日俱增,这也使得AI数据服务行业迎来了空前的发展。艾瑞咨询《2019年中国人工智能基础数据服务行业研究报告》显示,人工智能基础数据服务市场规模2025年将破百亿,行业复合增长率达到23.5%。
百度智能云数据众包资深产品运营师李明在会上表示,自2011年起,百度智能云数据众包就全面支持百度自动驾驶、小度助手等AI业务。经过十年沉淀和打磨百度智能云已经建立起采标能力业界第一、流程标准化工具智能化、全流程管控确保数据安全的一站式AI数据服务平台,全面涵盖了包括智能驾驶、手机行业、互联网和AI开发者四大领域的全部头部客户,成为国内最大的AI数据服务提供者。
采标能力方面,百度智能云数据众包建立起了业界第一的海量人工智能基础数据采标能力。通过自建山西标注基地,拥有超过2000名专业全职标注人员;构建了遍布全国乃至全球22个国家渠道代理资源池,拥有超过5万名线下采集员;超过2000万名的众包互联网用户,随时响应各类数据采标需求,满足市场95%标注场景需求。
数据质量建设方面,百度智能云数据众包,建立起了一套标准化、工业化的生产流程和过程管理体系。在规范数据生产流程同时,标注生产环节以自动识别算法辅助标注效率和标注质量提升。
安全性和合规性方面,百度智能云数据众包实现了数据安全和数据合规的全流程管控,从数据合规、客户合规、用户合规、隐私合规四个方面,以及数据获取、数据加工、数据流出三个数据流转阶段,对数据隐私和安全进行保障。
正是基于百度智能云数据众包全面、高质高效、安全合规的数据采标服务,各个行业的AI应用得以更好的实现落地。以自动驾驶为例,行业迫切需要数据量充沛多元的专用数据平台,为此百度智能云数据众包与智能驾驶实验室配合完成了对数10万针的高分辨率的图像标注,标注内容涵盖了语义标注、稠密点云、立体图像、立体全景图像,以及复杂的环境、天气和交通状况等等,使得百度ApolloScape拥有全球最复杂的自动驾驶高精度数据集,为全球自动驾驶开发者提供了更丰富和更复杂的数据应用场景去训练学习和评测。
百度智能云数据众包在促进传统行业转型升级,带动就业方面也扮演了重要作用。山西地区以能源行业为主,而标注基地则承接了传统行业分流过来的部分人员,不仅给他们提供了更多的就业机会,也让更多传统企业开始关注起其所在行业的变化。目前,百度智能云位于山西的标注基地已帮助2300人实现就业,帮助山西从全国各地引入34家国内优秀的数据标注企业,2019年全年实现标注业务产值超亿元。预计未来5年内,百度智能云数据众包和百度(山西)数据标注产业基地将为当地提供超过5万个就业岗位,为后疫情时代的稳就业、保就业提供强有力支持。
在今年疫情期间,通过标注云平台+云端分包+远程办公协同,百度智能云帮助123家数据标注企业3300余人复工投产。2月3日,百度(山西)数据标注产业基地1300多人远程线上复工,复工率超过80%。基地作业人员加班加点,紧急完成了肺炎影像标注、戴口罩的人脸图像标注、武汉方言语音数据采集与标注、智能驾驶数据标注等数据服务。依据这些数据建立的模型应用于AI测温、肺炎筛查及病情预评估、口罩分类、口罩佩戴识别、自动配送等人工智能领域,助力疫情防控。
百度正在牵头制定数据标注的地方标准,进一步标准化省内各项数据服务业务,提高山西在全国范围内的影响力。2020年6月,百度智能云与山西政府达成进一步合作,双方将共同打造山西综改示范区AI数据交易平台,加速推进数据经济的落地,与当地政府共同打造有山西特色的数字经济新高地。
以下是全球软件案例研究峰会的主编赵强与百度智能云数据众包资深产品运营师李明的完整对话:
赵强:第一个问题就是人工智能已经进入了大规模的落地的阶段,那么有的人认为算法是核心,那么有的人认为算法是核心,您是怎么看待数据、算例、算法和应用场景这几者之间的关系?
李明:其实数据算力和算法一般认为是人工智能驱动的三大核心动力,如果非要给这三个排一个序的话,我个人认为可能是数据,其次是算力和算法,那也跟大家分享一下我的一个判断的原因,
赵强:您简单给我们介绍了一个就是大家争论很长时间的问题,您也谈了自己的理解,那么您是不是能够让大家用一个比较容易理解的具体的场景,因为您刚才提到了它的是落地是非常重要的,来介绍一下百度智能云的数据众包在这些场景中起到了哪些类似基础设施的这种作用?
李明:其实从人工智能的行业架构上来讲可以分为四个层次,然后从下到上第一层其实是基础层、第二层是技术层、第三层一般我们认为是平台层、最上一层其实是应用层,刚才我们讲到的这种算法算力和海量的数据其实属于基础层面应用,这就说明了海量的这种数据的获取和加工,其实是整个人工智能发展的一个基石,然后在数据的这种层面人工智能需要感知、思考和决策更好的去模拟人类的这种行为的话,它就首先需要足够多、足够好的数据对计算机进行训练。足够多,其实代表原始的数据量就要很大,然后足够好代表数据的质量要非常的好。多元丰富的这种数据才能应对各种人工智能训练的要求。比如举个例子来讲比如现在我们现在智能手机上应用的比较多的FaceID,还有我们现在已经在一些机场或者车站然后已经应用的人脸闸机,FaceID和人脸闸机这就需要然后一些红外的摄像机,然后一些这种传感器和硬件的支持之外,能够让这些人脸闸机和FaceID识别各种各样子的人脸,然后包括有遮挡的或者无遮挡的然后不同的这种光线的,然后可能是比如说戴眼镜的,近期然后我们因为爆发了一些疫情,在戴口罩进行部分遮挡的这种情况下它仍然能够识别,这就需要我们采集大量的各种场景下面的这种照片,人脸的这种真实的照片,然后同时都需要对这些照片进行精准的这种标注,进行人脸关键点的精准标注,比如说整个的这种眼睛周围,整个的我们的颧骨、整个的嘴周、整个的我们的鼻子,标注的点越多,然后标注的生物特征点越多,这个照片将来被识别出来概率就越大,所以在这种情况下我们采集的数据越多标注到的特征点越多,经过算法反复训练优化后就能够学习到真实的人脸特征,这样在不同的这种光线、不同的遮挡、甚至有在戴口罩的这种情况下,它都能够被正确的这种识别出来。所以我们可以看到精准的大量的这种数据其实是优化训练的前提也是我们实际投入应用的一个基础。所以我们说其实数据在人工智能这个里面,它其实是起到基础设施的一个作用。在新基建的浪潮下,百度智能云数据众包已经成长为国内最大的aI数据服务提供者,为各行各业的智能化转型提供数据动能为各行各业的智能化转型提供数据动能
赵强:我觉得您刚才举的例子非常好,用大家最近在出差或者是各种过程中遇到的人脸识别跟疫情相关的例子,能够到告诉大家说它是怎么起到了一个基础设施的作用,我注意到您刚才谈的话题里面提到了说足够多跟足够好,然后给我印象比较深,那么您说一下可否给我们简单介绍一下说在人工智能的基础数据获取里或想要获得到足够多跟足够好的数据的痛点有哪些,而我们百度智能云的数据众包又是如何解决这些痛点的?
李明:目前在整个数据的获取的过程中,我们往往会遇到如下的一些痛点,比如说最典型的是数据隐私和数据安全,也就是我们常说的数据的合规性。然后另外一个其实整个的这种数据质量,然后对于算法优化来讲然后他起到作用也是非常关键的,然后所以数据质量也是会大家比较关注的一个点。同时刚才我们提到了足够多,足够刚才的数据质量其实是足够好。那么还提到足够多就需要能够很强的这种数据的采集和标注加工的处理能力,然后能够处理大批量的这种数据的需求,所以总结来看其实是会涉及到数据安全和采标能力然后以及数据质量的控制,然后等等这几个痛点。对于这几个方面来讲百度智能云数据众包,然后我们是怎么做的呢?
在数据安全这个方面,其实我们建立起了从数据安全到数据合规的全流程的一个管一个管控,从商务阶段的数据确权然后到数据加密到实名认证然后以及生产环节的生产监控等各个环节,我们确保整个在传输、生产、交付的这种阶段全都是合规的。然后并且是产权是明晰的。
在采标的能力阶段,我们其实建立起了业绩第一的这种采标能力,我们自建了一个山西的标注基地,拥有超过2000名全职的采标人员,以及我们遍布全国乃至遍布全球22个国家的超过5万名采标人员的代理商资源池,以及我们遍布全国乃至遍布全球22个国家的超过5万名采标人员的代理商资源池,这些都是为我们采标能力的这种建设然后提供了巨大的帮助。同时我们通过不断的这种技术创新和技术积累,百度智能云数据众包所支持的标注场景,以及能够满足市95%以上的主流标注场景,在数据的质量建设上面我们也建立起了标准化甚至工厂化的这种数据标注的一个流程,百度智能云数据众包到目前为止已经成长为业界采标能力第一、流程标准化、工具智能化确保数据安全的一站式的AI服务平台。
赵强:您刚才提到了一个数据就是说我们在山西自建了一个基地,而且后面提到了您百度智能云的数据众包帮助了很多人完成了他们的就业,然后我们也在前一段时间也有听说过就是说在疫情期间,因为不能出门有很多人咱们的数据众包的业务是成功的实现了就业或者有一些企业通过实现了线上的转型,您可不可以给我们介绍一些在疫情期间众包是怎么帮助解决就业问题的,
李明:确实因为疫情的这种影响,很多我们实际的一些生产单位对我们的实际的和人员的这种生活造成了很严重的这种影响,在今年一季度的时候,我们利用我们整个的这种标注的一个云平台以及百度智能云顺包特有的一个云端分包的一种任务形式,然后再百度自有的远程办公协同平台-百度如流,然后我们通过百度如流的这种方式,然后对这些企业进行远程的这种培训帮助这些企业然后进行远线上培训线上办公以及帮助他们实现线上的这种数字化转型线上的这种生产。通过我们整个的业界领先的这种数据标注的云平台,再加上我们远程办公协同,然后我们在整个Q1成功的帮助了超过120家企业、超过了3300标注员,实现了线上的这种复产。我们业务稳定进行和客户的需求得到及时满足的同时,也帮助他们实现了在疫情期间的这种稳定的复产和就业。同时我们在山西这边也建了一个数据标注基地,刚才已经介绍到了我们目前整个的这种全职的标注员已经超过了2000人,实际上是帮助两两千名当地的这种人员,包括应届毕业生、也包括我们从其他行业转型升级过来的这种分流人员,比如说山西这边其实传统的是以能源行业为主的,我们目前在产业转型升级这种情况下,我们整个的标注基地也承接了从其他的传统行业分流过来这些人员,从而实现也一定程度上帮助,进行产业的这种转型升级,同时我们还接受了一些这种社会的一些人员,包括我们的一些残障人士,然后我们都重新帮助他实现的这种就业。我们整个基地这边,对于新入职的这些人员也有比较科学的这种培训和晋升的这种机制,能够保障他们掌握我们整个的这种标注技能。我们跟山西这边其实和合作会是一个长期的这种过程,在未来5年我们希望通过山西基地的这种示范的作用,能够相关的数据标注数据标注的相关产业在山西汇聚,从而在未来5年之内能够直接的为山西本地创造超过5万个的就业岗位。
赵强:非常感谢您的介绍,然后一般提到人工智能或者机器学习我们想到的都是冷的机器,但是没想到这冰冷冷的机器后面有很多温暖的这些人文的关怀。我们回到我们百度智能云的数据众包上,它目前在哪些典型的AI场景落地比较广泛以及我们通过一些市场上公开的数据我们可以看到,企业在数据采集和标注上面在近几年的投入非常大,而且是一个呈逐年上升的趋势。您认为造成这种投入增大的主要原因是什么?
李明:百度智能数据众包目前已经全面涵盖了包括智能驾驶百度智能数据众包目前已经全面涵盖了包括智能驾驶,包括手机行业以及互联网和AI开发者等四大领域的这种全部的头部客户,随着这种新基建的提速,人工智能行业然后也会进入快速的一个发展的时期。市场对海量数据的基础需求 在人工智能AI加速应用落地的过程中其实您说的非常对是会越来越大的日益增强的。我个人认为这块可能会有主要的三个的一个驱动因素:第一是整体AI行业的一个高速发展,因为不论是从国家的这种政策还是实际我们的这种产业转型的需要上来讲,整个AI行业的这种发展其实是在不断提速的。第二个AI运用落地时,其实对数据是具有强依赖性的。第三个是像无人驾驶,人脸识别等这些新兴的一些aI应用场景的这种兴起。据研究报告的这种显示到2025年,整个人工智能基础数据行业的这种市场的需求规模可能会超过百亿元人民币,根据艾瑞咨询《2019年中国人工智能基础数据服务行业研究报告》显示,我们百度智能云数据众包的服务市场的和营收额已经达到了业界第一的这种规模。而且新基建的这种到来,必将进一步刺激市场的基础数据需求的这种增长。那也必将为我们百度智能数据众包的进一步的发展迎来一个良好发展的新机遇。
赵强:您刚才提到了新基建提速,未来会有更多的客户,去选择咱们的百度智能云的数据众包的服务。接到这个数据众包的这些需求大部分都是定制的需求,那么这些客户无论是您提到的手机、自动驾驶是他身处哪种行业,他们肯定对这个数据的隐私和安全是非常在意的,那么咱们百度这种云数据众包是怎么解决这部分问题的?怎么制定的安全以及安全保障的措施?
李明:对于数据合规和数据安全的这种建设方面,我们主要是会从数据合规、客户合规用户和资源的合规以及隐私和为四个方面,对数据的这种安全和合规性进行保障。这四个方面会涵盖我们从整个数据的获取到数据的加工生产。然后我们会跟我们的法务和客户来合规的一个范围。客户的这种合规,我们会跟客户明确约定数据的版权以及数据的接入规范。在用户和资源合规的这种方面,渠道或者是客户或者是用户需要具备的安全资质我们会和渠道或者是客户或者是用户需要具备的安全资质,以及它们的生长环境需要具备什么样子的一个生产环境。在隐私合规这块,我们会完善整个用户数据的一个隐私授权链。所以我们拿到这个数据,一定是经过数据的拥有方或者是数据涉及到的隐私方授权的或者是脱敏的。除此之外,这些这类的数据我们是不会动的,涉及到隐私的这种数据我们是不会动的。再举一个例子来讲比如说我们刚才提到的渠道和用户的这种合规性,就是渠道资源调配的阶段。在这个阶段我们会对数据进行敏感度的一个划分,并且明确各个敏感度的这种数据对应渠道的这种资质的要求,并且以此会渠道资源调配的一个强依据。从而确保对应等级的数据,必须具备对应安全等级资质的这种渠道或者资源来帮我们完成这样一个匹配。
赵强:对于数据的加工过程中,除了安全是客户比较关注的一个方面之外,那么这个数据的质量也是他非常关注的一个方面,就是这个数据最后真的是不是能够保证加工出来的数据是符合我需要的,所以请您介绍百度智能云数据众包是怎么建立有效的质量建设体系的?
李明:在整个数据的这种加工过程中我们也建立起了标准化然后甚至是工业化的一个生产流程。我大概介绍一下我们整个的生产加工流程,我们整个生产加工流程大概会分为三个阶段,第一个阶段其实是小流量测试的一个阶段,然后在这个阶段我们会通过小流量测试来明确数据的一个生产的规范和验收的规范,并且我们会通过小流量测试来明确平台工具的一个适配性,并且会测定我们的产值和功效。第二个其实是正式生产的这种阶段,在正式生产的这种阶段我们会结合资源的画像以及资源渠道的负债率会进行科学的这种调配。并且我们有了资源调配资源调动调配的这种算法里面,我们会根据资源画像的能力标签以及资源当下的一然后对它进行任务的这种分配,从而达到资源调配效率的一个最大化。我们也会对整个的这种生产过程实时的进行监控,有比较完善的这种过程的管理措施,来确保整个的生产过程,他的一个生产的指标和生产的这种进度生产的规范是满足我们要求的。在数据验收的这种交付阶段,我们还设立了三级的一个审核机制在整个的这种确认无误后,方可交付到客户这边,由客户在进行最终的这种验收和审核。所以我们通过整个的建立起一个整套的这种标准化,数据的这种生产的流程,同时我们完善了每个环节的这种业务指标、调度和监控、以及过程管理,从而从这几个方面去确保我们的数据质量是能够满足客户要求的。
赵强:通过您的介绍,我们大概对百度智能云数据众包如何在安全数据质量等方面是怎么进行保证的,那么我想这种保证可能也造就了咱们现在百度智能云数据众包在采标能力业界第一的排名,那么请您介绍一下业界第一排名背后我们做了哪些努力?我们又做了哪些行业上的创新?
李明:整个百度智能数据众包就像您说的取得目前的这种行业和市场地位,我们的确是经过了很多的这种积累的。这种积累可能我们整个的这种资源能力也就是我们采标能力的一个建设上面以及我们整个的流程和过程管理上面,其实最重要的还是我们技术的这种积累和创新。技术和积累和创新,可能分为这么几个方面,第一个就是我们的标注能力,我们的标注平台和标注工具,目前我们所能够支持的这种标注能力已经可以覆盖市95%以上的主要标注场景,基本实现了标注平台和标注工具的一个标准化。所以虽然是定制的这种服务,但是对我们来讲已经是标准化的。同时我们在整个的这种标注的过程中,在标注前和标注后我们都进行了算法的这种加持,然后通过的这种自动化的算法筛查无效的这种数据,使得整个的这种标注和审核的这种效率和质量都得到了大大的提升。去年我们曾经也做过的这种测算,经过的算法加持之后,我们整个的标注效率和标注的质量都提升了25%以上。标注同时除了为我们的客户彩票的这种服务之外,我们还从客户的实际需求出发开发出了数据标注的一个私有平台。来支持私有部署和混合部署等多种的这种部署方式。所以除了我们现在提供的这种有的彩票服务之外,还为客户提供了更多的这种选择,尤其是一些涉及到数据保密的客户我们为他提供了更多的这种选择。
赵强:您刚才介绍很多百度智能云数据众包在一些场景落地的情况,其实我们也听说过咱们的采集和标注的能力。现在已经在支撑我们百度内部的很多AI的产品线,而且已经有了非常不错的成绩。是不是能跟大家分享咱们数据中包在百度内部的一些实践经验?
李明:我们都知道百度在人工智能上面在国内是投入比较早,并且目前是整个的这种研发声量和市场声量比较大的一方.目前比较为人熟知的其实就是自动驾驶,自动驾驶这个场景其实已经在多个地方.比如说长沙然后已经落地应用了。这就证明了自动驾驶已经从实验室的这种象牙塔,进入到了这种规模化甚至是量产的这种阶段。其实在自动驾驶开发测试的过程中海量的这种高质量的真实数据其实必不可少的一个原料。但是少有团队有能力开发并且维持这么适用自动驾驶的一个平台,并能够定期校准或收集的新的数据集。因此所以对于自动驾驶的整个行业来讲,其实急需有这样的一个数据量充沛涵盖的这种数据场景比较丰富的一个自动驾驶的专用数据平台,所以我们与百度的机器人与智能驾驶实验室配合完成了对数10万针的这种高分辨率的图像,进行了像素级的图像的这种标注,这里的标注包括语义标注、稠密点云、立体图像、立体全景图像,这些标注进一步涵盖更复杂的环境、天气和交通状况,经过三个月的这种努力,我们将ApolloScape建设成比Cityscapes、kitty等同类的自动驾驶数据集大10倍以上的这种数据量。也使得ApolloScape这个数据集成为全球自动最复杂的自动驾驶的高精度数据集。为全球自动驾驶开发者提供了更丰富和更复杂的数据应用场景,来供他们去训练学习和评测。
赵强:我相信屏幕前有很多观众现在心里可能也有一个疑问,说虽然这个工作非常复杂,但是我也有可能自己去自建的一个标注团队或者我自建一些什么工具。对于在您看来企业是自建工具或者团队还是与第三方合作去获取数据能力,在您看来有没有什么一些判断的标准?如果有企业想这么做你有什么建议给他们?
李明:自建团队早期更多的承担公司内部的算法研发和业务需求,往往可能标注的这种内容相对比较简单,采标的这种需求量然后也会比较少。但是随着AI算法从研发需求,发展到训练的这种需求,再到真实的这种业务场景的需求。对于数据的需求量和标注当中复杂度的要求会明显的提升。这个时候往往自建团队,往往需要投入巨大的人力物力来进行自建团队的这种运作,自研的标注平台和标注工具的一个开发,如果是企业自建的这种团队的话,自建团队这种需求往往会受自身产品迭代周期,一个影响所以它整个的工作的这种饱和度会出现这种潮汐的现象。从而会造成这种自建团队的可能人效会相对比较低下,人员的负载率也会比较低,进而会造成整个人力资源的一个浪费。因此企业的这种自建团队来讲,虽然现在有很多的这种企业开始自建团队,但是其实对于市场的主流的这种市场需求来看自建团队并没有对市场的这种需求产生挤出的这种效应。相反市场供给的主力军还是各类的人工智能基础数据的服务提供者比如百度智能云数据众包然后等等。所以目前来看,整个我们的基础数据还是合作的一个主流趋势,和第三方数据公司或者数据服务商来提供合作。
赵强:最后一个问题荧幕前应该也有很多观众比较感兴趣的另外一个问题,就是百度智能云的数据众包在未来会有哪些计划中的发展方向,以及在未来还会提供更创新的服务,这点请您给大家简单介绍一下?
李明:其实我们在这边可能会分几个方向来说一下,第一个仍然是我们采标能力也就是我们资源池的一个建设方面。大家都知道我们在山西这边已经建了一个全国单体规模最大的标注基地,然后目前已经有超过2000名的全职人力,在帮我们进行采标的一些作业。未来我们会持续的把山西的这种标注基地,去把他做大做强。第二个通过不断的在采标上面的一个数据的这种积累,其实我们现在已经积累了大量的这种数据的资源。未来我们希望能够把这些数据的这种资源,对它进行归纳和整理形成行业的这种数据集和基础的数据集。因为经过我们多年的这种采标的这种服务能力和数据的这种积累,我们会把我们目前积累的这种数据整理两个方向的一个数据集,一个是行业的数据集,一个是基础的数据集。基础的数据集,比如说我们的计算机视觉识别、语音识别、自然语言处理等等。第二个就是我们行业的这种数据集,智能安防、OCR识别是涉及到我们实际的这种应用场景的这种行业的数据集通过这种方式,希望把我们现在积累的这种数据进一步形成数据产品把我们的数据资产化。第二步我们希望去建设一个人工智能的基础数据的开放平台,这个平台上面我们会打包我们整个的这种数据基础服务,以及我们的数据集的这种产品,进行线上的这种交易共享。为全国的这种人工智能开发者和科研提供数据采标服务的同时,也提供数据集的共享和交易服务。来促进我们整个数据资产的交易流通甚至变现。第三步我们希望能够去打通整个的这种数据生产,数据交易和数据应用的三个环节,实现这三个环节的一个有机的衔接以及在这个过程中形成一个数据生态的闭环。将数据生产的这种环节更多能够导入到我们的合作伙伴,导入到我们的这种山西基地,进一步的培育壮大,当地的一个数据标注的这种产业。像我们刚才说的我们未来其实希望能够在山西,为当地去创造超过5万个的一个就业岗位进一步培育的培育壮大当地的一个数据标注产业。我们也会把更多的这种数据产品和数据能力提供到我们数据使用方,以带动我们整个算法模型的这种开发训练,和促进行业应用的一个落地。而正是这种应用场景的数据需求,可以反过来指导和驱动我们数据产品的建设和数据的生产。从而来实现整个数据生产、数据积累、数据流通、和数据应用的有机循环,进一步盘活数据资产的同时,带动当地的这种产业智能化转型然后帮助我们的这种企业来进行稳产和促进就业。