在人工智能领域,数据的重要程度正在迅速提升。
根据ML大牛吴恩达提出的著名二八定律:80%数据+20%模型=更好的AI。他认为,一个机器学习团队80%的工作应该放在数据准备上,确保数据质量是最重要的工作,每个人都知道应该如此做,但没人在乎。如果更多地强调以数据为中心而不是以模型为中心,那么机器学习的发展会更快。
而随着中国自动驾驶产业商业化落地的高速推进,市场对于数据的需求也正在呈现急速上升的趋势。根据公开数据,预计至2030年,中国运营的自动驾驶车辆将达3000万辆,或将成为全球最大的自动驾驶市场。
总体来看,整个自动驾驶正处于L2级自动驾驶向L3级发展的阶段,场景越来越复杂的同时,也带来了对于3D等更高维度、更高质量数据的巨大需求。而另一方面,自动驾驶全产业链的企业数量正在飞速扩展,包括传统车企、车企相关互联网公司、跨界互联网公司、新型自动驾驶相关公司等在内的企业,也让我们看到了更大的数据需求。
自动驾驶数据的重要程度正在持续上升
如果说智能化1.0阶段,车企拼的是技术的快速落地和高阶能力的标杆效应,那么2.0阶段就是拼规模化搭载。
高工智能汽车研究院重磅发布《2023-2025年智能网联产业趋势报告》,报告显示,今年1-10月,前向ADAS(L2含NOA)同比上年增长67.11%。NOA(导航辅助驾驶)同比上年增长116.25%。
在具体车型方面,特斯拉Model Y/S、理想ONE、比亚迪汉、丰田亚洲龙排名L2全系标配搭载量前五。这意味着,一旦启用「影子模式」,大量实际驾驶数据采集的效果将会显现。
比如,在数据方面,特斯拉采集用户实际驾驶中产生的数据,用“影子模式”去学习用户的驾驶逻辑,辨识各种各样的驾驶场景,确保有充足的数据进行系统优化。
众所周知,数据贯穿了整个AI的生命周期,从数据获取,数据准备、模型训练和部署、再到人工模型评估。
当前,软件和数据已成为智能汽车的核心增量。在很多业内人士看来,打造一套可用的智能驾驶系统并不难,但开发和维护可扩展和可靠的完整数据驱动解决方案才是真正面临的挑战。这意味着,智能驾驶系统真正实现基于数据+软件定义的全新模式。
马斯克也曾公开表示,FSD可以让公司价值不菲。但同时强调,系统改进的唯一途径是收集数据。
可以看到,在中国市场,数据服务的价值也已然明朗。
高工智能汽车研究院监测数据显示,在前装市场,传感器的搭载量正处于上升周期。例如以整车搭载摄像头为统计口径,今年1-8月中国市场(不含进出口)乘用车新车标配交付摄像头合计为3329.86万颗,同比增长23.35%,单车搭载摄像头颗数为2.67颗(上年同期为2.05颗)。
高工智能汽车研究院预计,接下来两三年仍是摄像头上车的市场红利期,预计到2025年中国市场单车搭载摄像头将提升至7-8颗。同时前向双目、三目,周视等更多摄像头配置成为主流,基于数据认知的训练也成为刚需。
另一方面,4D毫米波雷达以及激光雷达的搭载也正处于最关键的导入期,这带来了一个全新的市场:多传感器感知的数据融合。此外,舱内人机交互的体验升级,也同样需要数据迭代支持。这也再次表明,无论是在自动驾驶还是辅助驾驶领域,数据标注的需求量都将迎来增长的高峰期。
以一辆搭载8个摄像头(前向3颗、周视4颗、后视1颗)的智能汽车为例,每个摄像头以30帧/秒的速度拍摄1小时,将会产生约86万帧的图片,按10万辆存量车计算,就是接近1000亿帧的数据。即便其中有大部分数据可以进行快速自动化过滤处理,剩下的需要精确标注的数量仍然非常惊人,这还不包括雷达的融合数据。
很明显,产业链迎来了新的商机。
自动驾驶数据标注当前面临的难点
作为产业链的重要一环,澳鹏同样深刻感受到自动驾驶市场需求的火热:尤其在今年,自动驾驶的数据标注需求更是呈现爆发式增长。
2020年澳鹏做到4.7m美金的营收,2021年是24.7m美金,实现了421%的增长;2021年上半年141%增长大部分是来自自动驾驶,目前自动驾驶占总业务量60%以上,澳鹏一半以上的客户来自自动驾驶。
然而,随着业界对于数据标注需求量的爆发,过去简单粗暴的“人力堆叠”已无法满足当前对于“高质高量”数据供不应求的行业痛点。
要知道,在自动驾驶领域,数据标注几乎没有出错的余地,也不容缺少关键用例。这就导致自动驾驶汽车的数据采集和标注是非常耗时的资源密集型过程。同时这也是为什么一直以来自动驾驶企业会面临上市时间延迟、产品性能堪忧以及推广困难等问题。
澳鹏相关负责人表示,伴随L3级自动驾驶的进阶升级,自动驾驶厂商对舱外数据服务的需求与日俱增,其中既包括数据需求量的增长,也有更复杂的数据类型的变化。行业对于激光雷达3D点云数据的大量需求,也让数据标注的工作变得更为复杂,数据成本急剧上升。
而对于下游企业而言,如何低成本获取高质量数据就成了他们在这个时代的刚需。
澳鹏认为,自动驾驶数据标注当前的技术主要面临以下难点:
1:随着自动驾驶市场的爆发式增长,总体数据量增大使得平台业务吞吐量增大,这对于工作流的数据流转效率、稳定性提出了更高要求;
2:采集到的数据精度提高、数据稠密度的提升,导致需要处理的单条数据变大,标注员设备可能比较低端,需要加大力度在研发上支持工具在各种高低端设备上的正常使用;
3:采集设备越来越多样化和复杂,使得数据类型增多,产生包括4D传感器数据等多传感器数据融合标注的需求;
4:数据成本和企业降本增效的需求,对标注效率和管理能力的要求越来越高,需要不断打磨和优化工具功能以及项目管理功能;
5:随着自动驾驶商业化落地进程的加快,客户需求也越来越细化和多变,需要加大投入模型辅助标注的研发并针对不同项目进行定制化的模型开发。
可以看到,为了解决以上难点,数据服务企业采用的数据标注技术已然从最早的单机标注工具演进为数据标注平台,继而升级为现阶段的智能数据标注平台/企业级AI数据标注平台。
目前,行业已涌现出多家较为优质的“平台”。然而如果论经验与深厚积淀的话,澳鹏则当属其中的第一梯队。
关于澳鹏
作为一家成立于1996年的元老级AI训练数据服务企业,澳鹏早已在智能驾驶的春风吹拂过神州大地之前,就将服务遍布于170个国家和70,000个地区中。
2019年,中国的智能驾驶行业进入了如火如荼的发展阶段。而彼时的澳鹏早已拥有了全球AI数据服务细分领域行业第一的光环。同年10月,澳鹏带着不足10人的原始团队来到中国市场。凭借20余年的深厚技术积淀,这只白手起家的团队仅历经短短3年时间,便完成了从“0”到“行业TOP1”的闪电般飞跃。
据2022年公开数据显示,澳鹏中国在专注于人工智能数据服务商中营收排名第一。在疫情肆虐的2021年依然实现了财年营收421%的爆炸性增长。
三年以来,澳鹏通过高质量、高效率的数据服务在自动驾驶领域积累了具有相当规模的客户群体,其中包括知名互联网企业、新势力造车、整车厂的创新研发部门等。究其缘由,技术、服务、资质、经验缺一不可。
澳鹏深谙,企业需要一套成熟的技术体系,如无缝的接口开发/API对接等。由此,澳鹏中国借鉴全球经验自主研发的MatrixGo高精度AI数据标注平台,专门面向企业本地部署环境,帮助CIO们以高度自动化、标准化和规模化方式建立AI标注数据供应链。
该平台可支持像素级语义分割、2D图像复合标注、3D点云拉框及语义分割等功能;同时采标一体的任务能够实现采集-质检-标注-质检-客户验收的双向协同流程,让整个数据生产线上的各个环节实现无缝衔接;内置的多轮质检模块可以按需配置,满足不同复杂度项目的需求;2D图像复合标注是全结构化的模型训练利器,支持点、线、框、多边型融合标注(常见工具是单模式的,点、线or折线,多边形)与连续帧;
总体上,其标注工具可实现99.9%的准确率,并达到5分钟一张、1秒一帧极速质检,在交互、超大数据加载、实时切帧进行渲染等方面都达到了行业第一。根据案例显示,可助力客户提升3倍效率的成功部署速度。
值得一提的是,在今年,其在自动驾驶领域的模型辅助标注(自动化标注)进一步取得了技术进展,如交互式语义分割、信号灯预标注、停车位自动识别等,经过不断迭代优化,大部分工具可使标注效率提升30%-50%。
目前,点云检测、2D障碍物检测等工具也在计划上线中,且平台版本平均每两周就会做一次迭代更新。
在服务方面,公司拥有专业的评估和项目团队全程跟进试标、采集、标注、质检、验收和交付流程。在自动驾驶领域,澳鹏中国单月的巅峰产值可达600万人民币以上,资源数目可达2000人以上。
同时,公司具备快速、低成本召集资源并灵活交付的能力:其在全球拥有超过100万名技能娴熟的众包资源,支持235+种语言和方言,遍布170+个国家和70,000个地区。澳鹏(中国)总部位于上海,在无锡、大连、重庆均设有大型交付中心。
目前,澳鹏(中国)拥有超过千余名全职员工、1000+BPO资源、数万名高质量的本土众包人员并持续扩张中。-管理问题/效率提升:澳鹏可以提供一套专业的项目管理方法论,尤其是在自动驾驶领域积累的大量实战经验,帮助企业在项目部署中快速应对如数据规则的对齐、数据波动、人员稳定性等问题。
在数据安全方面,澳鹏始终助力智能时代安全保障体系的构建,始终致力于为客户提供最高级别的管理标准:
目前,澳鹏中国已获ISO 27001, ISO 9001和ISO 27701认证,在信息安全管理、质量管控和数据隐私保护方面达到受国际认可的“黄金标准”。全球范围内,澳鹏亦通过GDPR,SOC 2 Type II,HIPAA等全球不同国家和地区的数据安全合规认证,确保数据来源和渠道正规、安全、合法。
此外,其自主研发的人工智能辅助数据标注平台MatrixGo也具有权限管控、数据加密传输、PII信息加密存储等严格的数据安全管控策略,并专门设有DPO进行数据安全管理,最大限度地保证客户的数据资产安全。澳鹏高水平的数据管理平台,数据通过阿里云存储,也可以做到在客户的平台上进行私有化部署。
在经验方面,针对自动驾驶诸多特有的数据类型和难点,澳鹏配备了具备相关经验和知识的专业人才。例如,澳鹏中国产研团队配备专门的算法人员负责自动驾驶等领域的算法研发,能够更好地理解自动驾驶客户的技术需求。
作为自动驾驶汽车的“燃料”,一个合格的数据合作伙伴提供的高质量数据能够帮助企业在自动驾驶领域乃至整个汽车行业占得先机。“我们致力于帮助企业完成全球最具创新性的自动驾驶汽车项目。”澳鹏相关负责人表示。