格物钛吴琼婧:智能汽车的命脉是数据迭代能力

自动驾驶:大数据(google版权).jpeg
构建数据迭代能力已成为企业共同追求的目标,处于前沿的智能汽车领域更是如此——解决罕见的长尾场景、构建数据闭环的高效研发框架是业界公认的重点。日前,格物钛智能科技COO吴琼婧接受了亿欧EqualOcean的专访,探讨智能汽车行业的发展重心,与格物钛数据平台在其间担任的关键角色。
数据是人工智能和机器学习的基础,而大量低质量的冗余数据对AI应用来说是严峻挑战。
近些年,AI大潮汹涌澎湃,赋能人工智能的工具链却并不完善。反观传统IT及云服务领域,基础配套服务已形成一套成熟而精细的分工流程,将这种思路沿用到AI领域,格物钛智能科技便是国内走在前列的践行者。
万物数字化时代,企业走向数据驱动是必然决策。“用数据挖掘和数据打通来赋能企业决策,用机器学习、数据分析来部署自动化,把这一套逻辑剥离出来会发现,其实这就是全行业都在做的事。”格物钛COO吴琼婧对亿欧EqualOcean说。
artificial-intelligence-g4dad12cbd_1920.jpg
过去一年,全球企业级的数据增长了42%,然而在所有企业级可用的数据中,目前只有32%得到了有效利用。大多企业面对日益膨胀的数据规模束手无策,特别是图片、视频、语音等非结构化数据,甚至尚未迈出数据管理的第一步,便深感迷茫——如何获取所需数据?如何辨析数据价值?如何共享和使用数据?
格物钛洞察到这一系列增长需求,致力于帮助企业将多元异构的数据要素进行资源化输出,驱动持续迭代能力提升。

构建迭代能力将成主流

自动驾驶-20(google).jpg
据著名投资机构 Sapphire Ventures 分析,全球人工智能市场未来往平台化、模块化方向演进,一流的模块化工具正在取代传统外包的算法解决方案,帮助企业以更便捷的方式自建AI能力。
随着人工智能的应用场景越来越多元,据亿欧EqualOcean观察,企业已不再满足于单点交付的“黑盒模式”,他们更希望加强自身的软件迭代能力,灵活地调整模型及工作流,在变化中寻求业务问题的最优解。由于内部的“技术债”积累,企业倾向于购买第三方软件而非自建系统。
受此需求驱动,海外涌现了大批贯穿于AI生命周期的新型技术供应商,数据平台、机器学习框架、分布式计算、模型评估、模型部署、商业决策和应用等工具链蓬勃发展,成为企业迭代创新的重要推进器。
“在全球范围内来看,海外生态链相对成熟,和我们处于产业同一生态位的AI基础设施企业也有不少。”吴琼婧说道,平台型公司Databrick早已是百亿美金估值,Dataiku、Snorkel、Pachyderm 等早期公司也都受到了资本追捧。
吴琼婧表示,国内生态链尚处于起步阶段,格物钛主要面向机器学习和数据分析提供非结构化数据平台支持,尚未观察到从事相同业务的公司。
在她看来,AI从模型到工程化落地解决业务问题,企业遇到的巨大挑战在于缺少搭建规模化实现数据和模型迭代工作流的基础设施。
格物钛提供以数据迭代为中心的产品和解决方案,吴琼婧向亿欧EqualOcean介绍道:“我们希望搭建一套所有企业可用的数据基础设施,让企业高效管理数据,让他们的AI能力真正为业务持续赋能。”
格物钛认为,接下来的3到5年,国内大量企业对AI的应用将从单点AI建设走向全面AI的智能化转型,迭代能力的重要性将愈发凸显。

数据定义智能汽车价值

自动驾驶-21(google)-21.jpg
当数据资产逐渐成为关键资产,对众多企业来说,管理并有效使用非结构化数据是迈向全面AI智能化阶段的前提条件。
“但各行各业做这件事的迫切程度和部署节奏各不相同,其中智能汽车目前走在前列。” 吴琼婧认为。
自智能汽车和造车新势力兴起,“软件定义汽车”成为老生常谈,汽车中软件价值占比逐年升高,而硬件价值逐渐走低,硬件和软件的地位迅速切换。软件在整车的设计、开发、验证过程中作用显著提高,同时软件体验和服务也将贯穿用户整个用车周期。据摩根士丹利预测,至2025年,整车价值将有40%来自电子和软件。
对此,吴琼婧持相似观点,“因为智能汽车的难点在软件,软件的核心在数据迭代。”
尤其在体现智能汽车核心竞争力的自动驾驶领域,数据成为价值链的重中之重。在自动驾驶技术研发过程中,车企通常需要收集海量数据来进行模型训练,高质量的训练数据对模型效果至关重要。
首先,车企需要收集足够多的真实场景数据。如果有效数据不上规模,自动驾驶系统对不同场景的应对能力自然薄弱。其次,获取数据后,存储、管理和使用这些数据又是一大挑战。
“获取边缘场景数据并能实时反哺模型迭代的能力是打通城市辅助驾驶场景、乃至获取自动驾驶后半场赛程入场券的关键。大量边缘场景数据需要被分类管理,打造大规模数据训练、软件通过OTA迭代闭环成为车企的核心能力。”吴琼婧谈道。
面对困境,车企不仅开始意识到算法和数据团队外包不可持续,同时亟需知道把数据收回之后应当如何管理、使用什么工具能够提升机器学习效率、有哪些解决方案可以借鉴。
即便是特斯拉这样的智能汽车先驱,在海量的行车数据面前,千人规模的数据标注团队也只是杯水车薪。因而,特斯拉自有一套负责实现特斯拉Autopilot模型迭代的数据引擎(Data Engine)体系——
![上传中...]()
*图源:CVPR 2021 Workshop on Autonomous Vehicles Andrej Karpathy

首先,采集数据并做数据标注,训练生成服务器端的1.0版本模型;接着,1.0版本模型被部署到车端,车端收集筛选出难以识别的场景;最后,特殊场景数据进行单元测试,测试未通过的数据被重新放入第一步的数据容器,数据在1.0模型基础上加强后重复操作:打标签、训练、生成2.0版本模型、再部署车端。循环往复,直到覆盖所有场景。
特斯拉这套加速数据迭代、实现数据闭环的解决方案既给了业界一个抽象的标准,也让中国车企恍然意识到——谁迭代得快,谁更有竞争优势。
正如格物钛CEO崔运凯所言,“自动驾驶场景中的制胜关键是数据能力,其他企业想和特斯拉竞争,必须要和特斯拉使用同样的方式思考、使用同样的工具。”而学习“特斯拉模式”绝非易事。
“格物钛数据平台的作用是为企业打造数据闭环的引擎系统,去帮助企业实现和特斯拉一样的快速迭代基础”,吴琼婧言简意赅概括道,“帮助企业构建高价值场景库,并基于此不断支撑模型训练、评估以及场景迭代,在大量训练数据的喂养下,让自动驾驶变得越来越聪明。”

尾声

ai-22(google).jpg
企业 AI 市场每年以 35% 的速度增长,随着各行各业的数智化转型升级,AI基础设施赛道热度不减。
吴琼婧认为,对于前景好的赛道、有明确产品技术价值的标的,尤其是早期项目,持续受到众多资本青睐。心怀“把握前所未有的创业机会、做属于时代的企业”的理想,吴琼婧坚定看好以数据库、数据平台、工具链等为代表的人工智能产业基础设施,“在未来智能时代,它们都会有不可估量的价值,而格物钛的使命就是让AI触手可及,让数据真正为企业所用。”

本文来源于亿欧网,作者:钱漪。
图片来源网络,如侵权删

更多信息请访问格物钛官网

你可能感兴趣的:(数据挖掘自动驾驶)