中国人工智能学会通讯——数据助力智能驾驶体验

我个人的经历，之前也从事人工智能方面的工作，多数在语音识别研究和应用。从去年加入数据堂以来，专注于在AI数据。数据和人工智能之间的关系，我想大家都很了解，也不言而喻，数据是一个非常重要的方面。数据跟我们的算法之间是什么关系。我喜欢用这样一个比喻，数据是一个教材，算法像是一个老师，老师用教材去教导你未来想要产生的人工智能的任何一个应用，比如说在今天的论坛上——智能驾驶，智能驾驶就是智能应用的一个孩子。

我们先看一下智能驾驶，大家讲了很多在自动驾驶方面的事情，包括算法、硬件等。我想从另外一个角度，从纯体验的角度，展望一下智能驾驶的未来体验。作为一个车的车主，在未来的几年我们可以期望，跟自己的车成为一个什么样的关系。我希望我跟我的车是好的伙伴，我跟它之间需要有交互，而且这个交互可以是多模式的。同时，这个车大家都在追求自动，比如说我们讲自动驾驶，车要能自动驾驶。刚才有嘉宾也分享了自动驾驶的5个不同的级别，未来我们希望这个车能够达到最高的级别，在第5个级别完全自动把我载到目的地。同时它需要在自动层面做到自动控制，比如我能自动控制调节车内的温度、可以自动控制车内的娱乐设备，这是自动控制方面的。同时，这辆车也要有更多的信息共享，这里说的共享信息，可以是车与车之间的。比如说前方的车碰到了交通事故，它把交通事故的信息可以分享给大家，车与车之间的信息分享，当然车内的乘客也可以有一个信息的分享。所以在这几个方面大家可以想象一下，未来你下了班，你告诉你的汽车5分钟以后到大楼门口等我，进了车以后，告诉车说把我的座椅调整到60度，从最近的距离载我回家。在这个过程中，汽车上路了，在途中收到了汽车中心控制器发送的信息，告诉你有一个紧急的邮件需要你签字，你通过手工的签字，然后语音控制发送它，发送给你的秘书，你回到座椅上继续享受旅程。但是你回家路上正好碰到一个交通事故，你还没有到交通事故的区域，就从中控中心收到这样一个信息，告诉你前方有事故，同时给了你几个选择，可以绕开这个交通事故，这个状态下你跟你的车有另一个交互：你轻轻指了一下其中一个路线，告诉你的车从这里绕过。在整体的体验下，我们期望我们的车未来自动做一些事情，能够真地成为你的伙伴。

为了达到这个愿景，很多嘉宾和在座的各位，都在做不懈的努力，刚才有嘉宾分享了硬件方面和软件方面的研究，这些在未来的自动驾驶和智能驾驶里也是需要达到高度的融合，比如有不同的传感器、有声音传感器、有照相机，还有雷达显示器和GPS，它们得到的信息通过控制器进入中央处理器。中央处理器通过识别和算法，得到最终的判断结果。当然它需要进入到你的不同的终端，比如我要听音乐，你告诉它播放刘德华的音乐，它就需要从音乐控制终端播放音乐；从最近的距离回家，自动驾驶终端需要执行这个命令。在整个过程中，虽然还有很长的路可走，但是未来整个技术的发展和融合是不可避免的。

在这个过程中，数据也是很重要的一个方面，我们在数据堂有幸对智能驾驶领域做了一些关于数据方面的尝试，形成了一系列的数据集，服务于刚才我提到的各种不同的智能算法。这些数据集包括用于刚才我说到的交互的数据集，比如说语音交互、文字交互、手势交互，相应的一类称之为交互的数据。另外一类就是自动驾驶类的数据集。不言而喻，刚才很多嘉宾都提到了自动驾驶，大家都在做软件硬件和算法，为了满足大家对于各种不同驾驶算法的需求，我们在自动驾驶数据集里做了不同层面的标定。

首先给大家介绍一下交互数据集——语音交互，我们有两方面的东西，一个就是基础数据。基础数据的变化在于我们有很多不同语言，包括国内的普通话和方言，比如去年大家很关注上海话，上海话是最近方言领域里比较常用的交互语言；同时有欧洲语系和亚洲语系的其他语言。年龄分为成年和青少年，涵盖是从3~70岁的年龄。作为一个基础数据集大家也知道它的口音覆盖非常重要，所以我们在数据集的生产过程中，任何一种语言都会涵盖该语言的各个不同区域。作为基础数据集，它的内容是通用的内容，包括体育、娱乐、商务的内容，当然也包括我们在语音交互过程中常用的东西。大家对比一下基础数据和车载数据。车载数据是我们专门为车载环境采集的数据，它在场景和内容上就有一些不同。从内容上可以看到，在这个数据集里，除了通用的语料之外，还会加入控制命令、一些地址和音乐方面的内容，这个是针对车内的应用场景而做的一些变化。同时，在录制场景方面，车在不同的驾驶环境下、在不同的路况下，比如车速、车窗开关状态等都有一些考虑。对于车载数据和基础数据集，我们做了一个简单的测试。做算法的研究者，研究算法的提高，通常他们做的测试是基于某个测试集，测试这个算法下面的效果的改进。对于做数据的，我们做的是在不同的数据集下面，对于同样的算法效果能够提升多少。我们的基础测试显示，在车载环境下基于同一算法，有10%~30%的提升。这是语音交互方面的。

另外，从我们分享的愿景来看，我们在车里有可能用到文字，目前有中英文场景文字输入，这是一些样例。包括不同的场景，比如火车站、公园、图书馆、马路、室内，不同场景下实拍的一些照片。另外相关这类的文字交互还有手写体，因为现在在车里，大家去打字这个事情很难实现，所以下一步会做手写体的数据。

回到我今天重点跟大家介绍的自动驾驶的数据。这个数据是我们今年刚刚生产的，目前第一期已经做完了，下半年还有计划做第2期。这套数据是相机拍摄的图片，硬件上使用了两种相机，这两种相机具体的规范我不跟大家一一念了，虽然在设备上有小小的不同，但是基本上这两个相机功能差不多。拍摄时，它安装的位置是前车窗上端的中心位置。

采集范围。采集范围是在全国范围内，就是国内不同道路的路况，下面我会跟大家介绍一下对于道路类型分类的状况。

采集时间。采集时间是从早上八点到下午六七点，有一些光线的变化。

采集地点。就采集地点的细节我们做了一些分类，对比较有特点的路段进行一些特别的关注，比如在城区，有交通标识的地区有相应数据；然后就是转弯的地方；还有十字路口、有交通等灯的地方；还有隧道里比较暗的地方。从采集地点来讲，我们对这几个地点有一些特别的标定。

物体分布。针对刚才所说的几个不同的特征地点，物体的分布是有不同的。大家可以看到，在城市、城区、行人、车辆很多，隧道里几乎没有什么行人，其他地方可以看到，有一个特点，我们选择的路段，或者说我们选择做标定的图片，车辆是比较多的，因为大家做算法时，一个很重要的目标就是要检测到前方的车，所以选择的这些做过标定的路段，车辆的数目还是不少的。

标注的类型。配合大家做算法的方式，标注的类型也有几个不同的方法。一个就是标Bounding Box，这个是原图片，这是标注过以后的图片，除了标注矩形框以外，我们对标注物的属性也做了标定。另外一个标定方法就是Fine Annotation，这是像素级的标定，我们有两种不同的对象，一个是针对道路线和道路上的指示标识做的标定，另外一个就是对全景，包括天空、周围的树木和建筑做的标定。这是我们标定的内容，加起来有76类，是目前标定数据集里比较全的数据集。行人类标定了4种，一种是普通的行人；然后是骑自行车的；然后骑电动车或摩托车；还有坐着的。车也是7种类型的车，包括方向、遮挡属性、截断属性。这里都有一些详细的定义。

我们对信号灯和指示标志类也做了标注，信号灯做了10类，指示标志类30类，包括所有常见的指示标识。后面还有标的另外一大类，就是禁行标识，包括禁止通行、禁止左转等方面的一些禁行标识类的标注，前面几个类型包括红绿灯标识和禁行标识，人和车这是用Bounding Box标定的。

下面看一下Fine Annotation。Fine Annotation增加了路面标识，就是路面所有的道路线和指示标识的Fine Annotation。对于道路上的东西，我们标注了这样几类，一个是路面的指示标识，还有道路线、路面上的限速标志和道路的边界线。这几类是我们在Fine Annotation对于道路标注的方法。全品类Fine Annotation对比如在划框类标识的人和车也都做了标注，我们还增加了这几类。全景类标注，指一张图片里，把所有的物体都做标识，所以增加了一些平地。比如，路面和人行道，不属于其他标注方法的标注对象，在全景类标注里标定出来了；还有一些物体，包括电线杆东西、路边的建筑、天空、云，等于一张图片里所有物体都进行了标注，这是全景类标注的方法。

关于这个数据集介绍就到这里，这里缺的数据大家很明显看得出来，激光雷达数据所产生的照片，后面会有这类数据的规划出来。

（本报告根据速记整理）

中国人工智能学会通讯——数据助力智能驾驶体验

你可能感兴趣的:(中国人工智能学会通讯——数据助力智能驾驶体验)