作者 | 张祥威
编辑 | 德新
「我们的感知能力可以说能做到识别万物了。」毫末智行在第九届毫末AI DAY上抛出这一豪言。
识别万物的底气,源于毫末的DriveGPT自动驾驶大模型引入了通用语义大模型,可以对交通参与者者、道路环境等做到全面感知。
今年是智驾获得公众接受度的关键节点。
而明年,随着技术门槛更高的「无图」城市NOA落地,头部智驾头部玩家大概率会迎来收获期。毫末在自动驾驶大模型上的诸多准备,正是为迎接大战。
不止有进化的大模型,毫末还带来三款高级辅助驾驶产品HP170、HP370、HP570,剑指无图城市NOH、记忆行车等大热功能。
当下,毫末智驾方案已经在山海炮HEV版、新摩卡Hi-4S等车型上搭载,明年一季度,搭载毫末城市NOH功能的魏牌蓝山将量产交付。
智驾大规模普及的时刻就要到来,毫末开始加快脚步。
与众多公司的科技日如特斯拉AI DAY、蔚来NIO DAY相比,这届毫末AI DAY的既有前沿技术进展的分享,又有极具竞争力的落地方案,有诸多看点。
AI DAY上,毫末一口气推出三款智驾方案产品,共同点是「极致性价比」。
对比同行,这几套方案有以下特点:
首先,更低的芯片算力。
毫末采用基于5TOPS的芯片算力平台实现高速NOA,而实现城市NOA的方案,最高只需要要100TOPS的算力,比主流城市NOA智驾方案所需的算力都要低。
据HiEV了解,三套方案中的芯片分别为地平线征程3、TI的TDA4,以及高通Ride的SA8650芯片,这种高中低采用不同芯片方案的策略,也为量产搭载更多款车型提供了条件。
主流的智驾方案中,实现城市NOA通常需要两颗英伟达Oin X芯片,算力为508TOPS,少数玩家如智己、腾势,可以基于单颗英伟达Orin X芯片,算力为254TOPS。当然,更低算力的要属特斯拉的FSD,仅需144TOPS。
更低算力,意味着需要对算力有更极致地有效利用,同时要强化算法的能力。用更低的算力实现城市NOA,毫末的智驾技术水准和市场野心可见一斑。
其次,在传感器规模上也相对克制。
相较行业主流方案,毫末的智驾方案数量会更少一些。以搭载高阶智驾全享包的腾势N7作对比,这款车搭载33个传感器:
2个激光雷达、5个毫米波雷达、2个前视摄像头、4个环视摄像头、12个超声波雷达、4个侧视摄像头、1个后视摄像头、1个OMS摄像头、1个DMS摄像头、1个DVR摄像头。
毫末可以实现高阶智驾同等功能的HP570,传感器数量为24个,其缩减的部分是,方案中减少了毫米波雷达,而且激光雷达也并非标配。
最后,由于更低的算力的芯片,以及克制的传感器规模,还带来第三个特点,更低的BOM成本。
毫末智行董事长张凯认为,「让中阶智驾便宜好用,让高阶智驾好用更便宜,是毫末未来一年提交给中国智驾市场的答卷。」
毫末的三款智驾产品,最低为3000元级别,最高的高阶自动驾驶方案大概8000元级别,这与现在动辄上万的智驾选装包相比,无疑颇具杀伤力。
HiEV了解到,毫末的最新方案中,HP170已经定点,配合整车开发和上市的节奏,预计会在明年初上市;HP550预计在明年上半年蓝山的下一代车型搭载上市,支持记忆行车和记忆泊车;HP370 预计明年量产,而更新一代的HP570则会稍晚一些。
长线看,毫末的产品会全面平台化,提供高中低全系的智驾方案。
祭出成本更低的杀招,那么毫末的产品技术实力究竟如何呢?
一家公司的智驾能力,既体现在产品的上车规模和行驶里程,也体现在技术能够达到的广度和上限。
毫末的智驾方案HPilot产品已经搭载超过20款车型,用户辅助驾驶行驶里程突破8700万公里。由于起步不如蔚小理早,用户辅助驾驶行驶里程规模还不像对方那么庞大,但从搭载车型上,搭载车型规模是远超蔚小理的。
毫末的技术能力能力广度和上限,体现在可实现的功能上。
顾维灏说,毫末可以做到在城市道路中时速最高70公里在50米的距离下,就能检测到大概35cm高的小目标障碍物,可以做到100%的成功绕障或刹停。
下面一段视频,可见毫末智驾方案的技术能力。
面向L4的小魔驼,在城市开放道路进行无人驾驶时,也已经快于普通人骑自行车的速度。在行驶安全和通行效率上,均已达到商用状态。
与那些从基于高精地图转为去高精地图方案的玩家相比,毫末一早确立了重感知轻地图的技术路线。
基于高精地图的技术路线,开头容易,之后要在不同城市落地时,会面临泛化挑战。而重感知轻地图的好处是,开始难,但越走越快,能完成更快的城市落地。
毫末的高速无图NOH功能,可以实现高速、城市快速路上的无图NOH,短距离记忆泊车等功能,并获E-NCAP 5星AEB的高安全标准认证。
此外,毫末还可实现高速、城快,以及城市内的记忆行车,免教学记忆泊车、智能绕障等功能。高阶方案还支持无图记忆行车和泊车。
城市全场景无图NOH,则可实现全场景城市无图NOH、全场景辅助泊车、全场景智能绕障、跨层免教学记忆泊车等功能。
早期行业主打的智驾功能是高速NOA,之后是城市NOA,并在研发城市NOA时同步去掉高精地图,逐渐迈向今天的 去高精地图的“无图“阶段。
眼下能做到无图的,仅有小鹏、华为、蔚来等少数几家。谁具备无图能力,基本上便是智驾第一梯队成员。
毫末三款智驾产品的推出,意味着其智驾方案出手即高点,广度覆盖了当下热门功能,上限与头部玩持平,让自身站位来到第一梯队。按照计划,毫末的城市NOH落地目标是100城。
以上这些是毫末在乘用车NOH上的布局,会为明年智驾的普及大年做好准备。而之所以能在成立后短短几年做到无图等水平,离不开其核心,也是近几届AI DAY上常提到的自动驾驶大模型。
自动驾驶其实是让汽车学习人类驾驶,这需要感知道路上的各类交通参与者,处理真实世界中无穷无尽的突发状况,最终顺利抵达目的地。
行业惯常做法,是在云端建立一个自动驾驶生成式大模型,然后通过剪枝、蒸馏的方式,把云端大模型的能力下放到车端,从而让汽车像人类司机一样开车。
与人类大脑一样,自动驾驶生成式大模型也要不断进化。
今年的CVPR 2023,特斯拉和英国自动驾驶公司Wayve等均展示了自动驾驶大模型的新进展。
目前,特斯拉可以利用大模型生成连续视频,打造World Model即世界模型。
Wayve也在朝类似方向努力,其自动驾驶大模型GAIA-1,在通过持续扩展后已经拥有90亿个参数,可以生成驾驶场景视频,描述场景以及做出预测。
上月,Wayve还推出了视觉语言动作模型LINGO-1,可用于描述自动驾驶的行为和推理。
这些做法,直白地讲就是从原来仅学习文本,开始向看图、视频学习,从而与自动驾驶不断地更好融合。
根据毫末官方数据,目前团队已筛选出超过100亿帧互联网图片数据集,480万包含人驾行为的自动驾驶4D Clips。
毫末将自动驾驶分为三个时代,其中,自动驾驶3.0时代需要1亿公里。目前,用户辅助驾驶行驶里程已经达到8700多万公里,预计到年底可达到这一目标。
随着数据规模的增加,也为了更好地进入3.0时代,自动驾驶大模型需要不断进化。
感知模型中引入图文多模态大模型,以完成4D向量空间到语义空间的对齐,做到可以具备「万物识别」的能力,毫末将其称之为自动驾驶语义感知大模型。
基于自动驾驶语义感知大模型,毫末还会通过构建驾驶语言来描述驾驶环境和驾驶意图,再结合导航引导信息和自车历史动作,借助LLM大语言模型做出驾驶决策。
方向上,毫末正在沿着与特斯拉、Wayve同样的方向,让自动驾驶大模型拥有更多的学习进化途径,这相当于在建立自己的世界模型。
这一过程中,大模型的进化发生在多个方面:
早期,Transformer是用于自然语言处理(NLP)的大模型,主要应用于文本。之后Vision Transformer 又称ViT出现,主要用于图像。
直到后来,又出现Swin transformer,一种由微软提出的视觉领域的Transformer大模型。
在ViT图像大模型的基础上,Swin transformer进一步对图片进行图像分割,可以用于处理多视觉任务,更好地完成CV领域的目标检测和语义分割任务。
过去两年,毫末的视觉大模型的进化,与行业趋势一致,其CV Backbone先是从CNN模型全面切换到ViT,并又在今年全面升级到Swin transformer。
训练大模型方面,行业早期主要基于人工标注的单帧图片有监督,后来结合4D自动标注,再进一步升级到基于自动标注的4D Clip的有监督训练,到今天基于大规模数据的自监督学习训练,从而可以轻松吃下上百亿帧图片。
在毫末最新的模型中,已经可以采用视频生成的方式,通过预测生成视频下一帧的方式来构建4D表征空间,使CV Backbone学到三维的几何结构、图片纹理、时序信息等全面的物理世界信息。
以上这些动作,主要解决了大模型领域的数据采集和标注效率低、泛化能力差等问题,解决的其他问题还包括:
毫末将自动驾驶分为三个时代,其中,自动驾驶3.0时代需要1亿公里。目前,用户辅助驾驶行驶里程已经达到8700多万公里,预计到年底可达到这一目标。
总体上,这届AI DAY为毫末迈过自动驾驶3.0时代提供了更多弹药支持,从云端到车端做了充分准备。上有愈发聪明的自动驾驶大模型,下有性价比十足的智驾方案,毫末已经做好了明年智驾的卡位。