九章智驾

自动驾驶合成数据科普一：不做真实数据的“颠覆者”，做“杠杆”

前言：

在7月底的一篇文章中，九章智驾提到，数据闭环能力是自动驾驶下半场的“入场券”，这一观点在行业内引起了广泛共鸣。

在数据闭环体系中，仿真技术无疑是非常关键的一环。仿真的起点是数据，而数据又分为真实数据跟合成数据。随着真实数据“规模小、质量低、使用难度大”等问题日渐暴露，合成数据越来越受重视。

顾名思义，合成数据（synthetic data）就是通过计算机技术生成的数据，而不是由真实事件产生的数据。但合成数据又具备“可用性”，能够在数学上或统计学上反映原始数据的属性，因此也可以用来训练、测试并验证模型——OpenAI 的 GPT-4，就采用了大量前一代模型 GPT-3.5 生产的数据来进行训练。

在2022年底，笔者曾写过5篇关于自动驾驶仿真的科普文，但这几篇文章对合成数据的着墨不多。过去的两个月里，笔者在学习合成数据的过程中，又遇到了不少疑问，带着这些疑问，笔者请教了十多位业内专家，然后形成“合成数据科普文”系列。

在本系列文章的撰写过程中，笔者得到了光轮智能CEO谢晨、图森首席科学家王乃岩、辰韬资本赵磊、复睿微电子张俊川、百度仿真专家徐志健、昆易电子方志刚、“车路慢慢”运营者李漫漫、PanoSim王文威等朋友的支持，在此表示感谢。

自动驾驶合成数据科普一：

不做真实数据的“颠覆者”，做“杠杆”

自动驾驶的仿真，最早就是以合成数据为主。这里讲的合成数据，主要是指由人工基于规则搭建的场景，这背后的技术，就是业内常说的WorldSim。通常，基于WorldSim搭建的场景，还需要用Unreal等游戏引擎来做图像渲染。直到今天，WorldSim+游戏引擎仍然是自动驾驶行业用得最多的合成技术之一。

看起来，基于WorldSim+游戏引擎的合成数据能在一定程度上弥补真实数据不足的问题，然而，在实际使用中，这种合成数据存在一个很难克服的短板：真实度还不够高。用更专业的术语来说是“保真度”不够高。

这一痛点，决定了基于WorldSim+游戏引擎的合成数据基本上只能用来做测试，很难用于做算法训练。

为了避开WorldSim+游戏引擎技术的这一短板，有一些公司试图将真实道路数据“转换成数学模型”。然而，这一设想实施起来困难重重。

但合成数据“可用性”的提升，并未因此而停止。

真正能帮合成数据提升可用性的，是更高的保真度和更强的泛化能力。GAN、VAE和Diffusion Model等模型在自动驾驶仿真中的应用，已经证明了这一点；而当下广受追捧的NeRF技术，也需要保证泛化能力才有可能被广泛应用。

当下大热的AI大模型能，也将在自动驾驶仿真中占有一席之地。事实上，AI大模型+NeRF的组合，被一些从业者视为帮合成数据攻克保真度和泛化能力这两大难题的关键武器。

随着合成数据面临的主要难题被一一攻克，真实数据“规模小、质量低、使用难度大”的问题也不再那么令人担忧。

通常，在谈起合成数据时，人们本能地以为它的主要价值是弥补真实数据“数量不足”的问题。但这可能是一个严重的误解。

在笔者看来，真实数据的最主要问题并不是“太少”，而是“质量低，使用难度大”。所以，哪怕真实数据的规模很大，合成数据仍然是必不可少的。不信的话，看看“最不缺”真实数据的特斯拉是怎么做的吧——特斯拉也在使用合成数据！

在国内，各家已有自动驾驶量产车型上路的主机厂也不缺真实数据，但这些数据的利用率究竟“高达”20%、10%还是1%，其实是存在很大的疑问的。

不过，真实数据质量低、使用难度大给主机厂带来的困扰，恰合也就是合成数据的用武之地。

有意思的是，不同于L4公司普遍用合成数据来“弥补”真实数据的不足，一些以提供合成数据服务为主业的公司更倾向于将合成数据定位为真实数据的“杠杆”。在后者看来，合成数据的使命和愿景并不是要去顶替真实数据，而是要做真实数据的“放大器”，帮助主机厂或自动驾驶公司提高真实数据的使用效率。

下面，我们将以1.1万字的篇幅来盘点一下“合成数据究竟能解决真实数据的哪些痛点”。

一、兼顾隐私保护与数据的可用性

在真实场景中，自动驾驶车辆的传感器采集到的信息经常包括车牌、人脸，但出于隐私保护的需求，这些数据通常大都无法直接使用，而是得先做脱敏或加密才行。但脱敏不仅意味着一笔额外的成本，而且，如果脱敏处理不好，数据的价值也会大打折扣，甚至根本无法使用。

但如果是根据实际需求搭建一些不包含隐私信息的数据，就可在兼顾隐私保护的前提下确保数据的可用性。

在美国和欧洲，合成数据已经是一个很大的产业了，但在中国，合成数据还处于萌芽阶段，其中有一个重要的原因是：

美欧国家在文化和法律层面都会对隐私保护比较讲究，因此，企业不得不通过采用合成数据来避免高度依赖真实数据所带来的风险；而在中国，长期以来，无论在文化层面还是法律层面，隐私都没有受到足够的重视，所以，企业可以“肆无忌惮”地使用真实数据，这也导致了中国缺乏合成数据发展的土壤。

但情况正在发生变化。一方面，在中国，普通个体关于隐私保护的权利意识在觉醒；另一方面，法律层面也不允许企业肆意滥用各种隐私数据了。

单从隐私保护的角度考虑，国内公司也将越来越多地降低对真实数据的依赖程度。

二、避开高精地图的资质障碍

除了图商等极少数有资质的公司，大多数公司都无法通过路采获取真实数据的方式来绘制高精地图，为了避开这一问题，很多公司推出了“去高精地图”方案，但这一方案对公司的前融合算法能力、规控算法能力都提出了新的挑战，实际上，真正能落地的公司并不多。

但如果能用合成数据来制作高精地图，那问题就简单得多了。

在中国，我们尚未看到有公司采用合成数据来制作高精地图，但在美国，已经有了类似的先例了。

2021年11月，在一场题为 Under the Hood的活动上，Cruise仿真技术战略主管 Sid Gandhi 披露，在向新的城市拓展时，他们不必重新绘制城市地图来跟踪车道变更或街道封闭等“不可避免发生的环境变化”，而是利用一项名为 WorldGen 的技术，准确、大规模地生成整个城市，“从奇特的布局到最小的细节”。

为了确保最佳的世界创建，Cruise 考虑了一天 24 小时不同时间段的照明和天气条件等因素，甚至系统地测量了旧金山一系列路灯的光线。

对于无法在现实路况下收集的特定场景，Cruise则使用 Morpheus。Morpheus 是一个可以根据地图上的特定位置生成合成数据的系统。

据曾担任过Cruise仿真负责人的光轮智能CEO谢晨说：

Crusie的 WorldGen和Morpheus并不是用合成数据来做高精地图，而是对真实世界做3D重建。但无论如何，将车道变更或街道封闭及“从奇特的布局到最小的细节”都纳入3D重建中，重建后的信息元素已经很接近高精地图了。

在美国，自动驾驶公司采集真实道路数据并不会受到如在中国这般严格的限制，但Crusie仍然采用了合成数据，这给那些被高精地图政策束缚了手脚的中国公司提供了一种新思路。

此外，今后受数据合规相关法规政策影响的，就不限于高精地图数据了，还有用于感知算法训练的数据回传。

（这一点，九章在6月30日发的《“去高精地图”跟“轻高精地图”有啥区别？落地的挑战又是啥？》一文的第七章“感知算法训练或将受到数据合格政策的影响”部分已做过详细的分析，并在此后也从其他平台发布的类似内容中得到进一步印证，在此不再赘述。）

可以想见，接下来，用真实道路数据做算法训练的难度是越来越大了——不是没法做，关键是对车端脱敏的要求太高了，甚至可能还需要跟有测绘资质的图商合作。

受这一政策冲击较少的公司，应该就是那些率先开始拥抱合成数据的公司。

三、高效生成在真实场景中很难获取的Corner Case

大家都清楚，自动驾驶系统很难彻底取代人，最关键的原因是对各种corner case的应对能力不足，而应对能力的不足又源于数据量不够。这正是合成数据大有可为的地方。

大量的corner case，在真正发生前，没有人能想得到——预期功能安全第三象限里面的“unknown,unsafe”一类，所以无法在真实道路上做模拟。这类corner case，没法通过基于人工规则的合成数据（WorldSim）来生成，也没法通过对真实世界做3D重建的技术（NeRF）来生成，但有望通过基于AIGC的合成数据来获取。

有的corner case，尽管人能想象得到“大概会怎样”，但毕竟太危险（known,unsafe），所以，也不适合在真实道路上做模拟。这种corner case，没法通过NeRF技术来生成，但可以通过WorldSim来生成。当然，也有望通过AIGC来生成。

有的corner case，算不上有多么unsafe，但在真实世界中确实很罕见。如雨、雾、雪和极端光线等极端天气跟某种极端交通流的组合。这些，也需要通过合成数据技术（同上，不包括NeRF）来生成。

（为何这一章会在多处提到了有许多corner case无法通过当下大热的NeRF技术来生成？这个问题的答案，我们将在本系列的第二篇文章中做详细的阐释。）

有许多corner case，真实数据中其实有的，但无奈真数据中corner case的密度太低，挖掘成本太高，这个时候，工程师们如果没有足够的耐心或“实在等不及”，则直接选择合成数据便是最佳策略。

有了合成数据，主机厂或自动驾驶公司便可在几小时内模拟数百万个行人（现实中，这通常需要几个月才能完成）。这些模拟可能涵盖不同照明条件、目标位置和恶劣环境下（暴雨、极寒、浓雾等）的示例。或者，可以插入随机噪声来模拟脏污的摄像头、雾水和其他视觉障碍物。

此外，真实数据由于高度受制于采集场景的限制，所以，corner case在样本的分布上也很难有效满足算法的需求。而合成数据，可以有针对性地生成分布状况更满足训练需求的corner case，这更有助于提升算法的性能。

四、“非必要，不采集”，降低数据采集、回传及存储环节的成本

许多主机厂都声称已经量产上路的自动驾驶车型每天都在回传数据，但这个所谓的“数据回传”究竟实现到什么程度、所谓的“影子模式”是否真的落地了，一直是个玄学。

之前只有为数不多的测试车的时候，数据的问题相对好办，毕竟，“回传”可以通过硬盘来解决，筛选可以在云端做，然而，在量产车上，通过硬盘来解决数据“回传”的道路走不通了，筛选出有效数据这个工作就要在车端完成。

在3月份的《自动驾驶数据闭环系列之一：理想丰满，现实骨感》一文中，我们提到，在量产车上采集数据会占用一些系统资源，比如计算、存储等。

理论上，可以假设计算资源、网络带宽等都不受限制，但在实际落地过程中，如何保证采集数据不影响量产车上自动驾驶系统的正常运行，例如，如何不影响自动驾驶系统的延迟等，这是一个需要解决的问题。

因此，在设计的时候，就需要考虑到采集数据等对自动驾驶系统运行的影响。

此外，在数据量特别大的时候，数据回传的成本也会非常高。

单车每日回传的数据量大概为百兆级。在研发阶段，车辆总数可能只有几十辆或者几百辆，但是到了量产阶段，车辆数目的量级可以达到上万、几十万甚至更多。那么，量产阶段，整个车队日产生的数据量就是很大的数字。据某数据管理供应商提供的信息，某造车新势力每个月仅用来做数据回传的流量费就高达“大几千万”。

另一方面，急剧增加的数据量还给存储空间以及数据处理的速度都带来了挑战。

量产之后，数据处理的延迟需要和研发阶段保持在同一个量级。但如果底层的基础设施跟不上，数据处理的延迟就会随着数据量的增长而相应地增加，这样会极大地拖慢研发流程的进度。对于系统迭代来讲，这种效率的降低是不可接受的。

一位业界专家告诉九章智驾：

目前，我们还没有看到哪家公司具备处理量产车上回传的大规模数据的能力。即使是某家在数据闭环层面做得比较前沿的造车新势力，即便是每辆量产车每天只回传5分钟的数据，他们也难以应对这样的数据量，因为当前的存储设备、文件读取系统、计算工具等都还无法应对极大的数据量。

要应对越来越大的数据量，底层的基础设施以及平台的设计都需要相应升级。

工程团队需要开发完善的数据访存SDK。由于视觉数据、雷达数据的文件尺寸都非常大，数据的访问、查询、跳转、解码过程都需要效率足够高，否则会大大拖慢研发进度。

如果能做到尽可能多地使用合成数据来模拟一些场景，只有在合成数据无法满足要求的时候再回传真实数据，即“非必要，不采集、不回传”，那跟数据采集、回传和存储相关的成本就会大幅度下降。

五、自带完美标签，不用再做标注

车端数据在回传到云端后，需要先做好标注后才能使用。据称，在大模型用于数据标注后，已经有高达80%的数据标注可以通过自动化的方式来完成，但还有至少20%涉及复杂场景、多目标、语义复杂的数据需要由人工来完成“精标”。

当下大热的BEV+Transformenr技术，对数据标注的需求进一步上升。

以往，需要标注的主要是前视摄像头的数据，2D 标注框+ 3D 位置就已经是标注的全部内容了；而今，在BEV+Transformer方案下，所有相关的摄像头（可能超过7个）能看到的所有障碍物、车道线、车辆的运动状态都需要对应的标注，并且还要统一在同一坐标系下，还有大量的语义信息也需要标注，而标注成本，也从之前的每帧10元左右上涨到每帧30-40元，甚至更高。

人工标注的工作量远超外人想象。据毫末智行数据智能科学家贺翔在6月底的一场自动驾驶公开课上的说法，一张关于十字路口的照片，要把位置、天气、拥挤状况、其道路使用者、广告牌等各种元素都标注出来，并能在此基础上做场景筛选，可能100个标签也不够用。

假如车上有8-12个摄像头、1-2个激光雷达，10秒钟的视频里面可能有上千张图片，标注成本得几千元。

一般的检测框，一分钟的内容，标注需要一小时左右；点云分割，一分钟的内容，标注需要几个小时；但对更复杂的任务做4D标注，可能一分钟的任务需要花超过一天时间才能完成。

后面要做端到端的算法训练，在给这一帧的内容打标签时，还得考虑该标签如何跟其他帧的内容做关联。

总的趋势是，自动驾驶行业对标注的要求越来越高了，这意味着，投入到一分钟视频上的标注成本越来越高了。

在7月底的一场沙龙上，某自动驾驶公司COO称，在数据处理的高峰期，他们曾同时跟超过100家标注公司合作，不仅直接成本很高，而且，供应商管理的复杂度也极高。

做人工标注，如何在数据量极大的情况下，保证标注结果的准确率、一致性也是一大挑战。想象一下，标注工人连续几天坐在办公桌前做同样的工作时间，几乎就像在工厂的传送带上工作一样，在这种情形下，ta一定会时不时地犯一些奇怪的错误。

如果标注的结果不准确、不完整，那基于这些数据训练出来的模型的性能就会受到影响。

但合成数据自带图像和激光雷达的“真值”标签，包括 2D 和 3D 边界框、语义和实例分割、深度、光流、运动矢量、关键点等。并且，对被遮挡行人/物体这种很难做人工标注的场景，合成数据也可以自带完美标签。

在成本方面，与需要标注的真实数据相比，自带标签的合成数据也具有明显优势。

合成数据服务商AI.Reverie 认为，人工标注一张图片可能需要6美元（这还不算数据回传、筛选及存储的成本），但通过合成数据技术生成同样一张自带标签的图片只需要6美分。

诚然，合成数据无法完全取代真实数据，但合成数据使用率的上升，对真实数据的依赖度下降，就可以减少因为真实数据“不好用”而产生的不必要的成本。

全球数据标注龙头公司Scale AI已敏锐地意识到了这一趋势。

过去几年，算法训练对数据标注的饥渴需求，造成了一个很有意思的现象是：自动驾驶公司和主机厂的自动驾驶业务都没挣到钱，但做数据标注的公司却挣到钱了。全球数据标注龙头Scale AI甚至因此而估值超过73亿美元。

不过，Scale AI也已经意识到，随着合成数据的应用逐渐深入，数据标注业务的营收会受到不小的冲击。因此，在2022上半年，该公司推出了一个名为Scale Synthetic的合成数据平台，宣布进入合成数据产业。他们甚至称，合成数据是自己在2022年的“首要任务”。

数据标注龙头进军合成数据，逻辑是“在别人能干掉我之前，我先掌握他们的技能，大不了自己干掉自己”，这算是一场自我革命了。

作为被合成数据“革命”的对象，数据标注公司积极拥抱合成数据，这又从反面进一步印证了自带标签的合成数据相比于真实数据的优势。

六、可编程，可交互

看起来，各家公司手上都积累了不少真实数据，但真实数据用来做仿真，有个很严重的痛点是：复用性差。

比如，在做路采的时候，车辆的芯片平台、传感器架构及制动系统是怎样的，那我在仿真系统里做测试时，车辆的这些硬件配置也必须跟路采时所用的车辆配置一致。

某工具链公司的仿真负责人说:

在用真实道路数据做仿真的情况下，一旦传感器的位置或者型号有变更，这一组数据的价值就降低，甚至会‘作废’。

究其原因，真实数据在使用时无法调整任何参数，而只能做简单的“回放”——也被称为“回灌”（LogSim）。

复睿微电子仿真负责人张峻川在一次公开分享中提到，WorldSim（用合成数据做仿真）像在玩游戏，而LogSim（用真实道路数据做仿真）则更像是电影，你只能看，没法参与，没法生成与原始记录不同的传感器数据，因此，LogSim天然没法解决交互性的问题。

可以想见，没法解决交互问题的LogSim，只能用于测试验证一个现成的算法“是不是OK”，却不能用于从头来训练一个算法。

确有一些公司曾尝试把采集到的场景里面的元素都完成参数化，但目前还没有成熟的案例落地。

但合成数据天然具有可编程性，很多参数都是可以调整的，因此，数据复用的难度将大幅度降低。

（合成数据的可编程性或泛化能力、可复用性，因AI的参与度而有所不同，总的来说，AI的参与度越高，合成数据的泛化能力越强，这一点，我们将在本系列的第二篇文章中做更详细的分析，在此暂不赘述。）

丰田及其投资的合成数据公司Parallel Domain都将合成数据称为 Programmable Data即“可编程数据”。Parallel Domain在其官网上称：“我们可以对我们希望在训练数据中获得的任何输出进行编程......通过组合参数扫描，为每辆车生成数据，乘以每种照明条件、每种天气条件，每种油漆颜色。”

英伟达在对外介绍合成数据时经常提到一个词“域随机化”（Domain Randomization），即通过在合成数据的生成过程中引入各种随机性和变化，使得生成的数据能够覆盖更广泛的场景。

英伟达说的“域随机化”，包括改变某个特定对象的颜色、光照、纹理、材质、变换等多种属性，也包括添加和修改传感器的位置和参数，以及定义其他道路使用者的运动状态。此外，改变一天的时间、太远的位置、温度、道路的湿度，也是“域随机化”的一部分。

在理想的情况下，用轿车去采集的数据，如果把视角调整成卡车视角，那这一组数据就可以用于训练卡车的感知算法。

专注于人类数据的Synthesis AI甚至能够以编程方式自定义人的面部数据集。为满足DMS方向客户的需求，Synthesis 生成了大约 100,000 个涵盖不同性别、年龄、体重指数、肤色和种族的“合成人”。

通过该平台，数据科学家可以定制化身的姿势以及头发、面部表情、注释方向、发型、服装（例如面具和眼镜）以及环境方面（例如照明，甚至虚拟相机的“镜头类型”）。

对合成数据做编程的最大意义是，可以让corner cace都可以泛化出数千个“变体”，由此，训练出来的模型会具有很强的鲁棒性和泛化能力，从而更容易适应真实世界中的各种变化和不确定性。

此外，合成数据生成过程的参数化，使机器学习工程师能够更好地控制每次迭代，并让数据集中已存在内容的更有可追溯性。

七、通过随机化及调整场景分布来解决“过拟合”的问题

在学习合成数据的过程中，笔者注意到，不少开发者都反映，基于真实数据训练出的模型，很容易出现“过拟合”（Overfitting）的问题。

所谓过拟合，指模型在训练数据上表现良好，但在新的、未见过的数据上表现较差的情况。当模型过度拟合时，它学习到了训练数据中的细节和噪声，而无法泛化到新的数据上。

那么，真实数据是不是要比合成数据更有可能引发模型的“过拟合”问题？

光轮智能CEO谢晨认为：

严格地说，“过拟合”跟训练数据是真实数据还是合成数据并没有必然关系，真正导致“过拟合”的，是训练数据集中的场景分布跟真实世界不一致，导致数据集可能无法捕捉到真实世界的复杂性和多样性——而不管这个“数据集”究竟是真实数据集还是合成数据集。

谢晨举例说：

比如，很多自动驾驶系统在晚上或者雨天表现不太好，这是因为他们当初做训练数据采集的时候，采的大部分都是白天和晴天的数据。

英伟达仿真产品经理Matt Cragun也做过类似的解释：

如果大部分真实数据都是在白天条件下收集的，那么在该数据集上训练的算法在夜间或弱光条件下可能表现不佳。

再比如，仿真公司Applied Intuition发现，某个感知模型很难准确地检测到骑自行车的人和起摩托车的人，原因在于，在用于训练这个模型的真实数据集中，骑行者出现的频率远低于车辆和步行者——前者出现的频率不到后者的1/170。

那么，该如何避免“过拟合”的问题呢？笔者从ChatGPT 3.5上得到的对策有8条，如下图所示：

其中，跟训练数据相关的对策是如下两条：

1. 通过对训练数据进行扩充，如随机旋转、平移、缩放、翻转、添加噪声等操作，增加训练样本的多样性；

2.对输入数据进行规范化或标准化，使其具有相似的尺度和分布，可以帮助模型更好地学习和泛化。

鉴于真实数据是“死的”，无法编程，因此，要对真实数据做如上操作，基本上是不太可能的。所以，更容易用来解决“过拟合”问题的训练数据，基本只能是合成数据了。

英伟达主要通过合成数据的域随机化来克服“过拟合”问题。所谓域随机化，即在合成数据的生成过程中引入各种随机性和变化（这也是对合成数据做泛化的一种特殊形式），使得生成的数据能够覆盖更广泛的场景。

比如，英伟达曾在测试中发现，某个基于合成数据训练出来的模型未能在大多数真实图像上充分检测到门，因为它在模拟中过度拟合了门的纹理。为了防止门的纹理过度拟合，英伟达仿真团队在 30 种不同的类木纹理中对门的纹理应用了随机化。

与此类似的是，为了使模型对墙壁上的 QR 码等噪声具有鲁棒性，英伟达仿真团队还应用了 DR overtexture，将墙壁的纹理随机化为不同的纹理，包括 QR 码和其他合成纹理。

再比如，英伟达还发现，某个基于合成数据训练的模型在低温照明条件下有很多误报，其原因在于，仿真环境中的照明保持稳定和恒定，而在现实中，照明条件多种多样。为避免同类问题再次发生，英伟达仿真团队在合成数据中的天花板灯上添加了光温域随机化，以随机化灯光的移动、强度和颜色。

曾担任过英伟达自动驾驶仿真主管的谢晨也认同英伟达在解决“过拟合”问题上采取的思路。

谢晨补充说：

光轮智能在生产合成数据的过程中，坚持的一个原则是“守正出奇”，即在客户特别需要的增量数据方面，他们按照客户的要求做定制；在客户不特别提要求的地方，他们尽量让各种场景的分布贴近真实世界。

比如，将高速路和城市道路的分布比例、白天和晚上的分布比例、雨雪天气和晴天的分布比例设置得尽量跟真实世界一致。

基于这种数据训练出的模型，就不太容易出现“过拟合”的问题。

我们在上文中提到，针对基于真实数据训练出的感知模型很难检测到骑行者的问题，Applied Intution公司将其原因归结为“骑自行车和骑摩托车手的人在数据集中出现的频率远低于行人和汽车”，然后，他们采取的对策是，往训练数据集中添加一些骑行者出现频率比较高的合成数据。

Applied Intution将原本基于100%的真实数据集训练出来的模型设定为“基线模型”，然后在实验中发现，与基线模型相比，将合成数据跟真实数据混合在一起做训练，感知模型对骑行者的识别结果得到了显著改善。

Applied Intuion进一步发现，先在合成数据上对模型做预训练，然后再在 100% 的真实数据上对其进行微调，则模型对骑行者的识别能力可显示出特别明显的提升——无论合成数据在训练数据集中的占比是多少，基于该数据集训练出的模型在性能上始终优于基线模型。

（按类别的 mAP 分数。与 100% 真实世界数据的基线相比，混合训练和微调实验提高了骑行者的 mAP 分数。图片摘自Applied Intution官网。）

在下方的两组图片中，左侧的图片显示，仅根据真实世界数据训练的基线模型无法检测到距自车较近的骑行者，而右侧图片则显示，根据合成数据进行预训练的可以模型成功检测到该骑行者。

可以看到，尽管“过拟合”跟训练数据是真实数据还是合成数据并没有必然关系，但由于合成数据更容易解决“分布比例”的问题，因此，总体上来说，合成数据确实更有可能解决“过拟合”的问题。

在谈到“过拟合”的话题时，谢晨进一步解释说：

“过拟合”是用一个低维的东西去打高维时比较常见的问题，在本质上，这其实是一个小模型的问题，往后看，随着参数量越来越多、模型越来越大，“过拟合”的问题会越来越轻。

谢晨提到，Waymo之前仅感知就有200多个模型，但接下来可能会用1个大模型统领所有这些模型，等大模型出来了，“过拟合”的问题就会大幅度减少。

鉴于真实数据不仅量不够，且使用难度大，对Waymo来说，要训练大模型，就必须依赖合成数据。据悉，Waymo最近计划将合成数据的使用率提升1000倍。

八、给真实数据“加杠杆”

前段时间，在学习合成数据的过程中，笔者突然想到一个问题：莫非，Waymo和Cruise这些美国的无人驾驶公司，坚持“一条道走到黑”、死磕L4的最大底气是，他们在赌合成数据？一旦合成数据对提升算法效果的价值能跟真实数据相媲美，他们就不用再担心“数据不够用”了？

起初，这只是笔者单方面的猜测，但随后，笔者也带着这一猜测跟曾担任过Cruise仿真主管的谢晨做过一些交流，谢晨是认可笔者这一猜测的。

当然了，对真实道路数据不足的L4公司来说，用合成数据去补充、代替或“颠覆”真实数据，或多或少总会有一些无奈的成分在里面。那么，像光轮智能这样的第三方合成数据服务商，是如何给合成数据定位的呢？

谢晨称：

他们并不打算用合成数据取代真实数据（承认合成数据也无法代表现实世界的多样性），而是用合成数据及相关技术来提升真实数据的使用效率。

在主机厂或自动驾驶公司把真实数据提供给他们后，他们可以拿这些数据去基于NeRF技术做3D重建或泛化，并且加上Sim2Real（用Diffusion Model来提升数据保真度），这就把真实数据转换成了合成数据；然后，再在仿真系统里将这些合成数据跟真实数据“混搭”，通过这种“混搭”，以真实数据为主的数据集也间接地具备了“泛化能力”。

事实上，重建后产生新的数据，并且真实数据“混搭”，也是真实数据实现“泛化”的最有效方式。

通过这种“混搭”或泛化，真实数据的使用效率将大幅度上升。

真实数据跟合成数据“混搭”的比例，英伟达等多家公司实践的结果是，7：3（即合成数据占30%）的效果比较理想。

7：3这个比例，相当于在真实数据的基础上再增加了超过40%的数据量，但由于新增的那40%都是合成数据，有很强的泛化能力、可以做N多次排列组合，那么，最终用于算法训练的corner case的数量就不是增加了40%，而是增加了几十倍、甚至是几百倍！

由此可见，合成数据非但不是真实数据的“竞争对手”“颠覆者”，反而还可以给真实数据“加杠杆”“赋能”。

如果能利用好合成数据这个“杠杆”，其他主机厂或自动驾驶公司也有条件拥有“特斯拉量级”的corner case数据。

在聊到这里时，笔者又临时想到了一个问题：这样看来，合成数据公司跟传统做LogSim和WorldSim的仿真公司并不是竞争对手，而可能是合作伙伴？

谢晨说：

没错。我们其实已经跟一些做工具链的公司谈合作了，他们手上有一些真实数据，但这些数据的3D重建、泛化等工作，会交给光轮智能来做。

九、有望“搞定”感知的仿真

当前，自动驾驶行业做的仿真，基本上仅限于规控的仿真，因为，感知的仿真实在太难做了。但过去的两个多月里，笔者在学习合成数据时发现，几乎所有做自动驾驶合成数据的公司，都会拿仿真感知的仿真来举例。

看起来，随着合成数据的日渐成熟，困扰自动驾驶行业很久的感知难题终于有望取得突破了。由于规控的仿真已相对成熟，那一旦感知仿真突破，端到端的仿真就没多大障碍了。

这个主题比较复杂，一两段话也说不清楚，我们将在本系列的第四篇文章中做更详细的分析。敬请期待。

十、使仿真可以真正服务于研发

在过去的一两年里，特斯拉、Waymo、Cruise与英伟达这些公司的仿真部门，服务的对象首先是公司的研发部门，然后才是测试部门；而国内大部分公司的仿真，服务的对象仅限于自己或客户公司的测试部门。

这种区别背后的原因在于，在特斯拉、Waymo、Cruise、英伟达这些公司的仿真，既可以用来做算法的测试验证，也可以用来做算法训练；而国内大部分公司的仿真，只能用来做测试验证。

又是什么导致了这种不同呢？对合成数据的拥抱程度、所使用的合成数据的可用性。

我们在上文已经提到过，真实数据无法泛化、缺乏交互能力，所以，基于真实数据的仿真，只能用于对算法的逻辑做测试验证，而不能用于算法训练。

那么，基于合成数据的仿真，能用来做算法训练吗？这个也得看合成数据的质量了——只有同时满足“泛化能力足够强”和“保真度足够高”这两个标准的才可以。

基于WorldSim的合成数据，保真度无法保证，泛化能力也一般；基于当下大热的NeRF技术生成的合成数据，保真度是没什么问题了，但泛化能力也仅局限于“调整视角/传感器的安装位置”......因此，这些尽管也会被用于算法训练，但效果并不是很理想。

不过，随着AI大模型日渐成熟，并且，大模型在合成数据生成过程中的参与度越来越高，合成数据逐渐具备了同时兼顾保真度和泛化能力的可能性。比如，由Diffusion Model和World Model生成的合成数据。这样的合成数据，就可以用来做算法训练了。

如果能进一步将AI大模型跟NeRF结合起来，那合成数据在算法训练方面可发挥的空间就更大了。这一路线或可帮助那些真实数据不多、但合成数据技术足够强、并且拥抱合成数据也足够积极的公司取得一定的竞争优势，至少是减少他们的劣势。

合成数据，或许正是一直被外界质疑为“数据不够”的Waymo、Cruise和Zoox这些美国公司敢于“一条道走到黑”、死磕L4的底气所在吧。事实上，这几家公司一直将合成数据作为其技术栈的核心组成部分之一。

国内的主机厂中，蔚来通过积极拥抱合成数据，已开始用仿真来支持研发。接下来，随着合成数据的价值赢得越来越多的认可，应该会有更多主机厂拥抱这一趋势吧。

而对第三方仿真公司来说，只有在服务对象从客户公司的测试部门拓展至研发部门，能对算法训练做出自己的贡献时，他们才算是最大程度地实现了自己的“人生价值”。

结语：

我们在前面已多次提到多，数据闭环能力，是自动驾驶下半场的“入场券”。重要的话不嫌多，在这里可以再重复一遍。

合成数据是数据闭环体系的重要组成部分，并且，合成数据不仅具备很多真实数据不具备的优势，而且还可以给真实数据“加杠杆”，因此，我们也可以认为，那些率先拥抱合成数据的公司，等于率先拿到了自动驾驶的“入场券”。

而那些合成数据服务商，则相当于是在生产和销售自动驾驶下半场的“入场券”。

提供这一入场券的公司，在国外，除英伟达这样的巨头外，还有Applied Intution、Parallel Domain、Cognata、Datagen等初创公司。

其中，Applied Inntution成立于2017年，但该公司早在2020年就已经盈利;在2021年底，该公司的估值达到了36亿美元;2023年5月，该公司以7000万美元现金收购了无人驾驶卡车公司Embark。

该公司的业务仅聚焦于自动驾驶这个单一赛道，能在成立三年内就盈利，并在此后估值飙涨，甚至还能拿出足够的现金来收购其他公司，也足见美国自动驾驶驾驶公司及资本市场对拥抱合成数据的积极程度。

在国内，百度、华为云及51World等公司近些年一直在探索合成数据，而在近一两年新成立的公司中，光轮智能是一个典型代表。

创办光轮智能之前，谢晨曾先后担任Crusie仿真主管、英伟达自动驾驶仿真主管、蔚来自动驾驶仿真主管，在各家公司都经历了基于合成数据的仿真从0到1的过程。目前，光轮智能核心技术团队的几名骨干成员也有类似的经历。

虽然成立比较晚，但成立晚有一个优势就是，光轮智能充分吸收了其他公司在自动驾驶仿真方面的一些经验教训，因而，从一开始就避开了很多坑。谢晨认为，仿真要做好，必须“虚实结合”，并且，比较要要将仿真跟AI深度结合。

关于仿真跟AI的结合，谢晨说：

目前，大多数公司的做法是用AI来辅助仿真，而我们的思路在则是用仿真来辅助AI。

那么，究竟什么是“虚实结合”，什么是“用AI辅助仿真”，什么又是“用仿真辅助AI”呢？这些内容，我们将在本系列的第二篇文章中做更详细的展开。敬请期待。

参考资料：

自动驾驶数据闭环系列之一：理想丰满，现实骨感

https://mp.weixin.qq.com/s/A4bLFRdIfYwG81LBanJDYg

Synthesis AI raises $17M to generate synthetic data for computer vision

https://techcrunch.com/2022/04/28/synthesis-ai-raises-17m-to-generate-synthetic-data-for-computer-vision/

10 Top Synthetic Data Startups to Watch in 2023

https://www.startus-insights.com/innovators-guide/synthetic-data-startups/

Synthetic Data - Generative AI's killer application

https://www.linkedin.com/pulse/synthetic-data-generative-ais-killer-application-sriraman-sri-/

Building continuous integration & continuous delivery for autonomous vehicles on Google Cloud

https://cloud.google.com/blog/products/containers-kubernetes/how-cruise-tests-its-avs-on-a-google-cloud-platform

Is Synthetic Training Data the Future of Machine Learning?

https://www.ayadata.ai/blog-posts/is-synthetic-training-data-the-future-of-machine-learning

Cruise 制定了“如何”使机器人出租车成为现实的计划

https://techcrunch.com/2021/11/05/cruise-lays-out-its-plan-for-how-it-will-make-robotaxis-a-reality/?

使用可编程数据教学家庭机器人

https://medium.com/toyotaresearch/teaching-home-robots-73f7d5e3601f

SPIGAN: PRIVILEGED ADVERSARIAL LEARNING FROM SIMULATION

https://openreview.net/pdf?id=rkxoNnC5FQ

Scale AI 进入合成数据游戏

https://techcrunch.com/2022/02/02/scale-ai-gets-into-the-synthetic-data-game/

Scaling up Synthetic Supervision for Computer Vision

https://medium.com/toyotaresearch/scaling-up-synthetic-supervision-for-computer-vision-902689d16216

Browse a collection of synthetic data tools and companies

https://syntheticdata.carrd.co/

Synthetic Data for Safe Driving

https://synthesis.ai/2021/08/05/synthetic-data-for-safe-driving/

合成数据概述：技术、应用和市场状况

https://actvp.vc/stories/tpost/ghgm11emt1-overview-of-synthetic-data-technology-ap

CARLA-GEAR: A Dataset Generator for a Systematic Evaluation of Adversarial Robustness of Vision Models

https://arxiv.org/pdf/2206.04365.pdf

适合决策AI研究的自动驾驶模拟器评测

http://www.rlchina.org/topic/343

https://zhuanlan.zhihu.com/p/548771774

Introducing UniSim, one of the core groundbreaking technologies powering Waabi World

https://waabi.ai/introducing-unisim-one-of-the-core-groundbreaking-technologies-powering-waabi-world/

适合决策AI研究（强化学习）的自动驾驶模拟器

https://zhuanlan.zhihu.com/p/548771774

Generative AI-empowered Simulation for Autonomous Driving in Vehicular Mixed Reality Metaverses

https://arxiv.org/pdf/2302.08418.pdf

[CVPR2023 Highlight] UniSim: 自动驾驶仿真系统

https://zhuanlan.zhihu.com/p/636695025

如何评价CVPR 2023的best paper？

https://www.zhihu.com/question/607381076/answer/3084877656

端到端的胜利！CVPR23 里的自动驾驶：UniAD&UniSim

https://mp.weixin.qq.com/s/hdjnF86R-30k2SFK1dSKBA

Quantifying the Simulation–Reality Gap for Deep Learning-Based Drone Detection

https://www.mdpi.com/2079-9292/12/10/2197

SYNTHETIC DATASETS FOR AUTONOMOUS DRIVING: A SURVEY

https://arxiv.org/pdf/2304.12205.pdf

Synthetic Data and Autonomous Vehicles

https://natecibik.medium.com/synthetic-data-and-autonomous-vehicles-408748e5bbb0

UC Berkeley, Waymo & Google’s Block-NeRF Neural Scene Representation Method Renders an Entire San Francisco Neighbourhood

https://medium.com/syncedreview/uc-berkeley-waymo-googles-block-NeRF-neural-scene-representation-method-renders-an-entire-san-e9a5aebd8823

Waymo Releases Block-NeRF 3D View Synthesis Deep-Learning Model

LIKEDISCUSSPRINT

https://www.infoq.com/news/2022/02/waymo-NeRF-3D-view-synthesis/

Block-NeRF AI recreates a virtual San Francisco neighborhood using 2.8 million photos

https://www.dpreview.com/news/2152415204/block-NeRF-ai-recreates-a-virtual-san-francisco-neighborhood-using-2-8-million-photos

使用特定于传感器的合成数据开发自主系统

https://anyverse.ai/synthetic-data/developing-an-autonomous-system-with-sensor-specific-synthetic-data-wrapping-up/

Synthetic data to develop a trustworthy autonomous driving system | Chapter 10

https://anyverse.ai/artificial-intelligence/synthetic-data-to-develop-a-trustworthy-autonomous-driving-system-chapter-10/

Gathering data for autonomous driving in adverse weather conditions

https://anyverse.ai/synthetic-data/gathering-data-autonomous-driving-adverse-weather-conditions/

Synthetic data for Computer Vision

https://www.cvedia.com/what-is-synthetic-data

什么是生成对抗网络（GAN）与合成数据

https://www.xulong.net.cn/gan-synthetic-data-22970/

如何获得用于自动驾驶训练的可靠合成数据？

https://www.zhihu.com/question/507527196/answer/2280153792

合成数据在实现 ADAS 和自动驾驶方面发挥真正作用

https://zhuanlan.zhihu.com/p/420690863

使用合成数据实现自动驾驶摄像感知系统聚焦远场物体

https://zhuanlan.zhihu.com/p/635265463

Waymo is using AI to simulate autonomous vehicle camera data

https://venturebeat.cohttps://zhuanlan.zhihu.com/p/635265463m/ai/waymo-is-using-ai-to-simulate-autonomous-vehicle-camera-data/

一文看懂DRIVE Replicator：合成数据生成加速自动驾驶汽车的开发和验证

https://developer.nvidia.com/zh-cn/blog/drive-replicator-synthetic-data-generation/

Synthetic Data Is About To Transform Artificial Intelligence

https://www.forbes.com/sites/robtoews/2022/06/12/synthetic-data-is-about-to-transform-artificial-intelligence/?sh=3ef44ce07523

Parallel Domain says autonomous driving won’t scale without synthetic data

https://techcrunch.com/2022/11/16/parallel-domain-says-autonomous-driving-wont-scale-without-synthetic-data

Accelerate Your AI Progress with Synthetic Data: 10 Reasons to Start Now

https://paralleldomain.com/accelerate-your-ai-progress-with-synthetic-data

Creating Synthetic Data with Nvidia Omniverse Replicator

https://docs.edgeimpulse.com/experts/featured-machine-learning-projects/nvidia-omniverse-replicator

Nvidia launches Omniverse Replicator synthetic data generation engine

https://www.automotivetestingtechnologyinternational.com/news/nvidia-launches-omniverse-replicator-synthetic-data-generation-engine.html

NVIDIA 表示 Isaac Sim 和 Isaac Replicator 缩小了模拟与现实的差距

https://www.robotics247.com/article/nvidia_says_isaac_sim_isaac_replicator_close_the_simulation_to_reality_gap

NVIDIA Omniverse Replicator For DRIVE Sim Accelerates AV Development, Improves Perception Results

https://www.publicnow.com/view/A8150FC0BEFC3CEE97CBE49002A74711959E1F11

When Real-World Data is Not Enough

https://www.digitalengineering247.com/article/when-real-world-data-is-not-enough

Synthetic Data Generation Using Omniverse

https://medium.com/weboccult-technologies/synthetic-data-generation-using-omniverse-2f6d7039d386

NVIDIA Omniverse Replicator Generates Synthetic Training Data for Robots

https://developer.nvidia.com/blog/generating-synthetic-datasets-isaac-sim-data-replicator/

使用 Omniverse Replicator 构建自定义合成数据生成管道

https://developer.nvidia.com/blog/build-custom-synthetic-data-generation-pipelines-with-omniverse-replicator/

How to Generate Synthetic Data with NVIDIA DRIVE Replicator

https://www.nvidia.com/en-us/on-demand/session/gtcspring23-se50004/

一文看懂DRIVE Replicator：合成数据生成加速自动驾驶汽车的开发和验证

https://developer.nvidia.com/zh-cn/blog/drive-replicator-synthetic-data-generation/

The rising role of synthetic data in the automotive industry

https://www.automotivetestingtechnologyinternational.com/industry-opinion/the-rising-role-of-synthetic-data-in-the-automotive-industry.html

Case Study: Improving Object Detection Performance by Leveraging Synthetic Data

https://blog.applied.co/synthetic-data-for-training

Introducing GAIA-1: A Cutting-Edge Generative AI Model for Autonomy

https://wayve.ai/thinking/introducing-gaia1/

MARS: An Instance-aware, Modular and Realistic Simulator for Autonomous Driving

https://arxiv.org/pdf/2307.15058.pdf

对抗生成网络（Generative Adversarial Net)

https://blog.csdn.net/stdcoutzyx/article/details/53151038?ydreferer

上海AI Lab | 最新端到端自动驾驶综述，来龙去脉详尽梳理

https://mp.weixin.qq.com/s/X6d2kjzr7Bhdx0-FZvw3Vw

浅谈基于NeRF的三维重建技术

https://www.eefocus.com/article/1545527.html

反渲染(Inverse Rendering)三维重建及神经辐射场(NeRF)核心

https://zhuanlan.zhihu.com/p/628804009

【NeRF】AIGC高阶魔法——3D场景重建与渲染

https://zhuanlan.zhihu.com/p/615875635

炸锅了，竟有这种好东西，那我可不困了！

https://course.zhidx.com/download/detail/NjUyYmQxZjU4N2JmZjliNzZlMjM=

改进扩散模型作为 GAN 的替代方案，第 1 部分

https://developer.nvidia.com/blog/improving-diffusion-models-as-an-alternative-to-gans-part-1/

Diffusion预训练成本降低6.5倍，微调硬件成本降低7倍！Colossal-AI完整开源方案低成本加速AIGC产业落地

https://www.dazuoshe.com/diffusionyuxunlianchengbenji.html

Diffusion Model一发力，GAN就过时了？？？

https://www.163.com/dy/article/HF7L02FJ0511DSSR.html

diffusion model 最近在图像生成领域大红大紫，如何看待它的风头开始超过 GAN ？

https://www.zhihu.com/question/536012286/answer/2533146567

AIGC 和自动驾驶会有关系吗？

https://zhuanlan.zhihu.com/p/593475163

World Model揭开自动驾驶GPT时代的面纱

https://zhuanlan.zhihu.com/p/642207999?utm_id=0

你可能感兴趣的:(自动驾驶,人工智能)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
LiteBee Wing测评：走进中小学课堂，合适的编程无人机非常重要！ song_bcbd
“国务院在《新一代人工智能发展规划》中明确，要广泛开展人工智能科普活动，实施全民智能教育项目，要在中小学阶段设置人工智能相关课程，逐步推广编程教育，鼓励社会力量参与寓教于乐的编程教学软件、游戏的开发和推广，而且要进行人工智能竞赛。”作为从事创客教育多年的老师，感谢在这个大环境，让学生能够了解人工智能，接触到前沿科技，同时也鼓励更多学生学习编程，因为没有学编程，可能就会像现在的我们后悔以前没有学习好
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l