ariesjzj

小议车辆环境视觉基础前视感知

1. 前言

无论是AD/ADAS还是智能网联车，前视感知都是其最基础和重要的能力之一。自动驾驶（AD）是前几年的热门话题。今天虽然稍微降温下来一些，但仍是大家关注的重点之一，毕竟它是人类长久以来的梦想之一。众所周知，美国汽车工程师学会（SAE）将自动驾驶分为 L0~L5共六个级别。其中L3及以上允许由系统在限定或不限定条件下完成所有的驾驶操作；而L2及以下还是需要由人类驾驶员一直保持驾驶状态，因此大多还属于高级驾驶辅助系统（ADAS），如车道偏离预警（LDW），前碰撞预警（FCW），自适应巡航（ACC），紧急自动刹车（AEB），车道保持辅助（LKA），交通标志识别（TSR），自动泊车（AP）等。和大多数智能机器人一样，自动驾驶的处理流程可分为三个阶段：感知、决策、执行。因此一旦感知出了问题，那后面基本就凉了。类似地，ADAS或AR导航也强依赖于对环境的感知。没有准确且实时的感知能力，上层做的再炫酷也容易成为鸡肋。ADAS和AD间的界线并没那么清晰，前者可看作到后者的过渡产品，因此很多技术是通用的。前视感知是个非常大的话题，因此本文主要聚焦在一些最为基础和通用的前视感知能力上。

2. 业界

本节我们从工业界和学术界两个方面简要聊下业界的相关情况。它们各有优缺点，学术界涌现出更前沿更先进的方法，且指标明确，易于定量比较，但方法往往专注于单点，且对实际产品中的各种约束（如计算资源）考虑不多；而工业界直接面对产品，更多地考虑实用性和整体性。但采用的指标、数据不透明，难以衡量和比较。只有全方面的了解，通过产学研的加速融合，才能打造更加完善、更好用户体验的产品。

ADAS有着几十年的发展历史。国内外都有一大批优秀的厂商。这几年，随着国家驾驶安全政策的推动和自动驾驶技术受到热捧，该领域出现了快速的增长。从老牌劲旅Bosch、Continental、Aptiv，Mobileye等，到一批相对年轻但很有竞争力的公司如Maxieye、Minieye、魔视、极目、纵目、Nauto等，这是一个既成熟，又充满机遇的市场。根据中投顾问的《2017-2021年中国汽车高级驾驶辅助系统（ADAS）市场深度调研及投资前景预测报告》，ADAS年复合增长率将达35%，2020年中国市场可实现近800亿市场空间。近几年，车载AR导航将传统的ADAS功能与导航功能、AR技术及HUD进行了融合，带来了更直观和人性化的用户体验，成为了市场的热点。在实现方式上，各家在传感器配置上也各有不同，有摄像头、毫米波雷达、激光雷达等。其中，基于摄像头的视觉方案由于其成本可控、算法成熟等优点，使用最为广泛。其中的主要代表如Mobileye和Tesla Autopilot都是主要基于视觉的方案。

图 1 Tesla Autopilot (来自https://www.youtube.com/watch?v=24dRkHdpEPo)

图 2 Mobileye (来自https://www.mobileye.com/our-technology/)

虽然ADAS细分功能众多，但很多功能功能（LDW，FCW，LKA，ACC等）都依赖于对前方环境中几个基本对象的检测和识别，即车道线、物体（包括车辆、行人、障碍物、交通灯、交通标识等）、可行驶区域，因此本文也会主要聚集在这几类对象的检测识别上。在准确率上，各家的产品往往很难量化及横向比较，尽管大家的宣传中常会出现“准确率>XX%”或者“误报率/漏报率

在学术界，自动驾驶一直是经久不衰的热点之一。这些方法上的创新很多同样也可以用于ADAS和AR导航中。我们知道，2012年以来深度学习的快速发展使其成为机器学习中的绝对主流。基于深度学习的方法同样也给自动驾驶带来了巨大变革。基于传统CV算法的方法在泛化能力上容易遇到瓶颈。经常是在一段路段调优跑溜后，换一段路又需要大量调参。当然，基于深度学习的方法也无法完全避免这个问题，但可以说是大大缓解了。学术界的优点就是较为透明公开、且容易对比。新的方法就是需要在与其它方法比较中才能证明其优异，因此历史上通过竞赛的方式来推动发展的例子不在少数。2004年开始，由DARPA主办的几场无人车挑战赛开启了无人车的新时代。在深度学习时代，各种针对路面环境检测识别的榜单就如同ImageNet一样，催生出一大批新颖的方法。其中针对车道线、物体和可行驶区域的比较典型的有：

KITTI：2013年由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办，是一套非常全面的算法评测数据集。其中覆盖了2D、3D物体检测，物体跟踪，语义分割、深度估计等多种任务。但其数据集数量在现在看起来不算多，如物体检测数据集训练集和测试集总共1W5张左右，车道检测就比较尴尬了，只有几百张。
CVPR 2017 TuSimple Competitions：2017年图森未来主持的挑战赛，分车道线检测和速度估计两个任务。其中车道线检测数据集包含了几千张主要是高速上的数据。虽然量不多，但因为和物体检测这类通用任务相比，针对车道线检测的竞赛很少，所以它至今在很多车道线检测的论文上还会被当成量化比较的重要参考。
CVPR 2018 WAD：由Berkeley DeepDrive主持，包含三项赛事：道路物体检测，可行驶区域分割和语义分割的域适应。它基于BDD100K数据集。这是一个在数量和多样性上都非常不错的用于自动驾驶的数据集。其中用于物体检测和可行驶区域分割的数据集共有10W张左右，其中训练集和验证集有约8W张。
Cityscapes：针对道路环境的经典语义分割数据集，同时也提供了语义分割、实例分割和全景分割任务的榜单。数据集采自50个城市，包含了5K张精细标注图片和2W张较粗糙标注图片。考虑到语义标注的成本相对大，这个数量已经算比较大了。

其它的榜单还有很多，无法一一列举。虽然由于大多榜单只关注准确率导致其模型很难直接落到产品中，但其中确实也出现了非常多精巧的方法与创新的想法，为产品落地提供了有价值的参考。关于具体的方法我们留到后面专门章节进行讨论。

还有一些介于工业界与学术界之间的工作，它们将学术界的成果向产品逐渐转化，提供了参考实现。比较典型的有开源自动驾驶项目Apollo和Autoware。因为它们主要面向无人驾驶，所以会除了摄像头之外，还会考虑激光雷达、毫米波雷达、高精地图等信息。由于本文的scope，这里只关注基于摄像头的对基础对象的检测。Apollo 2.5中采用的是一个多任务网络检测车道线与物体（之前读代码的一些笔记：自动驾驶平台Apollo 2.5阅读手记：perception模块之camera detector ），对于车道线模型会输出像素级的分割结果，然后通过后处理得到车道线实例及结构化信息（相关代码阅读笔记：自动驾驶平台Apollo 3.0阅读手记：perception模块之lane post processing）；物体检测是基于Yolo设计的Yolo 3D，除了输出传统的2D边界框，还会输出3D物体尺寸及偏转角。版本3.0（官方介绍：perception_apollo_3.0）中加入了whole lane line特性，提供更加长距的车道线检测。它由一个单独的网络实现。3.5中将物体与车道线检测网络彻底分离，车道线模型称为denseline。最新的5.0（官方介绍：perception_apollo_5.0）中又引入DarkSCNN模型，它基于Yolo中的backbone Darknet，并引入了Spatial CNN（后面再介绍），同时该网络中还加入了对灭点的检测。Autoware中车道线用的是传统CV的方法，物体检测基于摄像头部分使用的是SSD和YOLO等基于深度学习的方法（官方介绍：Overview）。

3. 方法

我们知道，深度学习有三大基石：数据、算法和算力。对于基础前视感知场景，我们也从这三个维度来聊一下。在此之前，我们先列下本文关注的单目基础感知主要流程：

图 3 基础前视感知简要流程

从图片流输入，大致经历预处理、检测模型推理和后处理三个阶段:

预处理：这一阶段主要是做必要的数据处理，为后面的检测准确好数据。如一些摄像头进来的视频流是YUV格式，而深度神经网络模型输入多是RGB格式，需要进行转换。此外，很多模型会要求输入数据作归一化。另外，为了减少计算量，一般还会对输入的图像进行缩放和ROI的提取。
检测模型推理：这一阶段主要是做深度神经网络的推理。对于要同时完成多个任务的场景，我们一般会使用多任务网络。即每个任务对应一个网络分支输出，它们共享用于特征提取的backbone（按经验很多时候backbone会占大部分的计算量）。近年学术界也出现一些对不同类型任务比较通用的backbone结构。
后处理：这一阶段是将前面推理得到的结果进行进一步的处理，以传到后面的决策或展示模块。常见的对于车道线需要滤除噪点，聚类，曲线拟合，滤波（如Kalman filter）等；对物体检测常见的有非极大值抑制（NMS）和跟踪等；对可行驶区域，需要将分割结果转为多边形并确定其位置类别。

注意这里只画了简化的部分流程。实际场景中，可能还需要考虑非常多其它元素，比如：

相机标定（Camera calibration）：我们在学车考“S弯”或者“单边桥”等项目时，教练往往会告诉我们一些小技巧，如通过雨刮器的位置来估计轮胎的位置。这种技巧其实比较脆弱，因为座椅的调整，人的高矮都会影响其精确度。那在ADAS/AD场景中如何告诉机器以高精度做这件事呢，就是通过相机校准。这本质是做图像坐标和世界坐标之间的转换。另外，有了校准参数，我们还可以用它做逆透视映射（IPM），消除透视带来的影响，方便车道线检测及物体跟踪等模块。
光流（Optical flow）：每一帧都检测会带来很大的计算开销。有时我们会通过光流算法来计算图像中像素点的瞬时速度，从而估计已检测对象在当前帧的位置。这样一方面能有效减少计算量，另一方面还能用于物体的跟踪。
灭点（Vanishing point）：我们知道，由于透视关系，平行的线（如车道线）在远处会交到一点，称为消失点或灭点。这个点对于车道检测或最后的可视化都有帮助。在直线的情况下，我们可以通过车道线的交点来估计灭点，但如果车道线是不太规则的曲线，就比较麻烦，需要通过更复杂的方法进行估计。
测距：不少ADAS功能中都需要确定前方物体的距离。常用毫米波和超声波雷达做距离检测。而在纯视觉方案中，双目方案是根据视差来估计距离，原理就像人的两只眼睛一样。而对于单目方案就比较tricky一些，需要检测物体后根据物体下边界结合相机标定计算距离。现在虽然有基于单张图像的深度估计方法，但那个本质上是靠的训练所获得的先验，用作ADAS里的FCW啥的感觉还是精度不太够。
3D姿态估计（3D pose estimation）：高级点的前视感知对物体检测除了边界框，还会估计其姿态。这对动态障碍物的行为预测非常有帮助。
细粒度识别（Fine-grained recognition）：对于一些识别的物体，如果它们的类别会影响到驾驶行为（如交通灯、交通标志、车道线等），则我们需要将检测结果中相应部分拿出来进一步对其进行分类识别。
决策和展示：所有的检测都是为了最后的决策和展示。如何自然地显示（如通过AR展示的话如何与现实物体贴合），以及何时预警或介入控制都直接影响用户体验。

另外可能还需要检测路面上的指示标记，以及对当前场景是否支持作检测判断等等。由于篇幅有限和使内容简洁，这些本文都暂不涉及。检测对象上本文主要关注车道线、物体和可行驶区域。

3.1 数据

我们知道，深度学习的最大优势之一就是能对大量数据进行学习。这就意味它的效果很大程度上依赖于训练的数据量，而对于汽车的前视感知更是如此。因为汽车的环境是开放的，没有充分而多样的数据，模型便无法有效地泛化，那在各种corner case就可能出岔子。对于其它场景出岔也就出岔了，对AD或者ADAS来说那可能就危及生命安全了。数据集大体有两类来源，一类是公开数据集；一类是自标数据集。它们各自有优缺点。

得益于自动驾驶领域的蓬勃发展，近年来出现了很多优质的公开数据集。

包含车道线的主要有BDD100K，CULane，TuSimple Lane Challenge和LLAMAS等。
包含物体检测的太多了，貌似是个道路环境数据集就会有。如BDD100K，KITTI，Udacity Driving Dataset， Waymo Open Datasets等。
包含可行驶区域的有BDD100K，KITTI等。虽然理论上语义分割的数据集（如Cityscapes）就包含了可行驶区域的标注，但比较理想的标注还应该区分当前车道和相邻车道。

其它的还有不少数据集，网上有很多列表整理，这里就不重复了。虽然这些数据集很丰富，但有时未必能直接用上。一方面是它们的标注之间有很大差异。其中一个差异点是标注格式，这个其实还好办，脚本基本能搞定。比较麻烦的是有时候标注的规范和内容会有出入。以车道线为例：有些是采用双线标法（如BDD100K），有些是单线标法（如CULane，TuSimple Lane Challenge）；有些是标有限条（如CULane），有些是有多少标多少（如BDD100K）；有些对于虚线是像素级精确标注（ApolloScape），有些是会将它们“脑补”连起来（CULane）；有些标了车道线类型（BDD100K），有些没有标（CULane）。而对于车辆和行人来说，不同数据集有不同的细分类。但本着人家标注也不容易，能用上一点是一点的精神，可以尽可能地对它们进行转化，使它们一致并满足特定需求。举例来说，BDD100K中是双线标注，而其它多数是单线标。为了统一，我们可以通过算法自动找到匹配的线并进行合并。自动合并效果如下：

图 4 BDD100K数据集车道线标注自动转换

公开的数据集虽然方便且量大，但往往没法完全满足需求。比如由于地域差异、摄像头差异等会导致domain shift问题，另外有些针对性的case没法覆盖。公开数据集另一个问题是license。很多的公开数据集只能作研究用途，如果要商业用途是禁止或者需要专门再购买license的。因此，实际中往往还是需要请外包或自己标数据。

另外，为了获得更大量更多样的数据，业界有一些常用方法和方向，如：

数据增强（Data augmentation）：最基本也很有效的扩充数据集手段之一，在车辆环境中尤为重要。由于道路环境数据集需要多样化，因此我们需要通过数据增强来模拟不同的光照、天气、视角等变化。
自动标注/辅助标注：虽然移动端上由于算力有限，我们只能牺牲准确率布署轻量级的网络，但我们可以训练重量级的精度较高的网络模型用于对数据进行自动标注。以下是一个重量级网络（不是SOTA的）在BDD100K上训练后的检测效果。虽然不是十全十美，但在有些小目标上可能比老眼昏花的我还要标得凑合。就算无法完全替代人肉标注也可以作为辅助有效减少人工。

图 5 某重量级网络在BDD100K数据集上检测效果（左：检测结果；右：Ground truth）

仿真器：利用仿真器来帮助自动驾驶测试似乎已经是一个普遍性做法了。随着3D图形技术和硬件的飞速发展，今天仿真器中的渲染效果已相当逼真，已经不像当年赛车游戏里车后冒个烟还是“马赛克”效果。因此，仿真器也有望用于产生可用于训练的数据。
生成对抗网络（GAN）：我们知道，GAN是最近几年非常火热的一个方向。GAN也在一些工作中用于训练数据的生成。虽然目前很多时候是看demo各种牛，但实际跑的时候可能就不是很理想。但不可否认这是一个很有前途的方向，不少工作应用它来缓解数据多样化需求的问题。

3.2 算法

针对前视感知中的几类目标，算法是不同的。另一方面，我们知道深度学习的视觉领域研究比较多的任务是：图片识别、物体检测、图像分割（包括语义分割、实例分割、全景分割）。那么问题来了，如何将对现有任务的方法充分应用来满足前视感知的需求？如果实在不合适如何调整？

3.2.1 车道线

首先是车道线检测，这可能是几类检测目标中最特殊的，所以占的笔墨也会相对多些。它的特点是形状狭长（可能跨越大半张图片），并且形态多变（可能是直线也可能是曲线，还可能交叉等），容易与路面标识混淆，另外还需要区分实例。现有物体检测的方法不太适合这种形状的东西。我们知道，在深度学习占领视觉领域前，车道线检测多采用传统CV的方法。Udacity（其联合创始人Sebastian Thrun是自动驾驶界大神）上有一个自动驾驶课程。其中有作业就是车道线检测，因此网上有很多这个作业的实现。其中比较关键的几步是通过边缘检测算法（如Canny，Sobel算子）得到边缘，然后通过Hough transform检测直线（如果假设车道线为直线），或者经过IPM得到鸟瞰视图后通过滑窗搜索得到车道线上的像素点，最后多项式曲线拟合输出。这里边几乎每一步都有不少参数，而且各步相互影响，如果场景很多样化的话调参就可能会比较酸爽，另一方面它对于车道线不完整的情况（如因遮挡或磨损）表现不好。因此，这已经不是目前的主流，后面业界逐渐过渡到基于深度学习的方法。

2015年，深度学习风头正劲，Stanford、Twitter等机构联合发表的论文讨论了将CNN应用到高速环境的车道线和车辆检测中[1]。它使用当时物体检测的方法[2]来检测车道线。因为车道线很长条，因此被分成多个线段，每个线段被当成物体来检测。最后通过DBSCAN进行聚类得到车道线实例。同期另外一条思路是将车道线检测当作语义分割任务。当时语义分割领域有了FCN[3]、SegNet[4]和DeepLab[5]等早期经典网络。结合一些包含车道线标注的语义分割数据集便可以进行车道线检测。如论文[6]试图将包括车道线在内的多种检测任务在分割任务中一把搞定。然而故事还远没有结束，这里还存在以下两个比较大的挑战，接下去几年的工作也是主要围绕这两点来展开：

繁琐的后处理：现实中我们为了后面的决策还需要知道哪条是当前车所在车道（Ego lane）的左、右车道线和相邻车道的车道线。另外，因为车道线往往不完整，因此还需要得到车道线的结构化表示（如多项式或样条曲线）以便做插值。这样，单就语义分割的结果还不够。以往常见的做法是将分割结果进行聚类得到实例，然后通过一些后处理判断其是哪条车道。另外，为了得到结构化表示还需要对这些点进行多项式拟合等操作。理想的方法是简化或完全去除这些后处理，实现真正意义上end-to-end的检测。
复杂的环境：路面环境复杂常常导致图像中的车道线残缺不全。如天气因素，其它车辆遮挡，阴影和光照，磨损等等。另外的一个比较大的干扰来自于地面上的箭头指示和汉字，仅看局部图像的话人也难以区分。因此如果无法有效利用全局上下文信息很难对它们进行排除。对这些因素做到足够鲁棒是通往实用产品的必要条件。

来自三星的论文[7]将车左右两条车道线作为两个类别（加上背景共三类），从而直接通过神经网络来学习，相当于做了实例分割，从而简化了后处理。

2017年TuSimple主办了车道线检测竞赛，炸出不少好的方法，同时也成为了车道线检测的重要benchmark之一。第一名来自香港中文大学，它也是基于语义分割来做，并针对车道线这种狭长的物体提出了Spatial CNN（SCNN）[8]来替代MRF/CRF来对空间关系进行建模。另一个比较有意思的点是当时竞赛提供的数据集才几千张（标注图片约3.6K），因此数据可能会成为主要瓶颈之一，于是他们整了一个大规模的车道线的数据集CULane。该数据集共有13W多张。它比较贴近现实情况，涵盖了白天、晚上、拥堵、阴影、光照过亮等9种场景。对于车道线的实例区分问题，SCNN由于限定最多检测4条车道线，因此它可以把4条车道线当4类物体来检测。同时，网络还有一个专门的分支用于预测对应的车道线是否存在。这样便不需要聚类来提取实例。当时的第二名来自佐治亚理工（Georgia Institute of Technology）等机构。他们提出的方法[9]可以解决只能处理有限车道线的问题。它利用像素对之间的关系，通过对目标函数的巧妙构造，让神经网络学习像素的聚类信息。并且可以拓展到（理论上）无穷实例的场景。

2017年韩国KAIST和三星提出了VPGNet[10]。它是一个多任务网络，其中一个分支用于预测灭点，它可以引导车道线的检测。这在一些恶劣的天气下可以有比较大的帮助。但这需要额外标注的数据集。论文中提到他们建立了自己的数据集但没有公开。

2018年，鲁汶大学（KU Leuven）的论文提出LaneNet[11]，它将车道线检测作为一个实例分割问题。以前很多方法对于提取车道线实例是用聚类，而对于车道线这种狭长的物体很难定义一个好的距离测度用于聚类。这篇论文的最大特色就是在传统语义分割分支外还加了一个pixel embedding分支，用于对输入图像中的每个点得到其N维的embedding，这个分支是基于其实例信息训练的。语义分割输出的像素结合pixel embedding信息，作聚类后便可得到车道线的实例信息，最后通过多项式拟合输出。鲁汶大学这个团队次年在论文[12]中把预测曲线与ground truth曲线间的面积作为损失函数，将拟合改造成可微分操作，从而让神经网络来学习拟合曲线的参数。前面LaneNet这篇论文另一个比较有特色的点是H-Net。IPM有利于车道线的多项式拟合。因为大多数弯曲的车道线在鸟瞰视图下用二次曲线就够了，但在透视视图下却需要更高阶曲线才能拟合。而这个变换的参数一般需要通过相机标定。但是这个参数可能根据地形、坡道因素不同。因此最好可以根据输入动态调整。H-Net采用通过神经网络来预测的方式。这条思路上类似的工作还有来自2018年GM的3D-LaneNet[13]。该方法以end-to-end方式直接预测3D的车道线。网络采用dual-pathway结构。一条对应普通透视图，估计逆透视变换参数。该参数结合前面的feature map与另一条对应鸟瞰视角的网络中feature map结合，最终输出3D车道线。不过毕竟带3D车道线标注的数据集不好弄，于是他们自己搞了个高速场景下的合成数据集作了实验。因此该方法在真实场景下的效果还需要进一步验证。

杜克大学和地平线提出的LaneNet[14]（也叫LaneNet，但此LaneNet非彼LaneNet）将车道线检测分为两个阶段-lane edge proposal和lane line localization。前者是一个语义分割网络；后者是比较特色的地方，其网络基于LSTM，输出为各条车道线的信息。因此，某种程度上替代了很大部分后处理。

TomTom公司提出的EL-GAN[15]通过GAN的思想来改善语义分割的结果。单纯的语义分割应用于车道线所得结果不会考虑其平滑或是邻域一致性等。EL-GAN在GAN的基础上添加了embedding loss通过discriminator让语义分割的输出更接近ground truth。直观上这样语义分割的结果就会更符合车道线的拓扑形状特征，从而减化了后处理的工作。

我们知道，对于视觉任务，有两个比较通用的思路是可以帮助提高准确率的。一个是注意力（Attention）机制。今年由香港中文大学等机构发表的论文[16]提出了Self Attention Distillation（SAD）方法。它基于注意力蒸馏（Attention distillation）的思想，将之改造为自蒸馏，从而不依赖传统知识蒸馏中的teacher model。网络中后面的层的feature map（具有更丰富上下文信息）作为监督信息帮助前面的层训练。前面的层学到更好的表征后又会改善后面的层，构成良性循环。另一个是用RNN结合前后帧信息。武汉大学和中山大学的论论文[17]结合了CNN和RNN来使用连续帧进行车道线检测。网络结构中在由CNN组成的encoder和decoder间放入ConvLSTM用于时间序列上特征的学习。由于结合了前面帧的信息，在车道线磨损、遮挡等情况下可以做到更加鲁棒。

3.2.2 道路物体

然后是物体检测，这块的算法可以说是相当丰富。因为物体检测的应用范围非常广，因此它几乎伴随着计算机视觉领域的发展。相关的survey很多（如[18]，[19]等）。深度学习兴起后，一大波基于深度神经网络的物体检测算法被提出。SOTA以极快的速度被刷新。从two-stage方法到轻量的one-stage方法，从anchor-based方法到近年很火的anchor-free方法，从手工设计到通过自动神经网络架构搜索，琳琅满目，相关的总结与整理也非常多。

对于道路环境来说，几乎和通用物体检测算法是通用的。如果要找些区别的话，可能汽车前视图像中，由于透视关系，小物体会比较多。2018年CVPR WAD比赛其中有一项是道路环境物体检测。第一名方案来自搜狗，根据网上介绍（给机器配上“眼睛”，搜狗斩获CVPR WAD2018挑战赛冠军），其方案在Faster R-CNN的基础上使用了CoupleNet，同时结合了rainbow concatenation。第二名方案来自北京大学和阿里巴巴，提出了CFENet[20]。经典的one-stage物体检测网络SSD在多个scale下的feature map进行预测，使得检测对物体的scale变化更加鲁棒。小目标主要是通过浅层的较大feature map来处理，但浅层特征缺乏包含高层语义的信息会影响检测效果。CFENet针对前视场景中小物体多的特点对SSD进行了改进，在backbone后接出的浅层上加入CFE和FFB网络模块增强浅层特征检测小目标的能力。

现实应用中，物体检测模型的输出还需要经过多步后续的处理。其中比较常见和重要的是NMS和跟踪：

神经网络模型一般会输出非常多的物体框的candidate，其中很多candidate是重叠的，而NMS的主要作用就是消除那些冗余的框。这个算子很多的推理框架不支持或支持不好，所以一般会放到模型推理外面作为后处理来做。在学术界NMS这几年也出现了一些可以提高准确率的变体。
跟踪是理解物体行为的重要一环。比如帧1有车A和车B，帧2有两辆车，我们需要知道这两辆车哪辆是A，哪辆是B，或都不是。只有找到每个物体时间维度上的变化，才能进一步做滤波，以及相应的分析。比较常见的多物体跟踪方法是SORT（Simple Online and Realtime Tracking）框架[21]，或许它的准确率不是那么出众，但综合性能等因素后还是不错的选择，尤其是对于在线场景。结合通过CNN提取的外观特征（在DeepSORT[22]中采用）和Kalman filter预测的位置定义关联度的metric，将帧间物体的跟踪作为二分图匹配问题并通过经典的匈牙利算法求解。前后帧物体关联后通过Kalman filter对状态进行更新，可以有效消除检测中的抖动。

3.2.3 可行驶区域

再来说下可行驶区域。开过车的同志们都知道咱们的很多路没有那么理想的车道线，甚至在大量非结构化道路上压根儿就没有车道线。在这些没有车道线、或者车道线不清晰的地方，可行驶区域就可以派上用场。一般在可行驶区域中我们需要区分当前车道和其它车道，因为该信息对后面的决策规划非常有价值。

在这个任务上早期比较流行的榜单是KITTI的road/lane detection任务。很多论文都是拿它作benchmark，其榜单上有一些是有源码的。不过那个数据量比较少，多样化程度也不够，要用它训练得泛化能力很强实在比较勉强。

2018年CVPR WAD比赛中一个专项是可行驶区域检测。所用的BDD100K数据量相比丰富得多。当时的冠军方案是来自香港中文大学的IBN-PSANet。它的方案是结合了IBN-Net[23]和PSANet[24]。前者主要特色是结合了batch normalization（BN）和instance normalization（IN）。BN几乎是现代CNN的标配。它主要用于解决covariate shift问题，提高训练收敛速度；而IN可以让学习到的特征不太受像颜色、风格等外观变化的影响。而结合了两者的IBN可以吸收两者的优点。而PSANet的特色主要是提出了PSA结构，它本质是一种注意力机制在视觉上的应用。对于每一个像素，网络学习两个attention mask，一个对应它对其它每个像素的影响，一个对应其它每个像素对它的影响，从而使得分割可以充分考虑全局上下文信息。

可行驶区域检测中对于语义分割的输出比较粗糙，且形式不易于后面模块处理，因此还需要经过一些简单的后处理。比如先聚类，再计算各类簇的凸包，最后通过这些多边形的位置关系便可以确定它们是当前车道还是其它车道的可行驶区域。

值得一提的是，可行驶区域和车道线语义上是非常相关的，因此可以通过相互的几何约束来提高准确率。业界也有不少这方面的尝试，越来越多的深度神经网络将它们进行融合。

3.3 优化

从算法到产品最大的鸿沟之一便是性能优化。移动端设备有限的算力正在与多样化算法的算力需求形成矛盾。这在之前写的文章《浅谈端上智能之计算优化》中进行过初步的讨论。对于像ADAS这样的场景实时性尤其重要。我们可以从文中提及的几个角度进行优化。

首先，在网络设计上我们在backbone上可以选择这几年经典的轻量级网络（如MobileNet系[25], [26]，ShuffleNet系[27], [28]，EfficientNet[29]等）。这些网络一般在计算量上比重量级网络有数量级上的减少，同时又可以保持准确率不损失太多。另一方面，对于多个检测任务，由于输入相同，我们一般会使用多分支的网络结构。每个任务对应一个分支（head），它们共享同一个用于特征提取的backbone。按经验来说，这个backbone占的计算一般会比较大，因此这样可以节省下相当可观的计算开销。但是这样的多任务多分支网络会给训练带来困难。最理想的当然是有全标注的数据集，但这样的数据集比较难获得。对于这个问题，我们可以采取两种方法：一种是如前面提的，靠重量级高准确率网络自动标注。如训练高准确率的物体检测模型给已有车道线标注的数据集进行标注；另一种就是对带特定标注的数据输入，训练对应的部分（backbone和相应的head）。

对于给定网络结构，我们可以通过模型压缩进一步减少计算量。因为普遍认为推理时不需要训练时那样复杂的模型和高的精度。模型压缩有很多种方法，有量化、剪枝、知识蒸馏、低轶分解等等。常用的方法之一是量化。一般来说，将FP32转为FP16是一种既比较安全收益又比较大的做法，然而在一些低端设备上我们还需要作更低精度（8位或以下）的量化。这时就得花更多精力在准确率损失上了。量化又分为post-training quantization和quantization-aware training。前者使用方便，不需要训练环境，最多需要少量（几百张）数据集作为量化参数calibration之用，但缺点是会对准确率损失较大；而后者，需要在训练时插入特殊的算子用于得到量化所用参数及模拟量化行为。另一种常用的压缩方法是网络剪枝。根据网络模型的敏感度分析，一些层稍作裁剪可能就会有大的准确率损失，而另一些层进行裁剪则准确率损失不大，甚至还会使准确率上升。这就给了我们简化模型从而减少计算量的机会。低轶分解本质上是通过对矩阵的近似来减少矩阵运算的计算量。知识蒸馏是一种很有意思的方法，就像现实中的老师教学生，通过teacher model来帮助训练student model。

网络模型敲定后，就需要考虑性能优化。深度的优化是离不开硬件的考虑的。对于一些用于自动驾驶的计算平台，可能直接就上像Nvidia的PX2这样的高性能硬件平台了。但对于普通车规硬件平台，肯定是扛不住这种成本的。这些常规车机平台中一些稍高端的会有几百GFLOPS的GPU处理能力，或其它DSP，NPU等计算硬件。这里我们一般会首选这些硬件做模型推理而非CPU。因为如果将这些计算密集型任务往CPU放，会和系统中其它任务频繁抢占资源导致不稳定的体验。而对于低端一些的平台GPU基本只够渲染，那只能放到CPU上跑，一般会用上面提到的量化方法将模型转为8位整型，然后将推理绑定到固定的核上以防止影响其它任务。推理引擎有两类选择。对于一些有成熟推理引擎的硬件平台，使用厂商的引擎（如Intel有OpenVINO，高通有SNPE）通常是一个方便快捷的选择；还有一种方法就是用基于编译器的推理引擎，典型的如TVM。它以offline的方式将网络模型编译成可执行文件并可进行自动的执行参数优化。至于哪个性能好，通常是case-by-case，需要尝试。值得注意的是，上面选取的轻量型网络一般是memory-bound的，因此优化时需要着力优化访存。

如果平台上有多种可以执行神经网络算子的硬件，如CPU、GPU、NPU、DSP，那可以考虑通过异构调度来提高硬件利用率，从而达到性能的优化。现在业界已有不少的异构计算框架，如ONNXRuntime，Android NN runtime等。这里面，最关键核心的问题在于调度。对于单个网络模型而言，先要对网络进行切分，然后分配到最合适的硬件上，然后在每个硬件上进行本地调度。难点在于这个调度是NP-hard的，意味着对于实际中大规模问题，不可能在合理时间找到最优解，而要找到尽可能优的近似解是门大学问。业界出现了大量的方法，如精确算法、基于启发式策略、元启发式搜索和机器学习的方法。对于前视感知任务中的多分支模型，一个最简单而有效的做法就是将backbone以及各个head的分支作为子图进行切分和调度。如果要得到更优的调度，则可以进一步尝试基于搜索和学习的方式。

4. 小结

前视感知领域是一个小打小闹容易但做好非常难的东西。它需要长期的沉淀才能构建起核心竞争力和技术壁垒。我们看到今天行业龙头Mobileye独领风骚，但少有人看到它在早期的执着。Mobileye创立于1999年，但到2007年才开始盈利。类似的还有谷歌的无人驾驶车（差不多10年了），波士顿动力的机器人（貌似27年了），还有许许多多这样“耐得住寂寞”的公司。即使最后失败，相信也会滋养出更大的辉煌。而一旦成功，便能奠定绝对的市场地位，让其它竞争者难望其项背。

可以看到，学术界的成果和产品之间还有不小的鸿沟。当然其中的因素有很多，如成本、功耗等等，而其中最关键的因素之一是性能。传统的方式很多时候会算法管算法，整好后拿去优化，相互独立，最多整几轮迭代。而今天我们看到，两者需要越来越多地相互融合，共同演进。通过hardware-software co-design才能打造和打磨出更加完美的产品。它需要算法设计中便考虑对于特定平台硬件上的友好性。举例来说，为了更好的部署，网络设计时最好就要考虑哪些算子在目标平台上能被较好地加速；同时训练时加入特定的元素以便于后面的模型剪枝和量化。如果等吭哧吭哧训练了几周，模型都出来了再考虑这些问题就可能会带来巨大的成本。近几年大热的AutoML中的自动神经网络架构搜索（NAS）现在也越来越多地朝着hardware/platform-ware的方向发展。

最后，车辆环境感知中，数据的长尾问题是摆在AD/ADAS面前最大的问题。车辆环境是个开放环境，路上可能碰到任何无法预想的东西。2016年兰德智库指出自动驾驶系统需要进行110亿英里的测试才能达到量产应用条件。显然，这不是几辆车上路满大街跑能搞得定的，传统的测试手段已捉襟见肘。当然，对于ADAS这类驾驶辅助类功能要求会低一些，但本质上面临的问题是类似的。传统的汽车功能安全标准已经无法涵盖这类问题。虽然现在有针对性的预期功能安全（SOTIF）标准正在起草，但其可操作性和有效性还有待验证。总得来说，汽车的智能化给测试验证提出了非常有趣同时也是前所末有的挑战。

参考资料

[1] B. Huval et al., “An Empirical Evaluation of Deep Learning on Highway Driving,” CoRR, vol. abs/1504.01716, 2015.
[2] C. Szegedy, A. Toshev, and D. Erhan, “Deep Neural Networks for Object Detection,” in Advances in Neural Information Processing Systems 26, 2013, pp. 2553–2561.
[3] E. Shelhamer, J. Long, and T. Darrell, “Fully Convolutional Networks for Semantic Segmentation,” CoRR, vol. abs/1605.06211, 2016.
[4] V. Badrinarayanan, A. Handa, and R. Cipolla, “SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling,” CoRR, vol. abs/1505.07293, 2015.
[5] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs,” CoRR, vol. abs/1606.00915, 2016.
[6] E. Romera, L. M. Bergasa, and R. Arroyo, “Can we unify monocular detectors for autonomous driving by using the pixel-wise semantic segmentation of CNNs?,” CoRR, vol. abs/1607.00971, 2016.
[7] J. Kim and C. Park, “End-To-End Ego Lane Estimation Based on Sequential Transfer Learning for Self-Driving Cars,” in 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2017, pp. 1194–1202.
[8] X. Pan, J. Shi, P. Luo, X. Wang, and X. Tang, “Spatial As Deep: Spatial CNN for Traffic Scene Understanding,” ArXiv E-Prints, Dec. 2017.
[9] Y.-C. Hsu, Z. Xu, Z. Kira, and J. Huang, “Learning to Cluster for Proposal-Free Instance Segmentation,” CoRR, vol. abs/1803.06459, 2018.
[10] S. Lee et al., “VPGNet: Vanishing Point Guided Network for Lane and Road Marking Detection and Recognition,” CoRR, vol. abs/1710.06288, 2017.
[11] D. Neven, B. De Brabandere, S. Georgoulis, M. Proesmans, and L. Van Gool, “Towards End-to-End Lane Detection: an Instance Segmentation Approach,” ArXiv E-Prints, Feb. 2018.
[12] B. D. Brabandere, W. V. Gansbeke, D. Neven, M. Proesmans, and L. V. Gool, “End-to-end Lane Detection through Differentiable Least-Squares Fitting,” CoRR, vol. abs/1902.00293, 2019.
[13] N. Garnett, R. Cohen, T. Pe’er, R. Lahav, and D. Levi, “3D-LaneNet: end-to-end 3D multiple lane detection,” CoRR, vol. abs/1811.10203, 2018.
[14] Z. Wang, W. Ren, and Q. Qiu, “LaneNet: Real-Time Lane Detection Networks for Autonomous Driving” CoRR, vol. abs/1807.01726, 2018
[15] M. Ghafoorian, C. Nugteren, N. Baka, O. Booij, and M. Hofmann, “EL-GAN: Embedding Loss Driven Generative Adversarial Networks for Lane Detection”, CoRR, vol. abs/1806.05525, 2018
[16] Y. Hou, Z. Ma, C. Liu, and C. Change Loy, “Learning Lightweight Lane Detection CNNs by Self Attention Distillation,” ArXiv E-Prints, p. arXiv:1908.00821, Aug. 2019.
[17] Q. Zou, H. Jiang, Q. Dai, Y. Yue, L. Chen, and Q. Wang, “Robust Lane Detection from Continuous Driving Scenes Using Deep Neural Networks”, CoRR, vol. abs/1903.02193. 2019
[18] Z. Zou, Z. Shi, Y. Guo, and J. Ye, “Object Detection in 20 Years: A Survey,” CoRR, vol. abs/1905.05055, 2019.
[19] X. Wu, D. Sahoo, and S. C. H. Hoi, “Recent Advances in Deep Learning for Object Detection,” ArXiv E-Prints, p. arXiv:1908.03673, Aug. 2019.
[20] Q. Zhao, T. Sheng, Y. Wang, F. Ni, and L. Cai, “CFENet: An Accurate and Efficient Single-Shot Object Detector for Autonomous Driving,” ArXiv E-Prints, Jun. 2018.
[21] A. Bewley, Z. Ge, L. Ott, F. Ramos, and B. Upcroft, “Simple Online and Realtime Tracking,” CoRR, vol. abs/1602.00763, 2016.
[22] N. Wojke, A. Bewley, and D. Paulus, “Simple Online and Realtime Tracking with a Deep Association Metric,” CoRR, vol. abs/1703.07402, 2017.
[23] X. Pan, P. Luo, J. Shi, and X. Tang, “Two at Once: Enhancing Learning and Generalization Capacities via IBN-Net,” in The European Conference on Computer Vision (ECCV), 2018.
[24] H. Zhao et al., “PSANet: Point-wise Spatial Attention Network for Scene Parsing,” in Computer Vision – ECCV 2018, Cham, 2018, pp. 270–286.
[25] A. G. Howard et al., “MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications,” ArXiv E-Prints, Apr. 2017.
[26] M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, and L.-C. Chen, “Inverted Residuals and Linear Bottlenecks: Mobile Networks for Classification, Detection and Segmentation,” ArXiv E-Prints, Jan. 2018.
[27] X. Zhang, X. Zhou, M. Lin, and J. Sun, “ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices,” ArXiv E-Prints, Jul. 2017.
[28] N. Ma, X. Zhang, H.-T. Zheng, and J. Sun, “ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design,” ArXiv E-Prints, 2018.
[29] M. Tan and Q. V. Le, “EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks,” ArXiv E-Prints, p. arXiv:1905.11946

你可能感兴趣的:(AI)

iOS OC使用正则表达式去除特殊符号并加粗文本，适用于接入AI大模型的流模式数据的文字处理 MrZWCui iOS ios xcode objective-c 正则表达式学习
1、编写逻辑使用分类(Category)的方法拓展NSString，本文使用NSString(Markdown)，NSString的分类来编写一个通用方法，使用正则表达式匹配字符串实现去除特殊字符，并自定义文字属性。在接入AI大模型后，返回的字符串会带有特殊字符用于做文字处理，下面代码简单进行了文字处理展示。2、代码实现1、NSString+Markdown.h#importNS_ASSUME_N
通义千问：阿里巴巴的AI大模型深度解析俊星学长人工智能
通义千问：阿里巴巴的AI大模型深度解析在人工智能（AI）技术日新月异的今天，大型语言模型作为其中的佼佼者，正逐步改变着我们的生活与工作方式。阿里巴巴推出的通义千问，作为这一领域的佼佼者，以其卓越的性能和广泛的应用场景，引起了业界的广泛关注。本文将从通义千问的简介、模型架构、技术特点与优势、应用场景以及未来发展等多个方面，对其进行全面解析。一、通义千问简介通义千问是由阿里云开发的一款大型语言模型，旨
聊聊langchain4j的AiServices llm
序本文主要研究一下langchain4j的AiServices示例原生版本publicinterfaceAssistant{Stringchat(StringuserMessage);}构建Assistantassistant=AiServices.create(Assistant.class,chatLanguageModel);Stringresp=assistant.chat(userMes
Visual Studio Code (VS Code) – C/C++ 入门
——基于VisualStudioCode官方文档的全面的、具体的入门级教程请移步至https://blog.csdn.net/m0_73287396/article/details/128635316
DeepSeek：中国大模型 “破壁者” 引发的四大产业地震赵同学爱学习人工智能 chatgpt DeepSeek 语言模型大模型开源
导语：当全球AI产业还在为GPT-4的1750亿参数惊叹时，中国团队DeepSeek以颠覆性创新撕开了大模型领域的“铁幕”。这款首个引发国际学术界集体关注的中文大模型，正从技术底层重构产业规则，其冲击波已蔓延至硬件、软件、商业模式的每个角落。一、算力霸权瓦解：低成本训推技术改写游戏规则1.1训练成本“悬崖式下降”DeepSeek通过混合专家架构（MoE）动态路由算法，在同等效果下将模型激活参数压缩
Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
聊聊langchain4j的Tools(Function Calling) langchain4j
序本文主要研究一下langchain4j的Tools(FunctionCalling)示例tool@Slf4jpublicclassWeatherTools{@Tool("Returnstheweatherforecastfortomorrowforagivencity")StringgetWeather(@P("Thecityforwhichtheweatherforecastshouldber
谷歌Gemini 3大模型发布，AI领域再掀波澜！广拓科技人工智能
在人工智能的浩瀚宇宙中，每一次重大突破都如同一颗璀璨的新星，照亮我们对未来的想象。而近期，谷歌发布的Gemini3大模型，无疑是其中最为耀眼的存在，它在AI领域激起的波澜，迅速蔓延至全球科技圈，引发了广泛关注与热烈讨论。随着AI技术的迅猛发展，我们已经见证了众多令人惊叹的创新成果。从智能语音助手到图像识别技术，从自动驾驶汽车到医疗诊断辅助系统，AI正以前所未有的速度改变着我们的生活和工作方式。在这
详解TCP三次握手（建立连接）和四次握手（释放连接） dvlinker 网络编程与网络问题分享 C/C++实战专栏 tcp/ip 网络协议 TCP连接三次握手四次挥手
VC++常用功能开发汇总（专栏文章列表，欢迎订阅，持续更新...）https://blog.csdn.net/chenlycly/article/details/124272585<
Educoder题目：Java入门 - 变量与数据类型答案解析 bingeho Educoder题目解析 java r语言开发语言
变量与常量src/chapter2/step1/HelloWorld.javapackagechapter2.step1;publicclassHelloWorld{publicstaticvoidmain(String[
JavaScript性能优化指南：聚焦DOM操作优化桃木山人技术杂谈 javascript 性能优化开发语言
引言：性能优化的关键路径在Web应用开发中，JavaScript性能直接影响用户体验。虽然存在多种优化手段，但DOM操作优化往往能带来最显著的性能提升。本文将以DOM操作为核心展开深入分析，并简要概述其他优化方向。核心优化：DOM操作性能提升1.问题根源分析浏览器渲染引擎与JavaScript引擎独立运作，频繁的DOM操作会导致：重排（Reflow）：计算元素几何属性重绘（Repaint）：更新元
Transformer架构在生成式AI中的应用解析二进制独立开发非纯粹GenAI 人工智能 transformer 架构深度学习机器学习 tensorflow 迁移学习
文章目录1.Transformer架构概述1.1Transformer的核心思想1.2Transformer架构的优势2.Transformer在文本生成中的应用2.1GPT系列：基于Transformer的自回归文本生成2.2BERT系列：基于Transformer的双向编码器3.Transformer在图像生成中的应用3.1VisionTransformer（ViT）3.2DALL·E：基于T
1141. 【贪心算法】排队打水 (❁´◡`❁)Jimmy(❁´◡`❁) 粉丝才可以看的NC题解贪心算法算法
题目描述有n（nusingnamespacestd;typedefpairIpair;arrayArrayMan;intn;intmain(){scanf("%d",&n);for(inti=0;i
无需月费，完全本地运行！开源神器Local Deep Research解锁AI研究新姿势遇见小码 AI棱镜实验室人工智能开源 github
在AI技术日新月异的今天，动辄数百美元的订阅费和高性能硬件需求，让许多开发者和小团队对前沿研究工具望而却步。然而，近期一款名为LocalDeepResearch的开源项目横空出世，凭借完全免费、本地化运行、高度可定制的特性，迅速成为技术社区的热议焦点。它不仅打破了传统AI研究工具的高昂门槛，更让每个人都能轻松拥有堪比专业团队的研究能力！一、LocalDeepResearch是什么？LocalDee
**ResNet-SE + MFCC** 训练框架，包括 **数据加载、训练流程**，以及 **混淆矩阵** 可视化示例大霸王龙系统分析业务矩阵 python 线性代数人工智能机器学习深度学习
1.依赖库安装如果你还没安装相关库，请先执行：pipinstalltorchtorchaudiotorchvisionscikit-learnmatplotlibtqdm2.数据加载这里假设你有一个音频分类数据集，其文件结构如下：dataset/│──train/│├──class_0/││├──audio_0.wav││├──audio_1.wav│├──class_1/││├──audio_0
PO、DTO、VO等9大对象划分详解，让你的代码不再“一团糟” 码熔burning SpringBoot Java Java SpringBoot
目录一、PO(PersistentObject)二、DO(DomainObject)三、TO(TransferObject)四、DTO(DataTransferObject)五、VO(ViewObject)六、BO(BusinessObject)七、POJO(PlainOrdinaryJavaObject)八、DAO(DataAccessObject)九、Entity对象转换与使用场景总结何时使用
FastAPI安全防护指南：构建坚不可摧的参数处理体系 qcidyu fastapi 安全
扫描二维码关注或者微信搜一搜：编程智域前端至全栈交流与成长探索数千个预构建的AI应用，开启你的下一个伟大创意第一章：输入验证体系1.1类型安全革命frompydanticimportBaseModel,PaymentCardNumberfrompydantic.typesimportSecretStrclassUserRequest(BaseModel):username:str=Field(mi
LLM之Colossal-LLaMA-2：源码解读(init_tokenizer.py文件)实现基于源词表的扩展、(init_model.py文件)实现过计算均值扩展模型、(prepare_pretr 一个处女座的程序猿 CaseCode NLP/LLMs 精选(人工智能)-中级 Colossal LLaMA-2 自然语言处理
LLM之Colossal-LLaMA-2：源码解读(init_tokenizer.py文件)实现基于jsonl文件中读取新词列表(新中文词汇)→for循环去重实现词表的扩展(中文标记的新词汇)→保存新的分词模型、(init_model.py文件)实现过计算均值来扩展模型的嵌入层以适应新的词汇表，然后保存扩展后的模型、(prepare_pretrain_dataset.py文件)将原始数据集进行处理
LLMs之Colossal-LLaMA-2：源码解读(train.py文件)基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插一个处女座的程序猿 NLP/LLMs 精选(人工智能)-中级 Colossal-AI LLaMA-2 大语言模型自然语言处理
LLMs之Colossal-LLaMA-2：源码解读(train.py文件)基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插件)→数据预处理(初始化分词器+数据处理器+数据加载器)→模型训练(初始化模型/优化器/学习率调度器/梯度检查点/Flash-Attention/设置数据类型/是否加载预训练模型/从上一次训练点继续训
小凯的疑惑(数论 ) vir02 算法数据结构 c++
#includeusingnamespacestd;typedeflonglongll;intmain(){//请在此输入您的代码lla,b;cin>>a>>b;llN=a*b-a-b;cout<<N;return0;}如果a和b互素，那么a*b-a-b是最大无法被表示的金额
聊聊langchain4j的ChatMemory langchain4j
序本文主要研究一下langchain4j的ChatMemoryChatMemorylangchain4j-core/src/main/java/dev/langchain4j/memory/ChatMemory.javapublicinterfaceChatMemory{/***TheIDofthe{@linkChatMemory}.*@returnTheIDofthe{@linkChatMemo
聊聊langchain4j的ChatMemory langchain4j
序本文主要研究一下langchain4j的ChatMemoryChatMemorylangchain4j-core/src/main/java/dev/langchain4j/memory/ChatMemory.javapublicinterfaceChatMemory{/***TheIDofthe{@linkChatMemory}.*@returnTheIDofthe{@linkChatMemo
聊聊langchain4j的RagAutoConfig langchain4j
序本文主要研究一下langchain4j-spring-boot-starter的RagAutoConfigLangChain4jAutoConfigdev/langchain4j/spring/LangChain4jAutoConfig.java@AutoConfiguration@Import({AiServicesAutoConfig.class,RagAutoConfig.class,Ai
聊聊langchain4j的RagAutoConfig langchain4j
序本文主要研究一下langchain4j-spring-boot-starter的RagAutoConfigLangChain4jAutoConfigdev/langchain4j/spring/LangChain4jAutoConfig.java@AutoConfiguration@Import({AiServicesAutoConfig.class,RagAutoConfig.class,Ai
聊聊langchain4j的AiServicesAutoConfig langchain4j
序本文主要研究一下langchain4j-spring-boot-starter的AiServicesAutoConfigLangChain4jAutoConfigdev/langchain4j/spring/LangChain4jAutoConfig.java@AutoConfiguration@Import({AiServicesAutoConfig.class,RagAutoConfig.c
深入理解cocotb的Timing Model (一) 数据库github
写在前面达坦科技即将开源的100GRDMARTL代码采用cocotb对其功能进行验证。因此，本文预先介绍一些cocotb验证框架相关的内容，希望以此抛砖引玉，引起大家对基于cocotb的敏捷验证的相关讨论交流。关于Cocotb的话题，会有一系列文章进行讨论，本篇是此系列的第一篇，欢迎大家关注达坦科技公众号，第一时间阅读最新文章。01、抛出问题在使用cocotb编写测试脚本时，大家肯定对类似awai
小狐狸AI数字人源码独立SAAS部署全开源+搭建环境教程 kaui52066 kaui52066精品源码人工智能 uni-app 前端小程序 php 小狐狸AI数字人数字人源码
一.系统介绍小狐狸AI数字人分身系统源码独立部署支持PC端、小程序端、H5端，一键克隆真人形象+声音核心功能亮点：1:1真人级克隆技术声音克隆：上传3分钟音频，AI深度学习声纹特征，复刻语气、情感、方言形象克隆：通过照片/视频建模，生成动态3D数字人，表情自然，动作流畅智能口型同步引擎AI算法精准匹配唇形与语音，实现口型同步0门槛SAAS化操作无需专业设备，网页端一键生成数字人视频海量模板库：电商
Dotnet洋葱架构实践福伴
实现数据层在DomainLayer目录里，建一个Models目录。在Models目录下，建两个类：BaseEntity.cspublicclassBaseEntity{publicintId{get;set;}publicDateTimeCreatedDate{get;set;}publicDateTimeModifiedDate{get;set;}publicboolIsActive{get;s
牛客练习赛128（下）筱姌牛客比赛算法 c++BFS DFS 图论动态规划
Cidoai的平均数对题目描述登录—专业IT笔试面试备考平台_牛客网运行代码#include#includeusingnamespacestd;intmain(){intn,k;cin>>n>>k;inttotalAns=0;intrSum=0;vectorex,weights;for(inti=0;i>a>>b;if(bf(rSum+1,0);for(inti=0;i=ex[i];--j){f[
用Python打造AI玩家：挑战2048，谁与争锋穿梭的编织者人工智能 python
文章目录一、创作背景二、效果图三、准备工作1.安装Chrome和ChromeDriver2.安装Python库四、代码说明‌1.init_driver函数‌2.play_2048函数‌五、完整代码六、改进版本七、主要模块八、核心算法分析1.棋盘状态获取2.位置权重系统3.连续性评估4.单调性评估5.移动模拟系统九、评估系统1.评估标准2.决策机制十、性能优化1.延迟控制2.错误处理十一、完整代码编
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置