Airs_Gao

Drive&Act：用于自动驾驶汽车细粒度驾驶员行为识别的多模态数据集

Drive&Act：A Multi-modal Dataset for Fine-grained Driver Behavior Recognition in Autonomous Vehicles

摘要
1. 简介
2. 其它驾驶员动作数据集
3. Drive&Act数据集
- 3.1 数据采集
- 3.2 记录的数据流
- - 传感器设置和视频流
  - 3D Body Pose
  - 3D Head Pose
  - Interior Model
  - Activity Classes
- 数据分段 Data Splits
4. 驾驶员动作的层次词汇表
- 4.1 场景/任务
- 4.2 Fine-grained Activities
- 4.3 Atomic Action Units
- 4.4 Additional Annotations
5. 自动驾驶情景下的动作识别模型
- 5.1 End-To-End模型
- 5.2 人体姿态和汽车内部结构
6. Benchmarks 和实验结果
- 6.1 驾驶员动作识别
- - （1）细粒度的活动
  - （2）原子作用单位分类
  - （3）场景识别/任务
- 6.2 多视图和多模态动作识别
- 6.3 Cross-View 动作识别

摘要

本文引入了一种新的特定领域的Drive&Act基准，用于对驾驶员行为进行细粒度分类。
数据集包含了12个小时，超过960万帧的人在手动驾驶和自动驾驶期间从事分心活动。
从六个视图中捕获颜色，红外，深度和3D身体姿势信息，并使用分层注释方案密集标记视频，从而得到83个类别。
数据集面临的主要挑战是:
(1)识别车辆舱内的细粒度行为;
(2)多模态活动识别，关注多种数据流;
(3)cross-view识别基准，其中模型处理来自不熟悉领域的数据，因为传感器的类型和座舱中的位置可能会在车辆之间发生变化。
最后，通过采用突出的基于视频和身体姿势的动作识别方法提供具有挑战性的基准。

1. 简介

虽然自动化的兴起鼓励了驾驶员的分心行为，但大多数计算机视觉研究都集中在理解车外的情况上。
同时，观察车内的人对改善人车通信、动态驾驶适应性和安全性具有很大的潜力。
据估计，大多数交通事故涉及方向盘后的次要活动，如果不发生分心，36%的碰撞是可以避免的。
虽然未来的驾驶员将逐渐从主动驾驶汽车中解脱出来，但向完全自动化水平的过渡是一个长期的过程。
过度依赖自动化可能会导致灾难性的后果，而且在很长一段时间内，司机将需要在不确定的情况下进行干预。
除了出于安全考虑识别驾驶员分心之外，驾驶员活动识别可以增加舒适性，例如，当人在喝咖啡、打开灯、读书时，可以调整驾驶风格。
驾驶员行为识别与更广泛的动作识别领域密切相关，由于深度学习的兴起，该领域的性能数据迅速增加。
这样的模型需要大量的数据，并且经常在基于颜色的大型数据集上进行评估，这些数据集通常来自Youtube，经过精心挑选，具有高度歧视性的操作。
可能是由于训练此类模型的数据集不足，对驾驶员活动理解的研究远远落后。
现有的工作通常是在仅限于对很少的低级动作进行分类(例如，人是否握着方向盘或换挡)。现有的基准都没有涵盖更高级别的活动(例如换衣服)，尤其是在高度自动驾驶的情况下。
论文的目标是促进现实驾驶条件下的活动识别研究，如低光照和有限的身体能见度，并提出了新的Drive&Act数据集。
Drive&Act提供了与活动识别模型的实际应用相关的各种潜在挑战，并且是第一个公开可用的数据集，它结合了以下属性：
（1）在自动驾驶和手动驾驶环境下的驾驶员次要活动(共83个类别)。
（2）多模态: 颜色、深度、红外和身体姿势数据，因为传统的基于rgb的动作识别数据集忽略了低照度的情况。
（3）多视图: 六个同步的摄像头视图覆盖车辆舱室，以处理有限的车身能见度。
（4）分层活动标签：在包括上下文注释的三个抽象和复杂级别上。
（5）单个类之间的细粒度区分 (如开瓶和闭瓶)，动作持续时间和复杂性的高度多样性，这对动作识别方法提出了额外的挑战。（例如，从里面开门通常需要不到一秒钟的时间，而阅读一本杂志可能需要几分钟）
除了自动驾驶应用之外，该数据集还填补了在多个抽象层次上进行简洁识别的大型多模态基准的不足。
对基于视频和身体姿势的动作识别的最新方法进行了广泛的评估，表明基准测试的难度，突出了进一步广泛的动作识别研究的必要性。

2. 其它驾驶员动作数据集

AUC Distracted Driver Dataset
相关论文：Real-time Distracted Driver Posture Classification

3. Drive&Act数据集

为了解决缺乏特定领域行为识别基准的问题，我们收集并公开发布了Drive&Act数据集，其中包括驾驶员在手动和自动模式下驾驶时从事次要任务的12小时数据。

3.1 数据采集

在静态驾驶模拟器中收集数据集。
使用SILAB仿真软件1，在改装后的奥迪A3周围的多个屏幕上模拟和投影车辆周围的环境。
手动、自动驾驶和接管都可以在我们的设置中诱导。
为了鼓励多样化和积极主动的行为，在每个会话中，驾驶员被指示完成12个不同的任务(图1中说明了两个指令示例)。

第一个任务包括进入汽车，进行调整，开始手动驾驶，并在几分钟后切换到自动模式。
所有下面的指示(例如，用笔记本电脑查找当前的天气预报，并通过短信报告)，在安装的平板电脑上以随机顺序给出。
虽然大多数任务都是在自动驾驶时完成的，但在每个会话中，都会触发四个意外接管请求。
因此，这段旅程至少需要手动进行一分钟。虽然明确给出了粗任务的顺序，但它们执行的确切方式(即细粒度活动)留给了主体。
15人，4名女性和11名男性，参与了数据收集。为了促进多样性，我们选择了不同身高和体重、不同驾驶风格以及对辅助系统和自动化模式熟悉程度的参与者。所有参与者都被记录了两次，结果是30次驾驶，平均持续时间为24分钟。

3.2 记录的数据流

传感器设置和视频流

两种类型的静态定位摄像机覆盖车辆舱室: 5个近红外摄像机(NIR)(分辨率1280 × 1024像素，30 Hz)，1个微软Kinect，用于获取颜色(950 × 540像素，15HZ)，红外线(512 × 424 at 30 Hz)和深度数据(512 × 424 at 30 Hz)。
设置是专门为现实的驾驶条件，如低照明设计的。
目标是将活动识别模型从传统的颜色输入中解脱出来，因此青睐轻型近红外相机，这在夜间也很有效。
尽管如此，还是通过Kinect传感器，在尺寸上不太实用，但在研究界很受欢迎。

3D Body Pose

为了确定具有13个关节的3D上半身骨架，我们使用OpenPose，这是2D身体姿势估计的流行选择。
通过对3个正面视图(右上、前上、左上)的2D姿态进行三角测量获得3D姿态。
附加的后处理应用于填补缺失的关节使用插值相邻帧。

3D Head Pose

为了获得驾驶员的3D头部姿态，我们采用了流行的OpenFace神经架构。
由于这个模型有很大的头部旋转困难，我们确定了除后置摄像头以外的所有视图的头部姿势。
对于每一帧，只有一个子集的所有摄像机预测头部旋转成功。
从这些候选对象中，我们选择具有最正面视图的相机的结果，并将其转换为世界坐标。

Interior Model

我们还提供基于3D原语的汽车内部特征，这些原语描述了驾驶员与周围环境的交互。
这种表示包括汽车中不同存储空间的位置信息(例如座椅或脚踏)和汽车控制(例如方向盘、安全带和变速杆)，这些信息在过去已成功应用于驾驶员观察。

Activity Classes

录制的视频帧由人类注释者在三个抽象级别上手动标记，总共产生83个动作类。
它的目标是高级场景、细粒度活动(保留语义意义)和低级原子操作单元(表示环境和对象交互)。

数据分段 Data Splits

由于我们的目标是对新驾驶员的泛化进行评级，因此我们只对分类器以前未见过的人评估模型。
我们根据驾驶人的身份将数据集随机分为3个Splits。
对于每个Split，我们使用10个受试者的数据进行训练，2个受试者的数据进行验证，3个驾驶员的数据进行测试 (即分别为20,4和6个驾驶session)。
由于标注的动作持续时间各不相同，我们将每个动作段分成3s 或更少，并将它们用作基准测试中的样本。
提供评估脚本，以方便比较结果。

4. 驾驶员动作的层次词汇表

为了充分代表真实的驾驶情况，我们使用三种类型的来源对人工驾驶期间的次要任务进行了全面的综述:
(1)司机访谈，(2)警察对事故的回顾，(3)自然的汽车研究。
选择车内场景的关键因素是驾驶时参与活动的频率以及行为对驾驶员注意力的影响(例如，通过增加事故几率)。
结果显示，学生们对诸如打电话、在笔记本电脑上工作、搜索东西和识别基本身体动作等类别很感兴趣
(比如伸手去拿地板上的东西)，而吸烟等行为则被认为不那么有用。
某些类别，如睡眠，由于技术可行性而被省略。
从八个方面定义了相关驾驶员活动的词汇: 饮食，服装和配饰，工作，娱乐，进出和车辆调整，身体运动，物体操纵和使用车辆内部设备。
我们最后的词汇包括三个粒度级别上的83个活动标签，构建了一个基于复杂度和持续时间的三个级别的层次结构。

4.1 场景/任务

我们的受试者在每个阶段必须完成的12项任务(第3.1节)形成了我们的层次结构的第一级，这些任务要么是手动驾驶时的典型场景(例如吃喝)，要么是高度分散注意力的场景，这些场景随着自动化程度的提高而变得普遍(例如使用笔记本电脑)。
图4显示了场景的帧频分析，显示了我们的受试者将大部分时间(23%)花在娱乐任务(即观看视频)上，而在接到接管请求后手动驾驶的时间最短。
接管场景很特别，因为受试者被意外地要求中断他正在做的事情，接管并切换到手动驾驶。
分析对此类事件的反应(例如与先前活动或个人年龄的关系)是一个潜在的安全相关研究方向。

4.2 Fine-grained Activities

第二级表示细粒度的活动（Fine-grained Activities），将场景/任务分解为34个简洁的类别。
与即将到来的第三级原子动作（atomic action）单元相比，第二级类保留了明确的语义。
这些细粒度的活动在场景中自由交替，即不告诉驱动程序如何详细执行任务。
当然，不同程度的抽象之间有很强的因果关系，因为组合行为通常包含多个更简单的操作。
在这个层次上识别的一个关键挑战是类别的简洁性，就像我们区分关闭瓶子和打开瓶子，或者区分吃饭和准备食物一样。
我们认为，这种详细的区分对于应用非常重要，因为场景的粗组成部分(即车辆舱室或松散的身体位置)通常保持相似，并且相关的类别差异发生在比传统动作识别基准更小的规模上。
由于如此详细的注释，单个类的频率是变化的，如图3所示，图3显示了类分布的分析。
我们的数据集平均每个类别有303个样本，从背包里拿笔记本电脑是最少的(19个样本)，而坐着不动是最常见的类别(2797个样本)。
虽然我们将 3s 作为我们的样本(第3.3节)，但完整片段的持续时间因活动而异。

4.3 Atomic Action Units

原子操作单元 (Atomic Action Units) 的注释描述了最低程度的抽象，是与环境的基本驱动交互。
行动单元脱离了长期的语义意义，可以看作是前一级复杂活动的构建块。
我们将原子动作单元定义为动作、对象和位置的三元组。
我们涵盖了5种类型的动作(例如伸手)，17个对象类(例如书写板)和14个位置注释 (例如副驾驶脚井)，其分布如图3所示。
总的来说，在我们的数据集中捕获了372种可能的动作、对象和位置组合。

4.4 Additional Annotations

我们进一步提供驾驶环境的密集注释，表明驾驶员是处于自动驾驶模式，还是用左手、右手或双手驾驶。
我们还包括接管请求的时间戳和模拟器内部信号，例如方向盘角度。

5. 自动驾驶情景下的动作识别模型

为了更好地理解最先进算法在我们数据集上的性能，我们对各种方法及其组合进行了基准测试。
我们将这些算法分为两类:
（1）基于body pose和3D feature的方法；
（2）基于卷积神经网络(cnn)的端到端方法.
虽然基于cnn的模型通常是传统动作识别数据集的领跑者，但它们处理非常高维的输入，并且对训练数据的数量和领域变化(如相机视图变化)更加敏感。

5.1 End-To-End模型

在基于图像的动作识别中，模型直接对视频数据进行操作，即没有明确定义中间表示，而是通过cnn学习。
接下来，我们描述了三个突出的基于cnn的动作识别架构，我们将其用于我们的任务。
（1）C3D
C3D模型是第一个广泛使用的利用3D卷积进行动作识别的CNN。C3D由8个卷积层(3 × 3 × 3核)和5个池化层，然后是两个完全连接的层。
（2）Inflated 3D ConvNet
目前，最先进的动作识别技术是Inflated 3D架构 (I3D)。该架构建立在Inception-v1网络的基础上，通过使用额外的时间维度扩展2D过滤器。
（3）P3D ResNet
与之前的型号不同，P3D ResNet架构通过将空间域(即3 × 3 × 1)上的滤波器与时间维度上的滤波器相结合，使用3 × 3 × 3内核模拟3D卷积(即1 × 1 × 3)。此外，由于残差连接在动作识别领域的有效性，P3D ResNet利用了残差连接。

5.2 人体姿态和汽车内部结构

与基于cnn架构生成的中级特征图相比，3D身体姿势能够提供有关驾驶员当前活动的信息线索，同时仍然保持人类的可解释性。
因此，我们采用了基于骨骼的方法，将空间流和时间流结合起来，共同建模身体动力学和骨骼空间构型。每个流由堆叠的两层LSTM单元，跟随一个softmax 的全连接层构成。
该架构已经被Martin等人用于驾驶员动作识别，他们将带有汽车内部信息的网络扩展为三流架构。
分别描述三个流的分布：
（1）Temporal Stream：为了对驾驶员身体的运动动态进行编码，在每个时间步骤中，我们通过连接将所有13个关节联合起来，并在架构的第一个流中使用生成的向量。
（2）Spatial Stream：第二个流通过在每一步向循环网络提供单个关节的表示来编码关节的空间依赖性。为了平面化基于图的身体姿态表示，使用了遍历方案。
（3）Car-Interior Stream：由于场景中物体的位置可以提供当前动作的重要线索，因此我们还向模型提供了汽车内部的表示。为了利用这些数据，我们确定了手和头到数据集内部模型中提供的每个物体表面的距离。这有助于网络学习汽车内部和执行动作之间的关系。
（4）Combined Models：将时空流通过加权后期融合相结合。这个模型在下面被称为Two-Stream。再加入Car-Interior作为第三流的扩展模型，下面称为Three-Stream。

6. Benchmarks 和实验结果

在当前版本的基准测试中，我们专注于驾驶员行为的细粒度分类，并将其扩展到多模式和交叉视图设置。
给定一个3秒或更短的动作片段(在较短事件的情况下)，我们的目标是分配正确的活动标签。
我们遵循标准实践，通过使用每个类别的 top-1 识别率的平均值，采用average per-class accuracy。
注意，随机基线是特定于注释水平的，在0.31%和16.67%之间变化。

6.1 驾驶员动作识别

我们对每个层次结构级别分别评估我们的模型:
12个场景/任务(第一级)，
34个细粒度活动(第二级)，
372个{action, Object, Location}三元组可能组合的原子操作单元(第三级)。因为三元组的数量是非常多的，我们还分别报告正确分类的动作、目标和位置的性能(6,17和14类)。

（1）细粒度的活动

在表2中，我们比较了许多已发表的用于识别细粒度活动的方法，包括三种基于cnn的方法和四种基于身体和内部表示的模型。

（2）原子作用单位分类

表3报告了原子操作单元分类的结果，其中显示了{action、Object、Location}三元组单独，以及，整体精度的三元组值组合。

（3）场景识别/任务

表4显示了任务分类的结果。基于身体姿势的方法效果较好，但整体识别率低于其他水平。

6.2 多视图和多模态动作识别

在表5中，我们报告了基于cnn的通过Softmax输出分数的平均，I3D方法用于单个视图和模态及其组合。
正如预期的那样，识别成功与一般场景可见性相关(参见图2中摄像机覆盖的区域)。

6.3 Cross-View 动作识别

我们下一个调查领域是交叉视图和交叉模态设置,在这里我们评估在培训期间没有见过的视图中我们最好的执行端到端方法(如图6所示)。
交叉视识别是一项非常困难的任务，并且性能会显著下降。尽管如此，在大多数情况下，模型比随机基线获得更好的结果。

智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
黄仁勋链博会演讲实录：脱掉皮衣，穿上唐装，中文开场
黄仁勋一度尝试用中文开场，他说，“我在美国长大，学到了很多汉语。”他表示，像DeepSeek、阿里巴巴、MiniMax、百度，他们开发的产品都是世界级的，推动了全球人工智能的发展。中国的开源AI是全球进步的催化剂，以至于全世界各个行业都有机会加入到AI革命当中。7月16日，黄仁勋身着唐装出席了第三届链博会，在此之前，他身着标志性皮衣出席多个场合活动。在此之前，英伟达官宣获得H20芯片对华的出口许可
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
【大模型】结构化提示词：让AI高效完成复杂任务的“编程语言” JosieBook AI/大数据/云计算人工智能
文章目录前言：提示词一、不同提示词写作方法对比进阶技巧对比表实战组合策略二、三板斧：精准撰写提示词的黄金法则角色设定：为AI精准定位任务描述：明确行动指南输出要求：规范成果呈现三、魔法棒：零基础也能用的“AI需求翻译机”四、结构化：把提示词写成“可插拔的乐高”五、分治法：把“庞然大物”拆成可并行的小任务前言：提示词在人工智能时代，提示词（Prompt）已成为连接人类意图与AI能力的核心媒介。优质的
人工智能视频分析系统人员离岗报警设计方案 liuhu21 人工智能云计算运维
一、方案概述近几年安防监控技术不断的进步，特别是在人工智能推出之后。安防监控系统结合人工智能算法做到了许多以前无法做到的事情。就比如我们今天要说的离岗检测报警监控系统。以前我们只能通过人工值守监控室的方式，通过人的判断去观看现场人员在岗情况。如今有了离岗检测监控系统，系统可以自动监测现场人员是否在岗、离岗时间以及离岗人数等等。这样，大大减少了监控室值班人员的工作量，同时相较人工监管提升了工作效率。
AI新纪元：2025年深度学习技术突破与行业应用全景像素笔记杂谈人工智能深度学习 ai 自动驾驶工业数字化转型未来趋势技术创新
2025年，人工智能技术迎来爆发式增长，大模型、生成式AI和多模态技术持续突破，人形机器人量产元年正式开启，自动驾驶商业化进程加速，工业数字化转型全面铺开。这些进展不仅重塑了技术边界，更在多个行业创造了实际价值，推动AI从实验室走向产业化。本文将深入剖析2025年深度学习与AI领域的核心技术突破、行业应用案例及未来发展趋势，为技术从业者提供全面视角。一、深度学习核心技术突破：大模型、生成式AI与多
离岗误报率 20%？陌讯时序算法实测降 90% 2501_92474711 算法计算机视觉目标跟踪机器学习人工智能边缘计算
开篇：工业安防中的"隐形漏洞"在制造业车间、变电站等关键场景，离岗检测是保障生产安全的核心环节。传统监控系统依赖人工巡检，存在85%的漏检率；而普通视觉算法在光照变化、人员遮挡场景下，误报率常高达20%以上[实测数据显示]。某汽车零部件厂曾因离岗检测失效导致设备空转2小时，直接损失超12万元。这种"看得见的监控，防不住的风险"困境，凸显了传统视觉方案在复杂工业场景中的局限性。技术解析：从单帧检测到
雨天障碍物漏检？陌讯多模态算法实测 98% 准确率 2501_92474711 算法目标跟踪人工智能计算机视觉
开篇痛点：自动驾驶视觉系统的“暗礁”在自动驾驶感知层，路面障碍物识别堪称“生命线工程”。传统视觉算法在复杂场景下常面临三重困境：雨天水雾导致特征模糊时漏检率高达25%，逆光环境下小目标（如碎石、井盖）检出率不足60%，而追求高精度又会导致帧率跌破20FPS，难以满足实时性要求[1]。某车企实测数据显示，传统YOLOv8在城郊混合路况中，因障碍物识别延迟引发的决策偏差占测试事故的37%，这些问题成为
三篇AAAI顶级论文带你一键搞懂多模态！
关注gongzhonghao【计算机sci论文精选】！拿捏更多顶会顶刊发文资讯随着人工智能技术的飞速发展，多模态学习逐渐成为研究热点。多模态技术能够整合文本、图像、语音等多种模态的信息，为人工智能的应用带来了更丰富的语义理解和更强大的交互能力。此外，多模态技术在视频和语言任务中的应用也取得了显著进展。这些技术不仅提升了模型的性能，还为人工智能在更多领域的应用提供了新的可能性。今天小图给大家精选3篇
说一说加油 ccpjsg
今天要说的加油，不是汽车加油。而是我们看比赛时欢呼呐喊的加油。以前英语老师总说我们是中式英语，有的表达是中式的句式。howoldareyou?是问你多大了，你多少岁？但是有的学生却说成是怎么老是你？当然是玩笑话，但是我们也知道这是不正规的，只能平时开玩笑用。但是这一境况正在改变。今天就看了一条微博，加油的中式表达，addoil,被牛津词典收录。这就意味着addoil可以光明正大的出现在任何地方。本
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
注意力才是我们最值钱的东西心守平凡_王慧超
4月10日晚，罗永浩携手国民神车哈弗品牌完成了第二场带货直播。此次直播共售出11357张2777元的优惠券，预估销售额15.65亿元，创造了汽车直播带货的新纪录。流量时代真的已经来临了，随着互联网的高速发展，越来越多的网络用户增加，我们不得不承认，我们已经进入了一个网络时代，进入了一个流量大数据时代。我们所有想获得的东西都可以通过网络获取，资料、信息、购物，网络正在改变人们的生活方式，正在成为人们
计算机视觉产品推荐,个性化推荐:人工智能中的计算机视觉、NLP自然语言处理和个性化推荐系统哪个前景更好一些？...
这个问题直接回答的话可能还是有着很强的个人观点，所以不如先向你介绍一些这几个领域目前的研究现状和应用情况(不再具体介绍其中原理)你自己可以斟酌一下哪方面更适合自己个性化推荐。一．所谓计算机视觉，是指使用计算机及相关设备对生物视觉的一种模拟个性化推荐。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样[1]。现在人工智能的计算机视觉主要研究
2023-07-04盘面始终以轮动行情为主，踏准节奏仍是关键醉爱琳儿
A股7月04日早盘盘面始终以轮动行情为主，踏准节奏仍是关键。阅读蕴藏着无尽可能，有益于明理、增信、崇德、力行，让今人生绽放光彩。朋友们早上好，时间是7月04日星期二。上个交易日，三大股指集体高开，汽车产业链、复合集流体等板块走强提振新能源赛道，午后大金融、中字头板块起势，沪指收涨超1%。沪深两市成交额10151亿，较上周五放量965亿，两市成交金额重回万亿元上方。1）新能源赛道大幅反弹，其中钙钛矿
AI如何塑造下一代网络安全防御体系 weishi122 web安全人工智能网络人工智能网络安全威胁检测行为分析漏洞挖掘
AI如何塑造下一代网络安全防御体系随着网络威胁日益复杂化，传统安全措施已难以应对。人工智能(AI)正通过创新解决方案重塑网络安全格局。本文将探讨AI如何推动网络安全革命，并分析实施过程中的关键挑战。日益严峻的威胁形势到2025年，网络犯罪预计将造成全球10.5万亿美元损失。传统防御手段已无法应对快速演变的威胁，这正是AI发挥关键作用的领域。人工智能：新一代数字卫士AI能实时分析海量数据，在威胁发生
什么是Emark认证，流程及需要准备的资料 Microtest_CS 车载
Emark认证，作为国际性的汽车产品认证标志，是车辆及其零部件进入国际市场的重要通行证。它确保了车辆及其零部件符合联合国欧洲经济委员会（ECE）制定的相关法规和标准，为消费者提供了质量和安全的双重保障。本文将详细介绍Emark认证的含义、流程以及需要准备的资料，帮助企业和制造商更好地理解和应对这一认证过程。一、Emark认证的含义Emark认证，也被称为E-mark认证或ECE认证，是欧洲经济委员
【国内超大型智能算力中心建设白皮书 2024】 AI大模型 lose and dream 人工智能开源 git 开源软件 github gitlab 开放原子
文末有福利！智算中心建设通过领先的体系架构设计，以算力基建化为主体、以算法基建化为引领、以服务智件化为依托，以设施绿色化为支撑，从基建、硬件、软件、算法、服务等全环节开展关键技术落地与应用。一、体系架构（一）总体架构图8智算中心总体架构智能算力中心建设白皮书，重点围绕基础、支撑、功能和目标四大部分，创新性地提出了智算中心总体架构。其中，基础部分是支撑智算中心建设与应用的先进人工智能理论和计算架构；
高并发解决方案：SpringBoot+Redis分布式缓存实战 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人高并发解决方案：SpringBoot
SpringBoot缓存技术全解析：Redis+Caffeine二级缓存架构 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot缓存技术全解析：
米信使股票群诈骗真相！郑洪盛国浩盟国一带一路项目就是资金盘不要被骗了！不成功不收费
讲述:郑洪盛国浩盟国慈善投票被骗无法出金真相！套路太深教你该如何避！！骗子引诱人上当方式很简单：先给你一点甜头尝尝，一开始入金能正常提现，也能赚一点，但当投入更多钱时，你发现你的运气开始变差了。所以，荐股类骗局最大的迷惑性是：给受害人一种假象，你是投资亏损的，而不是被骗的！广大市民对此要提高警惕，如果是还没有投资，千万不要抱有侥幸心理，一定要及时远离！一定不要打草惊蛇低碳项目数字体育，人工智能ai
实现大语言模型与应用的无缝对接 meslog 技术分享语言模型 microsoft 人工智能
在当今人工智能快速发展的时代，大语言模型（LLMs）已经成为众多应用的核心驱动力。然而，如何让这些强大的模型与各种数据源和工具进行有效集成，仍然是一个挑战。ModelContextProtocol（MCP）正是为解决这一问题而设计的开放协议，它标准化了应用程序如何向大语言模型提供上下文信息。本文将介绍MCP的基本概念，并通过C#SDK展示如何实现客户端和服务器端的交互。什么是MCP？ModelCo
解决引入TransXNet模块后显存爆炸问题的全面指南 pk_xz123456 算法大数据 python 机器人数据挖掘深度学习
解决引入TransXNet模块后显存爆炸问题的全面指南前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。1.问题背景与现状分析1.1MF-PSN和TransXNet项目概述MF-PSN（Multi-FeaturePyramidStereoNetwork）是一个基于金字塔特征的多特征立体匹配网络，它通过构建多层次的特征金字塔来处理不同尺度的立体匹配问题
STM32 CAN 通信
STM32CAN通信文章目录STM32CAN通信前言一、硬件连接二、软件配置三、CAN通信流程四、错误处理与调试总结前言控制器局域网（ControllerAreaNetwork,CAN）是一种应用广泛的串行通信协议，特别适用于工业控制和汽车电子领域。STM32微控制器内置了CAN控制器，支持CAN协议2.0A和2.0B，能够实现高效可靠的分布式通信。本文档旨在STM32平台上实现CAN通信功能，内
人工智能时代下的数据新职业：新兴工作岗位版图研究司南锤 economics 人工智能
目录摘要第一章：AI驱动的数据价值链重构1.1从“沉睡金矿”到“流动的血液”：数据作为核心经济资产的激活1.2知识的新经济学：零边际成本革命1.3AI作为新的“操作系统”：重塑产业竞争格局第二章：基石层：数据准备与质量保障中的角色2.1数据标注与标签领导力：数据标注经理/主管2.2“地面真实”的守护者：AI数据质量专家第三章：技术核心层：构建AI与机器学习全生命周期的工程角色3.1AI生产线架构师
今日观察张鑫Jackie
1今天春天喝水的时候说：爸爸妈妈去上班了，还要去日本给她买玩具2翔：中午起床，说我答应他的要把小汽车的玩具给他玩有时候，讲故事没讲完，讲到一半我会说：小朋友请记住这页的内容，我们下次接着再讲3中午午睡神奇的开始了一个奇幻的故事之旅，让小宝止不住的要一直喊着：快过来检查一下我的身体，我身上有没有虫子4桃子现在都会跑到放洗漱杯旁边哭了2019.04.16张鑫祝近安
【机器学习】探索未来科技的前沿：人工智能、机器学习与大模型 AIGC零基础入门小白 AI大模型大模型教程人工智能机器学习科技 AI大模型 AIGC AI教程大模型教程
文章目录引言一、人工智能：从概念到现实1.1人工智能的定义1.2人工智能的发展历史1.3人工智能的分类1.4人工智能的应用二、机器学习：人工智能的核心技术2.1机器学习的定义2.2机器学习的分类2.3机器学习的实现原理2.4机器学习的应用2.5机器学习的示例代码2.6解释代码三、大模型：推动AI前沿发展的关键技术3.1大模型的定义3.2大模型的发展历程3.3深度学习与神经网络3.4大模型的优势与挑
现代人工智能综合分类：大模型时代的架构、模态与生态系统司南锤 economics 人工智能分类数据挖掘
目录引言：人工智能的第四次浪潮与新分类的必要性第一节：大型模型范式的基础支柱1.1规模化假说：算力、数据与算法的三位一体1.2“涌现能力”之谜：当“更多”变为“不同”1.3自监督学习（SSL）革命第二节：大型模型的技术分类学2.1Transformer：现代人工智能的架构基石2.2架构分化：一种功能性分类2.3提升效率与规模：专家混合模型（MoE）2.4超越Transformer：下一代架构的探索
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

Drive&Act：用于自动驾驶汽车细粒度驾驶员行为识别的多模态数据集

Drive&Act：A Multi-modal Dataset for Fine-grained Driver Behavior Recognition in Autonomous Vehicles

摘要

1. 简介

2. 其它驾驶员动作数据集

3. Drive&Act数据集

3.1 数据采集

3.2 记录的数据流

传感器设置和视频流

3D Body Pose

3D Head Pose

Interior Model

Activity Classes

数据分段 Data Splits

4. 驾驶员动作的层次词汇表

4.1 场景/任务

4.2 Fine-grained Activities

4.3 Atomic Action Units

4.4 Additional Annotations

5. 自动驾驶情景下的动作识别模型

5.1 End-To-End模型

5.2 人体姿态和汽车内部结构

6. Benchmarks 和实验结果

6.1 驾驶员动作识别

（1）细粒度的活动

（2）原子作用单位分类

（3）场景识别/任务

6.2 多视图和多模态动作识别

6.3 Cross-View 动作识别

你可能感兴趣的:(自动驾驶,汽车,人工智能,动作识别)