光光同学

【nuSences数据集】数据集简介与使用（一）

数据集网址：nuScenes

概述（官网直译）

nuScenes 数据集（发音为 /nuːsiːnz/）是由 Motional（前身为 nuTonomy）团队开发的自动驾驶公共大规模数据集。 Motional 正在使无人驾驶车辆成为安全、可靠和可访问的现实。通过向公众发布我们的数据子集，Motional 旨在支持公众对计算机视觉和自动驾驶的研究。

为此，我们在波士顿和新加坡收集了 1000 个驾驶场景，这两个城市以其密集的交通和极具挑战性的驾驶环境而闻名。 20 秒时长的场景是手动选择的，以展示多样化和有趣的驾驶机动、交通状况和意外行为。 nuScenes 的丰富复杂性将鼓励开发能够在每个场景中有数十个物体的城市地区安全驾驶的方法。收集不同大陆的数据进一步使我们能够研究计算机视觉算法在不同位置、天气条件、车辆类型、植被、道路标记以及左右手交通中的泛化。

为了促进常见的计算机视觉任务，例如对象检测和跟踪，我们在整个数据集上用 2Hz 的准确 3D 边界框注释 23 个对象类别。此外，我们注释对象级别的属性，例如可见性、活动和姿势。

2019 年 3 月，我们发布了包含全部 1000 个场景的完整 nuScenes 数据集。完整的数据集包括大约 140 万个相机图像、39 万个激光雷达扫描、140 万个雷达扫描和 4 万个关键帧中的 140 万个对象边界框。其他功能（地图图层、原始传感器数据等）将很快推出。作为 CVPR 2019 自动驾驶研讨会的一部分，我们还将组织 nuScenes 3D 检测挑战。

nuScenes 数据集的灵感来自开创性的KITTI 数据集。 nuScenes 是第一个提供来自自动驾驶汽车的整个传感器套件（6 个摄像头、1 个激光雷达、5 个雷达、GPS、IMU）的数据的大规模数据集。与 KITTI 相比，nuScenes 包含 7 倍以上的对象注释。

之前发布的大多数数据集都专注于基于相机的对象检测（cityscapes、mapillary、Apollo Scape、Berkeley DeepDrive），而 nuScenes 的目标是查看整个传感器套件。

2020 年 7 月，我们发布了 nuScenes-lidarseg。在 nuScenes-lidarseg 中，我们使用 32 个可能的语义标签之一（即激光雷达语义分割）从 nuScenes 的关键帧中注释每个激光雷达点。因此，nuScenes-lidarseg 在 40,000 个点云和 1000 个场景（850 个用于训练和验证的场景，以及 150 个用于测试的场景）中包含 14 亿个注释点。

nuScenes 数据集可免费用于非商业目的。非商业手段主要不是为了或直接用于商业利益或金钱补偿。非商业用途的例子包括但不限于个人用途、教育用途，例如在学校、学院、大学等，以及一些研究用途。如果您打算将 nuScenes 数据集用于商业目的，我们鼓励您通过发送电子邮件至 [email protected] 与我们联系以获取商业许可选项。我们希望这个数据集能让世界各地的研究人员开发安全的自动驾驶技术。

数据采集

场景规划

对于 nuScenes 数据集，我们在波士顿和新加坡收集了大约 15 小时的驾驶数据。对于完整的 nuScenes 数据集，我们发布了来自波士顿海港和新加坡 One North、皇后镇和荷兰村地区的数据。驾驶路线经过精心挑选，以捕捉具有挑战性的场景。我们的目标是多样化的地点、时间和天气条件。为了平衡类频率分布，我们包含了更多具有稀有类的场景（例如自行车）。使用这些标准，我们手动选择 1000 个场景，每个场景持续 20 秒。这些场景是由人类专家仔细注释的。注释器说明可以在 devkit 存储库中找到。

汽车设置

我们使用两辆具有相同传感器布局的雷诺 Zoe 汽车在波士顿和新加坡行驶。数据是从研究平台收集的，并不代表 Motional 产品中使用的设置。传感器的放置请参考上图。我们从以下传感器发布数据：

1x 旋转激光雷达（Velodyne HDL32E）： 20Hz 捕捉频率， 32 个光束，每个环 1080 (+-10) 个点， 32个频道，360° 水平 FOV，+10° 至 -30° 垂直 FOV，统一方位角 80m-100m 范围，可用返回达 70 米，± 2 cm 精度，高达每秒约 139 万点。

5x 远程雷达传感器（Continental ARS 408-21）： 13Hz 捕捉频率， 77GHz，使用调频连续波在一个周期内独立测量距离和速度，距离可达 250m，速度精度为 ±0.1 km/h。

6x 相机（Basler acA1600-60gc）： 12Hz 捕捉频率， Evetar 镜头N118B05518W F1.8 f5.5mm 1/1.8"， 1/1.8'' CMOS 传感器，1600x1200 分辨率，Bayer8 格式，每个像素编码 1 个字节，从原始分辨率裁剪 1600x900 ROI 以减少处理和传输带宽，自动曝光，曝光时间最长为 20 毫秒，图像解压缩为 BGR 格式并压缩为 JPEG ，请参阅下图中的相机方向和重叠。

1x IMU 和 GPS（高级导航空间）：定位精度20mm ，使用 GNSS 时的航向精度为 0.2°，滚动和俯仰精度为 0.1° ，定位考虑到 IMU、GPS 和高清激光雷达地图（有关详细信息，请参阅我们的论文）。

传感器校准

为了获得高质量的多传感器数据集，校准每个传感器的外部和内部是必不可少的。我们表示相对于自我框架的外部坐标，即后车轴的中点。最相关的步骤如下所述：

激光雷达外在：我们使用激光线精确测量激光雷达与自我框架的相对位置。

相机外在因素：我们在相机和激光雷达传感器前面放置了一个立方体形状的校准目标。校准目标由三个具有已知图案的正交平面组成。在检测到模式后，我们通过对齐校准目标的平面来计算从相机到 LIDAR 的变换矩阵。鉴于上面计算的 LIDAR 到 ego 帧的变换，我们可以计算相机到 ego 帧的变换以及由此产生的外部参数。

雷达外在：我们将雷达安装在水平位置。然后我们通过在城市环境中驾驶来收集雷达测量值。在过滤运动物体的雷达回波后，我们使用蛮力方法校准偏航角，以最小化静态物体的补偿距离率。

相机内在校准：我们使用具有一组已知模式的校准目标板来推断相机的内在和失真参数。

传感器同步

为了在 LIDAR 和摄像头之间实现良好的跨模态数据对齐，当顶部 LIDAR 扫过摄像头 FOV 的中心时，会触发摄像头的曝光。图像的时间戳为曝光触发时间；而激光雷达扫描的时间戳是当前激光雷达帧实现全旋转的时间。鉴于相机的曝光时间几乎是瞬时的，这种方法通常会产生良好的数据对齐。请注意，相机以 12Hz 运行，而 LIDAR 以 20Hz 运行。 12 次相机曝光尽可能均匀地分布在 20 次激光雷达扫描中，因此并非所有激光雷达扫描都有相应的相机帧。将摄像头的帧速率降低到 12Hz 有助于降低感知系统的计算、带宽和存储需求。

隐私保护

保护第三方的隐私是我们的首要任务。为此，我们使用最先进的对象检测技术来检测车牌和人脸。我们的目标是实现高召回率并消除与已知人和车厢的重投影不重叠的误报。最终，我们使用目标检测器的输出来模糊 nuScenes 图像中的人脸和车牌。

数据格式

本文档描述了 nuScenes 中使用的数据库模式。所有注释和元数据（包括校准、地图、车辆坐标等）都包含在关系数据库中。下面列出了数据库表。每一行都可以通过其唯一的key token来标识。诸如 sample_token 之类的外键可用于链接到表样本的令牌。有关最重要的数据库表的介绍，请参阅教程)。

属性

属性是实例的属性，在类别保持不变的情况下可以更改。示例：正在停放/停止/移动的车辆，以及自行车是否有骑手。

属性 {

        "token":           -- 唯一的记录标识符。

        "name":                  -- 属性名称。

        "description":          -- 属性描述。

}

校准传感器

在特定车辆上校准的特定传感器（激光雷达/雷达/相机）的定义。所有外在参数都是相对于自我车身框架给出的。所有相机图像都没有失真和校正。

校准传感器{

        "token":                              -- 唯一的记录标识符。

        "sensor_token":                 -- 指向传感器类型的外键。

        "translation":                  [3] -- 以米为单位的坐标系原点：x、y、z。

        "rotation": [4] -- 坐标系方向为四元数：w, x, y, z。

        "camera_intrinsic": [3, 3] -- 相机内在校准。对于不是相机的传感器为空。

}

类别

对象类别的分类（例如车辆、人类）。子类别由句号划分（例如human.pedestrian.adult）。

类别 {

        "token":                  -- 唯一的记录标识符。

        "name":                  -- 类别名称。按期间表示的子类别。

        "description":          -- 类别描述。

        "index":                 -- 在 nuScenes-lidarseg 的 .bin 标签文件中出于效率原因使用的标签的索引。该字段以前不存在。

}

自我姿势

自我车辆在特定时间戳的姿势。相对于日志地图的全局坐标系给出。 ego_pose 是我们论文中描述的基于激光雷达地图的定位算法的输出。定位在 x-y 平面上是二维的。

自我姿势{

        "token":                          -- 唯一的记录标识符。

        "translation":                  [3] -- 以米为单位的坐标系原点：x、y、z。请注意，z 始终为 0。

        "rotation":                  [4] -- 坐标系方向为四元数：w, x, y, z。

        "timestamp":                  -- Unix 时间戳。

}

实例

一个对象实例，例如特定车辆。该表是我们观察到的所有对象实例的枚举。请注意，不会跨场景跟踪实例。

实例 {

        "token": -- 唯一的记录标识符。

        "category_token": -- 指向对象类别的外键。

         "nbr_annotations": -- 此实例的注释数。

        "first_annotation_token":          -- 外键。指向此实例的第一个注释。

        "last_annotation_token":          -- 外键。指向此实例的最后一个注释。

}

激光雷达

nuScenes-lidarseg 注释和与关键帧关联的激光雷达点云对应的 sample_datas 之间的映射。

激光雷达{

        "token": -- 唯一的记录标识符。

        "filename": -- 包含 nuScenes-lidarseg 标签的 .bin 文件的名称。这些是使用 numpy 以二进制格式存储的 uint8 的 numpy 数组。

        "sample_data_token":     -- 外键。 Sample_data 对应于 is_key_frame=True 的带注释的激光雷达点云。

}

日志

有关从中提取数据的日志的信息。

日志 {

        "token":                         -- 唯一的记录标识符。

        "logfile":    -- 日志文件名。

        "vehicle": -- 车辆名称。

        "date_captured":          -- 日期 (YYYY-MM-DD)。

        "location": -- 捕获日志的区域，例如新加坡-北方。

}

地图

从自上而下的视图中映射存储为二进制语义掩码的数据。

地图 {

        "token": -- 唯一的记录标识符。

        "log_tokens": [n] -- 外键。

        "category":                  -- 地图类别，目前只有semantic_prior 用于可行驶的表面和人行道。

        "filename":                  -- 带有地图掩码的文件的相对路径。

}

样本

样本是 2 Hz 的带注释的关键帧。数据是在（大约）与单个 LIDAR 扫描的一部分相同的时间戳收集的。

样本 {

        "token": -- 唯一的记录标识符。

        "timestamp": -- Unix 时间戳。

         "scene_token": -- 指向场景的外键。

        "next":                     -- 外键。紧随其后的样本。如果场景结束则为空。

         "prev":                    -- 外键。时间上在此之前的样本。如果场景开始，则为空。

}

样本标签

定义样本中所见对象位置的边界框。所有位置数据都是相对于全局坐标系给出的。

样本注释{

        "token": -- 唯一的记录标识符。

        "sample_token": -- 外键。注意：这指向一个样本而不是样本数据，因为注释是在样本级别完成的，并考虑了所有相关的样本数据。

         "instance_token": -- 外键。此注释是哪个对象实例。随着时间的推移，一个实例可以有多个注释。

         "attribute_tokens": [n] -- 外键。此注释的属性列表。属性会随着时间而改变，所以它们属于这里，而不是在实例表中。

        "visibility_token": -- 外键。能见度也可能随时间而改变。如果没有注释可见性，则标记为空字符串。

        "translation": [3] -- 以米为单位的边界框位置，如 center_x、center_y、center_z。

        "size": [3] -- 以米为单位的边界框大小，如宽度、长度、高度。

        "rotation": [4] -- 边界框方向为四元数：w, x, y, z。

        "num_lidar_pts":             -- 此框中的激光雷达点数。在使用该样本识别的激光雷达扫描期间对点进行计数。

        "num_radar_pts":            -- 此框中的雷达点数。在使用该样本识别的雷达扫描期间计算点数。这个数字是所有雷达传感器的总和，没有任何无效点过滤。

        "next": -- 外键。来自同一个对象实例的样本注释，该实例及时跟随此。如果这是此对象的最后一个注释，则为空。

        "prev":    -- 外键。来自在此之前的同一对象实例的示例注释。如果这是此对象的第一个注释，则为空。

}

样本数据

传感器数据，例如图像、点云或雷达回波。对于 is_key_frame=True 的 sample_data，时间戳应该非常接近它指向的样本。对于非关键帧，sample_data 指向时间最近的样本。

样本数据 {

        "token":                                -- 唯一的记录标识符。

        "sample_token":                  -- 外键。此 sample_data 关联的样本。

        "ego_pose_token":                      -- 外键。

        "calibrated_sensor_token":          -- 外键。

        "filename":                           -- 磁盘上数据 blob 的相对路径。

        "fileformat":                          -- 数据文件格式。

        "width": -- 如果样本数据是图像，这是图像宽度（以像素为单位）。

        "height":                          -- 如果样本数据是图像，这是图像高度（以像素为单位）。

        "timestamp":                         -- Unix 时间戳。

         "is_key_frame":                  -- 如果 sample_data 是 key_frame 的一部分，则为 True，否则为 False。

        "next":                                  -- 外键。来自同一个传感器的采样数据及时跟进。如果场景结束则为空。

        "prev":                                  -- 外键。来自在此之前的同一传感器的采样数据。如果场景开始，则为空。

}

场景

场景是从日志中提取的 20 秒长的连续帧序列。多个场景可以来自同一个日志。请注意，对象身份（实例标记）不会跨场景保留。

场景 {

        "token":                               -- 唯一的记录标识符。

        "name":                                -- 短字符串标识符。

        "description":                        -- 场景的更长描述。

        "log_token":                          -- 外键。提取数据的日志点。

        "nbr_samples":    -- 该场景中的样本数。

         "first_sample_token": -- 外键。指向场景中的第一个样本。

        "last_sample_token": -- 外键。指向场景中的最后一个样本。

}

传感器

特定的传感器类型。

传感器 {

        "token": -- 唯一的记录标识符。

         "channel":                  -- 传感器通道名称。

        "modality":                  {camera,lidar,radar} -- 传感器模态。支持括号中的类别。

}

能见度

实例的可见性是在所有 6 个图像中可见的注释部分。分为 0-40%、40-60%、60-80% 和 80-100% 的 4 个容器。

能见度{

         "token":                  -- 唯一的记录标识符。

        "level": -- 可见性级别。

        "description": -- 可见性级别的描述。

}

数据标注

收集驾驶数据后，我们以 2Hz 采样同步良好的关键帧（图像、激光雷达、雷达），并将它们发送给我们的标注合作伙伴 Scale 进行标注。使用专家注释器和多个验证步骤，我们实现了高度准确的注释。 nuScenes 数据集中的所有对象都带有一个语义类别，以及一个 3D 边界框和它们出现的每一帧的属性。与 2D 边界框相比，这使我们能够准确地推断出对象在空间中的位置和方向。我们为 23 个对象类别提供了真实标签。有关每个类和示例图像的详细定义，请参阅注释器说明。对于完整的 nuScenes 数据集，我们为以下类别提供注释（不包括测试集）：对于 nuScenes-lidarseg，我们用语义标签注释激光雷达点云中的每个点。除了来自 nuScenes 的 23 个前景类（事物）之外，我们还包括 9 个背景类（事物）。有关每个类和示例图像的详细定义，请参阅 nuScenes 和 nuScenes-lidarseg 的注释器说明。我们为以下类别提供注释（不包括测试集）：（见官网图）

教程

我们在 devkit 中提供了许多 nuScenes 作为交互式 Jupyter Notebooks 的教程。对于不想下载数据集的用户，教程在此处显示为静态页面。这些教程涵盖了 nuScenes、nuScenes-lidarseg、地图和 CAN 总线扩展的基本用法，以及预测挑战。使用下面的下拉菜单选择您要查看的教程。或者，您可以在 Colab 上以交互方式运行教程。

探索

在此页面上，我们提供了工具来预览 nuScenes 数据集的一些场景，而无需下载整个数据集。

用法

下面是 nuScenes 中示例场景的 LIDAR 点云。要进行导航，请使用 SW 键前后移动，AD 键左右移动，QE 键上下移动，箭头键用于旋转，+- 用于在关键帧之间及时前后移动。您还可以使用底部的滑块跳转到不同的关键帧。加载场景可能需要 5-20 秒。要链接到特定场景或帧，请使用链接 nuScenes，其中 scene-0011 标识场景，0 是第一帧。您的浏览器必须支持 WebGL。如果您遇到技术问题，请联系 [email protected]。请注意，该工具可能会在某些版本的 Chrome 上崩溃。（去官网自己试）

激光雷达

在第一个 nuScenes 版本中，边界框或长方体用于表示 3D 对象。虽然在许多情况下很有用，但长方体缺乏捕捉关节物体精细形状细节的能力。 nuScenes-lidarseg 代表激光雷达语义分割，它具有更高级别的粒度，它为 nuScenes 数据集的 40,000 个关键帧中的每个激光雷达点包含一个带有语义标签的注释——一个惊人的 1,400,000,000 个激光雷达点，用 32 个标签之一进行注释。除了来自 nuScenes 的 23 个前景类（事物）之外，我们还包括 9 个背景类（事物）。有关每个类和示例图像的详细定义，请参阅 nuscenes 和 nuScenes-lidarseg（github.com）的注释器说明。

nuScenes-lidarseg 的分类与其他 nuScenes 和 nuImage 兼容，因此可以跨多种传感器模式进行广泛的研究。这对于工业界和学术界来说都是向前迈出的重要一步，因为它允许研究人员研究和量化新问题，例如激光雷达点云分割、前景提取、传感器校准和使用点级语义的映射。未来，我们计划围绕这些任务组织各种公共挑战。

nuScenes-lidarseg 站在巨人的肩膀上。学术 SemanticKITTI 数据集使用 28 个类的激光雷达分割标签注释著名的 KITTI 数据集。 KITTI 主要由交通密度低且交通状况挑战较少的郊区街道组成。它的注释只覆盖了前置摄像头，而不是整个 360 度视图。此外，它不包含雷达，并且严格用于非商业用途。 nuScenes 着手改进这些方面，包括来自新加坡和波士顿的城市和郊区场景的密集数据。它是一个覆盖整个 360 度视图的多模式数据集，可供商业实体使用。继 2019 年 10 月首次发布 nuScenes-lidarseg 之后，我们看到了许多其他激光雷达分割数据集的出现，例如 Hesai 的 Pandaset，我们期待更多的公司与社区分享他们的数据。

就像 nuScenes 一样，nuScenes-lidarseg 注释可免费用于非商业用途。非商业手段主要不是为了或直接用于商业利益或金钱补偿。非商业用途的例子包括但不限于个人用途、教育用途，例如在学校、学院、大学等，以及一些研究用途。如果您打算将 nuScenes 数据集用于商业目的，我们鼓励您通过发送电子邮件至 [email protected] 与我们联系以获取商业许可选项。

你可能感兴趣的:(轨迹预测数据集)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
诡谲的一夜乔三鳞
门缝里有一些眼睛，我再熟悉不过了，眼睛总和门有关。上次开门的时候，母亲的义眼骨碌碌地滚到我的脚边，顺着滚动的轨迹看过去，原来是父亲又打了母亲。父亲常这样殴打母亲，抓着她的头，往墙上，重重地砸。母亲的眼睛会掉下来，地上有灰，所以总要洗洗才能装回眼窝里。我想，装回去的时候会疼的——很疼，因为母亲总是流出血泪。所以，在我的认知里，门和眼睛的关系是紧密的，现在也一样，门缝里那些如葡萄般一串串的眼睛，摘一个
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
【347】脊梁式普通教师——《教育的100种可能（上）》（5）向日葵_1f86
用心是一节课，敷衍也是一节课，但是我们的尽心与否，很可能会改变一个孩子的人生轨迹。——李镇西学生张春银李镇西老师说：张春银不是“全国劳模”“特级教师”，但他真正代表了绝大多数的平凡教师、普通劳动者，这就是我要写张春银的原因。张春银老师是乡村教育的默默守望者，用他的爱守护着每一个孩子，上好每一堂课，用自己的青春去呵护孩子们的快乐成长。因为教育行走，我们也听到了更多乡村教师的故事，他们也都是用自己的爱
趁吾身未老逍遥书生111
趁吾身未老池非2020年，一场突如其来的新冠脑炎疫情，打破了原有的状态。工作与生活的轨迹发生了不确定的变化。01因为隔离防疫，正常的教学不能进行，线上网课成为教学的新形式，年过五十的我面对新的教学形式有些应不暇。只得退而求次，不再负责高考班级的课程。这样，就不用上网课做直播了。感觉很轻松很闲的同时，也感觉到了英雄迟暮。不得不承认，老了。该交班了。因为不能出门，整天呆在家里，一开始还很兴奋，终于可以
Python多线程实现大规模数据集高效转移 sand&wich 网络 python 服务器
背景在处理大规模数据集时，通常需要在不同存储设备、不同服务器或文件夹之间高效地传输数据。如果采用单线程传输方式，当数据量非常大时，整个过程会非常耗时。因此，通过多线程并行处理可以大幅提升数据传输效率。本文将分享一个基于Python多线程实现的高效数据传输工具，通过遍历源文件夹中的所有文件，将它们移动到目标文件夹。工具和库这个数据集转移工具主要依赖于以下Python标准库：os：用于文件系统操作，如
COCO 格式的数据集转化为 YOLO 格式的数据集 QYQY77 YOLO python
"""--json_path输入的json文件路径--save_path保存的文件夹名字，默认为当前目录下的labels。"""importosimportjsonfromtqdmimporttqdmimportargparseparser=argparse.ArgumentParser()parser.add_argument('--json_path',default='./instances
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
从门氏元素周期表看三皇五帝在关中论霜叶红似二月花y
世间所有物质，都是由不同元素组成的，科学家们”认识物质初期，所有元素也是多年逐一认识的。著名的俄罗斯化学家门捷列耶夫(DmitriMendeleev1834－1907)，在1869年首创的元素周期表，想必大家都很熟悉。他是怎么发现元素周期规律并制成表的？最权威的说法是他自己笔记中所记载的，是他做梦所得。门氏元素周期表这个表开始并不完善，但已经有个雏形了。当时只有已知的63种元素。但门氏预测应该有1
3.1 损失函数和优化：损失函数做只小考拉
用一个函数把W当做输入，然后看一下得分，定量地估计W的好坏，这个函数被称为“损失函数”。损失函数用于度量W的好坏。有了损失函数的概念后，就可以定量的衡量W到底是好还是坏，要找到一种有效的方法来从W的可行域里，找到W取何值时情况最不坏，，这个过程将会是一个优化过程。损失函数L_i定义：通过函数f给出预测的分数和真实的目标（或者说是标签y），可以定量的描述训练样本预测的好不好，最终的损失函数是在整个数
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
像在棉花糖上的憧憬楹枝笔
“上了大学你们就轻松了！”又是一年高考季，耳边突然回响着，在那段与时间拼命的时光里，老师为我们打下的这句鸡血。在多考一分就干掉一千人的高三，不得不佩服这句话所散发的诱惑力。我对于高三最难以忘怀的记忆，就是每天傍晚在天空中那一幅令人目不暇接的夕阳画。高三窗外的天空永远是那么的美丽。夕阳的晚霞渲染了周边洁白的云彩，与之相映衬的紫色霞光相互缭绕，飞机飞过的轨迹，无形中勾勒了一只小生物，像是醉在了碧海蓝天
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
python编写直方图和饼图 2301_80421078 python 开发语言
1.直方图#直方图的绘制#语法格式：plt.hist(x,bins),其中x:数据集；bins:统计数据的分布区间importmatplotlib.pyplotaspltimportpandasaspd#导入文件excel=pd.read_excel('成绩.xlsx')#print(excel)#避免乱码plt.rcParams['font.sans-serif']=['SimHei']x=ex
Cut, Paste and Learn方法解读 wangxinwei2000 深度学习人工智能
Abstract问题背景：标注数据的缺乏：在实例检测任务中，部署物体检测模型的一个主要障碍是缺乏大量标注数据。例如，在一个特定的厨房环境中找到包含实例的大型标注数据集是不太可能的。每当面对新的环境和新的物体实例时，都需要进行昂贵的数据收集和标注工作。研究贡献：解决方法：本文提出了一种简单的方法，可以以最小的努力生成大量标注的实例数据集。关键洞察：研究者的关键洞察是，仅仅确保“局部真实感”（patc
Python中判断两个字符串的内容是否相同 songyuc 《Python学习笔记》Python
1前言今天在划分数据集的时候，需要判断两个字符串的内容是否相同，这个之前查过，不过好像忘记了，所以想着再记录一下～2Python中判断两个字符串的内容是否相同使用“==”符号进行判断，这个判断是根据字符串中字符的ASCII进行判断的；在判断字符串内容是否相同时，不能使用“is”进行判断，因为is是判断变量的内存ID（即使用函数id(a)获得变量的内存ID）是否相同；
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam