从懒虫到爬虫

动物姿态估计：微调 YOLOv8 姿态模型

动物姿态估计是计算机视觉的一个研究领域，是人工智能的一个子领域，专注于自动检测和分析图像或视频片段中动物的姿势和位置。目标是确定一种或多种动物的身体部位（例如头部、四肢和尾巴）的空间排列。这项技术具有广泛的应用，从研究动物行为和生物力学到野生动物保护和监测。

在这篇博文中，我们将专门处理狗的关键点估计，并向您展示如何微调 Ultralytics 非常流行的 YOLOv8 姿势模型。

微调动物关键点的姿态模型可能具有挑战性，需要微调多个超参数。幸运的是，YOLOv8 在模型微调期间提供了相当多的超参数自定义。准确地说，我们将微调以下 YOLOv8 姿势模型：

YOLOv8m（中）
YOLOv8l（大）
此外，通过比较 YOLOv7 和 MediaPipe 姿态模型之间的推理结果，查看我们深入的人体姿态分析。

1. 斯坦福狗的动物姿势估计数据集
2. 用于动物姿态估计的数据集异常
2.1 处理跨框和关键点的不匹配的地面实况注释，以进行动物姿态估计
3. 为训练和验证数据创建与 YOLOv8 一致的注解
3.1 下载图像数据和关键点元数据
3.2 创建用于动物姿态估计的 YOLO 训练和验证目录
3.3 创建最终的 YOLO 注释文本文件
4 动物姿态估计的超参数设置和微调
4.1 训练配置
4.2 数据配置
4.3 动物姿势估计的微调和训练
5 YOLOv8在动物姿态估计中的评价
6 动物姿势图像预测的可视化
7 结论
8 引用

斯坦福狗的动物姿势估计数据集
对于我们的动物姿势估计实验，我们将使用斯坦福数据集，该数据集包含 120 个品种的狗，分布在 20,580 张图像中。此外，数据集还包含这些图像的边界框注释。

关键点注释需要通过填写谷歌表单从 StandfordExtra 数据集下载。在 12,538 张图像中提供了 20 个狗姿势关键点的关键点注释（每条腿 3 个，每只耳朵 2 个，尾巴、鼻子和下巴 2 个）。

下载的注释将包含以下结构：

StanfordExtra_V12
├── StanfordExtra_v12.json
├── test_stanford_StanfordExtra_v12.npy
├── train_stanford_StanfordExtra_v12.npy
└── val_stanford_StanfordExtra_v12.npy

训练、验证和测试拆分分别作为原始数据的索引提供，这些数据分别包含 6773、4062 和 1703 图像的注释。StanfordExtra_v12.json

作者还以文件的形式提供了关键点元数据，其中包含动物姿势名称、每个关键点的颜色编码等。但是，它包含 24 个关键点（每个眼睛、喉咙和肩膀各 1 个）的信息。可以使用下图来说明关键点。CSV

需要微调的狗关键点

在总共 24 个关键点中，只有 20 个存在注释。对于遗漏的 4 个关键点（2 个用于眼睛、喉咙和凋零），坐标标记为 0。

还有一个额外的布尔可见性标志，它与 20 个关键点相关联：

0：不可见
1：可见
用于动物姿态估计的数据集异常
边界框和关键点的真值注释仅适用于单个对象实例。此外，仍然有相当多的不正确的注释，从下面的示例中可以看出。

边界框和关键点的真值注释仅适用于单个对象实例。此外，仍然有相当多的不正确的注释，从下面的示例中可以看出。

从最左上角的图像中可以看出，边界框和关键点已针对两个不同的对象实例进行了注释。第一行的第二张和第四张图片（从左到右）以及第二行的第一张和第三张图片也反映了这一点。

此外，关键点也被错误地注释了，如第一行的第三张图片所示，下颌和左耳尖被错误地注释。第二行的第一张图像也是如此，其中左耳的尖端被错误标记。第二行的第四张图片中出现了另一个不正确的注释，其中两个耳塞都被贴错了标签。

如前所述，每个图像只有单个实例注释。观察第二行的第二张图片（从左到右），我们只有左边的狗的注释，而有三个狗的实例。

处理跨框和关键点的不匹配的地面实况注释，以进行动物姿态估计
处理不匹配的框和关键点注释的一种直观方法是根据给定的关键点估计矩形。这可以使用实用程序函数来近似给定一组坐标的矩形来完成。请稍等片刻，看看下面的示例。cv2.boundingRect

处理不匹配的边界框和关键点批注

尽管边界框并不完美，但使用上述方法处理不匹配的边界框和关键点注释可能成本低廉。我们可以运行一个检测模型，如 YOLOv8 来获得更准确的框注释，然后将关键点与最接近的边界框映射。

但是，我们将坚持使用原始 JSON 文件中提供的注释进行实验。
为训练和验证数据创建与 YOLOv8 一致的注解
在准备数据之前，我们需要精通 Ultralytics 的 YOLOv8 姿态模型所接受的关键点检测注释格式。以下几点突出显示了用于微调 Ultralytics 的 YOLOv8 Pose 模型的数据集格式：

用于训练YOLO姿态模型的数据集格式如下：

每张图片一个文本文件：数据集中的每张图片都有一个对应的文本文件，其名称和扩展名与图片相同。.txt
每个对象一行：文本文件中的每一行对应于图像中的一个对象实例。
每行对象信息：每行包含有关对象实例的以下信息：
对象类索引：表示对象类的整数（例如，人、汽车等）。01
对象中心坐标：对象中心的 x 和 y 坐标归一化为和。01
对象宽度和高度：对象的宽度和高度被规范化为介于和之间。01
对象宽度和高度：对象的宽度和高度被规范化为介于和之间。01
此外，可见性标志与关键点坐标相关联。它可以包含以下三个值之一：

0：未标记
1：已标记但不可见
2：已标记且可见。
JSON 注释包含一个额外的布尔可见性标志和前面讨论的关键点坐标。我们将所有可见关键点的标志设置为。2

Ultralytics 中微调姿态模型的关键点注释对应于以下语法：

…

0 0.55991 0.503 0.76688 0.918 0.39143 0.91133 2.0 0.44227 0.72467 2.0

条目中的第一项是CLASS_ID，后跟边界框数据（规范化 x中心、y中心、宽度、高度），最后是归一化坐标以及可见性标志（即，对于两个关键点）。[x y]2

下载图像数据和关键点元数据

在开始数据准备之前，我们需要先下载图像数据。让我们定义一个实用程序函数，用于下载和提取包含图像的文件。此外，我们还将下载包含关键点元数据的元数据，例如动物姿势名称、每个关键点的颜色编码等，涵盖所有关键点。images.tarkeypoint_definitions.csv24

def download_and_unzip(url, save_path):
 
    print("Downloading and extracting assets...", end="")
    file = requests.get(url)
    open(save_path, "wb").write(file.content)
 
    try:
        # Extract tarfile.
        if save_path.endswith(".tar"):
            with tarfile.open(save_path, "r") as tar:
                tar.extractall(os.path.split(save_path)[0])

现在让我们指定图像和元数据 URL 并下载它们。

IMAGES_URL = r"http://vision.stanford.edu/aditya86/ImageNetDogs/images.tar"
IMAGES_DIR = "Images"
IMAGES_TAR_PATH = os.path.join(os.getcwd(), f"{IMAGES_DIR}.tar")
 
ANNS_METADATA_URL = r"https://github.com/benjiebob/StanfordExtra/raw/master/keypoint_definitions.csv"
ANNS_METADATA = "keypoint_definitions.csv"
 
# Download if dataset does not exists.
if not os.path.exists(IMAGES_DIR):
    download_and_unzip(IMAGES_URL, IMAGES_TAR_PATH)
    os.remove(IMAGES_TAR_PATH)
 
if not os.path.isfile(ANNS_METADATA):
    download_and_unzip(ANNS_METADATA_URL, ANNS_METADATA)

所有下载的图像都将提取到目录中。它具有以下目录结构：Images

Images/
├── n02085620-Chihuahua
│   ├── n02085620_10074.jpg
│   ├── n02085620_10131.jpg
│   └── ...
├── n02085782-Japanese_spaniel
│   ├── n02085782_1039.jpg
│   ├── n02085782_1058.jpg
│   └── n02085782_962.jpg
└── ...

它指定了所有 120 个类别的狗的图像文件。

创建用于动物姿态估计的 YOLO 训练和验证目录
在为动物姿态估计创建训练和验证数据之前，我们需要有注释 JSON 文件。该目录包含文件以及训练、验证和测试拆分。StanfordExtra_V12StanfordExtra_v12.json

StanfordExtra_V12
├── StanfordExtra_v12.json
├── test_stanford_StanfordExtra_v12.npy
├── train_stanford_StanfordExtra_v12.npy
└── val_stanford_StanfordExtra_v12.npy

现在让我们阅读注释文件。

NN_PATH = "StanfordExtra_V12"
JSON_PATH = os.path.join(ANN_PATH, "StanfordExtra_v12.json")
 
with open(JSON_PATH) as file:
    json_data = json.load(file)

列表中的每个条目都是一个字典，其中包含图像和注释信息。示例实例可以是以下内容：json_data

{'img_path': 'n02091134-whippet/n02091134_3263.jpg',
 'img_width': 360,
 'img_height': 480,
 'img_bbox': [21, 55, 328, 422],
 'is_multiple_dogs': False,
 'joints': [[175.33333333333334, 453.3333333333333, 1],
  [260.0, 367.0, 1],
  [248.0, 296.6666666666667, 1],
  [337.6666666666667, 302.6666666666667, 1],
  [333.0, 265.0, 1],
  [329.3333333333333, 231.33333333333334, 1],
  [48.666666666666664, 415.0, 1],
  [167.0, 340.5, 1],
  [182.66666666666666, 280.3333333333333, 1],
  [0, 0, 0],
  [250.5, 253.0, 0],
  [277.0, 211.0, 0],
  [297.0, 200.5, 0],
  [0, 0, 0],
  [263.0, 117.0, 1],
  [193.66666666666666, 113.33333333333333, 1],
  [238.33333333333334, 182.0, 1],

它具有以下密钥：

img_path：图像文件的路径。
img_width：图像宽度。
img_height：图像高度。
img_box：[x 中的边界框注释分钟、y分钟、宽度、高度] 格式。
is_multiple_dogs：一个布尔值，表示存在单个或多个狗实例。
joints：每个 24 个关键点像素坐标（x， y）的列表，每个坐标都与可见性标志和相关联。01
seg：运行长度编码（RLE）中的分段掩码。
文件：，并由与原始列表相关的训练和验证索引组成。
为简单起见，我们将使用测试数据进行验证。训练集和测试集分别包括 6773 个和 1703 个样本。train_stanford_StanfordExtra_v12.npytest_stanford_StanfordExtra_v12.npyjson_data

                                 "train_stanford_StanfordExtra_v12.npy"))
val_ids = np.load(os.path.join(ANN_PATH, 
                               "test_stanford_StanfordExtra_v12.npy"))

现在，我们将为每个 YOLO 创建训练和验证目录。具体来说，它将具有以下目录结构：

animal-pose-data
├── train
│   ├── images (6773 files)
│   └── labels (6773 files)
└── valid
    ├── images (1703 files)
    └── labels (1703 files)

现在，让我们初始化并创建训练和验证数据的目录路径。

DATA_DIR = "animal-pose-data"
 
TRAIN_DIR         = f"train"
TRAIN_FOLDER_IMG    = f"images"
TRAIN_FOLDER_LABELS = f"labels"
 
TRAIN_IMG_PATH   = os.path.join(DATA_DIR, TRAIN_DIR, TRAIN_FOLDER_IMG)
TRAIN_LABEL_PATH = os.path.join(DATA_DIR, TRAIN_DIR, TRAIN_FOLDER_LABELS)
 
VALID_DIR           = f"valid"
VALID_FOLDER_IMG    = f"images"
VALID_FOLDER_LABELS = f"labels"
 
VALID_IMG_PATH   = os.path.join(DATA_DIR, VALID_DIR, VALID_FOLDER_IMG)
VALID_LABEL_PATH = os.path.join(DATA_DIR, VALID_DIR, VALID_FOLDER_LABELS)

接下来，我们将使用和使用之前获得的图像和注释数据来收集图像和注释数据。train_idsval_idsjson_data

train_json_data = []
for train_id in train_ids:
    train_json_data.append(json_data[train_id])
 
val_json_data = []
for val_id in val_ids:
    val_json_data.append(json_data[val_id])

现在，我们将使用图像路径将图像文件从之前创建的和数据复制到相应的文件夹。train_json_dataval_json_dataimagestrainvalid



for data in train_json_data:
    img_file = data["img_path"]
    filename = img_file.split("/")[-1]
    copyfile(os.path.join(IMAGES_DIR, img_file),
             os.path.join(TRAIN_IMG_PATH, filename))
 
 
for data in val_json_data:
    img_file = data["img_path"]
    filename = img_file.split("/")[-1]
    copyfile(os.path.join(IMAGES_DIR, img_file),
             os.path.join(VALID_IMG_PATH, filename))

创建最终的 YOLO 注释文本文件

我们数据准备的最后一项任务是根据 Ultralytics 的 YOLO 创建框和关键点注释。由于我们将处理单个类（即狗），因此我们将类索引设置为。0

CLASS_ID = 0

鉴于框和地标处于绝对坐标中，我们需要在相对于图像分辨率的范围内对它们进行归一化。[0, 1]

该函数执行以下任务：create_yolo_boxes_kpts

修改关键点的可见性指示器（将标记关键点的可见性设置为）。2
规范化边界框和关键点相对于图像尺寸的坐标。
将边界框转换为规范化形式。

def create_yolo_boxes_kpts(img_size, boxes, lm_kpts):
 
    IMG_W, IMG_H = img_size
    # Modify kpts with visibilities as 1s to 2s.
    vis_ones = np.where(lm_kpts[:, -1] == 1.)
    lm_kpts[vis_ones, -1] = 2.
 
    # Normalizing factor for bboxes and kpts.
    res_box_array = np.array([IMG_W, IMG_H, IMG_W, IMG_H])
    res_lm_array = np.array([IMG_W, IMG_H])
 
    # Normalize landmarks in the range [0,1].
    norm_kps_per_img = lm_kpts.copy()
    norm_kps_per_img[:, :-1]  = norm_kps_per_img[:, :-1] / res_lm_array
 
    # Normalize bboxes in the range [0,1].
    norm_bbox_per_img = boxes / res_box_array 
 
    # Create bboxes coordinates to YOLO.
    # x_c, y_c = x_min + bbox_w/2. , y_min + bbox_h/2.
    yolo_boxes = norm_bbox_per_img.copy()
    yolo_boxes[:2] = norm_bbox_per_img[:2] + norm_bbox_per_img[2:]/2.
 
    return yolo_boxes, norm_kps_per_img

以下是的输入参数：create_yolo_boxes_kpts

img_size：指示图像尺寸（宽度、高度）的元组。
boxes：格式中的边界框。[xmin, ymin, width, height]
lm_kpts：具有形状（的）的地标关键点。[24, 3]3[x, y, visibility]
我们最终将根据之前获得的和为 YOLO 创建文件。该函数使用上述实用程序函数在 YOLO 中创建所需的注释。txttrain_json_dataval_json_datacreate_yolo_txt_files.txtcreate_yolo_boxes_kpts

def create_yolo_txt_files(json_data, LABEL_PATH):
 
    for data in json_data:
     
        IMAGE_ID = data["img_path"].split("/")[-1].split(".")[0]
     
        IMG_WIDTH, IMG_HEIGHT = data["img_width"], data["img_height"]
         
        landmark_kpts  = np.nan_to_num(np.array(data["joints"], dtype=np.float32))
        landmarks_bboxes = np.array(data["img_bbox"], dtype=np.float32)
         
        bboxes_yolo, kpts_yolo = create_yolo_boxes_kpts(
                                            (IMG_WIDTH, IMG_HEIGHT),
                                            landmarks_bboxes,
                                            landmark_kpts)
         
        TXT_FILE = IMAGE_ID+".txt"
         
        with open(os.path.join(LABEL_PATH, TXT_FILE), "w") as f:
                 
            x_c_norm, y_c_norm, box_width_norm, box_height_norm = round(bboxes_yolo[0],5),\
                                                                  round(bboxes_yolo[1],5),\
                                                                  round(bboxes_yolo[2],5),\
                                                                  round(bboxes_yolo[3],5),\
             
            kps_flattend = [round(ele,5) for ele in kpts_yolo.flatten().tolist()]
            line = f"{CLASS_ID} {x_c_norm} {y_c_norm} {box_width_norm} {box_height_norm} "
            line+= " ".join(map(str, kps_flattend))            
            f.write(line)

家 > 关键点检测 >动物姿态估计：微调 YOLOv8 姿态模型
动物姿态估计：微调 YOLOv8 姿态模型
库纳尔黎明库纳尔黎明
SEPTEMBER 19， 2023 5 评论
关键点检测关键点估计姿态估计 YOLO
动物后期估计功能gif
动物姿态估计是计算机视觉的一个研究领域，是人工智能的一个子领域，专注于自动检测和分析图像或视频片段中动物的姿势和位置。目标是确定一种或多种动物的身体部位（例如头部、四肢和尾巴）的空间排列。这项技术具有广泛的应用，从研究动物行为和生物力学到野生动物保护和监测。

在这篇博文中，我们将专门处理狗的关键点估计，并向您展示如何微调 Ultralytics 非常流行的 YOLOv8 姿势模型。

下载的注释将包含以下结构：

StanfordExtra_V12
├── StanfordExtra_v12.json
├── test_stanford_StanfordExtra_v12.npy
├── train_stanford_StanfordExtra_v12.npy
└── val_stanford_StanfordExtra_v12.npy

训练、验证和测试拆分分别作为原始数据的索引提供，这些数据分别包含 6773、4062 和 1703 图像的注释。StanfordExtra_v12.json

用于动物姿势估计的狗标志点
需要微调的狗关键点
在总共 24 个关键点中，只有 20 个存在注释。对于遗漏的 4 个关键点（2 个用于眼睛、喉咙和凋零），坐标标记为 0。

还有一个额外的布尔可见性标志，它与 20 个关键点相关联：

0：不可见
1：可见
用于动物姿态估计的数据集异常
边界框和关键点的真值注释仅适用于单个对象实例。此外，仍然有相当多的不正确的注释，从下面的示例中可以看出。

动物姿态估计的数据异常
数据集异常
边界框和关键点的真值注释仅适用于单个对象实例。此外，仍然有相当多的不正确的注释，从下面的示例中可以看出。

如前所述，每个图像只有单个实例注释。观察第二行的第二张图片（从左到右），我们只有左边的狗的注释，而有三个狗的实例。

处理不匹配的注释以进行动物姿势估计
处理不匹配的边界框和关键点批注
尽管边界框并不完美，但使用上述方法处理不匹配的边界框和关键点注释可能成本低廉。我们可以运行一个检测模型，如 YOLOv8 来获得更准确的框注释，然后将关键点与最接近的边界框映射。

但是，我们将坚持使用原始 JSON 文件中提供的注释进行实验。

下载代码为了轻松完成本教程，请单击下面的按钮下载代码。注册完全免费！

下载代码

点击这里下载这篇文章的源代码
为训练和验证数据创建与 YOLOv8 一致的注解
在准备数据之前，我们需要精通 Ultralytics 的 YOLOv8 姿态模型所接受的关键点检测注释格式。以下几点突出显示了用于微调 Ultralytics 的 YOLOv8 Pose 模型的数据集格式：

用于训练YOLO姿态模型的数据集格式如下：

Ultralytics 中微调姿态模型的关键点注释对应于以下语法：

…

1
0 0.55991 0.503 0.76688 0.918 0.39143 0.91133 2.0 0.44227 0.72467 2.0
条目中的第一项是CLASS_ID，后跟边界框数据（规范化 x中心、y中心、宽度、高度），最后是归一化坐标以及可见性标志（即，对于两个关键点）。[x y]2

下载图像数据和关键点元数据
在开始数据准备之前，我们需要先下载图像数据。让我们定义一个实用程序函数，用于下载和提取包含图像的文件。此外，我们还将下载包含关键点元数据的元数据，例如动物姿势名称、每个关键点的颜色编码等，涵盖所有关键点。images.tarkeypoint_definitions.csv24
def download_and_unzip(url, save_path):

print("Downloading and extracting assets...", end="")
file = requests.get(url)
open(save_path, "wb").write(file.content)

try:
    # Extract tarfile.
    if save_path.endswith(".tar"):
        with tarfile.open(save_path, "r") as tar:
            tar.extractall(os.path.split(save_path)[0])
         
    print("Done")
except:
    print("Invalid file")

现在让我们指定图像和元数据 URL 并下载它们。

IMAGES_URL = r"http://vision.stanford.edu/aditya86/ImageNetDogs/images.tar"
IMAGES_DIR = "Images"
IMAGES_TAR_PATH = os.path.join(os.getcwd(), f"{IMAGES_DIR}.tar")
 
ANNS_METADATA_URL = r"https://github.com/benjiebob/StanfordExtra/raw/master/keypoint_definitions.csv"
ANNS_METADATA = "keypoint_definitions.csv"
 
if not os.path.exists(IMAGES_DIR):
    download_and_unzip(IMAGES_URL, IMAGES_TAR_PATH)
    os.remove(IMAGES_TAR_PATH)
 
if not os.path.isfile(ANNS_METADATA):
    download_and_unzip(ANNS_METADATA_URL, ANNS_METADATA)

所有下载的图像都将提取到目录中。它具有以下目录结构：Images

Images/
├── n02085620-Chihuahua
│   ├── n02085620_10074.jpg
│   ├── n02085620_10131.jpg
│   └── ...
├── n02085782-Japanese_spaniel
│   ├── n02085782_1039.jpg
│   ├── n02085782_1058.jpg
│   └── n02085782_962.jpg
└── ...

它指定了所有 120 个类别的狗的图像文件。

创建用于动物姿态估计的 YOLO 训练和验证目录
在为动物姿态估计创建训练和验证数据之前，我们需要有注释 JSON 文件。该目录包含文件以及训练、验证和测试拆分。

StanfordExtra_V12StanfordExtra_v12.json

StanfordExtra_V12
├── StanfordExtra_v12.json
├── test_stanford_StanfordExtra_v12.npy
├── train_stanford_StanfordExtra_v12.npy
└── val_stanford_StanfordExtra_v12.npy

现在让我们阅读注释文件。

ANN_PATH = "StanfordExtra_V12"
JSON_PATH = os.path.join(ANN_PATH, "StanfordExtra_v12.json")
 
with open(JSON_PATH) as file:
    json_data = json.load(file)

列表中的每个条目都是一个字典，其中包含图像和注释信息。示例实例可以是以下内容：json_data

{'img_path': 'n02091134-whippet/n02091134_3263.jpg',
 'img_width': 360,
 'img_height': 480,
 'img_bbox': [21, 55, 328, 422],
 'is_multiple_dogs': False,
 'joints': [[175.33333333333334, 453.3333333333333, 1],
  [260.0, 367.0, 1],
  [248.0, 296.6666666666667, 1],
  [337.6666666666667, 302.6666666666667, 1],
  [333.0, 265.0, 1],
  [329.3333333333333, 231.33333333333334, 1],
  [48.666666666666664, 415.0, 1],
  [167.0, 340.5, 1],
  [182.66666666666666, 280.3333333333333, 1],
  [0, 0, 0],
  [250.5, 253.0, 0],
  [277.0, 211.0, 0],
  [297.0, 200.5, 0],
  [0, 0, 0],
  [263.0, 117.0, 1],
  [193.66666666666666, 113.33333333333333, 1],
  [238.33333333333334, 182.0, 1],
  [231.66666666666666, 201.33333333333334, 1],
  [287.0, 69.61702127659575, 1],
  [187.36363636363637, 59.0, 1],
  [0, 0, 0],
  [0, 0, 0],
  [0, 0, 0],
  [0, 0, 0]],
 'seg': ...}

它具有以下密钥：

train_stanford_StanfordExtra_v12.npytest_stanford_StanfordExtra_v12.npyjson_data


train_ids = np.load(os.path.join(ANN_PATH, 
                                 "train_stanford_StanfordExtra_v12.npy"))
val_ids = np.load(os.path.join(ANN_PATH, 
                               "test_stanford_StanfordExtra_v12.npy"))

现在，我们将为每个 YOLO 创建训练和验证目录。具体来说，它将具有以下目录结构：

animal-pose-data
├── train
│   ├── images (6773 files)
│   └── labels (6773 files)
└── valid
    ├── images (1703 files)
    └── labels (1703 files)

现在，让我们初始化并创建训练和验证数据的目录路径。

DATA_DIR = "animal-pose-data"
 
TRAIN_DIR         = f"train"
TRAIN_FOLDER_IMG    = f"images"
TRAIN_FOLDER_LABELS = f"labels"
 
TRAIN_IMG_PATH   = os.path.join(DATA_DIR, TRAIN_DIR, TRAIN_FOLDER_IMG)
TRAIN_LABEL_PATH = os.path.join(DATA_DIR, TRAIN_DIR, TRAIN_FOLDER_LABELS)
 
VALID_DIR           = f"valid"
VALID_FOLDER_IMG    = f"images"
VALID_FOLDER_LABELS = f"labels"
 
VALID_IMG_PATH   = os.path.join(DATA_DIR, VALID_DIR, VALID_FOLDER_IMG)
VALID_LABEL_PATH = os.path.join(DATA_DIR, VALID_DIR, VALID_FOLDER_LABELS)
 
os.makedirs(TRAIN_IMG_PATH, exist_ok=True)
os.makedirs(TRAIN_LABEL_PATH, exist_ok=True)
os.makedirs(VALID_IMG_PATH, exist_ok=True)
os.makedirs(VALID_LABEL_PATH, exist_ok=True)

接下来，我们将使用和使用之前获得的图像和注释数据来收集图像和注释数据。

train_idsval_idsjson_data


train_json_data = []
for train_id in train_ids:
    train_json_data.append(json_data[train_id])
 
val_json_data = []
for val_id in val_ids:
    val_json_data.append(json_data[val_id])

现在，我们将使用图像路径将图像文件从之前创建的和数据复制到相应的文件夹。

train_json_dataval_json_dataimagestrainvalid

for data in train_json_data:
    img_file = data["img_path"]
    filename = img_file.split("/")[-1]
    copyfile(os.path.join(IMAGES_DIR, img_file),
             os.path.join(TRAIN_IMG_PATH, filename))
 
 
for data in val_json_data:
    img_file = data["img_path"]
    filename = img_file.split("/")[-1]
    copyfile(os.path.join(IMAGES_DIR, img_file),
             os.path.join(VALID_IMG_PATH, filename))

创建最终的 YOLO 注释文本文件

我们数据准备的最后一项任务是根据 Ultralytics 的 YOLO 创建框和关键点注释。由于我们将处理单个类（即狗），因此我们将类索引设置为。0

1
CLASS_ID = 0
鉴于框和地标处于绝对坐标中，我们需要在相对于图像分辨率的范围内对它们进行归一化。[0, 1]

该函数执行以下任务：create_yolo_boxes_kpts

修改关键点的可见性指示器（将标记关键点的可见性设置为）。2
规范化边界框和关键点相对于图像尺寸的坐标。
将边界框转换为规范化形式。
def create_yolo_boxes_kpts(img_size, boxes, lm_kpts):

IMG_W, IMG_H = img_size
# Modify kpts with visibilities as 1s to 2s.
vis_ones = np.where(lm_kpts[:, -1] == 1.)
lm_kpts[vis_ones, -1] = 2.

# Normalizing factor for bboxes and kpts.
res_box_array = np.array([IMG_W, IMG_H, IMG_W, IMG_H])
res_lm_array = np.array([IMG_W, IMG_H])

# Normalize landmarks in the range [0,1].
norm_kps_per_img = lm_kpts.copy()
norm_kps_per_img[:, :-1]  = norm_kps_per_img[:, :-1] / res_lm_array

# Normalize bboxes in the range [0,1].
norm_bbox_per_img = boxes / res_box_array 

# Create bboxes coordinates to YOLO.
# x_c, y_c = x_min + bbox_w/2. , y_min + bbox_h/2.
yolo_boxes = norm_bbox_per_img.copy()
yolo_boxes[:2] = norm_bbox_per_img[:2] + norm_bbox_per_img[2:]/2.

return yolo_boxes, norm_kps_per_img

以下是的输入参数：create_yolo_boxes_kpts

def create_yolo_txt_files(json_data, LABEL_PATH):

for data in json_data:
 
    IMAGE_ID = data["img_path"].split("/")[-1].split(".")[0]
 
    IMG_WIDTH, IMG_HEIGHT = data["img_width"], data["img_height"]
     
    landmark_kpts  = np.nan_to_num(np.array(data["joints"], dtype=np.float32))
    landmarks_bboxes = np.array(data["img_bbox"], dtype=np.float32)
     
    bboxes_yolo, kpts_yolo = create_yolo_boxes_kpts(
                                        (IMG_WIDTH, IMG_HEIGHT),
                                        landmarks_bboxes,
                                        landmark_kpts)
     
    TXT_FILE = IMAGE_ID+".txt"
     
    with open(os.path.join(LABEL_PATH, TXT_FILE), "w") as f:
             
        x_c_norm, y_c_norm, box_width_norm, box_height_norm = round(bboxes_yolo[0],5),\
                                                              round(bboxes_yolo[1],5),\
                                                              round(bboxes_yolo[2],5),\
                                                              round(bboxes_yolo[3],5),\
         
        kps_flattend = [round(ele,5) for ele in kpts_yolo.flatten().tolist()]
        line = f"{CLASS_ID} {x_c_norm} {y_c_norm} {box_width_norm} {box_height_norm} "
        line+= " ".join(map(str, kps_flattend))            
        f.write(line)

它接受以下参数：

json_data：每个词典包含图像元数据的词典列表，包括图像尺寸、关键点（关节）和边界框（img_bbox）。
LABEL_PATH：保存文本文件的路径。
注意：我们使用 NumPy 将带有 s 的关键点坐标转换为 0s。nan_to_numNaN

以下示例显示了一个这样的实例，其中关键点坐标为 NaNs。

'joints': [[423.5, 224.75, 1.0],
  [285.0, 284.0, 1.0],
  [265.0, 232.0, 0.0],
  [nan, nan, 0.0],
  [137.0, 238.0, 0.0],
  [153.0, 221.0, 0.0],
  [111.0, 212.6, 1.0],
  [75.0, 270.0, 0.0],
  [nan, nan, 0.0],
  [100.0, 234.0, 1.0],
  [nan, nan, 0.0],
  [nan, nan, 0.0],
  [87.0, 224.0, 0.0],
  [79.0, 218.0, 0.0],
  [312.6666666666667, 156.5, 1.0],
  [172.0, 133.83333333333334, 1.0],
  [223.5, 264.0, 1.0],
  [215.5, 304.8333333333333, 1.0],
  [nan, nan, 0.0],
  [nan, nan, 0.0],
  [nan, nan, 0.0],
  [nan, nan, 0.0],
  [nan, nan, 0.0],
  [nan, nan, 0.0]]

现在，我们将创建训练和验证注释。

create_yolo_txt_files(train_json_data, TRAIN_LABEL_PATH)
create_yolo_txt_files(val_json_data, VALID_LABEL_PATH)

可视化来自 YOLO 注释的数据

一旦我们创建了与YOLO兼容的数据，我们就可以可视化一些地面实况样本，以确保我们的转换是正确的。

在可视化样本之前，我们可以将可用的十六进制颜色编码映射到 RGB 值。keypoint_definitions.csv

ann_meta_data = pd.read_csv("keypoint_definitions.csv")
COLORS = ann_meta_data["Hex colour"].values.tolist()
 
COLORS_RGB_MAP = []
for color in COLORS:
    R, G, B = int(color[:2], 16), int(color[2:4], 16), int(color[4:], 16)
    COLORS_RGB_MAP.append({color: (R,G,B)})

该函数用于使用对图像上相应的地标点进行注释。draw_landmarksCOLORS_RGB_MAP

def draw_landmarks(image, landmarks):
     
    radius = 5
    # Check if image width is greater than 1000 px.
    # To improve visualization.
    if (image.shape[1] > 1000):
        radius = 8
 
    for idx, kpt_data in enumerate(landmarks):
 
        loc_x, loc_y = kpt_data[:2].astype("int").tolist()
        color_id = list(COLORS_RGB_MAP[int(kpt_data[-1])].values())[0]
 
        cv2.circle(image,
                   (loc_x, loc_y),
                   radius,
                   color=color_id[::-1],
                   thickness=-1,
                   lineType=cv2.LINE_AA)
 
    return image

该函数用于注释边界框以及图像上的置信度分数（如果通过）。draw_boxes

def draw_boxes(image, detections, class_name = "dog", score=None, color=(0,255,0)):
 
    font_size = 0.25 + 0.07 * min(image.shape[:2]) / 100
    font_size = max(font_size, 0.5)
    font_size = min(font_size, 0.8)
    text_offset = 3
 
    thickness = 2
    # Check if image width is greater than 1000 px.
    # To improve visualization.
    if (image.shape[1] > 1000):
        thickness = 10
 
    xmin, ymin, xmax, ymax = detections[:4].astype("int").tolist()
    conf = round(float(detections[-1]),2)
    cv2.rectangle(image, 
                  (xmin, ymin),
                  (xmax, ymax),
                  color=(0,255,0),
                  thickness=thickness,
                  lineType=cv2.LINE_AA)
 
    display_text = f"{class_name}"
 
    if score is not None:
        display_text+=f": {score:.2f}"
 
    (text_width, text_height), _ = cv2.getTextSize(display_text, 
                                                   cv2.FONT_HERSHEY_SIMPLEX,
                                                   font_size, 2)
 
    cv2.rectangle(image,
                      (xmin, ymin),
                      (xmin + text_width + text_offset, ymin - text_height - int(15 * font_size)),
                      color=color, thickness=-1)
 
    image = cv2.putText(
                    image,
                    display_text,

现在，我们有了注释地标和边界框的实用程序。但是，我们需要绝对坐标（框和关键点）来在图像上注释它们 - 该实用程序在将注释转换为绝对坐标后绘制注释。visualize_annotations

回想一下，边界框坐标和关键点在范围内被归一化。但是，要绘制它们，我们需要绝对坐标。[0, 1]

从 YOLO bboxes 到的转换映射非常简单，可以使用以下公式集获得：[xmin, ymin, xmax, ymax]

$x_{min} = \frac{W}{2} （2x_{center} \ - \ width）$
$y_{min} = \frac{H}{2} （2y_{center} \ - \ height）$
$x_{max} = x_{min} + 宽度 * W$
$y_{max} = y_{min} + 高度 * H$
同样，可以使用以下公式对关键点进行非规范化（到绝对坐标）：

$x_{abs} = x_{norm}* W$
$y_{abs} = y_{norm}* H$
这里，and 分别是框的宽度和高度，而 and 分别是图像的宽度和高度。widthheightWH

def visualize_annotations(image, box_data, keypoints_data):
 
    image = image.copy()
 
    shape_multiplier = np.array(image.shape[:2][::-1]) # (W, H).
    # Final absolute coordinates (xmin, ymin, xmax, ymax).
    denorm_boxes = np.zeros_like(box_data)
 
    # De-normalize center coordinates from YOLO to (xmin, ymin).
    denorm_boxes[:, :2] = (shape_multiplier/2.) * (2*box_data[:,:2] - box_data[:,2:])
 
    # De-normalize width and height from YOLO to (xmax, ymax).
    denorm_boxes[:, 2:] = denorm_boxes[:,:2] + box_data[:,2:]*shape_multiplier
 
    for boxes, kpts in zip(denorm_boxes, keypoints_data):
        # De-normalize landmark coordinates.
        kpts[:, :2]*= shape_multiplier        
        image = draw_boxes(image, boxes)
        image = draw_landmarks(image, kpts)

下图显示了一些图像样本及其相应的地面实况注释。关键点批注根据其相应的可见性标志进行筛选。

在我们的实验中，我们将使用 YOLOv8m-pose 和 YOLOv8l-pose 模型。

训练配置

我们将定义训练配置，以便在课堂上进行微调。

TrainingConfig
@dataclass(frozen=True)
class TrainingConfig:
    DATASET_YAML:   str = "animal-keypoints.yaml"
    MODEL:          str = "yolov8m-pose.pt"
    EPOCHS:         int = 100
    KPT_SHAPE:    tuple = (24,3)
    PROJECT:        str = "Animal_Keypoints"
    NAME:           str = f"{MODEL.split('.')[0]}_{EPOCHS}_epochs"
    CLASSES_DICT:  dict = field(default_factory = lambda:{0 : "dog"})

观察（keypoint shape）参数。表示要训练的关键点数，同时指示坐标和“可见性”标志。KPT_SHAPE243x-y

数据配置

该类采用与数据相关的各种超参数，例如训练时要使用的图像大小和批大小，以及各种增强概率，例如马赛克、水平翻转等。DatasetConfig


@dataclass(frozen=True)
class DatasetConfig:
    IMAGE_SIZE:    int   = 640
    BATCH_SIZE:    int   = 16
    CLOSE_MOSAIC:  int   = 10
    MOSAIC:        float = 0.4
    FLIP_LR:       float = 0.0 # Turn off horizontal flip.

接下来，我们实例化和类。TrainingConfigDatasetConfig


2
train_config = TrainingConfig()
data_config = DatasetConfig()

在开始训练之前，我们需要创建一个包含图像和标签文件的路径。我们还需要指定类名、起始点和关键点形状。yamlindex=0

如果关键点沿参考点或一组参考点对称（例如，鼻子的一组关键点可以用作面部的参考点），我们也可以提供参数。flip_idx

例如，如果我们假设面部特征的五个关键点：[左眼、右眼、鼻子、左嘴、右嘴]，并且原始索引是，那么flip_idx是。当水平翻转用作数据增强时，这是必不可少的。[0, 1, 2, 3, 4][1, 0, 2, 4, 3]

注意：我们已经关闭了实验的水平（LR翻转）。

current_dir = os.getcwd()
 
data_dict = dict(
                path      = os.path.join(current_dir, DATA_DIR),
                train     = os.path.join(TRAIN_DIR, TRAIN_FOLDER_IMG),
                val       = os.path.join(VALID_DIR, VALID_FOLDER_IMG),
                names     = train_config.CLASSES_DICT,
                kpt_shape = list(train_config.KPT_SHAPE),
               )
 
with open(train_config.DATASET_YAML, "w") as config_file:
    yaml.dump(data_dict, config_file)

动物姿势估计的微调和训练

最后，我们将使用上面定义的配置进行训练。

pose_model = model = YOLO(train_config.MODEL)

pose_model.train(data = train_config.DATASET_YAML,
epochs = train_config.EPOCHS,
imgsz = data_config.IMAGE_SIZE,
batch = data_config.BATCH_SIZE,
project = train_config.PROJECT,
name = train_config.NAME,
close_mosaic = data_config.CLOSE_MOSAIC,
mosaic = data_config.MOSAIC,
fliplr = data_config.FLIP_LR
)

YOLOv8在动物姿态估计中的评价

回想一下，在目标检测中，交并集（IoU）对于查找两个框之间的相似性以及计算平均精度精度（mAP）至关重要。它与关键点估计类似，是对象关键点相似性（OKS）。

OKS 的定义如下：
d我是真值与预测关键点 i 之间的欧几里得距离
k 是关键点 i 的常数
s 是真值对象的比例尺;s2因此成为对象的分割区域。
v我是关键点的真值可见性标志i
δ（v我> 0）是狄拉克-德尔塔函数，其计算方式就好像关键点被标记一样，否则1i0
查看我们最近的文章，其中我们深入讨论了对象关键点相似性（OKS）。

使用上面的配置，我们获得了 YOLOv8m 的以下指标：

Box 指标：
mAP@50： 0.991
map@50-95：0.922
姿势指标：
mAP@50： 0.937
map@50-95：0.497
下图显示了 YOLOv8m 的指标。
以下是使用与训练 YOLOv8m 相同的超参数设置的 YOLOv8l 的指标：

Box 指标：
mAP@50： 0.992
map@50-95：0.932
姿势指标：
mAP@50： 0.941
map@50-95：0.509
下图显示了 YOLOv8l 的日志：
观察 box、cls、dfl 的急剧下降，并在第 90 纪元后造成损失。这正是马赛克增强被关闭的时候！
您还可以查看 YOLOv8m 和 YOLOv8l 的 tensorboard 训练日志。

图像预测的可视化##

该函数获取相应图像的预测框、置信度分数和关键点。它接受以下阈值：prepare_predictions

BOX_IOU_THRESH：过滤掉大于此阈值的重叠边界框。
“BOX_CONF_THRESH”：筛选置信度分数低于此阈值的框。
KPT_CONF_THRESH：过滤置信度分数低于阈值的关键点坐标。



def prepare_predictions(
    image_dir_path,
    image_filename, 
    model,
    BOX_IOU_THRESH = 0.55,
    BOX_CONF_THRESH=0.30,
    KPT_CONF_THRESH=0.68):
 
    image_path = os.path.join(image_dir_path, image_filename)
    image = cv2.imread(image_path).copy()
 
    results = model.predict(image_path, conf=BOX_CONF_THRESH, iou=BOX_IOU_THRESH)[0].cpu()
 
    if not len(results.boxes.xyxy):
        return image
 
    # Get the predicted boxes, conf scores and keypoints.    
    pred_boxes = results.boxes.xyxy.numpy()
    pred_box_conf = results.boxes.conf.numpy()
    pred_kpts_xy = results.keypoints.xy.numpy()
    pred_kpts_conf = results.keypoints.conf.numpy()
 
    # Draw predicted bounding boxes, conf scores and keypoints on image.
    for boxes, score, kpts, confs in zip(pred_boxes, pred_box_conf, pred_kpts_xy, pred_kpts_conf):
        kpts_ids = np.where(confs > KPT_CONF_THRESH)[0]
        filter_kpts = kpts[kpts_ids]
        filter_kpts = np.concatenate([filter_kpts, np.expand_dims(kpts_ids, axis=-1)], axis=-1)
        image = draw_boxes(image, boxes, score=score)
        image = draw_landmarks(image, filter_kpts)

以下是 YOLOv8m 姿态模型的预测样本。
下图表示 YOLOv8l 姿态模型的可视化效果。
比较两个推理样本，即使 YOLOv8l 的指标略高，YOLOv8m 的性能似乎也略高于 YOLOv8l。

我们可以从下面的视频示例中确认这一点。

从样本图像和视频推断中，我们可以观察到模型仍有改进的空间，因为关键点预测，尤其是耳塞和尾部，不是最优的。通过解决我们之前讨论的数据集异常，可以显著改进预测。

结论

在本文中，我们了解了如何微调 YOLOv8 以进行动物姿态估计。我们还看到现有数据集中存在异常，这可能阻碍了模型学习，这从样本推断中可以明显看出。

可以通过正确标记注释来缓解异常，这可以改善现有模型的指标。
此外，我们还看到 YOLOv8 medium 在可视化方面的表现优于 YOLOv8 large，尽管指标略高于 YOLOv8m。

你可能感兴趣的:(YOLO)

DETR革命：目标检测的Transformer时代加油吧zkf 目标检测 YOLO python 开发语言人工智能图像处理
《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？在深度学习目标检测发展史上，2014~2019年几乎被基于卷积神经网络（CNN）的检测器统治：两阶段：FasterR-CNN、MaskR-CNN单阶段：YOLO、SSD、RetinaNet这些检测器虽然效果强大，但背后依赖：✅Anchor（先验框）✅NMS（非极大值抑制）✅特征金字塔、手工设计问题：结构复杂、调参困难、不
yolov5推理简单代码（网上找了好多，最终找到了） a2488220557 YOLO 计算机视觉 opencv
#yolov5#导包importtorchimportcv2frommultiprocessingimportProcess,Manager,Value#下面两个是yolov5文件夹里面的代码fromutils.generalimportnon_max_suppressionfrommodels.experimentalimportattempt_load#确保在进行对象检测时，边界框的位置可以与
手绘电路图的节点和端点检测一个简化版的算法实现框架 zhangfeng1133 算法
于论文描述，我将提供一个简化版的算法实现框架，用于手绘电路图的节点和端点检测，并整合生成电路原理图。以下代码结合了YOLOv5目标检测和传统图像处理技术，符合论文中提到的98.2%mAP和92%节点识别准确率的关键指标。核心算法实现（Python+OpenCV+YOLOv5）importcv2importnumpyasnpimporttorchfromyolov5importYOLOv5#需要安装
目标检测-YOLOv5 wydxry 深度学习目标检测 YOLO 人工智能深度学习
YOLOv5介绍YOLOv5是YOLO系列的第五个版本，由Ultralytics团队发布。虽然YOLOv5并非JosephRedmon原团队发布，但它在YOLOv4的基础上进行了重要的优化和改进，成为了深度学习目标检测领域中的热门模型之一。YOLOv5的优势不仅体现在其性能上，还包括其简洁易用、部署便捷的特点。相较于YOLOv4，YOLOv5对于代码框架的重构、推理速度的提升，以及模型的轻量化等方
仓库货物检测：基于YOLOv5的深度学习应用与UI界面开发 YOLO实战营 YOLO 深度学习 ui 目标跟踪目标检测人工智能
一、引言随着电商和物流行业的快速发展，仓库货物管理已经成为企业运营中至关重要的环节。为了提高仓库管理的效率和准确性，越来越多的企业开始应用自动化技术来完成货物的盘点、分类、分拣等任务。传统的货物管理方式通常依赖人工检查，不仅效率低下，而且容易出现误差。为了克服这些问题，利用计算机视觉和深度学习技术来实现仓库货物的自动化检测成为了一种有效的解决方案。本博客将介绍如何使用YOLOv5进行仓库货物检测，
深度学习模型开发部署全流程：以YOLOv11目标检测任务为例你喜欢喝可乐吗？ deep learning deploy 深度学习 YOLO 目标检测
深度学习模型开发部署全流程：以YOLOv11目标检测任务为例深度学习模型从开发到部署的完整流程包含需求分析、数据准备、模型训练、模型优化、模型测试和部署运行六大核心环节。YOLOv11作为新一代目标检测模型，不仅延续了YOLO系列的高效实时性能，还在检测精度和泛化能力上取得显著突破，使其成为工业质检、安防监控、自动驾驶等领域的理想选择。本文将详细阐述这一完整流程，并结合YOLOv11的具体实现，提
工服误检率高达40%？陌讯改进YOLOv7实战降噪50% 2501_92487859 YOLO 算法视觉检测目标检测计算机视觉
开篇痛点：工业场景的视觉检测困境在工地、化工厂等高危场景，传统视觉算法面临三重挑战：环境干扰：强光/阴影导致工服颜色失真目标微小：安全帽反光标识仅占图像0.1%像素遮挡密集：工人簇拥时漏检率超35%（数据来源：CVPR2023工业检测白皮书）行业真相：某安监部门实测显示，开源YOLOv5在雾天场景误报率高达41%技术解析：陌讯算法的三大创新设计1.多模态特征融合架构#伪代码示例：可见光+红外特征融
考场/工厂违规用机难捕捉？3维度优化方案部署成本直降40% 2501_92487762 视觉检测计算机视觉算法目标检测
开篇痛点工业场景中传统玩手机识别面临三重挑战：小目标检测（手机平均像素占比<0.5%）、遮挡干扰（人手/物体遮挡率超60%）、实时性要求（需200ms内响应）。某安检企业反馈，开源YOLOv5在车间场景误报率高达34%。技术解析：双流特征融合架构陌讯算法创新性融合双路径特征（图1）：#陌讯核心代码逻辑（简化版）defdual_path_fusion(backbone):shallow_path=C
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
模型训练与部署注意事项篇---resize Atticus-Orion 图像处理篇深度学习篇模型训练与部署注意事项篇深度学习计算机视觉人工智能
图像大小的影响在YOLOv系列模型的训练和推理部署过程中，图像大小的选择是影响模型性能（精度、速度、泛化能力）的关键因素之一。两者的关系既相互关联，又存在一定的灵活性，具体可从以下几个方面详细分析：一、核心关系：训练与推理图像大小的“基准一致性”YOLOv模型（如YOLOv5、v7、v8等）的训练和推理图像大小通常以**“基准尺寸”**为核心关联，即训练时设定的图像尺寸会作为模型设计的基础，而推理
将多个小型YOLO数据集合并为一个大型数据集梦实学习室 YOLO python YOLO python 机器学习
一、将多个小型YOLO数据集合并为一个大型数据集importosimportshutilimportargparsedefmerge_data(source_dir,target_dir,images_dir,labels_dir):images_target=os.path.join(target_dir,images_dir)labels_target=os.path.join(target_
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
电梯开关状态人员进出检测数据集VOC+YOLO格式2220张4类别 fl176831 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2220标注数量(xml文件个数)：2220标注数量(txt文件个数)：2220标注类别数：4标注类别名称:["CloseElevator","People-in-elevator","The-elevator-was-
YOLOv11 技术详解：架构优化与性能提升代码老y YOLO 架构目标跟踪
YOLOv11是目标检测领域中一个备受瞩目的新版本，它在保持实时性的同时，显著提升了检测的准确性和效率。本文将深入探讨YOLOv11的架构改进、性能优化以及它在不同应用场景中的表现。一、架构改进（一）C3K2块YOLOv11引入了C3K2块，这是对之前版本中CSP（CrossStagePartial）块的增强。C3K2块使用不同的核大小（例如3x3或5x5）和通道分离策略来优化更复杂特征的提取。这
Yolov5-obb(旋转目标poly_nms_cuda.cu编译bug记录及解决方案)
关于在执行pythonsetup.pydevelop#or"pipinstall-v-e."时poly_nms_cuda.cu报错问题。前面步骤严格按照install.md环境1.pytorch版本较低时（我的是1.10）：poly_nms_cuda.cu文件添加”#defineeps1e-8“，删除“constdoubleeps=1E-8;”这句2.pytorch版本较高时（我用的是1.27）h
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
街道垃圾识别难？陌讯视觉算法实测准确率突破95% 2501_92487900 算法边缘计算目标检测视觉检测计算机视觉
开篇痛点：街道垃圾识别的技术挑战在智慧城市和环保监管场景中，街道垃圾的实时检测一直是个难题。传统视觉算法（如YOLOv5、FasterR-CNN）在复杂街道场景下表现不佳，主要面临以下问题：光照干扰：早晚光线变化导致误检（如阴影被识别为垃圾）小目标漏检：饮料瓶、烟头等小物体在640x640输入下仅占10x10像素遮挡问题：垃圾桶周边堆积物造成特征混淆某环保科技公司实测数据显示，开源模型在真实场景中
占道识别漏检率 30%？陌讯多模态算法实测优化 2501_92487926 算法 ai 计算机视觉视觉检测
开篇：占道经营识别的三大技术痛点在城市管理智能化进程中，占道经营自动识别系统常面临三大核心难题：一是早晚光线剧变导致传统模型mAP骤降15-20%；二是流动摊贩与行人的特征混淆，误判率高达28%；三是密集场景下检测速度跌破15FPS，无法满足实时性要求[1]。某一线城市试点数据显示，基于开源YOLOv5的识别系统日均漏检事件超300起，人工复核成本占总投入的42%。这些问题的根源在于传统算法采用单
YOLOv8 环境监测五大场景 —— 二、森林火灾早期预警之无人机巡逻监测详细解释及代码完整示例路飞VS草帽 YOLOv8 原理与源代码讲解---六大章 YOLOv各版本的应用详细说明及代码示例环境监测五大场景 YOLO 无人机环境监测森林火灾早期预警无人机巡逻监测 YOLOv8
YOLOv8无人机森林火灾巡逻监测系统系统架构设计无人机火灾监测系统组成：1.飞行平台-多旋翼无人机(续航≥60分钟)-双光吊舱(可见光+红外)-RTK高精度定位-4G/5G数据链2.机载计算单元-JetsonOrinNX(AI加速)-轻量化YOLOv8模型-实时火情分析3.地面控制站-飞行路径规划-实时视频监控-火情预警系统4.云端协同-多机任务分配-火势扩散预测-应急资源调度完整代码实现1.无
安防监控漏报频发？陌讯实时检测算法实测召回率98% 2501_92487721 目标跟踪计算机视觉人工智能算法
一、开篇痛点：安防监控的检测难题在夜间低光、遮挡、小目标等复杂场景下，传统YOLO系列算法常出现漏检（FN）和误检（FP）。某安防厂商测试数据显示：当目标像素<50×50时，开源模型召回率骤降至65%以下。二、技术解析：陌讯算法的三重创新陌讯视觉算法通过多尺度特征融合+自适应光照补偿提升鲁棒性：动态感受野机制在Backbone中引入可变形卷积（DeformableConv），公式表示为：y(p)=
重型机械识别漏检率高？陌讯算法实测降 35%
在重型机械作业场景中，传统视觉识别系统常面临三大痛点：大型设备遮挡严重导致漏检率超20%、金属表面反光使特征提取失效、多机型混合作业时模型泛化能力不足。某港口集团曾反馈，其基于开源YOLOv5部署的机械监控系统，在暴雨天气下误报率飙升至37%，直接影响作业调度效率[实测数据来源：某港口2024年Q1运维报告]。技术解析：陌讯算法的三重突破陌讯视觉算法针对重型机械识别的特殊性，采用了创新的"动态注意
模型实战（21）之 C++ - tensorRT部署yolov8-det 目标检测明月醉窗台 #深度学习实战例程人工智能 c++YOLO 目标检测计算机视觉人工智能
C++-tensorRT部署yolov8-det目标检测python环境下如何直接调用推理模型转换并导出：pt->onnx->.engineC++tensorrt部署检测模型不写废话了，直接上具体实现过程+all代码1.Python环境下推理直接命令行推理，巨简单yolodetectpredictmodel=yolov8n.ptsource='https
【零基础学AI】第31讲：目标检测 - YOLO算法 1989 0基础学AI 人工智能目标检测 YOLO rnn lstm tensorflow
本节课你将学到YOLO算法的核心思想和工作原理如何使用YOLO进行物体检测构建一个简单的物体检测系统开始之前环境要求Python3.8+需要安装的包：opencv-python,numpy,matplotlib硬件要求：推荐使用GPU（非必须）前置知识基本Python编程能力了解卷积神经网络（CNN）的基本概念（第24讲内容）核心概念什么是目标检测？目标检测就像教计算机"看"图片中的物体。它不仅要
如何使用目标检测深度学习框架yolov8训练钢管管道表面缺陷VOC+YOLO格式1159张3类别的检测数据集步骤和流程 FL1623863129 深度学习目标检测深度学习 YOLO
【数据集介绍】数据集中有很多增强图片，大约300张为原图剩余为增强图片数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1159标注数量(xml文件个数)：1159标注数量(txt文件个数)：1159标注类别数：3所在仓库：firc-dataset标注类别名称(注意yo
钢管管道表面缺陷检测数据集VOC+YOLO格式1159张3类别 FL1623863129 数据集 YOLO 深度学习机器学习
数据集中有很多增强图片，大约300张为原图剩余为增强图片数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1159标注数量(xml文件个数)：1159标注数量(txt文件个数)：1159标注类别数：3所在仓库：firc-dataset标注类别名称(注意yolo格式类别顺
YOLOv5基础 | 万字长文带你深度解析yolov5s.yaml配置文件小哥谈 YOLO算法：基础+进阶+改进 YOLO 人工智能目标检测机器学习计算机视觉深度学习
前言：Hello大家好，我是小哥谈。配置文件yolov5s.yaml在YOLOv5模型训练过程中发挥着至关重要的作用，属于初学者必知必会的文件！在YOLOv5-6.0版本源码中，配置了5种不同大小的网络模型，分别是YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x，其中YOLOv5n是网络深度和宽度最小但检测速度最快的模型，其他4种模型都是在YOLOv5n的基础上不断加
万字长文详解YOLOv8 yaml 文件，结合模型输出的网络结构图分析Parameters /backbone/head以及三者的数学关联 YOLO大师 YOLO 论文阅读
YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例之前写过一篇YOLOv8yaml配置文件逐层的解析：结合YOLOv8源码逐层解读yaml文件的配置，本文主要从整体的角度去解析yaml。YOLOv8模型YOLOv8提供了非常多的模型，详见：https:
万字长文带你搞懂yolov5和yolov8以及目标检测相关面试起个别名 C++YOLO 目标检测目标跟踪
一、与yoloV4相比，yoloV5的改进输入端：在模型训练阶段，使用了Mosaic数据增强、自适应锚框计算、自适应图片缩放基准网络：使用了FOCUS结构和CSP结构Neck网络：在Backbone和最后的Head输出层之间插入FPN_PAN结构Head输出层：训练时的损失函数GIOU_Loss，预测筛选框的DIOU_nms二、yolov5网络结构预处理在模型预处理阶段，使用了Mosaic数据增强
YOLOv11模型轻量化挑战技术文章大纲程序猿全栈の董（董翔） github YOLOv11
模型轻量化的背景与意义目标检测模型YOLOv11的性能与应用场景轻量化的必要性：边缘设备部署、实时性需求、计算资源限制轻量化面临的挑战：精度与速度的权衡、模型压缩方法的选择YOLOv11的轻量化技术方向网络结构优化：深度可分离卷积、分组卷积、瓶颈设计模型剪枝：结构化剪枝与非结构化剪枝策略知识蒸馏：教师-学生模型框架与特征匹配方法量化与低比特压缩：FP16/INT8量化与二值化网络轻量化实现的具体方
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep