求则得之，舍则失之

基于Python，OpenCV，Numpy和Albumentations实现目标检测的合成数据集

1.总述

训练一个对象检测模型，如YOLOv5，需要一个包含感兴趣对象的图像和注释(带有对象边界框坐标的文本文件)的数据集。

例如，在下面的图片中，你可以看到可视化的边界框。每个边界框表示与特定类别相关的感兴趣的对象:battery 电池(红色)、lightbulb 灯泡(绿色)、padlock 挂锁(蓝色)。

数据集包含的图像越多，模型的训练效果就越好，因为在训练过程中会看到更多的例子。包含200+图像的数据集是可以的。拥有1000张以上图像的数据集要好得多。优秀的数据集包含5000张以上的图片。

请注意，数据集不应仅包含大量图像，而是所有图像应尽可能多样化。这些图像上感兴趣的对象应该与其他对象混合，呈现在不同的环境、不同的背景、不同的位置等。

创建数据集的一种方法是手动创建它。这意味着我们拍了很多照片，就像上面的照片，然后手动注释它们。这种方法是最好的，因为所有照片都是真实的，但是创建这样的数据集需要很多时间。

另一种方法是自动创建合成数据集。使用这种方法，对象的感兴趣区域会随机缩放、旋转并使用 python 脚本添加到背景中。标注是使用相同的脚本创建的。在这种方法下，我们创建的图像并不完全是真实照片，但这些图像上的对象和背景是 100% 真实的。

来自合成数据集的图像示例如下：

来自合成数据集的图像示例:初始背景照片(左上)、自动添加对象的背景照片(左下)、自动添加对象的边界框(右下)、自动添加对象的mask(右上)。

与手动过程相比，自动化过程使我们能够花费更少的时间来创建数据集。例如，生成 1000 个合成图像和标注可能需要不到一个小时。这比拍摄 1000 张不同的照片并手动标注要快得多。

下面，我将描述创建用于对象检测的合成数据集的所有步骤。

我将展示如何使用电池、灯泡和挂锁创建合成数据集以训练 YOLOv5。为此，我们需要以下数据：

不同位置的感兴趣对象（电池、灯泡、挂锁）的裁剪照片和蒙版；
背景图片(只是不同于互联网上的照片);
不同物体（汽车、椅子、吉他等）的裁剪照片和mask，它们将用作背景噪声，使背景更加复杂。

我拍了26张电池的照片，23张灯泡的照片，21张挂锁的照片，并为这些物体创建了mask:

我收集了30张图片作为背景。看看这些图片:

我还收集了107张不同物体的图片，它们将被用作背景噪声。它们可以是除电池、灯泡或挂锁以外的任何物体:

从这里下载上述数据以及如何在Photoshop的帮助下创建对象的Mask视频。

链接：https://pan.baidu.com/s/11vCg-d2_sTfMskUSriiMHQ?pwd=123a
提取码：123a

下面是如何使用下载的数据来创建一个合成场景:

首先，我们将随机从bg/文件夹中选择一个背景图像，并调整它的大小，例如，1920x1080。
其次，我们将从bg_noise/文件夹中随机选取一个背景噪声对象。然后我们随机调整大小，旋转，并将其添加到背景图像。
我们将重复第二步几次。
第三，我们将从文件夹battery/，lightbulb/，padlock/中随机选择一个感兴趣的对象。然后，我们将随机调整大小、旋转并将其添加到上一步得到的图像中。
我们将重复第三步几次。

随机合成的物体就是合成的场景。
合成数据集由多个合成场景组成。

2.代码实现

让我们创建一个脚本来创建合成数据集。

2.1 导入相关库

在Jupyter笔记本中创建一个新的笔记本。
首先，我们需要导入必要的模块:

import cv2
import matplotlib.pyplot as plt
import os
import numpy as np
import albumentations as A
import time
from tqdm import tqdm

2.2 文件路径

将下载的数据解压到文件夹data/，并创建包含图像和Mask路径的列表:

obj_dict = {
    1: {'folder': "battery", 'longest_min': 150, 'longest_max': 800},
    2: {'folder': "lightbulb", 'longest_min': 150, 'longest_max': 800},
    3: {'folder': "padlock", 'longest_min': 150, 'longest_max': 800}
}

PATH_MAIN = "data"

for k, _ in obj_dict.items():
    folder_name = obj_dict[k]['folder']
    
    files_imgs = sorted(os.listdir(os.path.join(PATH_MAIN, folder_name, 'images')))
    files_imgs = [os.path.join(PATH_MAIN, folder_name, 'images', f) for f in files_imgs]
    
    files_masks = sorted(os.listdir(os.path.join(PATH_MAIN, folder_name, 'masks')))
    files_masks = [os.path.join(PATH_MAIN, folder_name, 'masks', f) for f in files_masks]
    
    obj_dict[k]['images'] = files_imgs
    obj_dict[k]['masks'] = files_masks
    
print("The first five files from the sorted list of battery images:", obj_dict[1]['images'][:5])
print("\nThe first five files from the sorted list of battery masks:", obj_dict[1]['masks'][:5])

files_bg_imgs = os.listdir(os.path.join(PATH_MAIN, 'bg'))
files_bg_imgs = [os.path.join(PATH_MAIN, 'bg', f) for f in files_bg_imgs]

files_bg_noise_imgs = os.listdir(os.path.join(PATH_MAIN, "bg_noise", "images"))
files_bg_noise_imgs = [os.path.join(PATH_MAIN, "bg_noise", "images", f) for f in files_bg_noise_imgs]
files_bg_noise_masks = os.listdir(os.path.join(PATH_MAIN, "bg_noise", "masks"))
files_bg_noise_masks = [os.path.join(PATH_MAIN, "bg_noise", "masks", f) for f in files_bg_noise_masks]

print("\nThe first five files from the sorted list of background images:", files_bg_imgs[:5])
print("\nThe first five files from the sorted list of background noise images:", files_bg_noise_imgs[:5])
print("\nThe first five files from the sorted list of background noise masks:", files_bg_noise_masks[:5])

为了更好地理解创建列表的结构，我们来看看它的输出:

The first five files from the sorted list of battery images: ['data\battery\images\1.png', 'data\battery\images\10.png', 'data\battery\images\11.png', 'data\battery\images\12.png', 'data\battery\images\13.png']

The first five files from the sorted list of battery masks: ['data\battery\masks\1.png', 'data\battery\masks\10.png', 'data\battery\masks\11.png', 'data\battery\masks\12.png', 'data\battery\masks\13.png']

The first five files from the sorted list of background images: ['data\bg\bg_1.jpg', 'data\bg\bg_10.jpg', 'data\bg\bg_11.jpg', 'data\bg\bg_12.jpg', 'data\bg\bg_13.jpg']

The first five files from the sorted list of background noise images: ['data\bg_noise\images\1.png', 'data\bg_noise\images\10.jpg', 'data\bg_noise\images\100.png', 'data\bg_noise\images\101.jpg', 'data\bg_noise\images\102.png']

The first five files from the sorted list of background noise masks: ['data\bg_noise\masks\1.png', 'data\bg_noise\masks\10.png', 'data\bg_noise\masks\100.png', 'data\bg_noise\masks\101.png', 'data\bg_noise\masks\102.png']

稍后，我们的脚本将有一个代码块，它将随机地从这些列表中挑选一个对象图像，调整它的大小，向它添加扩展，并将其添加到背景中。

同样，为了设置对象图像大小的下界和上界，我们为字典obj_dict中的每个感兴趣的对象设置' longest_min ': 150， ' longest_max ': 800。这意味着图像的最长边将不小于150px，但不大于800px。你可以设置其他数字，但我建议下限至少为30，上限应该小于背景的高度和宽度。

2.3 图片和Mask

Mask有几种类型:

Original mask是物体区域用黑色(0,0,0)填充，背景区域用白色(255,255,255)填充的Mask。
Boolean mask是对象区域填充为True，背景区域填充为False的Mask。
Binary mask是对象区域用1填充，背景区域用0填充的Mask。

于本脚本的目的，我们将把original masks转换为Binary mask。
这里我们定义了一个函数，它以OpenCV格式返回对象的图像，以二进制格式返回对象的Mask:

def get_img_and_mask(img_path, mask_path):

    img = cv2.imread(img_path)
    img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    
    mask = cv2.imread(mask_path)
    mask = cv2.cvtColor(mask, cv2.COLOR_BGR2RGB)
    
    mask_b = mask[:,:,0] == 0 # This is boolean mask
    mask = mask_b.astype(np.uint8) # This is binary mask
    
    return img, mask

让我们看看这个函数是如何工作的:

# Let's look at a random object and its binary mask

img_path = obj_dict[3]['images'][0]
mask_path = obj_dict[3]['masks'][0]

img, mask = get_img_and_mask(img_path, mask_path)

print("Image file:", img_path)
print("Mask file:", mask_path)
print("\nShape of the image of the object:", img.shape)
print("Shape of the binary mask:", mask.shape)

fig, ax = plt.subplots(1, 2, figsize=(16, 7))
ax[0].imshow(img)
ax[0].set_title('Object', fontsize=18)
ax[1].imshow(mask)
ax[1].set_title('Binary mask', fontsize=18);

输出：

Image file: Data\Padlock\images\1.png
Mask file: Data\Padlock\masks\1.png
Shape of the image of the object: (962, 847, 3)
Shape of the binary mask: (962, 847)

注意，图像的宽度是847，高度是962。此外，图像有3个通道。这就是为什么图像的形状是(962,847,3)。Binary mask具有相同的宽度和高度，但只有一个通道。这就是为什么Binary mask的形状是(962,847)。

2.4 调整背景图像

将用作背景的图像有不同的大小。例如:2114x1398、3456x5184、1920x1440、3264x4080等。其中一些是水平的(宽度>高度)，其他是垂直的(高度>宽度)。

但我们可能希望合成数据集中的所有图像都具有固定尺寸：水平图像为 1920x1080，垂直图像为 1080x1920。为此，我们将借助 resize_img() 函数调整背景图像的大小：

def resize_img(img, desired_max, desired_min=None):
   
    h, w = img.shape[0], img.shape[1]
    
    longest, shortest = max(h, w), min(h, w)
    longest_new = desired_max
    if desired_min:
        shortest_new = desired_min
    else:
        shortest_new = int(shortest * (longest_new / longest))
    
    if h > w:
        h_new, w_new = longest_new, shortest_new
    else:
        h_new, w_new = shortest_new, longest_new
        
    transform_resize = A.Compose([
        A.Sequential([
        A.Resize(h_new, w_new, interpolation=1, always_apply=False, p=1)
        ], p=1)
    ])

    transformed = transform_resize(image=img)
    img_r = transformed["image"]
        
    return img_r

让我们看看这个函数是如何工作的:

# Let's look how a random background image can be resized with resize_img() function

img_bg_path = files_bg_imgs[5]
img_bg = cv2.imread(img_bg_path)
img_bg = cv2.cvtColor(img_bg, cv2.COLOR_BGR2RGB)

img_bg_resized_1 = resize_img(img_bg, desired_max=1920, desired_min=None)
img_bg_resized_2 = resize_img(img_bg, desired_max=1920, desired_min=1080)

print("Shape of the original background image:", img_bg.shape)

print("Shape of the resized background image (desired_max=1920, desired_min=None):", img_bg_resized_1.shape)
print("Shape of the resized background image (desired_max=1920, desired_min=1080):", img_bg_resized_2.shape)

fig, ax = plt.subplots(1, 2, figsize=(16, 7))
ax[0].imshow(img_bg_resized_1)
ax[0].set_title('Resized (desired_max=1920, desired_min=None)', fontsize=18)
ax[1].imshow(img_bg_resized_2)
ax[1].set_title('Resized (desired_max=1920, desired_min=1080)', fontsize=18);

输出：

Shape of the original background image: (3068, 2454, 3)
Shape of the resized background image (desired_max=1920, desired_min=None): (1920, 1535, 3)
Shape of the resized background image (desired_max=1920, desired_min=1080): (1920, 1080, 3)

您可以看到该函数找出图像的哪一侧（宽度或高度）最长，并沿最长的一侧将图像调整为 desired_max 大小。如果未设置desired_min，则图像的最短边按比例调整大小，否则图像沿最短边调整为desired_min 大小。

2.5 调整大小和转换对象

用于调整和转换对象大小的函数resize_transform_obj()与用于调整背景图像大小的函数类似，但有一些附加功能。

函数resize_transform_obj()调整对象的图像大小和对象的binary mask。此外，可以将来自albumentations库的transforms作为参数传递给函数。

def resize_transform_obj(img, mask, longest_min, longest_max, transforms=False):
   
    h, w = mask.shape[0], mask.shape[1]
    
    longest, shortest = max(h, w), min(h, w)
    longest_new = np.random.randint(longest_min, longest_max)
    shortest_new = int(shortest * (longest_new / longest))
    
    if h > w:
        h_new, w_new = longest_new, shortest_new
    else:
        h_new, w_new = shortest_new, longest_new
        
    transform_resize = A.Resize(h_new, w_new, interpolation=1, always_apply=False, p=1)

    transformed_resized = transform_resize(image=img, mask=mask)
    img_t = transformed_resized["image"]
    mask_t = transformed_resized["mask"]
        
    if transforms:
        transformed = transforms(image=img_t, mask=mask_t)
        img_t = transformed["image"]
        mask_t = transformed["mask"]
        
    return img_t, mask_t

transforms_bg_obj = A.Compose([
    A.RandomRotate90(p=1),
    A.ColorJitter(brightness=0.3,
                  contrast=0.3,
                  saturation=0.3,
                  hue=0.07,
                  always_apply=False,
                  p=1),
    A.Blur(blur_limit=(3,15),
           always_apply=False,
           p=0.5)
])

transforms_obj = A.Compose([
    A.RandomRotate90(p=1),
    A.RandomBrightnessContrast(brightness_limit=(-0.1, 0.2),
                               contrast_limit=0.1,
                               brightness_by_max=True,
                               always_apply=False,
                               p=1)
])

在上面的代码中定义了两个复杂的转换:

transforms_bg_obj 在大范围内旋转图像、添加模糊、更改颜色、对比度和亮度。这种激进的变换将用于变换背景噪声对象。
transforms_obj旋转图像并在狭窄范围内改变对比度和亮度。这种可忽略不计的影响将被用来改变感兴趣的对象。

可以为转换添加更多选项。阅读 albumentations文档以了解如何做到这一点。

让我们看看resize_transform_obj()函数是如何工作的:

# Let's look how image and binary mask of a random object can be transformed
# with help of resize_transform_obj() function

img_path = obj_dict[3]['images'][0]
mask_path = obj_dict[3]['masks'][0]

img, mask = get_img_and_mask(img_path, mask_path)

img_t, mask_t = resize_transform_obj(img,
                                     mask,
                                     longest_min=300,
                                     longest_max=400,
                                     transforms=transforms_obj)

print("Shape of the image of the transformed object:", img_t.shape)
print("Shape of the transformed binary mask:", mask_t.shape)
print("\n")

fig, ax = plt.subplots(1, 2, figsize=(16, 7))
ax[0].imshow(img_t)
ax[0].set_title('Transformed object', fontsize=18)
ax[1].imshow(mask_t)
ax[1].set_title('Transformed binary mask', fontsize=18);

输出

Shape of the image of the transformed object: (335, 381, 3)
Shape of the transformed binary mask: (335, 381)

2.6 添加对象到背景中

在这里，我们将定义函数add_obj()，它将对象添加到背景。要详细了解这个函数是如何工作的，我建议您阅读Python添加对象到图像这篇文章。

def add_obj(img_comp, mask_comp, img, mask, x, y, idx):
    '''
    img_comp - composition of objects
    mask_comp - composition of objects` masks
    img - image of object
    mask - binary mask of object
    x, y - coordinates where center of img is placed
    Function returns img_comp in CV2 RGB format + mask_comp
    '''
    h_comp, w_comp = img_comp.shape[0], img_comp.shape[1]
    
    h, w = img.shape[0], img.shape[1]
    
    x = x - int(w/2)
    y = y - int(h/2)
    
    mask_b = mask == 1
    mask_rgb_b = np.stack([mask_b, mask_b, mask_b], axis=2)
    
    if x >= 0 and y >= 0:
    
        h_part = h - max(0, y+h-h_comp) # h_part - part of the image which gets into the frame of img_comp along y-axis
        w_part = w - max(0, x+w-w_comp) # w_part - part of the image which gets into the frame of img_comp along x-axis

        img_comp[y:y+h_part, x:x+w_part, :] = img_comp[y:y+h_part, x:x+w_part, :] * ~mask_rgb_b[0:h_part, 0:w_part, :] + (img * mask_rgb_b)[0:h_part, 0:w_part, :]
        mask_comp[y:y+h_part, x:x+w_part] = mask_comp[y:y+h_part, x:x+w_part] * ~mask_b[0:h_part, 0:w_part] + (idx * mask_b)[0:h_part, 0:w_part]
        mask_added = mask[0:h_part, 0:w_part]
        
    elif x < 0 and y < 0:
        
        h_part = h + y
        w_part = w + x
        
        img_comp[0:0+h_part, 0:0+w_part, :] = img_comp[0:0+h_part, 0:0+w_part, :] * ~mask_rgb_b[h-h_part:h, w-w_part:w, :] + (img * mask_rgb_b)[h-h_part:h, w-w_part:w, :]
        mask_comp[0:0+h_part, 0:0+w_part] = mask_comp[0:0+h_part, 0:0+w_part] * ~mask_b[h-h_part:h, w-w_part:w] + (idx * mask_b)[h-h_part:h, w-w_part:w]
        mask_added = mask[h-h_part:h, w-w_part:w]
        
    elif x < 0 and y >= 0:
        
        h_part = h - max(0, y+h-h_comp)
        w_part = w + x
        
        img_comp[y:y+h_part, 0:0+w_part, :] = img_comp[y:y+h_part, 0:0+w_part, :] * ~mask_rgb_b[0:h_part, w-w_part:w, :] + (img * mask_rgb_b)[0:h_part, w-w_part:w, :]
        mask_comp[y:y+h_part, 0:0+w_part] = mask_comp[y:y+h_part, 0:0+w_part] * ~mask_b[0:h_part, w-w_part:w] + (idx * mask_b)[0:h_part, w-w_part:w]
        mask_added = mask[0:h_part, w-w_part:w]
        
    elif x >= 0 and y < 0:
        
        h_part = h + y
        w_part = w - max(0, x+w-w_comp)
        
        img_comp[0:0+h_part, x:x+w_part, :] = img_comp[0:0+h_part, x:x+w_part, :] * ~mask_rgb_b[h-h_part:h, 0:w_part, :] + (img * mask_rgb_b)[h-h_part:h, 0:w_part, :]
        mask_comp[0:0+h_part, x:x+w_part] = mask_comp[0:0+h_part, x:x+w_part] * ~mask_b[h-h_part:h, 0:w_part] + (idx * mask_b)[h-h_part:h, 0:w_part]
        mask_added = mask[h-h_part:h, 0:w_part]
    
    return img_comp, mask_comp, mask_added

函数 add_obj() 返回图像合成（背景 + 添加的对象）、Mask合成（添加对象的Mask合成）和最后添加的对象的Mask。

让我们看看在背景中添加挂锁是如何工作的:

img_bg_path = files_bg_imgs[26]
img_bg = cv2.imread(img_bg_path)
img_bg = cv2.cvtColor(img_bg, cv2.COLOR_BGR2RGB)

h, w = img_bg.shape[0], img_bg.shape[1]
mask_comp = np.zeros((h,w), dtype=np.uint8)

img_path = obj_dict[3]['images'][0]
mask_path = obj_dict[3]['masks'][0]
img, mask = get_img_and_mask(img_path, mask_path)

img_comp, mask_comp, _ = add_obj(img_bg, mask_comp, img, mask, x=800, y=600, idx=1)

fig, ax = plt.subplots(1, 2, figsize=(16, 7))
ax[0].imshow(img_comp)
ax[0].set_title('Composition', fontsize=18)
ax[1].imshow(mask_comp)
ax[1].set_title('Composition mask', fontsize=18);

这里的初始合成是背景图像img_bg。数组mask_comp = np.zeros((h,w), dtype=np.uint8)是一个初始合成的Mask。因为初始的合成只是一个没有任何对象的背景图像，它的Mask只包含0。

通过将挂锁添加到img_bg，它的Mask被添加到mask_comp中，方法是将这些像素中的初始值与1重叠，这些像素对应于在图像合成中添加的挂锁。通过将参数idx=1传递给函数add_obj()，我们已经为添加的挂锁的Mask定义了数字1。

上面的右图是关于合成Mask的:数字0用深紫色标记，数字1用黄色标记。

让我们再添加一次挂锁:

img_comp, mask_comp, _ = add_obj(img_comp, mask_comp, img, mask, x=1350, y=1050, idx=2)

fig, ax = plt.subplots(1, 2, figsize=(16, 7))
ax[0].imshow(img_comp)
ax[0].set_title('Composition', fontsize=18)
ax[1].imshow(mask_comp)
ax[1].set_title('Composition mask', fontsize=18);

这一次，初始合成img_comp已经包含一个挂锁，所以初始合成mask_comp的Mask包含数字0和1。

通过在合成中再添加一个挂锁，该挂锁的Mask通过将这些像素中的初始值与 2 重叠来添加到 mask_comp，这对应于图像合成上添加的挂锁。这次我们通过将参数 idx=2 传递给函数 add_obj() 来为添加挂锁的Mask定义为数字 2。

上面的右图是关于合成Mask的:数字0用暗紫色标记，数字1用蓝色和绿色混合标记，数字2用黄色标记。

2.7 在背景中添加噪声对象

我们希望数据集的背景尽可能多样。各种背景有利于目标检测神经网络的训练过程。但是我们只有 30 个背景图像，如果我们要创建 1000 个或更多图像的数据集，这并不多。

为了使背景更加多样化，我们将随机添加噪声对象。

噪声对象将通过函数create_bg_with_noise()添加:

def create_bg_with_noise(files_bg_imgs,
                         files_bg_noise_imgs,
                         files_bg_noise_masks,
                         bg_max=1920,
                         bg_min=1080,
                         max_objs_to_add=60,
                         longest_bg_noise_max=1000,
                         longest_bg_noise_min=200,
                         blank_bg=False):
    
    if blank_bg:
        img_comp_bg = np.ones((bg_min, bg_max,3), dtype=np.uint8) * 255
        mask_comp_bg = np.zeros((bg_min, bg_max), dtype=np.uint8)
    else:    
        idx = np.random.randint(len(files_bg_imgs))
        img_bg = cv2.imread(files_bg_imgs[idx])
        img_bg = cv2.cvtColor(img_bg, cv2.COLOR_BGR2RGB)
        img_comp_bg = resize_img(img_bg, bg_max, bg_min)
        mask_comp_bg = np.zeros((img_comp_bg.shape[0], img_comp_bg.shape[1]), dtype=np.uint8)

    for i in range(1, np.random.randint(max_objs_to_add) + 2):

        idx = np.random.randint(len(files_bg_noise_imgs))
        img, mask = get_img_and_mask(files_bg_noise_imgs[idx], files_bg_noise_masks[idx])
        x, y = np.random.randint(img_comp_bg.shape[1]), np.random.randint(img_comp_bg.shape[0])
        img_t, mask_t = resize_transform_obj(img, mask, longest_bg_noise_min, longest_bg_noise_max, transforms=transforms_bg_obj)
        img_comp_bg, _, _ = add_obj(img_comp_bg, mask_comp_bg, img_t, mask_t, x, y, i)
        
    return img_comp_bg

参数说明如下:

files_bg_imgs 是一个包含背景图像路径的列表；
files_bg_noise_imgs 是一个包含噪声对象图像路径的列表；
bg_max 和 bg_min 是背景图像最长和最短边的目标尺寸；
max_objs_to_add 是要添加到背景中的最大噪声对象数；
long_bg_noise_min 和longest_bg_noise_max 是噪声对象最长边的最小和最大尺寸。 long_bg_noise_max 应小于 bg_min，longest_bg_noise_min 应至少为 30。
如果我们希望背景为白色而不是随机图像，则 blank_bg 应该为 True。

如果我们设置白色背景，让我们看看这个函数是如何工作的：

img_comp_bg = create_bg_with_noise(files_bg_imgs,
                                   files_bg_noise_imgs,
                                   files_bg_noise_masks,
                                   max_objs_to_add=20,
                                   blank_bg=True)
plt.figure(figsize=(15,15))
plt.imshow(img_comp_bg)

这次我们将随机选择一张图片作为背景：

img_comp_bg = create_bg_with_noise(files_bg_imgs,
                                   files_bg_noise_imgs,
                                   files_bg_noise_masks,
                                   max_objs_to_add=20)
plt.figure(figsize=(15,15))
plt.imshow(img_comp_bg)

请注意，每次调用create_bg_with_noise()函数后，我们都会得到一个新的噪声对象组合，因为它们是随机选择并放置在背景之上的。

2.8 控制重叠程度

新添加的感兴趣对象可以与先前添加的感兴趣对象部分重叠。有时它可以与另一个对象的重要部分重叠，例如其面积的 60% 或 70%，甚至完全重叠。但我们不希望这种情况发生。

我们可能想要控制重叠的程度，使其小于20%或30%。或者我们可能希望我们感兴趣的物体完全不重叠。

让我们定义函数 check_areas() 来检查任何先前添加的对象是否重叠超过重叠度阈值：

def check_areas(mask_comp, obj_areas, overlap_degree=0.3):
    obj_ids = np.unique(mask_comp).astype(np.uint8)[1:-1]
    masks = mask_comp == obj_ids[:, None, None]
    
    ok = True
    
    if len(np.unique(mask_comp)) != np.max(mask_comp) + 1:
        ok = False
        return ok
    
    for idx, mask in enumerate(masks):
        if np.count_nonzero(mask) / obj_areas[idx] < 1 - overlap_degree:
            ok = False
            break
            
    return ok

将新对象添加到合成后，此功能会将先前添加的对象的未重叠部分的区域与先前添加的对象的原始区域进行比较。如果之前添加的任何对象的重叠度超过了overlap_degree，则该函数返回 False。如果所有先前添加的对象重叠不超过overlap_degree 或根本不重叠，则该函数返回True。

参数 mask_comp 是添加新对象后的Mask合成。

参数 obj_areas 是对象的原始区域列表，按添加顺序排列，就好像它们没有重叠一样。此列表在将其传递给 check_areas() 函数时不应包含新添加的对象。

2.9 创建合成数据

这里我们将定义函数create_composition()，它创建对象的合成数据:

def create_composition(img_comp_bg,
                       max_objs=15,
                       overlap_degree=0.2,
                       max_attempts_per_obj=10):

    img_comp = img_comp_bg.copy()
    h, w = img_comp.shape[0], img_comp.shape[1]
    mask_comp = np.zeros((h,w), dtype=np.uint8)
    
    obj_areas = []
    labels_comp = []
    num_objs = np.random.randint(max_objs) + 2
    
    i = 1
    
    for _ in range(1, num_objs):

        obj_idx = np.random.randint(len(obj_dict)) + 1
        
        for _ in range(max_attempts_per_obj):

            imgs_number = len(obj_dict[obj_idx]['images'])
            idx = np.random.randint(imgs_number)
            img_path = obj_dict[obj_idx]['images'][idx]
            mask_path = obj_dict[obj_idx]['masks'][idx]
            img, mask = get_img_and_mask(img_path, mask_path)

            x, y = np.random.randint(w), np.random.randint(h)
            longest_min = obj_dict[obj_idx]['longest_min']
            longest_max = obj_dict[obj_idx]['longest_max']
            img, mask = resize_transform_obj(img,
                                             mask,
                                             longest_min,
                                             longest_max,
                                             transforms=transforms_obj)

            if i == 1:
                img_comp, mask_comp, mask_added = add_obj(img_comp,
                                                          mask_comp,
                                                          img,
                                                          mask,
                                                          x,
                                                          y,
                                                          i)
                obj_areas.append(np.count_nonzero(mask_added))
                labels_comp.append(obj_idx)
                i += 1
                break
            else:        
                img_comp_prev, mask_comp_prev = img_comp.copy(), mask_comp.copy()
                img_comp, mask_comp, mask_added = add_obj(img_comp,
                                                          mask_comp,
                                                          img,
                                                          mask,
                                                          x,
                                                          y,
                                                          i)
                ok = check_areas(mask_comp, obj_areas, overlap_degree)
                if ok:
                    obj_areas.append(np.count_nonzero(mask_added))
                    labels_comp.append(obj_idx)
                    i += 1
                    break
                else:
                    img_comp, mask_comp = img_comp_prev.copy(), mask_comp_prev.copy()        
        
    return img_comp, mask_comp, labels_comp, obj_areas

参数说明如下:

img_comp_bg 是将添加感兴趣对象的背景。
max_obobjects为最大添加对象数。
overlap_degree是阈值，它定义了一个随机添加的感兴趣对象是否与任何先前添加的感兴趣对象重叠超过由overlap_degree定义的阈值。如果至少一个感兴趣的对象重叠过多，则该函数返回到先前的合成并再次添加该对象。
max_attempts_per_obj 是函数将尝试添加对象的尝试次数，而不会与其他对象重叠超过由overlap_degree定义的阈值。

这个函数返回:

mg_comp：添加了感兴趣的对象的图像。在我们的例子中，感兴趣的对象是电池、灯泡和挂锁。
mask_comp：添加对象的掩码组合。背景像素的值为 0，第一个添加对象的像素值为 1，第二个添加对象的像素值为 2，以此类推。
labels_comp：添加对象类别的数字表示。例如，如果按以下顺序添加对象 [lightbulb, battery, padlock, padlock, lightbulb, padlock, battery]，则标签数组将为 [2, 1, 3, 3, 2, 3, 1]。类和数字的这种关系在脚本开头的 obj_dict 中定义。
obj_areas：对象区域的列表，按添加顺序排列，就好像它们没有重叠一样。

让我们生成一个合成数据:

img_comp, mask_comp, labels_comp, obj_areas = create_composition(img_comp_bg,
                                                                 max_objs=15,
                                                                 overlap_degree=0.2,
                                                                 max_attempts_per_obj=10)
plt.figure(figsize=(40,40))
plt.imshow(img_comp)

在这里您可以看到电池、灯泡和挂锁，但要快速找到它们并不总是那么容易。让我们看看这个合成数据的Mask：

plt.figure(figsize=(40,40))
plt.imshow(mask_comp)

如果您查看Mask组成，您可以轻松找到所有对象。在这里，您可以看到 2 个电池、3 个灯泡和 4 个挂锁。让我们看一下标签数组：

print("Labels (classes of the objects) on the composition in order of object's addition:", labels_comp)

# Labels (classes of the objects) on the composition in order of object's addition: [3, 1, 2, 2, 3, 2, 3, 1, 3]

在这里你可以看到第一个添加的对象是一个挂锁(类别3)，然后添加一个电池(类别1)，等等……

让我们也比较物体的原始区域(没有重叠)和合成的区域:

obj_ids = np.unique(mask_comp).astype(np.uint8)[1:]
masks = mask_comp == obj_ids[:, None, None]

print("Degree of how much area of each object is overlapped:")

for idx, mask in enumerate(masks):
    print(np.count_nonzero(mask) / obj_areas[idx])
# Degree of how much area of each object is overlapped:
# 0.8688065237500786
# 0.8778115434707346
# 1.0
# 1.0
# 1.0
# 1.0
# 1.0
# 1.0
# 1.0

这里我们看到第一个添加的对象重叠了 1 - 0.869 = 13.1%，第二个添加的对象重叠了 1 - 0.878 = 12.2%。 13.1% 和 12.2% 都小于 0.2 的重叠阈值，该阈值作为参数overlap_degree传递给函数 reate_composition()。

此外，我们可以看到第一个添加的对象是padlock（labels_comp 数组中的第一个元素的标签为 3），第二个添加的对象是 battery（labels_comp 数组中的第二个元素的标签为 1）。如果我们再看Mask的组成，我们可以看到一个padlock和一个battery被lampbulbs重叠。这意味着我们可以直观地确认我们的脚本可以正常工作。我们还为每个添加的对象绘制边界框：

colors = {1: (255,0,0), 2: (0,255,0), 3: (0,0,255)}

img_comp_bboxes = img_comp.copy()

obj_ids = np.unique(mask_comp).astype(np.uint8)[1:]
masks = mask_comp == obj_ids[:, None, None]

for i in range(len(obj_ids)):
    pos = np.where(masks[i])
    xmin = np.min(pos[1])
    xmax = np.max(pos[1])
    ymin = np.min(pos[0])
    ymax = np.max(pos[0])
    img_comp_bboxes = cv2.rectangle(img_comp_bboxes,
                                    (xmin, ymin),
                                    (xmax,ymax),
                                    colors[labels_comp[i]],
                                    6)
    
plt.figure(figsize=(40,40))
plt.imshow(img_comp_bboxes)

您可以看到从Mask中获取每个对象的边界框。在上图中，每个类别都有自己的颜色（红色代表电池，绿色代表灯泡，蓝色代表挂锁）。

2.10 转换为YOLO格式

我们编写了一个 python 脚本来创建合成图像和Mask。现在我们将编写为图像创建标注的脚本。

YOLO 格式要求将标注存储为 txt 文件。每个图像应该有一个 txt 文件，它们应该具有相同的名称。每个 txt 文件由几行组成；一行对应于一个边界框，由五个数字组成 object_class、 x_center、 y_center、 width 和 height。

第一个数字 object_class 是对象类的编号。 YOLO 格式要求对象类应以 0 开头。其他四个数字是 x_center、 y_center、 width 和 height格式的边界框的坐标。坐标必须以标准化格式[0,1]呈现。要获得标准化坐标，请将 x_center 和 width 除以背景图像宽度，将 y_center 和 height 除以背景图像高度。

这是为合成场景创建注释的函数：

def create_yolo_annotations(mask_comp, labels_comp):
    comp_w, comp_h = mask_comp.shape[1], mask_comp.shape[0]
    
    obj_ids = np.unique(mask_comp).astype(np.uint8)[1:]
    masks = mask_comp == obj_ids[:, None, None]

    annotations_yolo = []
    for i in range(len(labels_comp)):
        pos = np.where(masks[i])
        xmin = np.min(pos[1])
        xmax = np.max(pos[1])
        ymin = np.min(pos[0])
        ymax = np.max(pos[0])

        xc = (xmin + xmax) / 2
        yc = (ymin + ymax) / 2
        w = xmax - xmin
        h = ymax - ymin

        annotations_yolo.append([labels_comp[i] - 1,
                                 round(xc/comp_w, 5),
                                 round(yc/comp_h, 5),
                                 round(w/comp_w, 5),
                                 round(h/comp_h, 5)])

    return annotations_yolo

函数返回mask_comp上显示的每个对象的注释列表。让我们看看它是如何工作的:

annotations_yolo = create_yolo_annotations(mask_comp, labels_comp)
for i in range(len(annotations_yolo)):
    print(' '.join(str(el) for el in annotations_yolo[i]))

# 2 0.66042 0.78472 0.18021 0.4287
# 0 0.28802 0.30139 0.18333 0.58056
# 1 0.84297 0.82593 0.2224 0.3463
# 1 0.74557 0.18194 0.1151 0.225
# 2 0.73385 0.55556 0.04792 0.17778
# 1 0.24844 0.08472 0.15937 0.16944
# 2 0.60547 0.40463 0.07656 0.25556
# 0 0.38333 0.79028 0.21875 0.28241
# 2 0.21589 0.70602 0.08802 0.31389

再次需要注意的是，这里的对象的数字类从 0 开始，而不是 1。在数组 labels_comp 中，1 与电池相关，2 与灯泡相关，3 与挂锁相关。但是，标注中，对象的类应该以0开头，这是YOLO格式的要求，所以我们将每个数字减一，这意味着注解中0与电池有关，1与灯泡有关，2与挂锁有关。

2.11 创建和保存合成数据集

YOLOv5 要求将训练图像和注释存储在文件夹 train/images/ 和 train/labels/ 中。数据集的验证部分应存储在文件夹 valid/images/ 和 valid/labels/ 中。

下面是创建数据集的函数:

def generate_dataset(imgs_number, folder, split='train'):
    time_start = time.time()
    for j in tqdm(range(imgs_number)):
        img_comp_bg = create_bg_with_noise(files_bg_imgs,
                                           files_bg_noise_imgs,
                                           files_bg_noise_masks,
                                           max_objs_to_add=60)
        
        img_comp, mask_comp, labels_comp, _ = create_composition(img_comp_bg,
                                                                 max_objs=15,
                                                                 overlap_degree=0.2,
                                                                 max_attempts_per_obj=10)

        img_comp = cv2.cvtColor(img_comp, cv2.COLOR_RGB2BGR)
        cv2.imwrite(os.path.join(folder, split, 'images/{}.jpg').format(j), img_comp)

        annotations_yolo = create_yolo_annotations(mask_comp, labels_comp)
        for i in range(len(annotations_yolo)):
            with open(os.path.join(folder, split, 'labels/{}.txt').format(j), "a") as f:
                f.write(' '.join(str(el) for el in annotations_yolo[i]) + '\n')
                
    time_end = time.time()
    time_total = round(time_end - time_start)
    time_per_img = round((time_end - time_start) / imgs_number, 1)
    
    print("Generation of {} synthetic images is completed. It took {} seconds, or {} seconds per image".format(imgs_number, time_total, time_per_img))
    print("Images are stored in '{}'".format(os.path.join(folder, split, 'images')))
    print("Annotations are stored in '{}'".format(os.path.join(folder, split, 'labels')))

现在，创建文件夹 dataset/train/images/、dataset/train/labels/、dataset/valid/images/、dataset/valid/labels/，其中函数 generate_dataset() 将保存图像和注释。

让我们创建一个包含1000张训练图像和200张验证图像的数据集:

generate_dataset(1000, folder='dataset', split='train')
generate_dataset(200, folder='dataset', split='valid')

输出

100%|████████████████████████████████████████████████████████████████████████████| 1000/1000 [1:04:37<00:00,  3.88s/it]
Generation of 1000 synthetic images is completed. It took 3878 seconds, or 3.9 seconds per image
Images are stored in 'dataset\train\images'
Annotations are stored in 'dataset\train\labels'
100%|████████████████████████████████████████████████████████████████████████████████| 200/200 [12:15<00:00,  3.68s/it]
Generation of 200 synthetic images is completed. It took 735 seconds, or 3.7 seconds per image
Images are stored in 'dataset\valid\images'
Annotations are stored in 'dataset\valid\labels'

太棒了!现在我们有了一个合成数据集，可以训练对象检测模型了!

在我的例子中，在一台处理器为Intel Core i7-6700HQ、内存为8GB的笔记本电脑上，在运行其他一些任务的情况下，生成1200张图片的数据集大约需要1小时20分钟。一幅合成图像在不到4秒的时间内生成。

我还用不同环境下的电池、灯泡和挂锁拍摄了 43 张照片，并手工对它们进行了标注。我们可以使用这些真实照片来测试训练后的目标检测模型的质量。

在这里你可以下载1000张合成训练图像、200张合成验证图像和43张真实测试图像的完整数据集。

2.12 YOLOv5模型的训练和测试

我使用生成的数据集在 Google Colab 中训练 YOLOv5x6 模型。我为训练设置了以下超参数：图像大小为 1280，每批 4 张图像，10 个 epoch。训练模型后，我在真实照片上进行了测试。结果非常好（P 是精度，R 是召回率，mAP 是平均精度）：

    Class  Images  Labels       P       R     mAP@.5    mAP@.5:.95
      all      43     354   0.976   0.944      0.956         0.883
  Battery      43     133   0.944    0.88      0.895         0.774
Lightbulb      43     110   0.985   0.991      0.995         0.949
  Padlock      43     111       1    0.96      0.978         0.926

让我们看看几张检测到物体的测试照片:

我特意制作了一些物体部分重叠的照片和一些物体在复杂环境中的照片，以使模型更难识别感兴趣的物体。但是经过训练的合成数据集模型可以很好地识别这些照片上的对象。

2.13 噪声对象在合成场景中的重要性

我希望你们注意这张测试照片:

您可以在此处看到两个橡皮擦被标识为电池。很可能，模型发现了橡皮擦和电池之间的一些共同特征（形状+文本的存在），并将橡皮擦认为电池。

在生成合成数据集时，可以通过添加橡皮擦作为噪声对象来避免这种情况。因此，在训练过程中，模型可以调整其权重，以免将橡皮擦误认为电池。

此外，我们添加的不同种类的噪声对象越多，训练出来的模型越不会关注它们，这意味着误报检测会更少。这就是为什么在生成合成场景时向背景添加噪声对象很重要的原因。

好的，现在您知道如何生成用于对象检测的合成数据集了。您可以用您感兴趣的对象替换电池、灯泡和挂锁，并根据您的需要生成数据集。如果您需要创建的数据集不是为 YOLOv5 而是为其他一些对象检测模型，您也可以更改注释的格式。

参考目录

https://medium.com/@alexppppp/how-to-create-synthetic-dataset-for-computer-vision-object-detection-fd8ab2fa5249
https://github.com/alexppppp/synthetic-dataset-object-detection

你可能感兴趣的:(数据增强,目标检测,目标检测,数据增强)

计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
CBNet--一种新的目标检测的复合骨干网体系结构 weixin_45963617 深度学习系列
一、Introduction一般来说，在一个典型的基于CNN的目标检测器中，使用主干网络来提取检测对象的基本特征，该网络通常是为图像分类任务而设计的，并在ImageNet上预训练。毫无疑问，更强大的主干网可以带来更好的检测性能。尽管最先进的基于深度的大骨干网络的探测器取得了很好的结果，但仍有很大改进空间。此外，通过设计一个新的更强大的主干网络并在ImageNet上预训练来获取好的检测性能是十分昂贵
如何使用YOLOv8在AI-TOD数据集上进行遥感目标检测，从安装依赖项、准备数据集、配置YOLOv8、训练和评估模型以及构建GUI应用程序展示检测计算机C9硕士_算法工程师人工智能 YOLO 目标检测遥感
如何使用YOLOv8在AI-TOD数据集上进行遥感目标检测，从安装依赖项、准备数据集、配置YOLOv8、训练和评估模型以及构建GUI应用程序展示检测文章目录1.安装依赖2.数据准备3.配置YOLOv83.1加载预训练模型或自定义模型4.训练模型5.评估模型6.构建GUI应用程序（可选）以下文字及代码仅供参考。遥感目标检测，AI-TOD数据集aitod，训练集11214张，测试集集14018，验证集
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
目标检测中归一化的目的？林语微光 kaggle 目标检测目标跟踪人工智能
在目标检测任务中，归一化坐标和尺寸时需要除以图像的宽度和高度，主要有以下几个原因：1.统一尺度不同图像可能具有不同的宽度和高度。通过将坐标和尺寸除以图像的宽度和高度，可以将所有图像的标注信息统一到相同的尺度范围（[0,1]）。这使得模型在训练和推理时能够处理任意尺寸的图像，而不需要关心图像的具体像素尺寸。2.位置和尺寸的相对性归一化后的坐标和尺寸是相对于图像尺寸的，而不是绝对像素值。这种相对性使得
YOLO魔改之频率分割模块（FDM）清风AI YOLO算法魔改系列 YOLO 人工智能计算机视觉目标检测 python 深度学习
目标检测原理目标检测是一种将目标分割和识别相结合的图像处理技术，旨在从图像中定位并识别特定目标。深度学习方法，如FasterR-CNN和YOLO系列，已成为主流解决方案。这些方法通常采用两阶段或单阶段策略，通过卷积神经网络(CNN)提取特征并进行分类和定位。在小目标检测中，为克服分辨率低和特征不明显的问题，模型设计中会特别注重特征融合和多尺度处理，以增强对小目标的感知能力。YOLOv8基础YOLO
目标检测YOLO实战应用案例100讲-基于毫米波雷达与摄像头协同的道路目标检测与识别（续）林聪木目标检测 YOLO 人工智能
目录3.2实测数据采集与分析3.2.1回波数据处理3.2.2毫米波雷达数据采集实验3.3基于传统图像特征的目标识别算法3.3.1基于灰度共生矩阵的时频图特征提取3.3.2支持向量机分类器3.3.3实验及结果分析3.4基于卷积神经网络的目标识别算法3.4.1卷积神经网络的基本理论3.4.2卷积神经网络框架设计3.4.3实验及结果分析基于图像的目标检测算法4.1目标检测算法一般流程4.2典型目标检测算
Python 的 ultralytics 库详解白.夜人工智能
ultralytics是一个专注于计算机视觉任务的Python库，尤其以YOLO（YouOnlyLookOnce）系列模型为核心，提供了简单易用的接口，支持目标检测、实例分割、姿态估计等任务。本文将详细介绍ultralytics库的功能、安装方法、核心模块以及使用示例。1.ultralytics库简介ultralytics库由Ultralytics团队开发，旨在为YOLO系列模型提供高效、灵活且易
【机器视觉】少量样本图片情况下的图片识别技术方案 yuanpan 机器学习人工智能计算机视觉
在只有少量图片样本的情况下，进行图像识别是一个具有挑战性的任务。以下是一些应对小样本问题的有效方案：1.数据增强（DataAugmentation）通过对现有样本进行各种变换来生成更多的训练数据，例如：几何变换：旋转、缩放、平移、翻转等。颜色变换：调整亮度、对比度、饱和度等。噪声添加：高斯噪声、椒盐噪声等。裁剪和填充：随机裁剪图像的一部分或填充边缘。工具：Keras：ImageDataGenera
使用 TensorFlow 进行图像处理：深度解析卷积神经网络（CNN）一碗黄焖鸡三碗米饭人工智能前沿与实践 tensorflow 图像处理 cnn 人工智能机器学习 python ai
目录使用TensorFlow进行图像处理：深度解析卷积神经网络（CNN）1.什么是卷积神经网络（CNN）？CNN的基本结构为什么CNN适合图像处理？2.使用TensorFlow构建CNN2.1环境准备2.2加载并预处理MNIST数据集2.3构建CNN模型2.4编译和训练模型2.5评估模型3.CNN的优化与改进3.1使用数据增强3.2调整网络结构4.CNN在其他图像处理任务中的应用5.总结参考文献在
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
医疗影像联邦学习可解释性算法研究智能计算研究中心其他
内容概要医疗影像分析领域的联邦学习技术正面临数据隐私保护与模型可解释性的双重挑战。本研究以跨机构医疗影像协作场景为核心，系统性探讨联邦学习框架下可解释性算法的创新路径，重点解决医疗AI模型在分布式训练中的透明度缺失问题。通过引入动态特征选择机制与可解释性注意力模块，算法在保持数据本地化处理的同时，实现了关键病灶特征的跨域关联与可视化解析。研究同步整合自动化数据增强流程与多维度评估指标（如F1值、召
大语言模型的训练数据清洗策略 gs80140 AI python
目录大语言模型的训练数据清洗策略1.数据去重与标准化问题解决方案示例代码（Python实现数据去重）：2.过滤有害内容问题解决方案示例代码（基于关键词过滤有害内容）：3.纠正数据不均衡问题解决方案示例代码（欠采样非均衡数据）：4.识别和纠正刻板印象问题解决方案示例代码（简单的数据增强）：5.处理低质量与无关数据问题解决方案示例代码（去除HTML标签）：6.处理时效性数据问题解决方案示例代码（基于时
yolov4 zzh- 笔记
V4贡献：亲民政策，单GPU就能训练的非常好，接下来很多小模块都是这个出发点两大核心方法，从数据层面和网络设计层面来进行改善消融实验，感觉能做的都让他给做了，这工作量不轻全部实验都是单GPU完成，不用太担心设备了Bagoffreebies(BOF)只增加训练成本，但是能显著提高精度，并不影响推理速度数据增强：调整亮度、对比度、色调、随机缩放、剪切、翻转、旋转网络正则化的方法：Dropout、Dro
【保姆级视频教程（一）】YOLOv12环境配置：从零到一，手把手保姆级教程！| 小白也能轻松玩转目标检测！一只云卷云舒 YOLOv12保姆级通关教程 YOLO YOLOv12 flash attention GPU 计算能力算力
【2025全站首发】YOLOv12环境配置：从零到一，手把手保姆级教程！|小白也能轻松玩转目标检测！文章目录1.FlashAttentionWindows端WHL包下载1.1简介1.2下载链接1.3国内镜像站1.4安装方法2.NVIDIAGPU计算能力概述2.1简介2.2计算能力版本与GPU型号对照表2.2.1CUDA-EnabledDatacenterProducts2.2.2CUDA-Enab
yolov8的第一次实验报告算法宇宙 YOLO 人工智能计算机视觉
1.实验概述实验名称:占道经营目标检测模型实验目标:提高模型的精确率（Precision）和召回率（Recall），使其接近1。实验日期:[2025-01-16]2.数据集数据集名称:[datasets]数据集大小:[2.68Gb]数据集描述:[数据集主要分两个类别：zdjy_ld,zdjy_gd]注释：占道经营流动，占道经营固定3.模型配置3.1基础配置·模型类型:YOLOv8·预训练模型:YO
YOLOv8 的简介及C#中如何简单应用YOLOv8 码上有潜 YOLOv8 YOLO
YOLOv8是YOLO（YouOnlyLookOnce）系列中的最新版本，是一种用于目标检测和图像分割的深度学习模型。YOLO模型以其快速和准确的目标检测性能而著称，广泛应用于实时应用程序中。主要特点高效性：YOLOv8在保持高检测速度的同时，进一步提高了检测精度。端到端训练：可以直接从图像输入端到分类结果输出，简化了训练和部署过程。改进的架构：包括更深的网络结构、更复杂的特征提取方法以及更高效的
Yolov11目标检测(ultralytics) @M_J_Y@ 目标检测 YOLO 目标检测人工智能
Yolov11目标检测（ultralytics）1.克隆仓库2.安装环境依赖3.训练、验证、推理以及onnx模型导出1.克隆仓库从官网下载Yolov11到本地。[email protected]:ultralytics/ultralytics.git2.安装环境依赖pipinstall-e.-ihttps://pypi.mirrors.ustc.edu.cn/simple/3.训练、验证
使用 labelImg 制作YOLO系列目标检测数据集（ 2401_89791028 YOLO 目标检测人工智能
文章转载自K同学，谨防原文失效可参考link1和link2和link3LabelImg介绍LabelImg支持文件夹的导入，在标完一张后，在左侧选择NextImage就可以切换到下一张继续了。输出格式部分，目前LabelImg支持YOLO和PascalVOC2种格式，前者标签文件后缀是.txt件，而后者标签文件后缀是.xml件。标签保存在对应的labels文件夹下，与images中的图片文件名一一
YOLOv8 改进：添加 GAM 注意力机制鱼弦人工智能时代 YOLO
YOLOv8改进：添加GAM注意力机制引言在目标检测领域，YOLO（YouOnlyLookOnce）网络因其速度和准确性被广泛应用。然而，随着场景的复杂化，仅仅依靠卷积特征可能不足以捕捉图像中的重要信息。引入注意力机制，如GAM（GlobalAttentionMechanism），可以有效提高模型对关键区域的关注，从而提升检测性能。技术背景GAM是一种全局注意力机制，通过全局信息聚合和自适应权重分
【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试? 努力毕业的小土博^_^ AI算法题库人工智能计算机视觉算法深度学习神经网络目标检测
【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试?前言多尺度训练核心思想：优点与注意点：多尺度测试核心思想：优点与注意点：综合作用参考示例总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上
少样本数值型数据集 | 数据增强蒜蓉趣多多机器学习人工智能材料工程
对于小样本数字型数据集，数据增强的有效方法主要集中在创造新的样本、调整现有样本的特征、或者通过生成模型来模拟真实分布。下面是个人搜集到的方法及部分代码。希望对大家的科研/工作有所帮助！1.噪声注入(NoiseInjection)方法：在原始数据上添加少量的随机噪声，生成新的样本。噪声可以是高斯噪声、均匀分布噪声或其他分布的噪声。实现：对于每个特征，可以加上一个服从小均值和小方差的正态分布噪声，如X
从0到1构建AI深度学习视频分析系统--基于YOLO 目标检测的动作序列检查系统：（2）消息队列与消息中间件 shiter 人工智能系统解决方案与技术架构人工智能深度学习音视频
文章大纲原始视频队列Python内存视频缓存优化方案（4GB以内）一、核心参数设计二、内存管理实现三、性能优化策略四、内存占用验证五、高级优化技巧六、部署建议检测结果队列YOLO检测结果队列技术方案一、技术选型矩阵二、核心实现代码三、性能优化策略四、可视化方案对比五、部署建议逻辑判定队列时间片图论时间序列大模型引入参考文献原始视频队列想要在单机内存中缓存1-5分钟的视频片段，python技术栈的话
Python第二十三课：自监督学习 | 无标注数据的觉醒程之编 Python全栈通关秘籍 python 开发语言人工智能机器学习
本节目标理解自监督学习的核心范式与优势掌握对比学习（ContrastiveLearning）框架实现图像掩码自编码器（MaskedAutoencoder）开发实战项目：亿级参数模型轻量化探索数据增强的创造性艺术一、自监督学习基础（AI的拼图游戏）1.核心思想解析学习范式数据需求生活比喻监督学习海量标注数据老师逐题批改作业无监督学习纯无标签数据自学杂乱笔记自监督学习自动生成伪标签玩拼图游戏（根据碎片
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache