weixin_44457930

从零开始实现yolox一：数据集类

数据集类

1 数据集及其划分
- （1）数据集文件组织结构
- （2）数据集的划分
- （3）从xml文件中提取目标信息（边框和分类）
2 数据集类
- （1）`__init__`与`__len__`函数
- （2）`__getitem__`函数
- （3）dataset测试脚本
3 collate_fn及测试脚本

本系列参考了博主Bubbliiiing的博客与代码，链接为：https://blog.csdn.net/weixin_44791964/article/details/120476949
在复现之前，有必要知道YOLOX的原理，以及pytorch框架的使用，这是最基础的部分。
让我们开始复现之旅吧。

1 数据集及其划分

（1）数据集文件组织结构

建立如图所示的目录结构用于存放数据

其中Annotations用于存放标签文件（即xml文件），ImageSets用于存放数据集划分后的txt文件，JPEGImages用于存放图片，图片要和标签文件的名字对应起来。

将图片和标签文件复制到Annotations和JPEGImages中，复制之后：
Annotations是下面这个样子

JPEGImages是下面这个样子

（2）数据集的划分

这个数据集中10506张图片，现计划按照7：1：2的方式划分训练集、验证集和测试集，并且把对应的文件名存放到train.txt、val.txt和test.txt文件中，那么可以在yolox_from_scratch下新建一个名为split_voc.py的程序，新建后目录结构如下：

split_voc.py内容如下：

import os
import random

trainval_percent = 0.8                          # 训练集+验证集总占比
train_percent = 0.875                           # 训练集在trainval_percent里的train占比，0.875*0.8=0.7，因此训练集在总样本中占比70%
VOCdevkit_path = 'VOCdevkit'                    # 数据集文件路径
random.seed(0)                                  # 设定种子，使得程序能够复现

print("Generate txt in ImageSets.")
xmlfilepath = os.path.join(VOCdevkit_path, 'VOC2007/Annotations')           # 标签文件路径
saveBasePath = os.path.join(VOCdevkit_path, 'VOC2007/ImageSets/Main')       # 训练集、验证集、测试集txt文件的所在路径
temp_xml = os.listdir(xmlfilepath)
total_xml = []
for xml in temp_xml:
    if xml.endswith(".xml"):
        total_xml.append(xml)

num = len(total_xml)                            # 获得数据集样本的总数量
list = range(num)                               # 获得数据集样本的索引
tv = int(num * trainval_percent)                # 验证集+训练集样本的总数量
tr = int(tv * train_percent)                    # 训练集样本的数量
trainval = random.sample(list, tv)              # 训练集+验证集样本索引构成的列表
train = random.sample(trainval, tr)             # 训练集样本索引构成的列表
# random.sample(list, tv) 表示从list中生成一个长度为tv新列表，新列表中的元素从list中取样获得
# 而list是一个range对象，表示数据集的索引

print("train and val size", tv)
print("train size", tr)

ftrainval = open(os.path.join(saveBasePath, 'trainval.txt'), 'w')
ftest = open(os.path.join(saveBasePath, 'test.txt'), 'w')
ftrain = open(os.path.join(saveBasePath, 'train.txt'), 'w')
fval = open(os.path.join(saveBasePath, 'val.txt'), 'w')

for i in list:
    name = total_xml[i][:-4] + '\n'  # total_xml[i][:-4]之所以只到-4，是因为最后4位是 .xml，这个我们暂时不需要
    if i in trainval:
        ftrainval.write(name)
        if i in train:
            ftrain.write(name)
        else:
            fval.write(name)
    else:
        ftest.write(name)

ftrainval.close()
ftrain.close()
fval.close()
ftest.close()
print("Generate txt in ImageSets done.")

输出

Generate txt in ImageSets.
train and val size 8404
train size 7353
Generate txt in ImageSets done.

此时VOCdevkit/VOC2007/ImageSets/Main多个几个文件，VOCdevkit的结构如下图所示：

四个txt文件中是样本的去掉后缀后的文件名，例如train.txt如下图所示

（3）从xml文件中提取目标信息（边框和分类）

数据集划分好了，但目标的边框和分类却还在xml文件中，下面我们将其提取出来。
我们在yolox_from_scratch下建立一个名为model_data的文件夹，用于存放需要的分类信息，新建之后，项目结构如下：

在yolox_from_scratch下新建一个名为annotations_convert.py的程序，内容如下：

import os
import xml.etree.ElementTree as ET

VOCdevkit_sets = [('2007', 'train'), ('2007', 'val')]       # 数据集
VOCdevkit_path = 'VOCdevkit'                    			# 数据集文件路径
classes = ['D00', 'D10', 'D20', 'D40']                      # 类名


def convert_annotation(year, image_id, list_file):
    in_file = open(os.path.join(VOCdevkit_path, 'VOC%s/Annotations/%s.xml' % (year, image_id)), encoding='utf-8')
    tree = ET.parse(in_file)                # 解析xml文件
    root = tree.getroot()                   # 获得根目录

    for obj in root.iter('object'):
        difficult = 0
        if obj.find('difficult') != None:
            difficult = obj.find('difficult').text
        cls = obj.find('name').text                     # 获得目标的类名
        if cls not in classes:                          # 并非所有目标都是需要检测的
            continue
        cls_id = classes.index(cls)
        xmlbox = obj.find('bndbox')
        b = (int(float(xmlbox.find('xmin').text)), int(float(xmlbox.find('ymin').text)),
             int(float(xmlbox.find('xmax').text)), int(float(xmlbox.find('ymax').text)))
        list_file.write(" " + ",".join([str(a) for a in b]) + ',' + str(cls_id))
        # ",".join([str(a) for a in b])生生一个新的字符串，这个字符串用“,”列表进行分隔


if __name__ == '__main__':
    print("Generate 2007_train.txt and 2007_val.txt for train.")
    for year, image_set in VOCdevkit_sets:
        image_ids = open(os.path.join(VOCdevkit_path, 'VOC%s/ImageSets/Main/%s.txt' % (year, image_set)),
                         encoding='utf-8').read().strip().split()
        # os.path.join(VOCdevkit_path, 'VOC%s/ImageSets/Main/%s.txt' % (year, image_set))
        # 返回 VOCdevkit/VOC2007/ImageSets/Main/train.txt 或 VOCdevkit/VOC2007/ImageSets/Main/test.txt
        # read()是一次读取所有，它返回的是一个字符串，而readlines()返回的是一个列表，列表的每个元素都是一行
        # strip()是去掉头尾的空字符
        # split()使其能按\n符划分，因为read()返回的是所有行构成的一个字符串，也包括了换行符

        list_file = open('%s_%s.txt' % (year, image_set), 'w', encoding='utf-8')    # 打开2007_train.txt或者2007_val.txt
        for image_id in image_ids:
            list_file.write('%s/VOC%s/JPEGImages/%s.jpg' % (VOCdevkit_path, year, image_id))    # 将图片文件名写入
            convert_annotation(year, image_id, list_file)
            list_file.write('\n')
        list_file.close()
    print("Generate 2007_train.txt and 2007_val.txt for train done.")
    with open('model_data/voc_classes.txt', 'w+') as f:
        f.write('\n'.join(classes))

上面的程序之所以写的那么复杂，是因为从别的地方拷过来的，时间紧迫，没有来得及精简
程序运行之后，目录结构变成如下形式：

在yolox_from_scratch下多了两个txt文件，我们打开2007_train.txt，内容如下：

这个txt文件将图片名和对应的目标标签信息放在了同一行，2007_val.txt的内容也是类似。一张图片中可能存在多个目标（如Japan_00000.jpg)，也有可能没有目标（如Japan_00005.jpg）。
在model_data下面多了一个名为voc_classes.txt的文件夹，内容如下：

2 数据集类

在yolox_from_scratch下新建一个程序包，名为utils，在里面新建一个名为dataloader.py的文件，新建后结构如下图所示：

（1）`init`与`len`函数

再dataloader.py中，先把要使用的包导入进来

from random import sample, shuffle

import cv2
import numpy as np
from PIL import Image
from torch.utils.data.dataset import Dataset

在这个py文件中定义一个数据集类，该类继承torch.utils.data中的Dataset类，自制的数据集类必须实现三个函数: __init__、__len__和__getitem__，分别是初始化类，求长度len(obj)，通过索引获得单个样本及其标签。

先写__init__、__len__这两个函数：

import cv2
import numpy as np
from PIL import Image
from torch.utils.data.dataset import Dataset


class YoloDataset(Dataset):
    def __init__(self, annotation_lines, input_shape, num_classes,
                 is_train, mosaic=False, mixup=False, mosaic_prob=0.5, mixup_prob=0.5):
        """

        Args:
            annotation_lines:       这是标签文件（例如2007_train.txt）中每一行构成的列表，通过open后readlines()获得
            input_shape:            输入到模型的图像尺寸
            num_classes:            需要检测的类数
            is_train:               对应的模型是否为训练状态，这个对是否进行普通的数据增强有影响
                                    在训练状态下，无论是否使用mosaic和mix_up数据增强，都必须要使用普通数据增强
                                    普通的数据增强包括随机调整高宽比、随机镜像、色域扭曲等
                                    如果不在训练状态（即eval状态），那么任何形式的数据增强都不使用
            mosaic:                 是否使用马赛克数据增强
            mixup:                  是否使用mix_up数据增强
            mosaic_prob:            当mosaic=True时，图片进行马赛克数据增强的概率
            mixup_prob:             当mixup=True时，图片进行mixup数据增强的概率
        """
        super(YoloDataset, self).__init__()
        self.annotation_lines = annotation_lines
        self.length = len(self.annotation_lines)    # 标签长度，其实就是图片数量

        self.input_shape = input_shape      # 输入到模型的图像尺寸
        self.num_classes = num_classes      # 需要检测的类别数
        self.is_train = is_train            # 对应的模型是否为训练状态
        self.mosaic = mosaic                # 是否使用马赛克数据增强
        self.mixup = mixup                  # 是否使用mix_up数据增强
        self.mosaic_prob = mosaic_prob      # 当mosaic=True时，图片进行马赛克数据增强的概率
        self.mixup_prob = mixup_prob        # 当mixup=True时，图片进行mixup数据增强的概率

        self.step_now = -1                  # 用来对读取了多少张图片进行计数

    def __len__(self):
        return self.length

（2）`getitem`函数

接下来是__getitem__，通常来讲，自己定义的数据集类中，这个函数是最复杂的，因为在这个函数中，要对标签进行处理，将其转化成标准格式，如果涉及到了数据增强，也是在这个函数中进行处理。（一般在使用torch完成计算机视觉任务中，最难写的地方有两个，一个是这里的__getitem__函数，另一个是计算损失函数）

    def __getitem__(self, index):
        index = index % self.length  # 将索引调整到0-self.length，防止索引越界

        self.step_now += 1  # 读取图片计数+1
        # ---------------------------------------------------#
        #   训练时进行数据的随机增强
        #   验证时不进行数据的随机增强
        # ---------------------------------------------------#
        if self.is_train:
            if self.mosaic:
                # 我看原版的yolox代码中，mosaic和mixup并非独立，只有当mosaic为True时，才会讨论mixup是否为True
                # 但由于马赛克数据增强代码还没有整明白，所以这里先pass
                pass
            else:
                image, box = self.get_random_data(self.annotation_lines[index], self.input_shape, rand=True)
        else:
            image, box = self.get_random_data(self.annotation_lines[index], self.input_shape, rand=False)

        # 先将图片按ImageNet的均值与方差进行标准化，再将通道索引调到最前面
        from utils.utils import preprocess_input
        image = np.transpose(preprocess_input(np.array(image, dtype=np.float32)), (2, 0, 1))

        # 指定数据类型，经过数据增强后，box的类型为np.int32，这里将其转化成np.float32
        box = np.array(box, dtype=np.float32)
        # 若当前图片没有目标，那么box将是一个空数组，没有类型，上面的命令也可以对空数组指定类型

        # 将box的上下角点坐标转化成x,y,w,h
        if len(box) != 0:
            box[:, 2:4] = box[:, 2:4] - box[:, 0:2]
            box[:, 0:2] = box[:, 0:2] + box[:, 2:4] / 2

        return image, box

上面的程序中，调用了self.get_random_data和preprocess_input两个方法，我们先来讲self.get_random_data。
如果没有涉及到mosaic数据增强，那么都在self.get_random_data中进行处理，如果模型处于训练状态，那么就进行传统的数据增强（如随机缩放等），如果模型处于评估状态，那么就不做数据增强。

下面是函数get_random_data的注释

    def get_random_data(self, annotation_line, input_shape, jitter=.3, hue=.1, sat=1.5, val=1.5, rand=True):
        """
        传统数据增强策略，包括随机缩放、高宽扭曲、随机镜像、色域扭曲
        关于色域（HSV颜色模型），可以看这篇文章：https://www.cnblogs.com/lfri/p/10426113.html
        Args:
            annotation_line:self.annotation_lines中的一行，里面有图片的路径、box标签的信息
            input_shape:模型输入图片的尺寸，也就是说，这里要将图片转化成这个尺寸
            jitter:用于生成一个宽高的缩放因子，例如jitter是0.3的时候，缩放因子为从（1-0.3，1+0.3）中随机生成一个
            hue:色调
            sat:饱和度
            val:明亮度
            rand:是否需要进行随机数据增强，因为只有模型处于训练状态下才需要数据增强，
                所以这里的True、False代表模型是否处于训练状态

        Returns:

        """

我们可以先从annotation_line中获得图像和box，这些通用信息无论是训练状态和评估状态，都能使用

        """将图片和标注信息分割"""
        line = annotation_line.split()

        """读取图像并转换成RGB图像"""
        from utils.utils import cvtColor
        image = Image.open(line[0])
        image = cvtColor(image)

        """获得图像的高宽与模型的输入高宽"""
        iw, ih = image.size     # 原图像的宽高
        h, w = input_shape      # 模型的输入尺寸，输入模型的尺寸，是高在前

        """获得目标框，并转化为numpy数组"""
        box = np.array([np.array(list(map(int, box.split(',')))) for box in line[1:]])  # line是一个列表了
        # 若图片中没有目标，那么line这个列表中只有一个元素，即图片的路径字符串
        # 但是line[1:]不会报错，这会返回一个空列表，但line[1]会报错
        # 也就是说，对于列表索引越界，如果是取单个元素则会报错，但如果是取切片则不会报错

这里调用了cvtColor函数，我们在utils中新建一个名为utils.py的文件，建立后的项目结构为：

在utils.py中写入下面的函数：

import numpy as np


# ---------------------------------------------------------#
#   将图像转换成RGB图像，防止灰度图在预测时报错。
#   代码仅仅支持RGB图像的预测，所有其它类型的图像都会转化成RGB
# ---------------------------------------------------------#
def cvtColor(image):
    """image是PIL.Image.open的返回值，该函数的意义在于将图像转化成RGB三个通道"""
    if len(np.shape(image)) == 3 and np.shape(image)[-2] == 3:  # 检查image是否为3个通道
        return image
    else:
        image = image.convert('RGB')
        return image

回到get_random_data中，我们先来处理模型处于评估状态时的情形：

        """如果非训练状态，就不需要数据增强了，直接进行 letter_box 转化"""
        if not rand:
            scale = min(w/iw, h/ih)     # 按照原始图片的高宽中较大的一边来确定比例
            # 因为模型的输入尺寸都是正方形，所以 iw=ih，因此 w/iw 和 h/ih 的分母相同
            # 假如原图片中宽比较小，那么 w/iw 比较大，min(w/iw, h/ih)就是 h/ih
            # 也就是说，scale是按照原始图片的高宽中较大的一边来确定比例

            nw = int(iw*scale)          # 新的宽
            nh = int(ih*scale)          # 新的高
            dx = (w-nw)//2              # letter_box算法中左右两个灰条宽度
            dy = (h-nh)//2              # 上下两个灰条宽度
            # 因为横向和纵向，只有一个方向有灰条，因此dx和dy其中一个必然为0，
            # 如果原始图片是正方形，那么dx和dy两个都为0

            # 按照新的宽和高缩放图像
            image = image.resize((nw,nh), Image.BICUBIC)

            # 生成一个指定宽高的灰度图作为画布，其三个颜色通道都是128
            new_image = Image.new('RGB', (w, h), (128, 128, 128))   # (128, 128, 128)是灰条的三通道像素值

            # 将缩放后的图像粘贴到画布中央
            new_image.paste(image, (dx, dy))                        # 把缩放后的图片粘贴到new_image的指定位置
            image_data = np.array(new_image, np.float32)            # 转化成指定格式

            # 对真实框进行调整
            if len(box) > 0:
                np.random.shuffle(box)
                box[:, [0, 2]] = box[:, [0, 2]]*nw/iw + dx          # 将上下角点的横坐标转化成letter_box后的横坐标
                box[:, [1, 3]] = box[:, [1, 3]]*nh/ih + dy          # 将上下角点的纵坐标转化成letter_box后的纵坐标

                box[:, 0:2][box[:, 0:2] < 0] = 0                    # 负值检查（为何横坐标有负值检查，而纵坐标没有？）
                box[:, 2][box[:, 2] > w] = w                        # 越界检查
                box[:, 3][box[:, 3] > h] = h
                # 上面三项真的有必要吗？

                box_w = box[:, 2] - box[:, 0]                       #
                box_h = box[:, 3] - box[:, 1]
                box = box[np.logical_and(box_w > 1, box_h > 1)]     # discard invalid box 将宽高大于1的边框筛选出来

            return image_data, box

如果模型处于训练状态，那么就不会执行上面的if语句，而是要进行数据增强，这里的数据增强分成4个部分：随机缩放与高宽扭曲、随机镜像、色域扭曲。

下面的程序是随机缩放与高宽扭曲

        """对图像进行缩放并且进行高宽扭曲"""
        new_ar = w/h * self.rand(1-jitter, 1+jitter) / self.rand(1-jitter, 1+jitter)    # 随机生成一个新的宽高比
        scale = self.rand(.25, 2)                                                       # 随机生成一个缩放因子

        # 高和宽哪个大（可以根据new_ar来获得），就缩放哪个，另一个按照高宽比来获得
        if new_ar < 1:                          #
            nh = int(scale*h)                   # 现将高按缩放因子缩放
            nw = int(nh*new_ar)                 # 根据新的高和新的高宽比，获得新的宽
        else:
            nw = int(scale*w)
            nh = int(nw/new_ar)

        # 根据新的宽和高，缩放图像
        image = image.resize((nw, nh), Image.BICUBIC)

        """将图像多余的部分加上灰条，这里左右（或上下）的灰条，未必一样厚"""
        dx = int(self.rand(0, w-nw))
        dy = int(self.rand(0, h-nh))
        # 上面的dx和dy有可能为负，因为scales有可能大于1，那么nh和nw有可能大于h和w

        new_image = Image.new('RGB', (w, h), (128, 128, 128))           # 生成指定宽高的画布
        new_image.paste(image, (dx, dy))                                # 将缩放后的图像粘贴到画布的指定位置
        # 如果dx大于0，那么说明w>nw，那么整个过程相当于是在横向缩小，然后在左右两边填充灰条
        # 如果dx小于0，那么说明w
        # dy也是类似的，总之，经过上面的命令之后，new_image的宽高就是(w, h)了

        image = new_image

这里调用了self.rand函数，这是YoloDataset类的一个成员方法，如果没有指定参数，则生成一个0-1之间的随机数，如果指定了a和b，那就生成一个a-b之间的随机数

    def rand(self, a=0, b=1):
        """生成一个a-b之间的随机数，比如要生成一个0-100的随机数，那么可以a=0, b=100"""
        return np.random.rand()*(b-a) + a

回到get_random_data中，接下来是色域扭曲：

        """色域扭曲"""
        hue = self.rand(-hue, hue)                                          # 新的色调比例
        sat = self.rand(1, sat) if self.rand()<.5 else 1/self.rand(1, sat)  # 新的饱和度
        val = self.rand(1, val) if self.rand()<.5 else 1/self.rand(1, val)  # 新的明亮度
        x = cv2.cvtColor(np.array(image, np.float32)/255, cv2.COLOR_RGB2HSV)    # 将RGB转HSV，获得新的图形（numpy数组）

        # 调整色调
        x[..., 0] += hue * 360
        x[..., 0][x[..., 0] > 360] -= 360  # 根据周期将色调调整到合理区间
        x[..., 0][x[..., 0] < 0] += 360  # 将色调调整到合理区间
        # x[..., 0]返回的是一个shape为(nw, nh)的numpy数组，
        # x[..., 0]>360返回的是一个shape为(nw, nh)的布尔数组
        # x[..., 0][x[..., 0] > 360] 和 x[..., 0][x[..., 0] < 360]是布尔索引
        # 因为x[..., 0] += hue之后，hue有可能大于360，也有可能小于0，这里是将其调整到0-360这个区间内

        # 调整饱和度与亮度
        x[..., 1] *= sat
        x[..., 2] *= val

        # 将饱和度、亮度调整到0-1之间
        x[:, :, 1:][x[:, :, 1:] > 1] = 1
        x[:, :, 1:][x[:, :, 1:] < 0] = 0

        # 将HSV转回RGB
        image_data = cv2.cvtColor(x, cv2.COLOR_HSV2RGB)*255                 # 将HSV转回RGB

上面的程序中，将RGB转化为HSV时，图像数据进行了归一化，这使得转化成HSV后，饱和度与亮度都归一化了，但色域却没有，转化后色域依然是0~360。

最后是根据数据增强的情况对目标框进行调整，并返回增强后的图像及目标框

        """对目标框进行调整"""
        if len(box) > 0:
            np.random.shuffle(box)

            # 根据图像缩放比例和灰条确定新的box的位置
            box[:, [0, 2]] = box[:, [0, 2]]*nw/iw + dx
            box[:, [1, 3]] = box[:, [1, 3]]*nh/ih + dy

            # 根据是否进行了镜像操作，对box的横坐标进行操作
            if flip:
                box[:, [0, 2]] = w - box[:, [2, 0]]

            # box的异常值检查
            box[:, 0:2][box[:, 0:2] < 0] = 0
            box[:, 2][box[:, 2] > w] = w
            box[:, 3][box[:, 3] > h] = h

            # 将宽和高合格的box筛选出来
            box_w = box[:, 2] - box[:, 0]
            box_h = box[:, 3] - box[:, 1]
            box = box[np.logical_and(box_w > 1, box_h > 1)]

        """返回图像数据（numpy数组)和边框（同样是numpy数组）"""
        return image_data, box

接下来写前面提到的preprocess_input方法

在utils.py中加入下面的函数

def preprocess_input(image):
    """在输入模型前，将图片先标准化（按imagenet）的均值与方差
    """
    image /= 255.0
    image -= np.array([0.485, 0.456, 0.406])     # imagenet的均值      # TODO 这里的均值和方差，是否需要修改成自己的数据集？
    image /= np.array([0.229, 0.224, 0.225])    # imagenet的标准差
    return image

（3）dataset测试脚本

好的，现在我们已经完成数据集类了，接下来写一个测试脚本。
在yolox_from_scratch下新建一个名为dataloader_test.py的文件，内容如下：

import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as patches
from utils.dataloader import YoloDataset
import cv2

import os
os.environ["KMP_DUPLICATE_LIB_OK"] = "TRUE"

if __name__ == '__main__':
    """设置种子"""
    np.random.seed(0)

    """获得数据集类的相关初始化参数"""
    train_annotation_path = '2007_train.txt'
    with open(train_annotation_path) as f:
        train_lines = f.readlines()                     # train_lines将是一个列表

    input_shape = [640, 640]
    num_classes = 4
    mosaic = False
    mixup = False

    """建立数据集类对象"""
    train_dataset = YoloDataset(train_lines, input_shape, num_classes, is_train=True, mosaic=mosaic, mixup=mixup)

    """通过索引获得增强后的图像及标签"""
    img, boxes = train_dataset[2]
    img = np.transpose(img, (1, 2, 0))      # 将通道调整到最后
    print("boxes info after data_augmentation (center_x, center_y, w, h):")
    print(boxes)

    # 绘图
    ax1 = plt.subplot(1, 2, 1)
    ax1.imshow(img)
    for box in boxes:
        # center_x, center_y, w, h, _ = tuple(map(int, value) for value in box)
        center_x, center_y, w, h, _ = box[0], box[1], box[2], box[3], box[4]
        ax1.add_patch(patches.Rectangle((center_x-w//2, center_y-h//2), w, h, facecolor="red", alpha=0.3))
        # Rectangle的第一个参数最靠近0的点的坐标（这里是左上角），后面是宽和高，然后是颜色和透明度
    ax1.set_title("data_augmentation")

    """原始图片与标签"""
    orig_info = train_lines[2]
    line = orig_info.split()
    img_dir = line[0]               # 图片路径
    boxes = line[1:]                # 目标框信息
    boxes = np.array([np.array(list(map(int, box.split(',')))) for box in line[1:]])
    print("original boxes:")
    print(boxes)

    # 绘图
    ax2 = plt.subplot(1, 2, 2)
    img_orig = cv2.imread(img_dir)
    img_orig = cv2.cvtColor(img_orig, cv2.COLOR_BGR2RGB)
    ax2.imshow(img_orig)
    for box in boxes:
        top_left_x, top_left_y, low_right_x, low_right_y, _ = box[0], box[1], box[2], box[3], box[4]
        w = (top_left_x + low_right_x)//2
        h = (top_left_y + low_right_y)//2
        ax2.add_patch(patches.Rectangle((top_left_x, top_left_y), w, h, facecolor="red", alpha=0.3))
    ax2.set_title("original")

    plt.show()

终端输出为：

boxes info after data_augmentation (center_x, center_y, w, h):
[[383. 576. 514. 128.   2.]
 [  1. 622.   2.  36.   2.]]
Clipping input data to the valid range for imshow with RGB data ([0..1] for floats or [0..255] for integers).
original boxes:
[[151 427 581 600   2]
 [  2 493  53 581   2]]

这边注意一下，经过数据增强后的第二个box，它的宽仅仅是2个像素，通常情况下不可能是这么小，只有可能是随机裁剪，使得目标框被剪掉了，结合图形，我们可以看到目标框在增强图和原图中的情况：

在 2007_train.txt文件中，第五行只有图片路径，没有边框信息，我们将索引改为4，来debug一下程序，看看无边框时，__getitem__返回的box是什么，并且跟踪__getitem__中box的类型变化。

程序如下，因为这里不好显示debug过程，所以这里就直接运行，自己敲的时候，最好debug

import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as patches
from utils.dataloader import YoloDataset
import cv2

import os
os.environ["KMP_DUPLICATE_LIB_OK"] = "TRUE"

if __name__ == '__main__':
    """设置种子"""
    np.random.seed(0)

    """获得数据集类的相关初始化参数"""
    train_annotation_path = '2007_train.txt'
    with open(train_annotation_path) as f:
        train_lines = f.readlines()                     # train_lines将是一个列表

    input_shape = [640, 640]
    num_classes = 4
    mosaic = False
    mixup = False

    """建立数据集类对象"""
    train_dataset = YoloDataset(train_lines, input_shape, num_classes, is_train=True, mosaic=mosaic, mixup=mixup)

    """通过索引获得增强后的图像及标签"""
    img, boxes = train_dataset[4]           # 索引为4，对应的图片名称为 VOCdevkit/VOC2007/JPEGImages/Japan_000005.jpg
    img = np.transpose(img, (1, 2, 0))      # 将通道调整到最后
    print("boxes info after data_augmentation (center_x, center_y, w, h):")
    print(boxes)
	print(type(boxes))						# 再增加一行打印boxes的类型

    # 绘图
    ax1 = plt.subplot(1, 2, 1)
    ax1.imshow(img)
    for box in boxes:
        # center_x, center_y, w, h, _ = tuple(map(int, value) for value in box)
        center_x, center_y, w, h, _ = box[0], box[1], box[2], box[3], box[4]
        ax1.add_patch(patches.Rectangle((center_x-w//2, center_y-h//2), w, h, facecolor="red", alpha=0.3))
        # Rectangle的第一个参数最靠近0的点的坐标（这里是左上角），后面是宽和高，然后是颜色和透明度
    ax1.set_title("data_augmentation")

    """原始图片与标签"""
    orig_info = train_lines[4]      # 索引为4，对应的图片名称为 VOCdevkit/VOC2007/JPEGImages/Japan_000005.jpg
    line = orig_info.split()
    img_dir = line[0]               # 图片路径
    boxes = line[1:]                # 目标框信息
    boxes = np.array([np.array(list(map(int, box.split(',')))) for box in line[1:]])
    print("original boxes:")
    print(boxes)

    # 绘图
    ax2 = plt.subplot(1, 2, 2)
    img_orig = cv2.imread(img_dir)
    img_orig = cv2.cvtColor(img_orig, cv2.COLOR_BGR2RGB)
    ax2.imshow(img_orig)
    for box in boxes:
        top_left_x, top_left_y, low_right_x, low_right_y, _ = box[0], box[1], box[2], box[3], box[4]
        w = (top_left_x + low_right_x)//2
        h = (top_left_y + low_right_y)//2
        ax2.add_patch(patches.Rectangle((top_left_x, top_left_y), w, h, facecolor="red", alpha=0.3))
    ax2.set_title("original")

    plt.show()

这边输出

boxes info after data_augmentation (center_x, center_y, w, h):
[]
<class 'numpy.ndarray'>
Clipping input data to the valid range for imshow with RGB data ([0..1] for floats or [0..255] for integers).
original boxes:
[]

显示的图像为：

3 collate_fn及测试脚本

在dataloader.py中增加一个函数，这样就能通过DataLoader一次性导入多张图片及其标签（即一个batch的data和targets）

# DataLoader中collate_fn使用
def yolo_dataset_collate(batch):
    images = []
    bboxes = []
    for img, box in batch:
        images.append(img)
        bboxes.append(box)
    images = np.array(images)
    return images, bboxes

上面的函数，将整个batch的所有图片整合成一个张量（numpy数组），而每张图片对应的box原来是是一个二维的numpy数组，但上面的函数将一个batch中的所有box都放到了同一个列表当中。

我们来写两个测试脚本

第一个脚本测试返回值类型：
代码如下：

import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as patches
from torch.utils.data import DataLoader

from utils.dataloader import YoloDataset, yolo_dataset_collate

if __name__ == '__main__':
    """设置种子"""
    np.random.seed(0)

    """获得数据集类的相关初始化参数"""
    train_annotation_path = '2007_train.txt'
    with open(train_annotation_path) as f:
        train_lines = f.readlines()  # train_lines将是一个列表

    input_shape = [640, 640]
    num_classes = 4
    mosaic = False
    mixup = False

    """建立数据集类对象"""
    train_dataset = YoloDataset(train_lines, input_shape, num_classes, is_train=True, mosaic=mosaic, mixup=mixup)

    batch_size = 4
    num_workers = 4

    """建立导入器对象"""
    gen = DataLoader(train_dataset, batch_size=batch_size, num_workers=num_workers, pin_memory=True,
                     drop_last=True, collate_fn=yolo_dataset_collate)

    for iteration, batch in enumerate(gen):
        images, targets = batch[0], batch[1]
        print("images type", type(images))
        print("images shape", images.shape)
        print("targets type", type(targets))
        print(targets)
        print('-'*50)

        if iteration == 1:
            break

输出

images type <class 'numpy.ndarray'>
images shape (4, 3, 640, 640)
targets type <class 'list'>
[array([[570. , 541. ,  54. ,  78. ,   0. ],
       [505.5, 575. , 177. ,  32. ,   1. ],
       [535. , 574.5, 210. , 107. ,   2. ],
       [535.5, 474.5, 205. ,  87. ,   3. ]], dtype=float32), array([[ 59., 515., 118.,  30.,   1.],
       [380., 514., 520.,  66.,   1.]], dtype=float32), array([[492.5, 373. ,  39. ,  50. ,   2. ],
       [237. , 360. , 324. ,  98. ,   2. ]], dtype=float32), array([[322., 412., 636., 174.,   2.]], dtype=float32)]
--------------------------------------------------
images type <class 'numpy.ndarray'>
images shape (4, 3, 640, 640)
targets type <class 'list'>
[array([], dtype=float32), array([[348.5, 255.5, 155. , 299. ,   2. ],
       [244. , 230.5,  50. , 311. ,   0. ],
       [540. , 517. ,  80. ,  32. ,   1. ]], dtype=float32), array([], dtype=float32), array([[187.5, 411. ,  39. ,  58. ,   2. ]], dtype=float32)]
--------------------------------------------------

第二个脚本用来绘图，代码如下：

import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as patches
from torch.utils.data import DataLoader

from utils.dataloader import YoloDataset, yolo_dataset_collate

import os
os.environ["KMP_DUPLICATE_LIB_OK"] = "TRUE"

if __name__ == '__main__':
    """设置种子"""
    np.random.seed(0)

    """获得数据集类的相关初始化参数"""
    train_annotation_path = '2007_train.txt'
    with open(train_annotation_path) as f:
        train_lines = f.readlines()  # train_lines将是一个列表

    input_shape = [640, 640]
    num_classes = 4
    mosaic = False
    mixup = False

    """建立数据集类对象"""
    train_dataset = YoloDataset(train_lines, input_shape, num_classes, is_train=True, mosaic=mosaic, mixup=mixup)

    batch_size = 4
    num_workers = 4

    """建立导入器对象"""
    gen = DataLoader(train_dataset, batch_size=batch_size, num_workers=num_workers, pin_memory=True,
                     drop_last=True, collate_fn=yolo_dataset_collate)

    for iteration, batch in enumerate(gen):
        images, targets = batch[0], batch[1]
        images = np.transpose(images, (0, 2, 3, 1))     # 将通道调整到最后，方便绘图

        ax = [0, 0, 0, 0]
        for index in range(4):
            ax[index] = plt.subplot(2, 2, index+1)
            ax[index].imshow(images[index])
            for box in targets[index]:
                # center_x, center_y, w, h, _ = tuple(map(int, value) for value in box)
                center_x, center_y, w, h, _ = box[0], box[1], box[2], box[3], box[4]
                ax[index].add_patch(patches.Rectangle((center_x - w // 2, center_y - h // 2), w, h, facecolor="red", alpha=0.3))
                # Rectangle的第一个参数最靠近0的点的坐标（这里是左上角），后面是宽和高，然后是颜色和透明度

        break

    plt.show()

显示的图像：

至此，数据集类和配套的collate_fn讲解完毕，下一节我们来搭建yolox的网络结构。

你可能感兴趣的:(YOLOX,pytorch,人工智能,python)

CSE 231 Computer Python program 后端
CSE231Spring2025ComputerProject#4LearningobjectivesThisassignmentfocusesonthedesign,implementationandtestingofaPythonprogramthatusescharacterstringsforlookingattheDNAsequencesforkeyproteinsandseeingho
【部署】Ktransformer是什么、如何利用单卡24GB显存部署Deepseek-R1 和 Deepseek-V3 仙人掌_lz 人工智能人工智能 AI 部署自然语言处理
简介KTransformers是一个灵活的、以Python为中心的框架，旨在通过先进的内核优化和放置/并行策略提升HuggingFaceTransformers的使用体验。它具有高度的可扩展性，用户可通过单行代码注入优化模块，获得兼容Transformers的接口、符合OpenAI和Ollama的RESTfulAPI，甚至简化的ChatGPT风格的WebUI。KTransformers的性能优化基
C语言-回调函数的应用 woainizhongguo. C/C++c语言
什么是回调函数回调函数就是一个被作为参数传递的函数。在C语言中，回调函数只能使用函数指针实现，在C++、Python、ECMAScript等更现代的编程语言中还可以使用仿函数或匿名函数。工作机制⑴定义一个回调函数；⑵提供函数实现的一方在初始化的时候，将回调函数的函数指针注册给调用者；⑶当特定的事件或条件发生的时候，调用者使用函数指针调用回调函数对事件进行处理。应用案例（1）应用层：通过调用hal层
Python Union 联合类型注解详解人才程序员杂谈 python 服务器 java linux 后端软件工程开发语言
文章目录PythonUnion联合类型注解详解1.什么是Union联合类型？**语法（Python3.9及之前版本）**：**语法（Python3.10及之后版本）**：2.Union联合类型注解示例**(1)使用Union来表示多个类型的参数****(2)使用`|`来表示联合类型（Python3.10及之后版本）**3.使用Union进行复杂类型注解**(1)使用Union与列表结合****(2
OpenAI揭示o3的推理过程，以弥合与DeepSeek-R1的差距 c++服务器开发人工智能 deepseek
生成式人工智能开发商OpenAI公司首席执行官SamAltman最近在RedditAMA问答活动中承认，该公司在开源软件研究方面站在了“历史错误的一边”。尽管OpenAI公司尚未发布其开源模型，但已经迈出了提高透明度的第一步。正如该公司在其X帐号上所宣布的那样，其最新的推理模型o3-mini现在展示了其思维链（CoT）跟踪的更详细版本。此前，OpenAI公司的推理模型仅展示了CoT的高级概述，这使
释放 DeepSeek 的力量：像专家一样本地安装与探索！ guzhoumingyue AI python
要在本地运行DeepSeek，您需要遵循以下步骤。请确保您的计算机上已安装Python和Git，并且满足DeepSeek的依赖项。步骤1:安装依赖项安装Python和pip确保您已安装Python（建议使用Python3.6及以上版本）。您可以通过在终端/命令提示符中输入以下命令来检查Python是否已安装：bash复制代码python--version或者bash复制代码python3--ver
ffmpeg-python安装 neverayever 计算机 ffmpeg python linux
centos-ffmpeg-python安装安装ffmpeg一：下载并解压wgethttp://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gztar-zxvfffmpeg-4.2.tar.gz若linux服务器没网，可以在windows上直接访问http://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gz就可下载，然后上传至服
Python的那些事第二十七篇：Python中的“数据魔法师”NumPy 暮雨哀尘 Python的那些事 python numpy 开发语言数据分析算法数组索引
摘要在这篇幽默风趣的论文中，我们将深入探讨NumPy——Python中最强大的数值计算库之一。它不仅提供了高性能的多维数组对象，还让复杂的数学运算变得像吃冰淇淋一样简单。本文将通过生动的代码示例和幽默的比喻，带你领略NumPy的魔法世界，让你在欢笑中掌握这个强大的工具。一、引言：为什么NumPy是程序员的“超级英雄”？1.1NumPy的起源：从“数据苦力”到“数据魔法师”想象一下，你被困在一个全是
Python爬虫TLS dme. Python爬虫零基础入门爬虫 python
TLS指纹校验原理和绕过浏览器可以正常访问，但是用requests发送请求失败。后端是如何监测得呢？为什么浏览器可以返回结果，而requests模块不行呢？https://cn.investing.com/equities/amazon-com-inc-historical-data1.指纹校验案例1.1案例：ascii2dhttps://ascii2d.net/importrequestsres
python爬虫Selenium库详细教程_python爬虫之selenium库的使用详解嘻嘻哈哈学编程程序员 python 爬虫 selenium
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化学习资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！2.2访问页面2.3查找元素2.3.1单个元素下面
排序算法：冒泡排序（Python）娱乐不打烊丶排序算法算法数据结构
思路：大家一定都喝过汽水吧，汽水中常常有许多小小的气泡，往上飘，这是因为组成小气泡的二氧化碳比水要轻，所以小气泡才会一点一点的向上浮。而冒泡排序之所以叫冒泡排序，正是因为这种排序算法的每一个元素都可以向小气泡一样，根据自身大小，一点一点向着数组的一侧移动。一图解百惑，上图！那么，话不多说，上代码！defbubble_sort(input_list):#冒泡排序：每次循环，锁定一个最值，并朝着最大或
supervisord 命令介绍和使用案例 lisanmengmeng linux 命令工具系统运维 shell编程服务器 linux 运维
supervisord命令介绍和使用案例supervisord是一个用Python编写的进程管理工具，用于监控和管理Linux系统中的进程。它可以将普通的命令行进程转变为后台守护进程（daemon），并监控进程状态，在进程异常退出时自动重启。它通过fork/exec的方式把被管理的进程当作自己的子进程来启动。主要功能:进程管理：能够启动、停止、重启和关闭进程.自动重启：监控进程状态，并在进程崩溃时
ptython setup.py install 设置python包编译时的并行数 leo0308 基础知识 Python python pytorch3d
通过源码编译安装pytorch3d的时候，直接执行pythonsetup.pyinstall时，默认开的并行数很多，有10几个，直接导致机器卡死。通过设置下面的环境变量，可以设置较小的并行数，避免占用过多的资源。exportMAX_JOBS=4设置后，同时只有4个编译的进程。
探索AI音乐创作的未来：八款顶尖AI音乐生成工具（本期介绍国外-国内另外专题介绍）带娃的IT创业者 AIGC 程序员创富人工智能音视频 ai
探索AI音乐创作的未来：八款顶尖AI音乐生成工具（本期介绍国外-国内另外专题介绍）在科技飞速发展的今天，人工智能（AI）已经渗透到我们生活的方方面面，其中音乐创作也不例外。AI音乐生成工具不仅为专业音乐人提供了新的创作方式，也让普通人能够轻松创作出高质量的音乐作品。本文将介绍八款知名的AI音乐生成工具，帮助你了解它们的特点和优势。1.SunoSuno是一款AI驱动的音乐生成器，能够快速创建高质量的
深入理解DAG任务调度系统：核心原理与实现 AI天才研究院计算 Python实战编程实践 python 算法 dag
1.背景介绍随着大数据、人工智能等领域的发展，任务调度系统的重要性日益凸显。DirectedAcyclicGraph(DAG)任务调度系统是一种常见的任务调度系统，它可以有效地解决多个依赖关系复杂的任务调度问题。本文将深入探讨DAG任务调度系统的核心原理和实现，为读者提供一个深入的理解。1.1背景介绍1.1.1任务调度系统简介任务调度系统是计算机科学中一个重要的研究领域，它主要关注于在并行计算系统
python 自动化数据提取之正则表达式_python 正则提取(2) m0_60607245 程序员 python 学习面试
一、Python所有方向的学习路线Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。二、Python必备开发工具工具都帮大家整理好了，安装就可直接上手！三、最新Python学习笔记当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理
GUI编程（window系统→Linux系统）诚信爱国敬业友善心得 linux python gui
最近有个项目需要将windows系统的程序往Linux系统上面移植，由于之前程序没有考虑过多平台兼容的问题，导致部分功能不可用以下是对近期遇到的问题的总结，以及相应的解决方案和经验分享。1.Python模块安装与管理在Linux系统中，安装和管理Python模块时可能会遇到权限问题或依赖冲突。安装模块：使用pip安装模块时，建议使用--user选项，避免需要管理员权限：bash复制pipinsta
spring boot基于知识图谱的阿克苏市旅游管理系统python-计算机毕业设计 QQ1963288475 spring boot 知识图谱旅游 python vue.js django flask
目录功能和技术介绍具体实现截图开发核心技术：开发环境开发步骤编译运行核心代码部分展示系统设计详细视频演示可行性论证软件测试源码获取功能和技术介绍该系统基于浏览器的方式进行访问，采用springboot集成快速开发框架，前端使用vue方式，基于es5的语法，开发工具IntelliJIDEAx64，因为该开发工具，内嵌了Tomcat服务运行机制，可不用单独下载Tomcatserver服务器。由于考虑到
Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
接入DeepSeek后，智慧园区安全调度系统的全面提升 Guheyunyi 安全数据分析 python 智慧城市人工智能信息可视化
随着人工智能技术的快速发展，智慧园区的安全管理正逐步向智能化、自动化方向迈进。DeepSeek作为先进的人工智能解决方案，为智慧园区安全调度系统注入了强大的技术动力。通过接入DeepSeek，智慧园区安全调度系统在多个方面实现了显著提升，进一步增强了园区的安全性、管理效率和用户体验。1.智能化监控：从被动到主动传统的监控系统主要依赖人工查看视频画面，容易出现漏检或误判。接入DeepSeek后，智慧
Python学习心得两大编程思想 lifegoesonwjl python 开发语言 pycharm 前端 c语言
一、两大编程思想：1.面向过程：功能上的封装典型代表：C语言2.面向对象：属性和行为上的封装典型代表：Python、Java二、面向过程与面向对象的异同点：1.区别：面向过程：事物比较简单，可用线性的思维去解决面向对象：事务比较复杂，使用简单的线性思维无法解决2.共同点：（1）面向过程和面向对象都是解决实际问题的一种思维方式；（2）二者相辅相成，并不是对立的；（3）解决复杂问题，通过面向对象方式便
Linux升级Anacodna并配置jupyterLab 伪_装环境部署 linux 服务器 Anaconda python jupyter
在使用Anaconda的过程中，随着项目和需求的发展，可能需要升级Anaconda的Base环境中的Python版本。本文将详细介绍如何安全地进行升级，包括步骤、代码示例与最终流程图。升级Python一、环境准备在进行任何升级之前，建议先检查当前的Python版本以及各个库的兼容性。我们可以通过以下命令检查当前的Python版本：condainfo你会看到类似以下的输出，其中包含了当前Python
【Linux】删除Conda虚拟环境不是伍壹 Linux linux conda 运维
1、查看当前系统的conda虚拟环境condainfo--envscondaenvlist2、创建虚拟的环境condacreate-n（你的环境名字）python=（你需要的版本号，如（3.7,3.8,3.10））3、查看安装了哪些包condalist4、删除虚拟环境condaremove-nname--all5、删除虚拟环境中的包condaremove--name$（需要删除的环境名字）$（需要
动态规划之背包问题--python版本我是小码搬运工 #python基础动态规划背包问题 python版本
动态规划之背包问题–python版本问题已知一个最大量的背包，给定一组给定固定价值和固定体积的物品，求在不超过最大值的前提下，能放入背包中的最大总价值。解题思路该问题是典型的动态规划问题，分为三种不同的类型（0-1背包问题、完全背包和多重背包问题）解题关键–状态转移表达式：B(k,C)=max(B(k−1,C),B(k−1,C−ci)+vi)B(k,C)=max(B(k-1,C),B(k-1,C-
深度学习工厂的蓝图：拆解CUDA驱动、PyTorch与OpenCV的依赖关系时光旅人01号深度学习 pytorch opencv
想象一下，你正在建造一座深度学习工厂，这座工厂专门用于高效处理深度学习任务（如训练神经网络）和计算机视觉任务（如图像处理）。为了让工厂顺利运转，你需要搭建基础设施、安装设备、设置生产线，并配备控制台来管理整个生产过程。以下是这座工厂的详细构建过程：1.工厂的基础设施：Ubuntu比喻：Ubuntu是工厂所在的土地和建筑，提供了基础设施和运行环境。作用：提供操作系统环境，支持安装和运行各种工具和框架
（九万字）面向2025年BOSS直聘人工智能算法工程师高频面试题解析快撑死的鱼人工智能回归 python pytorch
面向2025年BOSS直聘人工智能算法工程师高频面试题解析1.机器学习（ML）理论解析机器学习是让计算机从数据中学习规律的一套方法论，包含监督学习、无监督学习和强化学习等范式。在监督学习中，给定带标签的数据，算法尝试学习从输入到输出的映射关系；无监督学习则在缺乏标签的情况下挖掘数据内在结构；强化学习则让智能体通过与环境交互、依据奖赏反馈来改进策略(Q-learning-Wikipedia)。机器学
Centos7 搭建 Jupyter + Nginx 服务某龙兄 python nginx linux centos
JupyterNotebook（此前被称为IPythonnotebook）是一个交互式笔记本，支持运行40多种编程语言。JupyterNotebook的本质是一个Web应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。本文讲述如何搭建Jupyter+Nginx服务,仅供学习与交流，请勿用于商业用途一
人工智能与机器学习入门：基尼系数（Gini Index）和基于熵（Entropy）基尼系数基于熵机器学习入门
在决策树应用一文中，在构建决策分类树应用决策算法时，介绍了基尼系数（GiniIndex）和基于熵（Entropy）两种算法。本文通过实例来更加深入的介绍一下这两个算法。仍然以简单的数据为例：id喜欢颜色是否有喉结身高性别1绿否165女2蓝是170男3粉否172女4绿是175男基尼系数分别对喜欢颜色是否有喉结求基尼系数如下：喜欢的颜色id喜欢颜色性别1绿女2蓝男3粉女4绿男对于姓别女分类而言，数据如
动态规划之背包问题的Python实现名侦探debug Python 数据结构 python 数据结构动态规划求解
目录1.问题描述2.动态规划之网格法3.python实现1.问题描述题目来源于《算法图解》第9章练习题9.2，如下图所示。对于背包问题，通常的做法有列举法、贪婪算法和动态规划（1）列举法：列举出所有的可能情况，再选择最优解，但当情况很多时，这种算法复杂度很高（2）贪婪算法：在容量允许范围内，每次都拿剩余物品中价值最高的，贪婪算法能够快速解决复杂度很高的问题，但通常得到的是次优解，但就对这个题目而言
总结10个Python赚钱的接单平台兼职月入5000+ begefefsef 面试学习路线阿里巴巴 android 前端后端
前言“如果说当下什么编程语言最靠谱或者比较适合搞副业？”答案肯定100%是：Pythonpython是所有语法中最简单易上手的语言，不需要特别的的英语词汇量，逻辑思维也不需要很差就能上手。而且学会了之后就能编写代码爬取各种数据，制作各种图表，提升工作效率。而且还能利用业余时间接点私活，一个月轻松收入过万不是问题，这样的生活他不香吗？今天就给大家盘点几个基本入门接私活的资源，让你轻松学python，
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found