XC___XC

数据预处理和数据集的设置——以目标检测数据集为例

数据集

在网上有很多可用的公开的数据集，根据自己的需要，下载相应的数据集，可以用来训练网络，测试网络模型的精度。

[数据集转载来源] 深度学习中的遥感影像数据集

Pascal VOC网址：http://host.robots.ox.ac.uk/pascal/VOC/

转载的一篇包含了比较多的数据集的一篇博文，可以参考一下。

但有些时候，我们需要根据我们自己的需求，根据自己的研究方向和类型，设置自己的数据集，以下，简单的阐述了设置数据集的一些步骤。

创建数据集

在pytorch中，官方文档简单的介绍了创建数据集的简单步骤。

# ================================================================== #
#                5. Input pipeline for custom dataset                 #
# ================================================================== #

# You should build your custom dataset as below.
class CustomDataset(torch.utils.data.Dataset):
    def __init__(self):
        # TODO
        # 1. Initialize file paths or a list of file names. 
        # 设置文件和标签的路径，或者文件名list，最关键的就是设置好数据集的路径，以及初始化一些数据集的属性
        pass
    def __getitem__(self, index):
        # TODO
        # 1. Read one data from file (e.g. using numpy.fromfile, PIL.Image.open).
        # 2. Preprocess the data (e.g. torchvision.Transform).
        # 3. Return a data pair (e.g. image and label).
        # 通过上述的数据集路径，读取文件，并且对文件进行预处理操作，返回真实的文件数据，比如image and label
        pass
    def __len__(self):
        # You should change 0 to the total size of your dataset.
        # 比较简单，只是设置数据集的长度，返回一个值
        return 0 

# You can then use the prebuilt data loader. 
custom_dataset = CustomDataset()
train_loader = torch.utils.data.DataLoader(dataset=custom_dataset,
                                           batch_size=64, 
                                           shuffle=True)

所以说，最关键的就是初始化文件路径和读取文件，以及文件的预处理。

其他的一些需要用到的属性和方法，在需要的时候加上就行。比如如何进行数据读取、如何进行预处理等。

在实际应用中，创建数据集的基本步骤也大致如此，只需要把相应的方法写全即可，下面以目标检测的数据集为例。

栗子

1.数据准备

首先，我们拿到目标检测的遥感图像，放到一个总的文件夹中。再使用标签工具labelImg进行标注，将标注好的xml标签文件同样放到同一个标签文件夹中。（下图仅为部分数据的截图）

这里有个小问题，就是使用不同的标注工具，得到的bonding box的格式会有不同，在后期读取的时候，可能会报错。

以下是图像和标签数据的截图实例：

再创建一个类别文件，设置不同的分类的地物名称，以及一个类别对应的JSON文件，不同类别对应不同的key和value。

将上述文件都放在同一个文件夹中，再将这些数据随机分成训练集和测试集，代码如下。

import os
import random


def train_val_txt(files_path,val_rate,output_train_path,output_val_path):
    '''
    :param files_path: 保存的所有图片文件的目录
    :param val_rate: 选择测试集相对于总体的比率
    :param output_train_path: 输出的train的filename的txt目录
    :param output_val_path: 输出的val的filename的txt目录
    '''

    if not os.path.exists(files_path):
        print("文件夹不存在")
        exit(1)

    # 获取文件目录下的所有文件名，返回列表格式
    files_name = sorted([file.split('.')[0] for file in os.listdir(files_path)])

    files_num = len(files_name)

    # 设置采样的序号，从[0,files_num] 中随机抽取k个数
    val_index = random.sample(range(0, files_num), k=int(files_num * val_rate))
    train_files = []
    val_files = []
    for index, file_name in enumerate(files_name):
        if index in val_index:
            val_files.append(file_name)
        else:
            train_files.append(file_name)

    try:
        with open(output_train_path,'x') as f:
            f.write('\n'.join(train_files))
        with open(output_val_path, 'x') as f:
            f.write('\n'.join(val_files))
    except Exception as e:
        print(e)
        exit(1)

根据注释，设置路径和分类比，运行后可以得到train.txt和val.txt文件。

文本文件中保存着训练集或测试集的样本名称，在后续操作中，直接读取不同的样本名称，就可以加载不同的数据。

最终效果如下：

这样数据就准备好了。

2.设置数据集

按照官方文档的框架，自定义数据集。

在init中，主要是初始化用户数据集的目录，包括设置标签目录，遥感影像目录，以及预处理。

def __init__(self, data_root, transforms, train=True):
    #设置不同的路径，分别设置成图片路径和标签路径
    self.root = os.path.join(data_root, "data")
    self.img_root = os.path.join(self.root, "JPEGImages")
    self.annotations_root = os.path.join(self.root, "Annotations")

    """读取训练集/测试集，txt_list是路径"""
    if train:
        txt_list = os.path.join(self.root, "ImageSets", "Main", "train_1.txt")
    else:
        txt_list = os.path.join(self.root, "ImageSets", "Main", "val_1.txt")

    with open(txt_list) as read:
        self.xml_list = [os.path.join(self.annotations_root, line.strip() + ".xml")
                         for line in read.readlines()]

    # 读取分类索引
    try:
        json_file = open('./data/classes.json', 'r')
        self.class_dict = json.load(json_file)
    except Exception as e:
        print(e)
        exit(-1)

    # 定义预处理方式
    self.transforms = transforms

len方法主要是返回数据集的个数，即有多少张图像（图像和标签是对应的）。该方法比较简单，直接返回即可。

def __len__(self):
    """返回训练集/测试集中图片的个数"""
    return len(self.xml_list)

在getitem中，传入index，即对不同index的图像和标签进行处理，返回一个image和target（包含boxes、label、image_id等信息）。

对于不同的需求，设置不同的方法，这里只是以目标检测为例，故需要返回image、label和boxes边界框等信息。

def __getitem__(self, idx):
    # read xml
    xml_path = self.xml_list[idx]  # idx是xml_list文件中的索引，通过索引找到第idx个xml文件的路径xml_str
    with open(xml_path) as fid:
        xml_str = fid.read()
    # xml = etree.fromstring(xml_str)
    xml = etree.fromstring(xml_str.encode('utf-8'))  # 读取xml文件的内容
    data = self.parse_xml_to_dict(xml)["annotation"]
    img_path = os.path.join(self.img_root, data["filename"])  # 从xml文件中得到img文件路径
    image = Image.open(img_path)
    if image.format != "JPEG":
        raise ValueError("Image format not JPEG")
    boxes = []
    labels = []
    iscrowd = []  # 是否难检测,crowd为0表示单目标
    for obj in data["object"]:
        """得到训练集边框坐标，分类和难易程度"""
        xmin = float(obj["bndbox"]["xmin"])
        xmax = float(obj["bndbox"]["xmax"])
        ymin = float(obj["bndbox"]["ymin"])
        ymax = float(obj["bndbox"]["ymax"])
        boxes.append([xmin, ymin, xmax, ymax])
        labels.append(self.class_dict[obj["name"]])
        iscrowd.append(int(obj["difficult"]))

    # convert everything into a torch.Tensor
    boxes = torch.as_tensor(boxes, dtype=torch.float32)
    labels = torch.as_tensor(labels, dtype=torch.int64)
    iscrowd = torch.as_tensor(iscrowd, dtype=torch.int64)
    image_id = torch.tensor([idx])  # 当前数据对应的索引值
    area = (boxes[:, 3] - boxes[:, 1]) * (boxes[:, 2] - boxes[:, 0])  # 框的面积：长*宽

    target = {}
    target["boxes"] = boxes
    target["labels"] = labels
    target["image_id"] = image_id
    target["area"] = area
    target["iscrowd"] = iscrowd

    if self.transforms is not None:
        image, target = self.transforms(image, target)

    return image, target

除了以上三个方法外，我们可以根据自己的需求，增加不同的方法，在数据集设置阶段对数据的处理上，会比之后计算得出的要快一些。

这里增加一个标签索引值的处理方法。

#官方的方法：将标签的索引值存储为字典
def parse_xml_to_dict(self, xml):
    if len(xml) == 0:  # 说明已经遍历到底层，直接返回tag对应的信息
        return {xml.tag: xml.text}

    result = {}
    for child in xml:
        child_result = self.parse_xml_to_dict(child)  # 递归 遍历标签信息
        if child.tag != 'object':
            result[child.tag] = child_result[child.tag]
        else:
            if child.tag not in result:  # 因为object可能有多个，所以需要放入列表里
                result[child.tag] = []
            result[child.tag].append(child_result[child.tag])
    return {xml.tag: result}

最终的显示效果如下：

# read class_indict
category_index = {}
try:
    json_file = open('./data/classes.json', 'r')
    class_dict = json.load(json_file)
    category_index = {v: k for k, v in class_dict.items()}
except Exception as e:
    print(e)
    exit(-1)

data_transform = {
    "train": transforms.Compose([transforms.ToTensor(),
                                 transforms.RandomHorizontalFlip(0.5)]),
    "val": transforms.Compose([transforms.ToTensor()])
}

# load train data set
train_data_set = SelfDataSet(os.getcwd(), data_transform["train"], True)
print(len(train_data_set))

以及图像的显示：

测试后，可以加载出图像和train_data_set，即数据集创建成功。

完整的代码示例：

这个案例是以Skysat数据为例设置的数据集，只需要修改图像和标签的路径即可。

from torch.utils.data import Dataset
import os
import torch
import json
from PIL import Image
from lxml import etree

#设置数据集
class SelfDataSet(Dataset):
    # 根目录，预处理方式，训练集/验证集
    def __init__(self, data_root, transforms, train=True):
        #设置不同的路径，分别设置成图片路径和标签路径
        self.root = os.path.join(data_root, "SkysatData")
        self.img_root = os.path.join(self.root, "JPEGImages")
        self.annotations_root = os.path.join(self.root, "Annotations")

        """读取训练集/测试集，txt_list是路径"""
        if train:
            txt_list = os.path.join(self.root, "ImageSets", "Main", "train.txt")
        else:
            txt_list = os.path.join(self.root, "ImageSets", "Main", "val.txt")

        with open(txt_list) as read:
            self.xml_list = [os.path.join(self.annotations_root, line.strip() + ".xml")
                             for line in read.readlines()]

        # 读取分类索引
        try:
            json_file = open('./SkysatData/classex.json', 'r')
            self.class_dict = json.load(json_file)
        except Exception as e:
            print(e)
            exit(-1)

        # 定义预处理方式
        self.transforms = transforms

    def __len__(self):
        """返回训练集/测试集中图片的个数"""
        return len(self.xml_list)

    def __getitem__(self, idx):
        # read xml
        xml_path = self.xml_list[idx]  # idx是xml_list文件中的索引，通过索引找到第idx个xml文件的路径xml_str
        with open(xml_path) as fid:
            xml_str = fid.read()
        # xml = etree.fromstring(xml_str)
        xml = etree.fromstring(xml_str.encode('utf-8'))  # 读取xml文件的内容
        data = self.parse_xml_to_dict(xml)["annotation"]
        img_path = os.path.join(self.img_root, data["filename"])  # 从xml文件中得到img文件路径
        image = Image.open(img_path)
        if image.format != "JPEG":
            raise ValueError("Image format not JPEG")
        boxes = []
        labels = []
        iscrowd = []  # 是否难检测,crowd为0表示单目标
        for obj in data["object"]:
            """得到训练集边框坐标，分类和难易程度"""
            xmin = float(obj["bndbox"]["xmin"])
            xmax = float(obj["bndbox"]["xmax"])
            ymin = float(obj["bndbox"]["ymin"])
            ymax = float(obj["bndbox"]["ymax"])
            boxes.append([xmin, ymin, xmax, ymax])
            labels.append(self.class_dict[obj["name"]])
            iscrowd.append(int(obj["difficult"]))

        # convert everything into a torch.Tensor
        boxes = torch.as_tensor(boxes, dtype=torch.float32)
        labels = torch.as_tensor(labels, dtype=torch.int64)
        iscrowd = torch.as_tensor(iscrowd, dtype=torch.int64)
        image_id = torch.tensor([idx])  # 当前数据对应的索引值
        area = (boxes[:, 3] - boxes[:, 1]) * (boxes[:, 2] - boxes[:, 0])  # 框的面积：长*宽

        target = {}
        target["boxes"] = boxes
        target["labels"] = labels
        target["image_id"] = image_id
        target["area"] = area
        target["iscrowd"] = iscrowd

        if self.transforms is not None:
            image, target = self.transforms(image, target)

        return image, target


    def get_height_and_width(self, idx):
        # read xml，每个xml
        xml_path = self.xml_list[idx]
        with open(xml_path) as fid:
            xml_str = fid.read()
        xml = etree.fromstring(xml_str)
        data = self.parse_xml_to_dict(xml)["annotation"]
        data_height = int(data["size"]["height"])
        data_width = int(data["size"]["width"])
        return data_height, data_width

    #官方的方法：将标签的索引值存储为字典
    def parse_xml_to_dict(self, xml):
        if len(xml) == 0:  # 说明已经遍历到底层，直接返回tag对应的信息
            return {xml.tag: xml.text}

        result = {}
        for child in xml:
            child_result = self.parse_xml_to_dict(child)  # 递归 遍历标签信息
            if child.tag != 'object':
                result[child.tag] = child_result[child.tag]
            else:
                if child.tag not in result:  # 因为object可能有多个，所以需要放入列表里
                    result[child.tag] = []
                result[child.tag].append(child_result[child.tag])
        return {xml.tag: result}

    @staticmethod
    def collate_fn(batch):
        return tuple(zip(*batch))

import transforms
from draw_box_utils import draw_box
from PIL import Image
import json
import matplotlib.pyplot as plt
import torchvision.transforms as ts
import random


# read class_indict
category_index = {}
try:
    json_file = open('./SkysatData/classex.json', 'r')
    class_dict = json.load(json_file)
    category_index = {v: k for k, v in class_dict.items()}
except Exception as e:
    print(e)
    exit(-1)

data_transform = {
    "train": transforms.Compose([transforms.ToTensor(),
                                 transforms.RandomHorizontalFlip(0.5)]),
    "val": transforms.Compose([transforms.ToTensor()])
}

# load train data set
train_data_set = SelfDataSet(os.getcwd(), data_transform["train"], True)
print(len(train_data_set))

# index = 40
for index in random.sample(range(0, len(train_data_set)), k=5):
    img, target = train_data_set[index]
    img = ts.ToPILImage()(img)
    draw_box(img,
             target["boxes"].numpy(),
             target["labels"].numpy(),
             [1 for i in range(len(target["labels"].numpy()))],
             category_index,
             thresh=0.5,
             line_thickness=1)
    Image._show(img)

效果如下：

YOLOv5数据集设置

直接上代码了，根据YOLOv5的数据集设置，提取核心的数据集设置代码，代码如下：

import glob
import os
from pathlib import Path

import cv2
import numpy as np
import torch

class SkysatDataset(torch.utils.data.Dataset):
    # 设置基本的文件路径
    def __init__(self, path, imgsz, prefix=''):
        self.path = path
        self.imgsz = imgsz
        # set the file path
        try:
            f = []
            for p in path if isinstance(path, list) else [path]:
                p = Path(p)
                if p.is_dir():
                    f += glob.glob(str(p / '**' / '*.*'), recursive=True)
            self.img_files = sorted([x.replace('/', os.sep) for x in f])
        except Exception as e:
            raise Exception(f'{prefix}Error loading data from {path}: {e}')
        self.label_files = img2label_paths(self.img_files)  # labels
        self.n = len(self.img_files)

    def __len__(self):
        return self.n

    # 通过getitem获得img和label
    def __getitem__(self, index):
        img_path, label_path = self.img_files[index], self.label_files[index]
        img = cv2.imread(img_path)
        label = []
        with open(label_path, 'r') as f:
            for each in f.readlines():
                cls, x, y, w, h = each.replace('\n', '').split(' ')
                label.append([cls,x,y,w,h])
        label = np.array(label).astype(np.float32)
        label = xywh2xyxy(label[:,1:5])*self.imgsz
        return img, label

# 通过img路径得到label路径
def img2label_paths(img_paths):
    # Define label paths as a function of image paths
    sa, sb = os.sep + 'images' + os.sep, os.sep + 'labels' + os.sep  # /images/, /labels/ substrings
    return [sb.join(x.rsplit(sa, 1)).rsplit('.', 1)[0] + '.txt' for x in img_paths]

# 可视化，将坐标改变格式
def xywh2xyxy(x):
    # Convert nx4 boxes from [x, y, w, h] to [x1, y1, x2, y2] where xy1=top-left, xy2=bottom-right
    y = x.clone() if isinstance(x, torch.Tensor) else np.copy(x)
    y[:, 0] = x[:, 0] - x[:, 2] / 2  # top left x
    y[:, 1] = x[:, 1] - x[:, 3] / 2  # top left y
    y[:, 2] = x[:, 0] + x[:, 2] / 2  # bottom right x
    y[:, 3] = x[:, 1] + x[:, 3] / 2  # bottom right y
    return y

# 可视化操作
def vis(img, boxes):
    for i in range(len(boxes)):
        box = boxes[i]
        x0 = int(box[0])
        y0 = int(box[1])
        x1 = int(box[2])
        y1 = int(box[3])
        cv2.rectangle(img, (x0, y0), (x1, y1), (0, 255, 0), 1)
    return img

if __name__ == '__main__':
    dataset = SkysatDataset(path=r'D:\DATA\Models\customize\YOLOv5-6.0-St\dataset\skysat\images\train', imgsz=512)
    img, label = dataset[2]
    img = vis(img, label)
    cv2.imshow('img', img)
    cv2.waitKey(0)
    cv2.destroyWindow()

图片文件和标签存放格式如下：

label的存储格式如下：（cls, x, y, w, h)并且对x, y, w, h进行了归一化处理

按照这个方式存放文件，可以得到如下的效果图：

这个核心代码比较简洁，可以直接使用制作自定义数据集。

本文主要为读书笔记，根据学习资料中的案例，使用自己的例子进行数据集创建，读者仅作参考，如有错误或补充，还请评论批评指正，谢谢！

当然，这只是自定义的一种方式，一般的Github都会有自己的数据集设置方式，按照项目中的修改即可。

使用 Python 绘制爱心图形（高级版）徐浪老师徐浪老师大讲堂 python 开发语言
以下是一段使用Python绘制高级“爱心”图案的代码，结合数学公式生成精美的爱心形状，并附加一些交互式的效果，比如渐变颜色或动态展示：动态渐变爱心importnumpyasnpimportmatplotlib.pyplotaspltimportmatplotlib.animationasanimation#设置爱心的数学公式defheart_shape(t):x=16*np.sin(t)**3y=
2025计算机毕设全流程实战指南：Java/Python+协同过滤+小程序开发避坑手册启点毕设课程设计 java python 大四论文指南查重降重技巧毕业设计 spring
技术框架的选择是项目开发的关键起点，直接影响开发效率和最终成果质量。然而，许多开发者在选择技术框架时面临困难：现有知识储备不足以支撑复杂项目需求，团队经验有限，框架选择缺乏前瞻性常导致后期问题。尽管技术框架的选择过程充满挑战，但合适的框架能为项目开发和维护奠定基础，而不当的选择则可能带来持续的技术债务和开发困扰。所以，建议对项目技术框架把握不好的同学，最好是找自己的研究生学长或者老师详细的把关机技
pycharm中使用anaconda部署python环境_pycharm部署配置anaconda环境教程 weixin_39796652
本篇文章小编给大家分享一下pycharm部署配置anaconda环境教程，小编觉得挺不错的，现在分享给大家供大家参考，有需要的小伙伴们可以来看看。pycharm部署anaconda环境Pycharm：python编辑器，社区版本Anaconda：开源的python发行版本(专注于数据分析的python版本)，包含大量的科学包环境基本指令(准备工作)：conda--version查看anaconda
python poetry添加某个git仓库的某个分支 waketzheng git
命令行不太清楚怎么弄，但可以通过编辑pyproject.toml实现实例：pypika-tortoise={git="https://github.com/henadzit/pypika-tortoise",branch="do-not-use-builder"}参考：WIPDonotcopypypikaquerybyhenadzit·PullRequest#1851·tortoise/torto
The following modules are *disabled* in configure script:_sqlite3 waketzheng python
Unabletoupgradepast3.6.9-#24byRosuav-PythonHelp-DiscussionsonPython.orgsudoaptinstalllibsqlite3-devcdPython-3.13.1./configure--enable-optimizations--enable-loadable-sqlite-extensionsmakesudomakealtins
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
CentOS7 python安装Ta-lib 0.6.x【talib不能直接安装，必须先安装ta_lib之c++库才可以】 weixin_43343144 服务器运维
正常流程：CentOS7python安装Ta-lib【talib不能直接安装，必须先安装ta_lib之c++库才可以】_centos7安装ta-lib-CSDN博客不同的版本参考如下！参考官方文档：ta-lib·PyPI务必下载匹配版本的【ta-lib-0.6.4-src.tar.gz】才可以正常安装$wgethttps://github.com/ta-lib/ta-lib/releases/do
【Kivy App】Pyjnius是什么？ Botiway 移动APP Kivy python
Pyjnius是一个Python库，用于在Python中访问Java类和方法，特别适用于在Kivy或其它Python应用中调用AndroidAPI。以下是Pyjnius的详细介绍、安装和使用方法：1.Pyjnius是什么？Pyjnius是一个Python-to-Java的桥接工具，允许Python代码直接调用Java类和方法。它基于JavaNativeInterface(JNI)，主要用于以下场景
基于Python PYQT5 的相机定时采集图像程序，GUI打包独立运行夏时summer time python qt 数码相机相机
基于PythonPYQT5编写相机定时采集图像及手动采集版本介绍Python3.6pyqt55.15.4pyqt5-tools5.15.4.3.2另外就是常用的cv2和numpy包fromPyQt5importQtCore,QtGui,QtWidgetsfromPyQt5importQtCore,QtGui,QtWidgetsimportcv2importnumpyasnpfromdatetime
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
Mac下载python并安装小小酥*
下载pythonPython官网：https://www.python.org/进入官网后点击download，选择MacOSX版本2.安装MAC系统一般都自带有Python2.x版本的环境，你也可以在链接https://www.python.org/downloads/mac-osx/上下载最新版安装。3.设置环境变量程序和可执行文件可以在许多目录，而这些路径很可能不在操作系统提供可执行文件的搜
Python使用minIO上传下载身似山河挺脊梁 python
前提VSCode+Python3.9minIO有Python的例子1.python生成临时文件2.写入一些数据3.上传到minIO4.获取分享出连接5.发出通知#创建一个客户端minioClient=Minio(endpoint='xx',access_key='xx',secret_key='xx',secure=False)#生成文件名current_datetime=datetime.dat
深入理解Python上下文管理器 ……-…… python 开发语言
1.什么是上下文管理器？2.with语句的魔法3.创建上下文管理器的两种方式3.1基于类的实现3.2使用contextlib模块4.异常处理1.什么是上下文管理器？上下文管理器（ContextManager）是Python中用于精确分配和释放资源的机制。它通过__enter__()和__exit__()两个魔术方法实现了上下文管理协议，确保即使在代码执行出错的情况下，资源也能被正确清理。#经典文件
【Appium】Appium征服安卓自动化：GitHub 10.5k+星开源神器，Python代码实战全解析！山河不见老 python 测试 appium android 自动化
Appium一、为什么开发者都在用Appium？二、环境搭建：5分钟极速配置2.1核心工具链2.2安卓设备连接三、脚本实战：从零编写自动化操作3.1示例1：自动登录微信并发送消息3.2示例2：动态滑动屏幕与数据抓取四、避坑指南4.1元素定位优化4.2稳定性增强4.3云真机集成五、生态扩展：超越安卓的自动化版图一、为什么开发者都在用Appium？万星认证：GitHub超10.5k+星标，活跃社区持续
基于Streamlit实现的音频处理示例大霸王龙音视频 ffmpeg
基于Streamlit实现的音频处理示例，包含录音、语音转文本、文件下载和进度显示功能，整合了多个技术方案：一、环境准备#安装依赖库pipinstallstreamlitstreamlit-webrtcaudio-recorder-streamlitopenai-whisperpython-dotx二、完整示例代码importstreamlitasstfromaudio_recorder_stre
npm错误 gyp错误 vs版本不对 msvs_version不兼容澎湖Java架构师前端 html npm node.js 前端
npm错误gyp错误vs版本不对msvs_version不兼容windowsSDK报错执行更新GYP语句第一种方案第二种方案执行更新GYP语句npminstall-gnode-gyp最新的GYP好像已经不支持Python2.7版本，npm会提示你更新都3.*.*版本安装Node.js的时候一定要勾选以下这个，会自动检测安装缺少的环境第一种方案管理员运行CMD（PowerShell也行）执行更新工具
深入了解 ArangoDB 的图数据库应用与 Python 实践 eahba 数据库 python 开发语言
在当前数据驱动的时代，对连接数据的高效处理和分析需求日益增长。ArangoDB作为一个可扩展的图数据库系统，能够加速从连接数据中获取价值。本文将介绍如何使用Python连接和操作ArangoDB，并展示如何结合图问答链来获取数据洞察。技术背景介绍ArangoDB是一个多模型数据库，支持文档、图和键值类型的数据存储。其强大的图形存储和查询能力使其成为处理复杂数据关系的理想选择。通过JSON支持和单一
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
一、Python入门基础 MeyrlNotFound python 开发语言
1.Python简介与环境搭建•了解Python的历史、特点和应用领域Python的历史Python是一种高级编程语言，由GuidovanRossum于1989年发明。Python语言的设计目标是让代码易读、易写、易维护，从而提高开发效率和代码质量。自其诞生以来，Python已从一个简单的系统管理工具发展成为一种广泛应用于多个领域的编程语言。Python的特点1.简单易学：Python的语法简洁明
npm error gyp info 计算机辅助工程 npm 前端 node.js
在使用npm安装Node.js包时，可能会遇到各种错误，其中gyp错误是比较常见的一种。gyp是Node.js的一个工具，用于编译C++代码。这些错误通常发生在需要编译原生模块的npm包时。下面是一些常见的原因和解决方法：常见原因及解决方法Python未安装或版本不兼容：Node.js使用Python来运行gyp。确保你的系统上安装了Python，并且版本与node-gyp兼容。通常推荐使用Pyt
股票量化交易开发 Yfinance 数字化转型2025 python 开发语言
以下是一段基于Python的股票量化分析代码，包含数据获取、技术指标计算、策略回测和可视化功能：pythonimportyfinanceasyfimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfrombacktestingimportBacktest,Strategyfrombacktesti
sqlmap笔记君如尘网络安全-渗透笔记笔记
1.运行环境sqlmap是用Python编写的，因此首先需要确保你的系统上安装了Python。sqlmap支持Python2.6、2.7和Python3.4及以上版本。2.常用命令通用格式：bythonsqlmap.py-r注入点地址--参数-rpost请求-uget请求--level=测试等级--risk=测试风险-v显示详细信息级别-p针对某个注入点注入-threads更改线程数，加速--ba
python环境部署工具 uv Honnnnnn uv
以原先使用的pipenv工具为例子，通过pipfile.lock生成requirements文件，再将requirements转成pyproject.toml文件，最后生成uv.lock基于当前虚拟环境导出requirements.txt--pipfreeze>requirements.txt（如果原先不是env而是基础的通过requirements.txt文件，省去转化requirements的
leetcode-hot100-python-专题三：滑动窗口 ༺ Dorothy ༻ leetcode hot100 leetcode python 算法
1、无重复字符的最长子串中等给定一个字符串s，请你找出其中不含有重复字符的最长子串的长度。示例1:输入:s=“abcabcbb”输出:3解释:因为无重复字符的最长子串是“abc”，所以其长度为3示例2:输入:s=“bbbbb”输出:1解释:因为无重复字符的最长子串是“b”，所以其长度为1。示例3:输入:s=“pwwkew”输出:3解释:因为无重复字符的最长子串是“wke”，所以其长度为3。请注意，
Python UV - 安装、升级、卸载云客Coder python uv 开发语言
文章目录安装检查升级设置自动补全卸载UV命令官方文档详见：https://docs.astral.sh/uv/getting-started/installation/安装pipinstalluv检查安装后可运行下面命令，查看是否安装成功uv--version%uv--versionuv0.6.3(a0b9f22a22025-02-24)升级uvselfupdate将重新运行安装程序并可能修改您的
使用Python构建去中心化预测市场：从概念到实现 Echo_Wish Python！实战！python 去中心化开发语言
使用Python构建去中心化预测市场：从概念到实现大家好，我是Echo_Wish。今天，我们将深入探讨一个前沿的区块链应用——去中心化预测市场，并学习如何使用Python来构建一个简易的预测市场平台。预测市场是基于市场参与者对未来事件的预测来产生结果的地方，通常被用来预测政治事件、金融市场走向、体育比赛结果等。传统的预测市场如Augur、Polymarket等，基于去中心化平台，利用区块链技术确保
Python自动登陆、登出南京理工大学NJUST校园网程序 JimesMz python 开发语言
本文程序针对南京理工大学NJUST和NJUST-FREE校园网开发，其他学校无法使用。文章目录开发目的使用说明参考资料开发目的今天突然想要用代码实现一下自动登陆校园网，上网搜寻了一下。知乎有一些教程，CSDN也有一些完整的代码，但是我跟随教程或者直接运行现有代码都没有能够成功登陆，且NJUST校园网付费，我想要一个“登出”功能，借助Kimi自己写了一下。本人技术不精，以实现功能为主。使用说明请确保
Python爬虫笔记一（来自MOOC） Requests库入门小灰不停前进 #Python python pycharm 爬虫
Python爬虫笔记一通用代码框架：importrequestsdefgetHTMLText(url):try:r=requests.get(url,timeput=30)r.raise_for_status()#如果状态不是200，引发HTTPError异常r.encoding=r.apparemt_encodingreturnr.textexcept:return"产生异常"if__name_
Python调用fofa API接口并写入csv文件中 YOHO !GIRL 网络测绘 python 网络安全
前言一.功能目的二.功能调研三.编写代码1.引入库2.读取数据3.写入csv文件中总结前言上一篇我们讲述了目前较为主流的几款网络探测系统，简单介绍了页面的使用方法。链接如下，点击跳转：网络空间测绘引擎集合：Zoomeye、fofa、360、shodan、censys、鹰图然而当我们需要针对单个引擎进行二次开发时，页面就不能满足我们的需求了，这就需要参考API文档进行简单的数据处理，接下来，给大家介
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

数据预处理和数据集的设置——以目标检测数据集为例

数据集

创建数据集

栗子

YOLOv5数据集设置

你可能感兴趣的:(数据预处理,深度学习,python)