Font Tian

PyTorch常用工具（1）数据处理

文章目录

前言
1 数据处理
- 1.1 Dataset
- 1.2 DataLoader

前言

在训练神经网络的过程中需要用到很多的工具，最重要的是数据处理、可视化和GPU加速。本章主要介绍PyTorch在这些方面常用的工具模块，合理使用这些工具可以极大地提高编程效率。

由于内容较多，本文分成了五篇文章（1）数据处理（2）预训练模型（3）TensorBoard（4）Visdom（5）CUDA与小结。

整体结构如下：

1 数据处理
- 1.1 Dataset
- 1.2 DataLoader
2 预训练模型
3 可视化工具
3.1 TensorBoard
3.2 Visdom
4 使用GPU加速：CUDA
5 小结

全文链接：

PyTorch中常用的工具（1）数据处理
PyTorch常用工具（2）预训练模型
PyTorch中常用的工具（3）TensorBoard
PyTorch中常用的工具（4）Visdom
PyTorch中常用的工具（5）使用GPU加速：CUDA

1 数据处理

解决深度学习问题的过程中，往往需要花费大量的精力去处理数据，包括图像、文本、语音或其他二进制数据等。数据的处理对训练神经网络来说十分重要，良好的数据处理不仅会加速模型训练，而且会提高模型效果。考虑到这一点，PyTorch提供了几个高效便捷的工具，帮助使用者进行数据处理、数据增强等操作，同时可以通过并行化加速数据加载的过程。

1.1 Dataset

在PyTorch中，数据加载可以通过自定义的数据集对象实现。数据集对象被抽象为Dataset类，实现自定义的数据集需要继承Dataset，并实现以下两个Python魔法方法。

__getitem__()：返回一条数据，或一个样本。obj[index]等价于obj.__getitem__(index)。
__len__()：返回样本的数量。len(obj)等价于obj.__len__()。

下面以Kaggle经典挑战赛"Dogs vs. Cats"的数据为例，详细讲解如何进行数据预处理。"Dogs vs. Cats"是一个分类问题，它的任务是判断一张图片是狗还是猫。在该问题中，所有图片都存放在一个文件夹下，可以根据文件名的前缀得到它们的标签值（狗或者猫）。

In: %env LS_COLORS = None 
    !tree --charset ascii data/dogcat/

Out: env: LS_COLORS=None
     data/dogcat/
     |-- cat.12484.jpg
     |-- cat.12485.jpg
     |-- cat.12486.jpg
     |-- cat.12487.jpg
     |-- dog.12496.jpg
     |-- dog.12497.jpg
     |-- dog.12498.jpg
     `-- dog.12499.jpg

     0 directories, 8 files

In: import torch as t
    from torch.utils.data import Dataset
    print(t.__version__)

Out: 1.8.0

In: import os
    from PIL import Image
    import numpy as np

    class DogCat(Dataset):
        def __init__(self, root):
            imgs = os.listdir(root)
            # 所有图片的绝对路径
            # 这里不实际加载图片，只是指定路径，当调用__getitem__时才会真正读取图片
            self.imgs = [os.path.join(root, img) for img in imgs]

        def __getitem__(self, index):
            img_path = self.imgs[index]
            # dog->1， cat->0
            label = 1 if 'dog' in img_path.split('/')[-1] else 0
            pil_img = Image.open(img_path)
            array = np.asarray(pil_img)
            data = t.tensor(array)
            return data, label

        def __len__(self):
            return len(self.imgs)

In: dataset = DogCat('./data/dogcat/')
    img, label = dataset[0] # 相当于调用dataset.__getitem__(0)
    for img, label in dataset:
        print(img.size(), img.float().mean(), label)

Out: torch.Size([374, 499, 3]) tensor(115.5177) 0
     torch.Size([377, 499, 3]) tensor(151.7174) 1
     torch.Size([400, 300, 3]) tensor(128.1550) 1
     torch.Size([499, 379, 3]) tensor(171.8085) 0
     torch.Size([375, 499, 3]) tensor(116.8139) 1
     torch.Size([500, 497, 3]) tensor(106.4915) 0
     torch.Size([375, 499, 3]) tensor(150.5079) 1
     torch.Size([236, 289, 3]) tensor(130.3004) 0

上面的代码讲解了如何定义自己的数据集，并对数据集进行遍历。然而，这里返回的数据并不适合实际使用，主要存在以下两个问题。

返回样本的形状不统一，也就是每张图片的大小不一样，这对于按batch训练的神经网络来说很不友好。
返回样本的数值较大，没有进行归一化。

针对上述问题，PyTorch提供了torchvision工具包。torchvision是一个视觉工具包，它提供了很多视觉图像处理的工具，其中transforms模块提供了一系列数据增强的操作。本章仅对它的部分操作进行介绍，完整内容可参考官方相关文档。

仅支持PIL Image对象的常见操作如下。

RandomChoice：在一系列transforms操作中随机执行一个操作。
RandomOrder：以随意顺序执行一系列transforms操作。

仅支持Tensor对象的常见操作如下。

Normalize：标准化，即减去均值，除以标准差。
RandomErasing：随机擦除Tensor中一个矩形区域的像素。
ConvertImageDtype：将Tensor转换为指定的类型，并进行相应的缩放。

PIL Image对象与Tensor对象相互转换的操作如下。

ToTensor：将 $H\times W\times C$ 形状的PIL Image对象转换成形状为 $C\times H\times W$ 的Tensor，同时会自动将[0, 255]归一化至[0, 1]。
ToPILImage：将Tensor转为PIL Image对象。

既支持PIL Image对象，又支持Tensor对象的常见操作如下。

Resize：调整图片尺寸。
CenterCrop、RandomCrop、RandomResizedCrop、FiveCrop：按照不同规则对图像进行裁剪。
RandomAffine：随机进行仿射变换，保持图像中心不变。
RandomGrayscale：随机将图像变为灰度图。
RandomHorizontalFlip、RandomVerticalFlip、RandomRotation：随机水平翻转、垂直翻转、旋转图像。

如果需要对图片进行多个操作，那么可以通过transforms.Compose将这些操作拼接起来，这点类似于nn.Sequential**。注意，这些操作定义后以对象的形式存在，真正使用时需要调用__call__方法，这点类似于nn.Module。**例如，要将图片的大小调整至 $224\times 224$ ，首先应构建操作trans = Resize((224, 224))，然后调用trans(img)。下面使用transforms的这些操作来优化上面的Dataset：

In: import os
    from PIL import Image
    import numpy as np
    from torchvision import transforms as T

    transform = T.Compose([
        T.Resize(224), 		# 缩放图片(Image)，保持长宽比不变，最短边为224像素
        T.CenterCrop(224), 	# 从图片中间切出224×224的图片
        T.ToTensor(),  		# 将图片(Image)转成Tensor，归一化至[0, 1]
        T.Normalize(mean=[.5, .5, .5], std=[.5, .5, .5]) # 标准化至[-1, 1]，规定均值和标准差
    ])

    class DogCat(Dataset):
        def __init__(self, root, transforms=None):
            imgs = os.listdir(root)
            self.imgs = [os.path.join(root, img) for img in imgs]
            self.transforms = transforms

        def __getitem__(self, index):
            img_path = self.imgs[index]
            label = 0 if 'dog' in img_path.split('/')[-1] else 1
            data = Image.open(img_path)
            if self.transforms:
                data = self.transforms(data)
            return data, label

        def __len__(self):
            return len(self.imgs)

    dataset = DogCat('./data/dogcat/', transforms=transform)
    img, label = dataset[0]
    for img, label in dataset:
        print(img.size(), label)

Out: torch.Size([3, 224, 224]) 1
     torch.Size([3, 224, 224]) 0
     torch.Size([3, 224, 224]) 0
     torch.Size([3, 224, 224]) 1
     torch.Size([3, 224, 224]) 0
     torch.Size([3, 224, 224]) 1
     torch.Size([3, 224, 224]) 0
     torch.Size([3, 224, 224]) 1

除了上述操作，transforms还可以通过Lambda封装自定义的转换策略。例如，如果要对PIL Image对象进行随机旋转，那么可以写成：trans = T.Lambda(lambda img: img.rotate(random() * 360))。

与torch.nn以及torch.nn.functional类似，torchvision将transforms分解为torchvision.transforms以及torchvision.transforms.functional。相比于transforms，transforms.functional为用户提供了更加灵活的操作，读者在使用时需要自己指定所有的参数。部分transforms.functional提供的操作如下，完整内容可参考官方文档。

adjust_brightness，adjust_contrast：调整图像的亮度、对比度。
crop，center_crop，five_crop，ten_crop：对图像按不同规则进行裁剪。
normalize：标准化，即减均值，除以标准差。
to_tensor：将PIL Image对象转成Tensor。

可以看出，transforms.functional中的操作与transforms十分类似。相对于transforms而言，transforms.functional可以对多个对象以相同的参数进行操作，举例说明如下：

import torchvision.transforms.functional as TF
import random

def transforms_rotate(image1, image2):
    angle = random.randint(0, 360)
    image1 = TF.rotate(image1, angle)
    image2 = TF.rotate(image2, angle)
    return image1, image2

除了对数据进行增强操作的transforms，torchvision还预先实现了常用的dataset，包括前面使用过的CIFAR-10，以及ImageNet、COCO、MNIST、LSUN等数据集，用户可以通过诸如torchvision.datasets.CIFAR10的命令进行调用，具体使用方法请参考官方文档。本节介绍一个读者会经常使用到的Dataset——ImageFolder，它的实现和上述的DogCat十分类似。ImageFolder假设所有的图片按文件夹保存，每个文件夹下存储同一个类别的图片，文件夹名为类名，它的构造函数如下：

ImageFolder(root, transform=None, target_transform=None, loader=default_loader, is_valid_file=None)

它主要有以下五个参数。

root：在root指定的路径下寻找图片。
transform：对PIL Image进行相关数据增强，transform的输入是使用loader读取图片的返回对象。
target_transform：对label的转换。
loader：指定加载图片的函数，默认操作是读取为PIL Image对象。
is_valid_file：获取图像路径，检查文件的有效性。

在生成数据的label时，首先按照文件夹名进行顺序排序，然后将文件夹名保存为字典，即{类名：类序号（从0开始）}。一般来说，最好直接将文件夹命名为从0开始的数字，这样会和ImageFolder实际的label一致。如果不是这种命名规范，那么建议通过self.class_to_idx属性了解label和文件夹名的映射关系。

In: !tree --charset ASCII data/dogcat_2/

Out: data/dogcat_2/
     |-- cat
     |   |-- cat.12484.jpg
     |   |-- cat.12485.jpg
     |   |-- cat.12486.jpg
     |   `-- cat.12487.jpg
     `-- dog
         |-- dog.12496.jpg
         |-- dog.12497.jpg
         |-- dog.12498.jpg
         `-- dog.12499.jpg
    
     2 directories, 8 files

In: from torchvision.datasets import ImageFolder
    dataset = ImageFolder('data/dogcat_2/')
    # cat文件夹的图片对应label 0，dog对应1
    dataset.class_to_idx

Out: {'cat': 0, 'dog': 1}

In: # 所有图片的路径和对应的label
    dataset.imgs

Out: [('data/dogcat_2/cat/cat.12484.jpg', 0),
      ('data/dogcat_2/cat/cat.12485.jpg', 0),
      ('data/dogcat_2/cat/cat.12486.jpg', 0),
      ('data/dogcat_2/cat/cat.12487.jpg', 0),
      ('data/dogcat_2/dog/dog.12496.jpg', 1),
      ('data/dogcat_2/dog/dog.12497.jpg', 1),
      ('data/dogcat_2/dog/dog.12498.jpg', 1),
      ('data/dogcat_2/dog/dog.12499.jpg', 1)]

In: # 没有任何的transforms操作，所以返回的还是PIL Image对象
    print(dataset[0][1]) # 第一维是第几张图，第二维为1返回label
    dataset[0][0] 		 # 第二维为0返回图片数据

Out: 0

In: # 加上transforms
    transform = T.Compose([
             T.RandomResizedCrop(224),
             T.RandomHorizontalFlip(), # 水平翻转
             T.ToTensor(),
             T.Normalize(mean=[.5, .5, .5], std=[.5, .5, .5]),
    ])

In: dataset = ImageFolder('data/dogcat_2/', transform=transform)
    # 深度学习中图片数据一般保存成C×H×W，即通道数×图片高×图片宽
    dataset[0][0].size()

Out: torch.Size([3, 224, 224])

In: to_img = T.ToPILImage()
    # 0.2和0.4是标准差和均值的近似
    to_img(dataset[0][0] * 0.2 + 0.4)

1.2 DataLoader

Dataset只负责数据的抽象，调用一次__getitem__返回一个样本。然而，在训练神经网络时，一次处理的对象是一个batch的数据，同时还需要对一批数据进行打乱顺序和并行加速等操作。考虑到这一点，PyTorch提供了DataLoader实现这些功能。

DataLoader的定义如下：

DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, batch_sampler=None, num_workers=0, collate_fn=None, pin_memory=False, drop_last=False, timeout=0, worker_init_fn=None, multiprocessing_context=None, generator=None, *, prefetch_factor=2, persistent_workers=False)

它主要有以下几个参数。

dataset：加载的数据集（Dataset对象）。
batch_size：一个batch的大小。
shuffle：是否将数据打乱。
sampler：样本抽样，后续会详细介绍。
batch_sampler：与sampler类似，一次返回一个batch的索引（该参数与batch_size、shuffle、sampler和drop_last不兼容）。
num_workers：使用多进程加载的进程数，0代表不使用多进程。
collate_fn：如何将多个样本数据拼接成一个batch，一般使用默认的拼接方式即可。
pin_memory：是否将数据保存在pin memory区，pin memory中的数据转移到GPU速度更快。
drop_last：dataset中的数据个数可能不是batch_size的整数倍，若drop_last为True，则将多出来不足一个batch的数据丢弃。
timeout：进程读取数据的最大时间，若超时则丢弃数据。
worker_init_fn：每个worker的初始化函数。
prefetch_factor：每个worker预先加载的样本数。

下面举例说明DataLoader的使用方法：

In: from torch.utils.data import DataLoader
    dataloader = DataLoader(dataset, batch_size=3, shuffle=True, num_workers=0, drop_last=False)
    dataiter = iter(dataloader)
    imgs, labels = next(dataiter)
    imgs.size() # batch_size, channel, height, width

Out: torch.Size([3, 3, 224, 224])

DataLoader是一个可迭代（iterable）对象，可以像使用迭代器一样使用它，例如：

for batch_datas, batch_labels in dataloader:
    train()
或
dataiter = iter(dataloader)
batch_datas, batch_labels = next(dataiter)

在数据处理中，有时会出现某个样本无法读取等问题，例如某张图片损坏。此时在__getitem__函数中会抛出异常，最好的解决方案是将出错的样本剔除。如果不便于处理这种情况，那么可以返回None对象，然后在Dataloader中实现自定义的collate_fn，将空对象过滤掉。注意，这种情况下DataLoader返回的一个batch的样本数目会少于batch_size。

In: class NewDogCat(DogCat): # 继承前面实现的DogCat数据集
    def __getitem__(self, index):
        try:
            # 调用父类的获取函数，即 DogCat.__getitem__(self, index)
            return super().__getitem__(index)
        except:
            return None, None

    from torch.utils.data.dataloader import default_collate # 导入默认的拼接方式
    def my_collate_fn(batch):
        '''
        batch是一个list，每个元素是dataset的返回值，形如(data, label)
        '''
        # 过滤为None的数据
        batch = [_ for _ in batch if _[0] is not None]
        if len(batch) == 0: return t.Tensor()
        return default_collate(batch) # 用默认方式拼接过滤后的batch数据

In: dataset = NewDogCat('data/dogcat_wrong/', transforms=transform)
    dataset[8]

Out: (None, None)

In: dataloader = DataLoader(dataset, 2, collate_fn=my_collate_fn, num_workers=0, shuffle=True)
    for batch_datas, batch_labels in dataloader:
        print(batch_datas.size(), batch_labels.size())

Out: torch.Size([1, 3, 224, 224]) torch.Size([1])
     torch.Size([2, 3, 224, 224]) torch.Size([2])
     torch.Size([2, 3, 224, 224]) torch.Size([2])
     torch.Size([2, 3, 224, 224]) torch.Size([2])
     torch.Size([1, 3, 224, 224]) torch.Size([1])

从上述输出中可以看出，第1个batch的batch_size为1，这是因为有一张图片损坏，无法正常返回。最后1个batch的batch_size也为1，这是因为共有9张（包括损坏的文件）图片，无法整除2（batch_size），所以最后一个batch的样本数目小于batch_size。

对于样本损坏或数据集加载异常等情况，还可以通过其他方式解决，例如随机取一张图片代替出现异常的图片：

class NewDogCat(DogCat):
    def __getitem__(self, index):
        try:
            return super().__getitem__(index)
        except:
            new_index = random.randint(0, len(self) - 1)
            return self[new_index]

相比于丢弃异常图片而言，这种做法会更好一些，它能保证每个batch的样本数目仍然是batch_size，但是在大多数情况下，最好的方式还是对数据进行彻底清洗。

DataLoader中没有太多的魔法方法，它封装了Python的标准库Multiprocessing，能够实现多进程加速，下面对DataLoader的多进程并行原理进行简要介绍。

DataLoader默认使用单进程加载数据，这样的加载方式较慢，但在系统资源有限、数据集较小能够直接加载时十分推荐。这是因为在单进程的工作模式下，若发生异常，用户在调试时能够获取更多错误信息。当数据量较大时，可以通过num_workers参数进行多进程的数据读取，多进程并行流程如下图所示。

在多进程加载数据时，每一个进程都会拷贝Dataset对象，并执行_worker_loop函数。首先，主进程生成一个batch的数据索引，并保存在队列index_queue中。然后，每个子进程执行_worker_loop函数，根据index_queue在拷贝的Dataset对象中执行__getitem__函数，获取数据。最后，每个子进程将自身获取的数据放至work_result_queue队列中，通过collate_fn处理数据，最终得到一个batch的数据data_queue。重复执行上述流程，DataLoader就实现了多进程的数据加载，更多细节读者可以参考DataLoader的相关源码。

在Dataset和DataLoader的使用方面有以下建议。

将高负载的操作放在__getitem__中，例如加载图片等。在多进程加载数据时，程序会并行地调用__getitem__函数，将负载高的操作放在__getitem__函数中能够实现并行加速。
Dataset中应当尽量仅包含只读对象，避免修改任何可变对象。在多进程加载数据时，每个子进程都会拷贝Dataset对象。如果某一个进程修改了部分数据，那么在另外一个进程的拷贝中，这部分数据并不会被修改。下面是一个不好的例子：希望self.idxs返回的结果是[0,1,2,3,4,5,6,7,8]，实际上4个进程最终的self.idxs分别是[0,4,8],[1,5],[2,6],[3,7]。而dataset.idxs则是[]，因为它并未参与迭代，并行处理的是它的四个拷贝。

class BadDataset:
    def __init__(self):
        self.idxs = [] # 取数据的次数
    def __getitem__(self, index):
        self.idxs.append(index)
        return self.idxs
    def __len__(self):
        return 9
dataset = BadDataset()
dl = t.utils.data.DataLoader(dataset, num_workers=4)
for item in dl:
    print(item) # 注意这里self.idxs的数值
print('idxs of main', dataset.idxs) # 注意这里的idxs和__getitem__返回的idxs的区别

使用Multiprocessing库时还有另外一个问题，在使用多进程加载中，如果主程序异常终止（例如使用快捷键“Ctrl+C”强行退出），那么相应的数据加载进程可能无法正常退出。虽然发现程序已经退出了，但是GPU显存和内存仍然被占用着，通过top、ps aux也能够看到已经退出的程序，这时就需要手动强行杀掉进程，建议使用如下命令：

ps x | grep <cmdline> | awk '{print $1}' | xargs kill

ps x：获取当前用户的所有进程。
grep ：找到已经停止的PyTorch程序的进程，例如通过python train.py启动程序，需要写成grep 'python train.py'。
awk '{print $1}'：获取进程的pid。
xargs kill：杀掉进程，根据需要可能需要写成xargs kill -9强制杀掉进程。

在执行这句命令之前，建议先确认仍有未停止进程：

ps x | grep <cmdline>

PyTorch中还单独提供了一个Sampler模块，用来对数据进行采样。常用的有随机采样器RandomSampler，当DataLoader的shuffle参数为True时，系统会自动调用这个采样器打乱数据。默认的采样器是SequentialSampler，它会按顺序一个一个进行采样。这里介绍另外一个很有用的采样方法：WeightedRandomSampler，它会根据每个样本的权重选取数据，在样本比例不均衡的问题中，可用它进行重采样。

构建WeightedRandomSampler时需提供两个参数：每个样本的权重weights、选取的样本总数num_samples以及一个可选参数replacement。权重越大的样本被选中的概率越大，待选取的样本数目一般小于全部的样本数目。replacement用于指定是否可以重复选取某一个样本，默认为True，即允许在一个epoch中重复采样某一个数据。如果设为False，那么当某一类的样本被全部选取完，但样本数目仍然未达到num_samples时，sampler不会再从该类中选择数据，此时可能导致weights参数失效。下面举例说明：

In: dataset = DogCat('data/dogcat/', transforms=transform)
    # 假设狗的图片被取出的概率是猫的概率的两倍
    # 两类图片被取出的概率与weights的绝对大小无关，只和比值有关
    weights = [2 if label == 1 else 1 for data, label in dataset]
    weights

Out: [2, 1, 1, 2, 1, 2, 1, 2]

In: from torch.utils.data.sampler import  WeightedRandomSampler
    sampler = WeightedRandomSampler(weights,\
                                    num_samples=9,\
                                    replacement=True)
    dataloader = DataLoader(dataset,\
                            batch_size=3,\
                            sampler=sampler)
    for datas, labels in dataloader:
        print(labels.tolist())

Out: [1, 1, 0]
     [0, 1, 1]
     [1, 1, 0]

可以看出，猫狗样本比例约为1：2。同时，一共只有8个样本，但是却返回了9个，说明有样本被重复返回，这就是replacement参数的作用。下面将replacement设为False：

In: sampler = WeightedRandomSampler(weights, 8, replacement=False)
    dataloader = DataLoader(dataset, batch_size=4, sampler=sampler)
    for datas, labels in dataloader:
        print(labels.tolist())

Out: [1, 0, 1, 0]
     [1, 1, 0, 0]

在replacement为False的情况下，num_samples等于dataset的样本总数。为了不重复选取，Sampler会将每个样本都返回，weight参数不再生效。

从上面的例子中可以看出Sampler在样本采样中的作用：如果指定了Sampler，那么shuffle参数不再生效，并且sampler.num_samples会覆盖dataset的实际大小，即一个epoch返回的图片总数取决于sampler.num_samples。

本小节介绍了数据加载中两个常见的操作：Dataset与DataLoader，并结合实际数据对它们的魔法方法与底层原理进行了详细介绍。数据准备与加载是神经网络训练中最基本的环节之一，读者应该熟悉其常见操作。

你可能感兴趣的:(Python大战人工智能,PyTorch,pytorch,人工智能,python)

python poetry添加某个git仓库的某个分支 waketzheng git
命令行不太清楚怎么弄，但可以通过编辑pyproject.toml实现实例：pypika-tortoise={git="https://github.com/henadzit/pypika-tortoise",branch="do-not-use-builder"}参考：WIPDonotcopypypikaquerybyhenadzit·PullRequest#1851·tortoise/torto
The following modules are *disabled* in configure script:_sqlite3 waketzheng python
Unabletoupgradepast3.6.9-#24byRosuav-PythonHelp-DiscussionsonPython.orgsudoaptinstalllibsqlite3-devcdPython-3.13.1./configure--enable-optimizations--enable-loadable-sqlite-extensionsmakesudomakealtins
CentOS7 python安装Ta-lib 0.6.x【talib不能直接安装，必须先安装ta_lib之c++库才可以】 weixin_43343144 服务器运维
正常流程：CentOS7python安装Ta-lib【talib不能直接安装，必须先安装ta_lib之c++库才可以】_centos7安装ta-lib-CSDN博客不同的版本参考如下！参考官方文档：ta-lib·PyPI务必下载匹配版本的【ta-lib-0.6.4-src.tar.gz】才可以正常安装$wgethttps://github.com/ta-lib/ta-lib/releases/do
【Kivy App】Pyjnius是什么？ Botiway 移动APP Kivy python
Pyjnius是一个Python库，用于在Python中访问Java类和方法，特别适用于在Kivy或其它Python应用中调用AndroidAPI。以下是Pyjnius的详细介绍、安装和使用方法：1.Pyjnius是什么？Pyjnius是一个Python-to-Java的桥接工具，允许Python代码直接调用Java类和方法。它基于JavaNativeInterface(JNI)，主要用于以下场景
基于Python PYQT5 的相机定时采集图像程序，GUI打包独立运行夏时summer time python qt 数码相机相机
基于PythonPYQT5编写相机定时采集图像及手动采集版本介绍Python3.6pyqt55.15.4pyqt5-tools5.15.4.3.2另外就是常用的cv2和numpy包fromPyQt5importQtCore,QtGui,QtWidgetsfromPyQt5importQtCore,QtGui,QtWidgetsimportcv2importnumpyasnpfromdatetime
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
Mac下载python并安装小小酥*
下载pythonPython官网：https://www.python.org/进入官网后点击download，选择MacOSX版本2.安装MAC系统一般都自带有Python2.x版本的环境，你也可以在链接https://www.python.org/downloads/mac-osx/上下载最新版安装。3.设置环境变量程序和可执行文件可以在许多目录，而这些路径很可能不在操作系统提供可执行文件的搜
Python使用minIO上传下载身似山河挺脊梁 python
前提VSCode+Python3.9minIO有Python的例子1.python生成临时文件2.写入一些数据3.上传到minIO4.获取分享出连接5.发出通知#创建一个客户端minioClient=Minio(endpoint='xx',access_key='xx',secret_key='xx',secure=False)#生成文件名current_datetime=datetime.dat
深入理解Python上下文管理器 ……-…… python 开发语言
1.什么是上下文管理器？2.with语句的魔法3.创建上下文管理器的两种方式3.1基于类的实现3.2使用contextlib模块4.异常处理1.什么是上下文管理器？上下文管理器（ContextManager）是Python中用于精确分配和释放资源的机制。它通过__enter__()和__exit__()两个魔术方法实现了上下文管理协议，确保即使在代码执行出错的情况下，资源也能被正确清理。#经典文件
【Appium】Appium征服安卓自动化：GitHub 10.5k+星开源神器，Python代码实战全解析！山河不见老 python 测试 appium android 自动化
Appium一、为什么开发者都在用Appium？二、环境搭建：5分钟极速配置2.1核心工具链2.2安卓设备连接三、脚本实战：从零编写自动化操作3.1示例1：自动登录微信并发送消息3.2示例2：动态滑动屏幕与数据抓取四、避坑指南4.1元素定位优化4.2稳定性增强4.3云真机集成五、生态扩展：超越安卓的自动化版图一、为什么开发者都在用Appium？万星认证：GitHub超10.5k+星标，活跃社区持续
基于Streamlit实现的音频处理示例大霸王龙音视频 ffmpeg
基于Streamlit实现的音频处理示例，包含录音、语音转文本、文件下载和进度显示功能，整合了多个技术方案：一、环境准备#安装依赖库pipinstallstreamlitstreamlit-webrtcaudio-recorder-streamlitopenai-whisperpython-dotx二、完整示例代码importstreamlitasstfromaudio_recorder_stre
npm错误 gyp错误 vs版本不对 msvs_version不兼容澎湖Java架构师前端 html npm node.js 前端
npm错误gyp错误vs版本不对msvs_version不兼容windowsSDK报错执行更新GYP语句第一种方案第二种方案执行更新GYP语句npminstall-gnode-gyp最新的GYP好像已经不支持Python2.7版本，npm会提示你更新都3.*.*版本安装Node.js的时候一定要勾选以下这个，会自动检测安装缺少的环境第一种方案管理员运行CMD（PowerShell也行）执行更新工具
深入了解 ArangoDB 的图数据库应用与 Python 实践 eahba 数据库 python 开发语言
在当前数据驱动的时代，对连接数据的高效处理和分析需求日益增长。ArangoDB作为一个可扩展的图数据库系统，能够加速从连接数据中获取价值。本文将介绍如何使用Python连接和操作ArangoDB，并展示如何结合图问答链来获取数据洞察。技术背景介绍ArangoDB是一个多模型数据库，支持文档、图和键值类型的数据存储。其强大的图形存储和查询能力使其成为处理复杂数据关系的理想选择。通过JSON支持和单一
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
一、Python入门基础 MeyrlNotFound python 开发语言
1.Python简介与环境搭建•了解Python的历史、特点和应用领域Python的历史Python是一种高级编程语言，由GuidovanRossum于1989年发明。Python语言的设计目标是让代码易读、易写、易维护，从而提高开发效率和代码质量。自其诞生以来，Python已从一个简单的系统管理工具发展成为一种广泛应用于多个领域的编程语言。Python的特点1.简单易学：Python的语法简洁明
npm error gyp info 计算机辅助工程 npm 前端 node.js
在使用npm安装Node.js包时，可能会遇到各种错误，其中gyp错误是比较常见的一种。gyp是Node.js的一个工具，用于编译C++代码。这些错误通常发生在需要编译原生模块的npm包时。下面是一些常见的原因和解决方法：常见原因及解决方法Python未安装或版本不兼容：Node.js使用Python来运行gyp。确保你的系统上安装了Python，并且版本与node-gyp兼容。通常推荐使用Pyt
股票量化交易开发 Yfinance 数字化转型2025 python 开发语言
以下是一段基于Python的股票量化分析代码，包含数据获取、技术指标计算、策略回测和可视化功能：pythonimportyfinanceasyfimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfrombacktestingimportBacktest,Strategyfrombacktesti
sqlmap笔记君如尘网络安全-渗透笔记笔记
1.运行环境sqlmap是用Python编写的，因此首先需要确保你的系统上安装了Python。sqlmap支持Python2.6、2.7和Python3.4及以上版本。2.常用命令通用格式：bythonsqlmap.py-r注入点地址--参数-rpost请求-uget请求--level=测试等级--risk=测试风险-v显示详细信息级别-p针对某个注入点注入-threads更改线程数，加速--ba
python环境部署工具 uv Honnnnnn uv
以原先使用的pipenv工具为例子，通过pipfile.lock生成requirements文件，再将requirements转成pyproject.toml文件，最后生成uv.lock基于当前虚拟环境导出requirements.txt--pipfreeze>requirements.txt（如果原先不是env而是基础的通过requirements.txt文件，省去转化requirements的
leetcode-hot100-python-专题三：滑动窗口 ༺ Dorothy ༻ leetcode hot100 leetcode python 算法
1、无重复字符的最长子串中等给定一个字符串s，请你找出其中不含有重复字符的最长子串的长度。示例1:输入:s=“abcabcbb”输出:3解释:因为无重复字符的最长子串是“abc”，所以其长度为3示例2:输入:s=“bbbbb”输出:1解释:因为无重复字符的最长子串是“b”，所以其长度为1。示例3:输入:s=“pwwkew”输出:3解释:因为无重复字符的最长子串是“wke”，所以其长度为3。请注意，
Python UV - 安装、升级、卸载云客Coder python uv 开发语言
文章目录安装检查升级设置自动补全卸载UV命令官方文档详见：https://docs.astral.sh/uv/getting-started/installation/安装pipinstalluv检查安装后可运行下面命令，查看是否安装成功uv--version%uv--versionuv0.6.3(a0b9f22a22025-02-24)升级uvselfupdate将重新运行安装程序并可能修改您的
使用Python构建去中心化预测市场：从概念到实现 Echo_Wish Python！实战！python 去中心化开发语言
使用Python构建去中心化预测市场：从概念到实现大家好，我是Echo_Wish。今天，我们将深入探讨一个前沿的区块链应用——去中心化预测市场，并学习如何使用Python来构建一个简易的预测市场平台。预测市场是基于市场参与者对未来事件的预测来产生结果的地方，通常被用来预测政治事件、金融市场走向、体育比赛结果等。传统的预测市场如Augur、Polymarket等，基于去中心化平台，利用区块链技术确保
Python自动登陆、登出南京理工大学NJUST校园网程序 JimesMz python 开发语言
本文程序针对南京理工大学NJUST和NJUST-FREE校园网开发，其他学校无法使用。文章目录开发目的使用说明参考资料开发目的今天突然想要用代码实现一下自动登陆校园网，上网搜寻了一下。知乎有一些教程，CSDN也有一些完整的代码，但是我跟随教程或者直接运行现有代码都没有能够成功登陆，且NJUST校园网付费，我想要一个“登出”功能，借助Kimi自己写了一下。本人技术不精，以实现功能为主。使用说明请确保
Python爬虫笔记一（来自MOOC） Requests库入门小灰不停前进 #Python python pycharm 爬虫
Python爬虫笔记一通用代码框架：importrequestsdefgetHTMLText(url):try:r=requests.get(url,timeput=30)r.raise_for_status()#如果状态不是200，引发HTTPError异常r.encoding=r.apparemt_encodingreturnr.textexcept:return"产生异常"if__name_
Python调用fofa API接口并写入csv文件中 YOHO !GIRL 网络测绘 python 网络安全
前言一.功能目的二.功能调研三.编写代码1.引入库2.读取数据3.写入csv文件中总结前言上一篇我们讲述了目前较为主流的几款网络探测系统，简单介绍了页面的使用方法。链接如下，点击跳转：网络空间测绘引擎集合：Zoomeye、fofa、360、shodan、censys、鹰图然而当我们需要针对单个引擎进行二次开发时，页面就不能满足我们的需求了，这就需要参考API文档进行简单的数据处理，接下来，给大家介
SenseVoice 部署记录安静六角开源软件
最近试用了SenseVoice（阿里团队开源的语音转文字）效果可以，可以本地部署，有webui界面，测试了万字以上的转换效果可以。首先部署好conda环境和cuda，这个可以查看他人的文章。步骤1.创建虚拟环境：condacreate-nmainenvpython=3.102.然后安装依赖condaactivatemainenvpipinstall-rC:\Users\xx\Documents\P
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
Python实现微信自动发送消息热心市民小汪 python 微信开发语言
实现需求：Python定时发送微信消息importpyautoguiaspgimportpyperclipaspcfromapscheduler.schedulers.blockingimportBlockingScheduler"""实现定时自动发送消息"""#操作间隔为1秒pg.PAUSE=1name='Hello~'msg='是时候点餐啦！！'defmain():#打开微信pg.hotkey
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l