Miracle8070

系统学习Pytorch笔记三：Pytorch数据读取机制(DataLoader)与图像预处理模块(transforms)

Pytorch官方英文文档：https://pytorch.org/docs/stable/torch.html?
Pytorch中文文档：https://pytorch-cn.readthedocs.io/zh/latest/

1. 写在前面

疫情在家的这段时间，想系统的学习一遍Pytorch基础知识，因为我发现虽然直接Pytorch实战上手比较快，但是关于一些内部的原理知识其实并不是太懂，这样学习起来感觉很不踏实，对Pytorch的使用依然是模模糊糊，跟着人家的代码用Pytorch玩神经网络还行，也能读懂，但自己亲手做的时候，直接无从下手，啥也想不起来，我觉得我这种情况就不是对于某个程序练得不熟了，而是对Pytorch本身在自己的脑海根本没有形成一个概念框架，不知道它内部运行原理和逻辑，所以自己写的时候没法形成一个代码逻辑，就无从下手。这种情况即使背过人家这个程序，那也只是某个程序而已，不能说会Pytorch，并且这种背程序的思想本身就很可怕，所以我还是习惯学习知识先有框架（至少先知道有啥东西）然后再通过实战（各个东西具体咋用）来填充这个框架。而这个系列的目的就是在脑海中先建一个Pytorch的基本框架出来，学习知识，知其然，知其所以然才更有意思 。

今天是该系列的第三篇，依然是基于上次的学习Pytorch的动态图、自动求导及逻辑回归进行整理，这次主要是学习Pytorch的数据读取机制DataLoader和Dataset的运行机制，然后学习图像的预处理模块transforms的原理，最后基于上面的所学玩一个人民币二分类的任务。

注意，本系列都默认已经安装了Cuda，搭建好了Pytorch环境，如果你电脑是Windows，并且没有装Pytorch，那么巧了，我之前写过一篇怎么搭建环境，可以先看看 Pytorch入门+实战系列一：Windows下的Pytorch环境手把手搭建

大纲如下：

Pytorch的数据读取机制(DataLoad和Dataset，以一个人民币二分类的任务展开，通过代码调试去看逻辑和原理)
Pytorch的图像预处理transforms（图像增强，选择，自定义transforms等）
总结梳理

Ok, let’s go!

2. Pytorch的数据读取机制

在学习Pytorch的数据读取之前，我们得先回顾一下这个数据读取到底是以什么样的逻辑存在的，上一次，我们已经整理了机器模型学习的五大模块，分别是数据，模型，损失函数，优化器，迭代训练：

而这里的数据读取机制，很显然是位于数据模块的一个小分支，下面看一下数据模块的详细内容：

数据模块中，又可以大致分为上面不同的子模块，而今天学习的DataLoader和DataSet就是数据读取子模块中的核心机制。了解了上面这些框架，有利于把知识进行整合起来，到底学习的内容属于哪一块。下面正式开始DataLoader和Dataset的学习：

2.1 DataLoader

torch.utils.data.DataLoader(): 构建可迭代的数据装载器, 我们在训练的时候，每一个for循环，每一次iteration，就是从DataLoader中获取一个batch_size大小的数据的。

DataLoader的参数很多，但我们常用的主要有5个：

dataset: Dataset类，决定数据从哪读取以及如何读取
bathsize: 批大小
num_works: 是否多进程读取机制
shuffle: 每个epoch是否乱序
drop_last: 当样本数不能被batchsize整除时，是否舍弃最后一批数据

要理解这个drop_last，首先，得先理解Epoch， Iteration和Batchsize的概念：

Epoch：所有训练样本都已输入到模型中，称为一个Epoch
Iteration：一批样本输入到模型中，称为一个Iteration
Batchsize：批大小，决定一个Epoch有多少个Iteration

举个例子就Ok了，假设样本总数80， Batchsize是8，那么1Epoch=10 Iteration。假设样本总数是87， Batchsize是8，如果drop_last=True, 那么1Epoch=10Iteration, 如果等于False，那么1Epoch=11Iteration, 最后1个Iteration有7个样本。

2.2 Dataset

torch.utils.data.Dataset(): Dataset抽象类，所有自定义的Dataset都需要继承它，并且必须复写__getitem__()这个类方法。

__getitem__方法的是Dataset的核心，作用是接收一个索引，返回一个样本，看上面的函数，参数里面接收index，然后我们需要编写究竟如何根据这个索引去读取我们的数据部分。

2.3 数据读取机制具体怎么用呢？

上面只是介绍了两个数据读取机制用到的两个类，那么具体怎么用呢？我们就以人民币二分类的任务进行具体查看，但是查看之前我们要带着关于数据读取的三个问题去看：

读哪些数据？我们每一次迭代要去读取一个batch_size大小的样本，那么读哪些样本呢？
从哪读数据？也就是在硬盘当中该怎么去找数据，在哪设置这个参数。
怎么读数据？

下面我们从实验中边看边学习：人民币分类的任务其实也非常简单，就是

我们的数据集是1块的图片100张，100的图片100张，我们的任务就是训练一个模型，来帮助我们对这两类图片进行分类。这个说清楚了之后，我们下面就带着上面的三个问题，来看我们这个任务的数据读取部分。

#==========================================step 1/5 准备数据===============================

# 数据的路径
split_dir = os.path.join('data', 'rmb_split')
train_dir = os.path.join(split_dir, 'train')
valid_dir = os.path.join(split_dir, 'valid')

## transforms模块，进行数据预处理
norm_mean = [0.485, 0.456, 0.406]
norm_std = [0.229, 0.224, 0.225]

train_transform = transforms.Compose([
    transforms.Resize((32, 32)),
    transforms.RandomCrop(32, padding=4),
    transforms.ToTensor(),
    transforms.Normalize(norm_mean, norm_std),
])

valid_transform = transforms.Compose([
    transforms.Resize((32, 32)),
    transforms.ToTensor(),
    transforms.Normalize(norm_mean, norm_std),
])

## 构建MyDataset实例
train_data = RMBDataset(data_dir=train_dir, transform=train_transform)
valid_data = RMBDataset(data_dir=valid_dir, transform=valid_transform)

# 构建DataLoader
train_loader = DataLoader(dataset=train_data, batch_size=BATCH_SIZE, shuffle=True)
valid_loader = DataLoader(dataset=valid_data, batch_size=BATCH_SIZE)

# print(train_loader)

代码不用具体看懂，看懂这里的逻辑就可以，首先一开始，是路径部分，也就是训练集和测试集的位置，这个其实就是我们上面的第二个问题从哪读数据，然后是transforms图像数据的预处理部分，这个不用管，后面会介绍transforms这个模块，这次最重要的就是MyDataset实例还有后面的DataLoader，这个才是我们这次介绍的重点。我们下面详细剖析（这个地方会涉及到代码的一些调试，所以尽量慢一些）：

我们从train_data = RMBDataset(data_dir=train_dir, transform=train_transform)开始，这一句话里面的核心就是RMBDataset，这个是我们自己写的一个类，继承了上面的抽象类Dataset，并且重写了__getitem__()方法，这个类的目的就是传入数据的路径，和预处理部分（看参数），然后给我们返回数据，下面看它是怎么实现的(Pycharm里面按住控制键，然后点击这个类就进入具体实现）：

class RMBDataset(Dataset):
    def __init__(self, data_dir, transform=None):
        """
        rmb面额分类任务的Dataset
        :param data_dir: str, 数据集所在路径
        :param transform: torch.transform，数据预处理
        """
        self.label_name = {"1": 0, "100": 1}
        self.data_info = self.get_img_info(data_dir)  # data_info存储所有图片路径和标签，在DataLoader中通过index读取样本
        self.transform = transform

    def __getitem__(self, index):
        path_img, label = self.data_info[index]
        img = Image.open(path_img).convert('RGB')     # 0~255

        if self.transform is not None:
            img = self.transform(img)   # 在这里做transform，转为tensor等等

        return img, label

    def __len__(self):
        return len(self.data_info)

    @staticmethod
    def get_img_info(data_dir):
        data_info = list()
        for root, dirs, _ in os.walk(data_dir):
            # 遍历类别
            for sub_dir in dirs:
                img_names = os.listdir(os.path.join(root, sub_dir))
                img_names = list(filter(lambda x: x.endswith('.jpg'), img_names))

                # 遍历图片
                for i in range(len(img_names)):
                    img_name = img_names[i]
                    path_img = os.path.join(root, sub_dir, img_name)
                    label = rmb_label[sub_dir]
                    data_info.append((path_img, int(label)))

        return data_info

看到这么多代码估计又看不下去了，但是得养成读源码的习惯，依然是看逻辑关系，我觉得看源代码最好是先把逻辑关系给看懂，然后再具体深入进去看具体细节。逻辑的话其实也很简单，这里面重点就是__getitem__()这个方法的实现了，我们说过从这里面，我们要拿到我们的训练样本，那么怎么拿呢？这个函数的第一行，会看到有个data_info[index]，我们只要给定了index，那么就是通过这句代码进行获取样本的，因为这个方法后面的都比较好理解，无非就是拿到图片，然后处理，然后返回的一个逻辑。

所以上面的重点又落在了data_info[index]上面，这句代码干了个什么事情呢？那么就得看看它是咋来的，所以就该往上看这个类的初始化部分__init__，我们可以看到这个data_info是RMBDataset这个类的成员，我们会看到self.data_info = self.get_img_info(data_dir)这句代码，就找到了data_info的来源，那么完了吗？当然没有，我们又发现这个又调用了get_img_info(data_dir)方法，这个才是最终的根源。所以我们又得看这个函数get_img_info(data_dir)做了什么？我们会发现这个函数的参数是data_dir, 也就是数据在的路径，那么如果想想的话，这个函数应该是要根据这个路径去找数据的，果然，我们把目光聚焦到这个函数发现，这个函数写了这么多代码，其实就干了一件事，根据我们给定的路径去找数据，然后返回这个数据的位置和标签。返回的是一个list，而list的每个元素是元组，格式就是[(样本1_loc, label_1), (样本2_loc, label_2), …(样本n_loc, label_n)]。这个其实就是data_info拿到的一个list。有了这个list，然后又给了data_info一个index，那么取数据不就很容易了吗？ data_info[index] 不就取出了某个(样本i_loc, label_i)。

这样再回到__getitem__()这个方法，是不是很容易理解了，第一行我们拿到了一个样本的图片路径和标签。然后第二行就是去找到图片，然后转成RGB数值。第三行就是做了图片的数据预处理，最后返回了这张图片的张量形式和它的标签。注意，这里是一个样本的张量形式和标签。这就是RMBDataset这个类做的事情。应该讲明白了吧，讲源码还真没经验，我也是第一次看，第一次讲。有了这样的一个逻辑，知道每个函数大致在做什么事情之后，然后就可以取看具体的实现细节了，这个就不带着看了，哈哈。

那么你可能有个疑问了，我们肯定不是要获取一张图片啊，我们不是要获取batch_size张图片吗？这个应该怎么实现呢？这是个好问题，那么这个就要问下面的DataLoader了。

我们看这句代码train_loader = DataLoader(dataset=train_data, batch_size=BATCH_SIZE, shuffle=True)，看DataLoader这个类，接收的参数就是上面的RMBDataset，我们知道这个是返回一个样本的张量和标签，然后又跟了一个BATCH_SIZE, 看到这个，你心里应该有数了，这个不就是说这些样本要分成多少批吗？如果有了批次数，有了样本总数，不就相当于指定了一次取多少张吗？后面的shuffle，这个是说我取图片的时候，把顺序打乱一下，不是重点。那么你是不是又好奇点东西了，这个DataLoader在干啥事情呢？其实它在干这样的事情，我们只要指定了Batch_SIZE，比如指定个10批，我们总共是有100个训练样本，那么就直接可以通过DataLoader把样本分成10批顺序打乱的数据，每一个Batch_size里面的有10个样本且都是张量和标签的形式，那么DataLoader是怎么做到的呢？哈哈，如果想弄明白这个问题，又得看看DataLoader的源码了，但是我看了一下发现，这个不得了，源码太长了，没法在这里具体显示，那怎么办呢？我们可以先看看这个train_loader到底是个啥，打印了一下，是这样的一个东西：，看了这是一个DataLoader对象了，也没法进行研究了，现在只知道这个东西能够返回那Batch_size个批次的数据，赋值给了train_loader, 显然这是一个可迭代的对象。那么很容易就可以想到，如果下面我们具体训练的时候，肯定是要遍历这个train_loader, 然后每一次取一批数据进行训练。哈哈，机智如你，果不其然，我们从具体使用的时候，看看每一批数据究竟是如何获得的？下面我们就直接从训练的部分看，像中间的模型，损失函数，优化器不是重点，所以这里先不放上来：

for epoch in range(MAX_EPOCH):
    loss_mean = 0.
    correct = 0.
    total = 0.

    net.train()

    for i, data in enumerate(train_loader):

        # forward
        inputs, labels = data
        outputs = net(inputs)

        # Compute loss
        optimizer.zero_grad()
        loss = criterion(outputs, labels)

        # backward
        loss.backward()

        # updata weights
        optimizer.step()

上面就是训练部分的核心了，这个比较好理解，两层循环，外循环表示的迭代Epoch，也就是全部的训练样本喂入模型一次，内循环表示的批次的循环，每一个Epoch中，都是一批批的喂入，那么数据读取具体使用的核心就是for i, data in enumerate(train_loader)这句话了，所以我们以调试的方式看看这个函数究竟是怎么去得到数据的？

在这一行打断点，然后debug，程序运行到这一行，然后点击下面的stepinto步入这个函数里面，我们看看调用的DataLoader里面的哪个方法，由于DataLoader的源码太多，方法很多，所以在具体使用的时候看这个流程就不用放上一些不必要的代码，减少冗余。

这样就会看到，程序跳转到了DataLoader的__iter__(self)这个方法，毕竟这是个迭代的过程，但是简单的瞄一眼这个函数，就会发现就一个判断，说的啥呢？原来在说是用单进程还是用多进程读取机制进行处理，关于读取数据啥也没干。所以这个也不是重点，我们使用stepover进行下一步，然后在stepinto进入单进程的这个机制里面

在这里面会看到点玄机了，这个机制里面比较重要的一个方法就是__next__(self), 上面不是说RMBDataset函数是能返回一个样本和标签吗？这里的这个next，看其字面意义就知道这个是获取下一个样本和标签，重要的两行代码就是红框的那两行，self.__next__index()获取下一个样本的index，然后self.dataset_fetcher.fetch(index)根据index去获取下一个样本，那么是怎么做到的？继续调试：将光标放到__next__index()这一行，然后点击下面的run to cursor图表，就会跳到这一行，然后stepinto

发现，这里是返回了一个return next(self.sampler_iter) , 所以重点应该是这个东西，我们继续stepinto

这里发现进入了sampler.py, 这里面重要的就是这个__iter__(self), 这个方法正是一次次的去采样我们的数据的索引，然后够了一个batch_size了就返回了。那这一次取到的哪些样本的索引呢？我们可以跳出这个函数，回去看看（连续两次跳出函数，回到dataloader.py）：

然后stepover到data这一行，这个意思就是说，index这一样代码执行完毕，我们可以看到最下面取到的index（可以和上上张图片，没执行这个函数的时候对比一下），我们的batch_size设置的16，所以通过上面的sampler.py获得了16个样本的索引。

这样，我们就有了一个批次的index，那么就好说了，根据index取不就完事了，所以第二行代码data = self.dataset_fetcher.fetch(index)就是取数据去了，重点就是这里的dataset_fetcher.fetch方法，我们继续调试看看它是怎么取数据的。

这样进入了fetch.py，然后核心是这里的fetch方法，这里面会发现调用了self.dataset[idx]去获取数据，那么我们再步入一步，就看到了奇迹：

会发现，这个方法跳到了我们写的RMBDataset这个类里面，调用了__getitem__方法，这个我们知道是获取一个样本的，那么就拿到了这个样本的张量和标签。而fetch里面的那个方法是一个列表推导式，所以通过这个方法就能够获取一个batch大小的样本。

取完了一个批次，然后进入self.collate_fn(data)进行整合，就得到了我们一个批次的data，最终我们返回来。

就看到了我们第一个批次获得的数据样本了。我们知道，这个train_loader已经把样本分成了一个个的batch, 共batch_size批，所以通过enumerate进行迭代就可以一批批的获取，然后训练模型了。这样所有的批次数据都喂入了模型，就完成了一次epoch。

好了，上面就是DataLoader读取数据的过程了，可能代码调试的过程确实比较乱，或许看不大懂，所以我们基于那三个问题梳理一遍逻辑，把逻辑关系看懂就好了，并且最后用灵魂画笔来个流程图再进行梳理。还记得我们的三个问题吗？

读哪些数据？这个我们是根据Sampler输出的index决定的
从哪读数据？这个是Dataset的data_dir设置数据的路径，然后去读
怎么读数据？这个是Dataset的getitem方法，可以帮助我们获取一个样本

我们知道，DataLoader读取数据的过程比较麻烦，用到了四五个.py文件的跳转，所以梳理这个逻辑关系最好的方式就是流程图：

通过这个流程图，把DataLoader读取数据的流程梳理了一遍，具体细节不懂没有关系，但是这个逻辑关系应该要把握住，这样才能把握宏观过程，也能够清晰的看出DataLoader和Dataset的关系。根据前面介绍，DataLoader的作用就是构建一个数据装载器，根据我们提供的batch_size的大小，将数据样本分成一个个的batch去训练模型，而这个分的过程中需要把数据取到，这个就是借助Dataset的getitem方法。

这样也就清楚了，如果我们想使用Pytorch读取数据的话，首先应该自己写一个MyDataset，这个要继承Dataset类并且实现里面的__getitem__方法，在这里面告诉机器怎么去读数据。当然这里还有个细节，就是还要覆盖里面的__len__方法，这个是告诉机器一共用多少个样本数据。要不然机器没法去根据batch_size的个数去确定每一个batch应该多大啊。这个写起来也很简单，返回总的样本的个数即可。

 def __len__(self):
        return len(self.data_info)

这样，机器就可以根据Dataset去硬盘中读取数据，接下来就是用DataLoader构建一个可迭代的数据装载器，传入如何读取数据的机制Dataset，传入batch_size, 就可以返回一批批的数据了。当然这个装载器具体使用是在模型训练的时候。

好了，上面就是Pytorch读取机制DataLoader和Dataset的原理部分了。

人民币二分类的数据模块里面，除了数据读取机制DataLoader，还涉及了一个图像的预处理模块transforms，是对图像进行预处理的，下面我们再看看这个的原理，再搞定这个细节，人民币二分类任务的数据模块就无死角了。

3. Pytorch的图像预处理transforms

transforms是常用的图像预处理方法，这个在torchvision计算机视觉工具包中，我们在安装Pytorch的时候顺便安装了这个torchvision(可以看看上面的搭建环境）。在torchvision中，有三个主要的模块：

torchvision.transforms: 常用的图像预处理方法, 比如标准化，中心化，旋转，翻转等操作
trochvision.datasets: 常用的数据集的dataset实现， MNIST, CIFAR-10, ImageNet等
torchvision.models: 常用的模型预训练, AlexNet, VGG, ResNet, GoogLeNet等。

我们这次看图像预处理模块transforms，主要包括下面的方法：

数据中心化，数据标准化，缩放，裁剪，旋转，翻转，填充，噪声添加，灰度变换，线性变换，仿射变换，亮度、饱和度及对比度变换。

3.1 看看二分类任务中用到的transforms的方法

下面我们可以看看人民币二分类任务中用到的图像预处理的方法了：
导入：import torchvision.transforms as transforms。

transforms.Compose方法是将一系列的transforms方法进行有序的组合包装，具体实现的时候，依次的用包装的方法对图像进行操作。
transforms.Resize方法改变图像大小
transforms.RandomCrop方法对图像进行裁剪（这个在训练集里面用，验证集就用不到了）
transforms.ToTensor方法是将图像转换成张量，同时会进行归一化的一个操作，将张量的值从0-255转到0-1
transforms.Normalize方法是将数据进行标准化

这个机制是怎么运行的这里就不多说了，因为我们这个函数是在RMBDataset的__getitem__方法中调用的。也就是在这里处理的图像。至于transform函数的源码，这里就不去看了。

    def __getitem__(self, index):
        path_img, label = self.data_info[index]
        img = Image.open(path_img).convert('RGB')     # 0~255

        if self.transform is not None:
            img = self.transform(img)   # 在这里做transform，转为tensor等等

        return img, label

但是逻辑关系依然要知道：

了解了图像处理的transforms机制，我们下面学习一个比较常用的数据预处理机制，叫做数据标准化：
transforms.Normalize: 逐channel的对图像进行标准化。 $o u t p u t = (i n p u t - m e a n) / s t d$

这个参数就不用解释了吧。好吧，再进行调试一下，看看是怎么变的吧：
依然是先打断点，然后步入这个函数：

我们进入了transforms.py，这里面的__call__里面就是那一系列的数据处理方法
然后点几次stepover就到了Normalize这个操作，这时候我们再次步入，到了Normalize类，这里面有一个call函数调用了pytorch库里面的Normalize函数，我们再次步入：

这里就有图有真相了。

Normalize的处理作用就是有利于加快模型的收敛速度。关于细节，这里可能没有必要整理的这么细，我这里整理是顺便学习一下代码的debug的过程，这个比了解Normalize的细节本身更加重要。

3.2 transforms的其他图像增强方法

数据增强
数据增强又称为数据增广，数据扩增，是对训练集进行变换，使训练集更丰富，从而让模型更具泛化能力，下面是一个数据增强的小例子(原来当初的我们就类似于机器啊，哈哈)。
图像裁剪
- transforms.CenterCrop(size): 图像中心裁剪图片, size是所需裁剪的图片尺寸，如果比原始图像大了，会默认填充0。
- transforms.RandomCrop(size, padding=None, pad_if_needed=False, fill=0, padding_mode='constant): 从图片中位置随机裁剪出尺寸为size的图片， size是尺寸大小，padding设置填充大小（当为a，上下左右均填充a个像素，当为(a,b), 上下填充b个，左右填充a个，当为(a,b,c,d)，左，上，右，下分别填充a,b,c,d个）， pad_if_need: 若图像小于设定的size, 则填充。 padding_mode表示填充模型，有4种，constant像素值由fill设定， edge像素值由图像边缘像素设定，reflect镜像填充， symmetric也是镜像填充，这俩镜像是怎么做的看官方文档吧。镜像操作就类似于复制图片的一部分进行填充。
- transforms.RandomResizedCrop(size, scale=(0.08, 1.0), ratio=(3/4, 4/3), interpolation): 随机大小，长宽比裁剪图片。 scale表示随机裁剪面积比例，ratio随机长宽比， interpolation表示插值方法。
- FiveCrop, TenCrop: 在图像的上下左右及中心裁剪出尺寸为size的5张图片，后者还在这5张图片的基础上再水平或者垂直镜像得到10张图片，具体使用这里就不整理了。
图像的翻转和旋转
1. RandomHorizontalFlip(p=0.5), RandomVerticalFlip(p=0.5): 依概率水平或者垂直翻转图片， p表示翻转概率
2. RandomRotation(degrees, resample=False, expand=False, center=None):随机旋转图片， degrees表示旋转角度， resample表示重采样方法， expand表示是否扩大图片，以保持原图信息。
图像变换
- transforms.Pad(padding, fill=0, padding_mode='constant'): 对图片边缘进行填充
- transforms.ColorJitter(brightness=0, contrast=0, saturation=0, hue=0):调整亮度、对比度、饱和度和色相，这个是比较实用的方法， brightness是亮度调节因子， contrast对比度参数， saturation饱和度参数， hue是色相因子。
- transfor.RandomGrayscale(num_output_channels, p=0.1): 依概率将图片转换为灰度图，第一个参数是通道数，只能1或3， p是概率值，转换为灰度图像的概率
- transforms.RandomAffine(degrees, translate=None, scale=None, shear=None, resample=False, fillcolor=0): 对图像进行仿射变换，反射变换是二维的线性变换，由五中基本原子变换构成，分别是旋转，平移，缩放，错切和翻转。 degrees表示旋转角度， translate表示平移区间设置，scale表示缩放比例，fill_color填充颜色设置， shear表示错切
- transforms.RandomErasing(p=0.5, scale=(0.02, 0.33), ratio=(0.3, 3.3), value=0, inplace=False): 这个也比较实用，对图像进行随机遮挡， p概率值，scale遮挡区域的面积， ratio遮挡区域长宽比。随机遮挡有利于模型识别被遮挡的图片。value遮挡像素。 这个是对张量进行操作，所以需要先转成张量才能做
- transforms.Lambda(lambd): 用户自定义的lambda方法， lambd是一个匿名函数。lambda [arg1 [, arg2…argn]]: expression
- .Resize, .ToTensor, .Normalize: 这三个方法上面具体说过，在这里只是提一下子。

3.3 transforms的选择操作

对几个transforms的操作进行选择，使得图像预处理更加的灵活。

transforms.RandomChoice([transforms1, transforms2, transforms3]): 从一系列transforms方法中随机选一个
transforms.RandomApply([transforms1, transforms2, transforms3], p=0.5): 依据概率执行一组transforms操作
transforms.RandomOrder([transforms1, transforms2, transforms3]): 对一组transforms操作打乱顺序

到这里，关于Pytorch的transforms操作基本上就搞定，上面只是整理了一些常用的函数，如果真的需要，具体细节还得去看官方文档。虽然Pytorch提供了很多的transforms方法，但是在实际工作中，可能需要自己的项目去自定义一些transforms方法，那么如果想自己定义方法，怎么做呢？

3.4 自定义transforms

我们上面的代码调试中看到了在Compose这个类里面调用了一系列的transforms方法，还记得这个吗？我们再回顾一遍这个运行机制：

我们对Compose里面的这些transforms方法执行一个for循环，每次挑取一个方法进行执行。也就是transforms方法仅接收一个参数，返回一个参数，然后就是for循环中，上一个transforms的输出正好是下一个transforms的输入，所以数据类型要注意匹配。这就是自定义transforms的两个要素。

下面给出一个自定义transforms的结构：

上面就是整个transforms的图像增强处理的技术了。但是实际工作中，最关键的还不是技术，而是战术，这些技术我们现在都知道了，到时候用到的时候可以随时去查然后拿过来用。但是我们如何去选择图像增强的策略呢？这个才是重点。

数据增强策略原则： 让训练集与测试集更接近。

空间位置上：可以选择平移
色彩上：灰度图，色彩抖动
形状：仿射变换
上下文场景：遮挡，填充

4 总结梳理

通过这篇文章就把Pytorch的数据模块给整理完毕，依然是快速的回顾一遍：首先是整理了Pytorch的数据读取机制，学习到了两个数据读取的关键DataLoader和Dataset，并通过一个人民币二分类的例子具体看了下这两个是如何使用的，以及它们之间的关系和原理，这个是通过debug进行描述的，debug的这种操作本身也非常重要，并且也要养成看源码的习惯。

然后又学习了Pytorch的图像处理模块transforms，这一模块主要是整理了各种图像处理的方法，transforms的选择操作，并且从战术的角度看了一下这些方法到底什么时候用。至于这些方法的细节，具体用到的时候查看官方文档即可，关于transforms，我们还可以自定义。

下面也是通过思维导图的方式把这一块的内容拎起来，方便以后查看学习：

关于Pytorch的数据模块，到这里就基本结束，我们的逻辑就是按照机器学习的那五大步骤进行的查看，数据模块 -> 模型模块 -> 损失函数 -> 优化器 -> 训练等。所以下一次我们进入模型模块，看看模型模块的具体细节，继续rush

PS: 本次学习视频来自B站https://www.bilibili.com/video/BV1EE41177ot?from=search&seid=13894259699897815176, 时间长了就有可能被和谐了。所有代码链接：

链接：https://pan.baidu.com/s/1c5EYdd0w8j6w3g54KTxJJA
提取码：k7rh

你可能感兴趣的:(系统学习Pytorch)

[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
建立系统写写停停
Echo说要建立系统，把零碎化的东西成系统。这个真的很赞。自己最近涉猎的东西很多，可是好像当时收获很大，可是事后却总也记不清楚。2019年，沉下心来，去沉淀。现在认准猎头这条路，那就走下去，管TM的豁出去了。这一年任务很艰巨，2019年1月也过去了大半。这一年最主要的任务是1、猎头系统掌握；2、职业规划学习；3、专升本。一、猎头系统学习。8点哄睡时间可以听一下微分享9：00-9:30看小密圈，Ec
【安装环境】配置MMTracking环境 xuanyu22 安装环境机器学习神经网络深度学习 python
版本v0.14.0安装torchnumpy的版本不能太高，否则后面安装时会发生冲突。先安装numpy，因为pytorch的安装会自动配置高版本numpy。condainstallnumpy=1.21.5mmtracking支持的torch版本有限，需要找到合适的condainstallpytorch==1.11.0torchvision==0.12.0cudatoolkit=10.2-cpytor
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
Pyorch中 nn.Conv1d 与 nn.Linear 的区别迪三 #NN_Layer 神经网络
即一维卷积层和全联接层的区别nn.Conv1d和nn.Linear都是PyTorch中的层，它们用于不同的目的，主要区别在于它们处理输入数据的方式和执行的操作类型。nn.Conv1d通过应用滑动过滤器来捕捉序列数据中的局部模式，适用于处理具有时间或序列结构的数据。nn.Linear通过将每个输入与每个输出相连接，捕捉全局关系，适用于将输入数据作为整体处理的任务。1.维度与输入nn.Conv1d（一
图片中的上采样，下采样和通道融合(up-sample, down-sample, channel confusion) 迪三 #图像处理_PyTorch 计算机视觉深度学习人工智能
前言以conv2d为例（即图片），Pytorch中输入的数据格式为tensor，格式为:[N,C,W,H,W]第一维N.代表图片个数，类似一个batch里面有N张图片第二维C.代表通道数，在模型中输入如果为彩色，常用RGB三色图，那么就是3维，即C=3。如果是黑白的，即灰度图，那么只有一个通道，即C=1第三维H.代表图片的高度，H的数量是图片像素的列数第四维W.代表图片的宽度，W的数量是图片像素的
读书随笔25 木木_cd40
【我在悦读】-木木【书名】:《跃迁》【作者】:古典【篇目】:第四章“破局思维”前部分【收获】001高手并不是能力比我们强、智商比我们高、定力比我们好，只是因为他们思考比我们深、见识比我们广，他们看到了更大的系统。(本章的关注点在于系统学习的重要性，以及如何正确看待系统科学在我们日常生活中的应用。掌握正确的破局思维，就是学会系统性的思考问题。)002一个系统至少包含三个因素：元素、元素之间的关系，以
MyBatis系统学习（一）——项目结构及其含义 OEC小胖胖 MyBatis mybatis 学习 web 后端
1.MyBatis简介MyBatis是一款优秀的持久层框架，它通过SQL映射的方式实现Java对数据库操作的映射，既保留了SQL语句的灵活性，也简化了代码的编写。在一个MyBatis项目中，核心部分主要有：配置文件（mybatis-config.xml）映射文件（Mapper.xml）实体类（Entity/POJO）接口类（Mapper接口）MyBatis会话工厂（SqlSessionFactor
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
虚拟现实智能家居实训系统实训解决方案武汉唯众智创智能家居实训系统智能家居实训室虚拟现实智能家居实训系统
随着科技的飞速发展，智能家居已成为现代生活的重要组成部分，它不仅极大地提升了居住的便捷性与舒适度，还推动了物联网、大数据、人工智能等前沿技术的融合应用。为了满足市场对智能家居专业人才日益增长的需求，虚拟现实智能家居实训系统实训解决方案旨在通过高度仿真的虚拟环境，为职业院校学生提供全面、高效、安全的智能家居系统学习与实践平台。一、解决方案概述该方案是一款深度融合教学理论、实践操作与效果评估的全方位解
天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？诗者才子酒中仙物联网 /互联网 /人工智能 /其他 pytorch 人工智能 python
在做大语言模型（LLM）的训练、微调和推理时，使用英伟达的GPU和CUDA是常见的做法。在更大的机器学习编程与计算范畴，同样严重依赖CUDA，使用它加速的机器学习模型可以实现更大的性能提升。虽然CUDA在加速计算领域占据主导地位，并成为英伟达重要的护城河之一。但其他一些工作的出现正在向CUDA发起挑战，比如OpenAI推出的Triton，它在可用性、内存开销、AI编译器堆栈构建等方面具有一定的优势
pytorch安装(windows) m0_62244898 windows 人工智能
（1）下载pycharmPyCharm:thePythonIDEforProfessionalDevelopersbyJetBrains(2)下载anacondaAnaconda|TheWorld'sMostPopularDataSciencePlatform(3)创建一个新环境：torchcondacreate-ntorch-y(4)进入新环境condaactivatetorch(5)加入清华源
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
网络安全学习路线图（2024版详解）白帽子008 web安全学习安全网络安全运维
近期，大家在网上对于网络安全讨论比较多，想要学习的人也不少，但是需要学习哪些内容，按照什么顺序去学习呢？其实我们已经出国多版本的网络安全学习路线图，一直以来效果也比较不错，本次我们针对市场需求，整理了一套系统的网络安全学习路线图，供大家学习参考。希望大家按照路线图进行系统学习不仅可以更高效的完成上岸，还能够系统化学习，提升自己的后期竞争力。第一阶段：数通安全Windows系统安全1.企业资产安全规
【ShuQiHere】小白也能懂的 TensorFlow 和 PyTorch GPU 配置教程 ShuQiHere tensorflow pytorch 人工智能
【ShuQiHere】在深度学习中，GPU的使用对于加速模型训练至关重要。然而，对于许多刚刚入门的小白来说，如何在TensorFlow和PyTorch中指定使用GPU进行训练可能会感到困惑。在本文中，我将详细介绍如何在这两个主流的深度学习框架中指定使用GPU进行训练，并确保每一个步骤都简单易懂，跟着我的步骤来，你也能轻松上手！1.安装所需库首先，确保你已经安装了TensorFlow或PyTorch
我为什么参加21天零基础系统学习写作训练营醒之_da7b
1、为什么参加写作训练营？人生在世，能够一直读书，一直写字，是多么美好的事情吖。从决定报名弘丹老师写作营的年度会员开始，就是想要重新拾起我对生活无比的热爱与期待。也希望，通过在训练营的学习与交流，能和志同道合的小伙伴一起，提升自我能力，创造人生的无限可能。2、希望这21天有什么收获？坚持每天阅读，使其成为陪伴一生的良好习惯。很惭愧，虽然喜欢读书，但却真的没有做到过每天阅读。所以，希望通过本次训练营
解决ModuleNotFoundError: No module named ‘torch的方法梅菊林各种问题解决方案开发语言
ModuleNotFoundError:Nomodulenamed‘torch’错误是Python在尝试导入名为torch的模块时找不到该模块而抛出的异常。torch是PyTorch深度学习框架的核心库，如果你的Python环境中没有安装这个库，尝试导入时就会遇到这个错误。文章目录报错问题报错原因解决方法报错问题当你尝试在Python脚本或交互式环境中执行以下命令时：importtorch如果Py
周末写点东西都是很困难的焦糖大瓜子
趁周末，也没有出去玩，回了趟家。看了一下VueCLI，也看了看阮大神写的webpack教程。webpack是一直想详细掌握的工具，需要系统学。学习一门技术，系统学习之后，那些重要和概念、设计的逻辑，也未必完全掌握，掌握的东西，也未必烂熟于心。终归要用于实际项目，反反复复，也就是常说的那个三境界：1.昨夜西风凋碧树，独上高楼，望断天涯路2.衣带渐宽终不悔,为伊消得人憔悴3.众里寻他千百度，蓦然回首，
Python中item()和items()的用处 ~|Bernard| 深度学习疑点总结 python pytorch 深度学习
item()区别一:在pytorch训练时，一般用到.item()。比如loss.item()。我们可以做个简单测试代码看看它的区别:importtorchx=torch.randn(2,2)print(x)print(x[1,1])print(x[1,1].item())运行结果:tensor([[-2.0743,0.1675],[0.7016,-0.6779]])tensor(-0.6779)
GPU版pytorch安装普通攻击往后拉 python tips 神经网络基础模型关键点
由于经常重装系统，导致电脑的环境需要经常重新配置，其中尤其是cudatorch比较难以安装，因此记录一下安装GPU版本torch的过程。1）安装CUDAtoolkit这个可以看做是N卡所有cuda计算的基础，一般都会随驱动的更新自动安装，但是不全，仍然需要安装toolkit，并不需要先看已有版本是哪个，反正下载完后会自动覆盖原有的cuda。下载网站两个：国内网站：只能下载最新的toolkit，但是
轻松升级：Ollama + OpenWebUI 安装与配置【AIStarter】 ai_xiaogui AI作画 AI软件人工智能 AI写作 AIStarter
Ollama是一个开源项目，用于构建和训练大规模语言模型，而OpenWebUI则提供了一个方便的前端界面来管理和监控这些模型。本文将指导你如何更新这两个工具，并顺利完成配置。准备工作确保你的系统已安装Git和Python环境。安装必要的依赖库，如TensorFlow或PyTorch等。更新步骤克隆项目：使用Git命令行工具克隆最新的Ollama和OpenWebUI仓库到本地。更新代码：确保你正在使
conda环境管理 Johnson0722 python python conda 环境管理
Anaconda使用软件包管理系统Conda进行包管理，为用户对不同版本、不同功能的工具包的环境进行配置和管理提供便利。来看一看使用conda来进行环境管理的基本命令创建环境创建一个名为test的python环境，指定python版本是3.7.3，并在test环境中安装pytorchcondacreate--nametestpython=3.7.3pytorch查看系统中的所有环境用户安装的不同环
R-Drop pytorch实现 warpin 深度学习深度学习 pytorch
Pytorch实现了R-Drop，可以用于训练分类模型。#-*-coding:utf-8-*-"""Description:AnimplementationofR-Drop(https://arxiv.org/pdf/2106.14448.pdf).Authors:lihpCreateDate:2021/8/24"""fromtorchimportnnfromtorch.nnimportfunct
Transformer模型：WordEmbedding实现 Galaxy.404 Transformer transformer 深度学习人工智能 embedding
前言最近在学Transformer，学了理论的部分之后就开始学代码的实现，这里是跟着b站的up主的视频记的笔记，视频链接：19、Transformer模型Encoder原理精讲及其PyTorch逐行实现_哔哩哔哩_bilibili正文首先导入所需要的包：importtorchimportnumpyasnpimporttorch.nnasnnimporttorch.nn.functionalasF关
如何使用Pytorch-Metric-Learning？鱼儿也有烦恼 PyTorch pytorch
文章目录如何使用Pytorch-Metric-Learning？1.Pytorch-Metric-Learning库9个模块的功能1.1Sampler模块1.2Miner模块1.3Loss模块1.4Reducer模块1.5Distance模块1.6Regularizer模块1.7Trainer模块1.8Tester模块1.9Utils模块2.如何使用PyTorchMetricLearning库中的
每天五分钟玩转深度学习框架PyTorch：获取神经网络模型的参数幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 神经网络人工智能模型参数 python
本文重点当我们定义好神经网络之后，这个网络是由多个网络层构成的，每层都有参数，我们如何才能获取到这些参数呢？我们将再下面介绍几个方法来获取神经网络的模型参数，此文我们是为了学习第6步（优化器）。获取所有参数Parametersfromtorchimportnnnet=nn.Sequential(nn.Linear(4,2),nn.Linear(2,2))print(list(net.paramet
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它