我是天才很好

训练数据太少？过拟合？一文带你领略“数据增长魔法”(下)

注意：本文是转载博客，如有侵权，请联系删除！

【下面是我的主页链接】

来AI Studio互粉吧 https://aistudio.baidu.com/aistudio/personalcenter/thirdview/76563

【项目列表】

训练数据太少？过拟合？一文带你领略“数据增长魔法”(上) (https://aistudio.baidu.com/aistudio/projectdetail/408059)

训练数据太少？过拟合？一文带你领略“数据增长魔法”(下) (https://aistudio.baidu.com/aistudio/projectdetail/422256)

一文帮你理解用Paddle训练模型的原理1-手写回归模型 (https://aistudio.baidu.com/aistudio/projectdetail/367090)

一文帮你理解用Paddle训练模型的原理2-权值可视化（VisualDL） (https://aistudio.baidu.com/aistudio/projectdetail/386954)

文章目录

四、上回没讲完的故事
五、Sample Pairing
六、Mixup
七、看看这次又能涨多少点

四、上回没讲完的故事

在上文《训练数据太少？过拟合？一文带你领略“数据增长魔法”(上)》中我们已经使用了明暗、对比度、饱和度、锐化、裁切、翻转、旋转、和加噪等各种“争奇斗艳”的图像数据増广技术治好了模型的过拟合。这样，应该就可以 live happily ever after了吧。现实中，如果我们继续训练模型至500epoch，loss曲线就又长成了“这样儿”…

真是“我待模型如初恋，她虐我一遍又一遍”。要想继续提高模型精度，上次那几招已经被“过拟合”给看破了。接下来怎么办？

这次的方法是在使用上文介绍的数据増广方法的基础上使用的。所以，我们把上文中使用用户自定义数据増广方法（使用imgaug库效果也是同样的）的模型作为基线版本用于对比。我们先做好准备工作。

# 解压数据集（项目准备工作）
# 初次运行时需要将下面一行注释取消
#!unzip -d /home/aistudio/work /home/aistudio/data/data22612/Images.zip

#简单的数据増广（用作基线版本）
import numpy as np
import random
from PIL import Image, ImageEnhance
import cv2
import matplotlib.pyplot as plt
%matplotlib inline

# 随机改变亮度
def random_brightness(img, lower=0.5, upper=1.5):
    e = np.random.uniform(lower, upper)
    return ImageEnhance.Brightness(img).enhance(e)

# 随机改变对比度
def random_contrast(img, lower=0.5, upper=1.5):
    e = np.random.uniform(lower, upper)
    return ImageEnhance.Contrast(img).enhance(e)

# 随机改变颜色(饱和度)
def random_color(img, lower=0.5, upper=1.5):
    e = np.random.uniform(lower, upper)
    return ImageEnhance.Color(img).enhance(e)

# 随机改变清晰度
def random_sharpness(img, lower=0.5, upper=1.5):
    e = np.random.uniform(lower, upper)
    return ImageEnhance.Sharpness(img).enhance(e)

# 等比例随机裁剪
def random_crop(img, max_ratio=1.5):
    #if(random.random() > 0.5):
    #    return img
    img = np.asarray(img)
    h, w, _ = img.shape
    m = random.uniform(1, max_ratio)
    n = random.uniform(1, max_ratio)
    x1 = w * (1 - 1 / m) / 2
    y1 = h * (1 - 1 / n) / 2
    x2 = x1 + w * 1 / m
    y2 = y1 + h * 1 / n
    img = Image.fromarray(img)
    img = img.crop([x1, y1, x2, y2])
    type = [Image.NEAREST,Image.BILINEAR,Image.BICUBIC,Image.ANTIALIAS]
    img = img.resize((w, h),type[random.randint(0,3)])
    return img

# 随机翻转
def random_flip(img, thresh=0.5):
    img = np.asarray(img)
    if random.random() > thresh:
        img = img[:, ::-1, :]
    if random.random() > thresh:
        img = img[::-1 , :, :]
    img = Image.fromarray(img)
    return img

# 随机旋转图像
def random_rotate(img, thresh=0.5):
    # 任意角度旋转
    angle = np.random.randint(0, 360)
    img = img.rotate(angle)
    return img

# 随机加高斯噪声
def random_noise(img, max_sigma = 5, thresh=0.5):
    if random.random() > thresh:
        return img
    img = np.asarray(img)
    sigma = np.random.uniform(0, max_sigma)
    noise = np.round(np.random.randn(img.shape[0], img.shape[1], 3) * sigma).astype('uint8')
    img = img + noise
    img[img > 255] = 255
    img[img < 0] = 0
    img = Image.fromarray(img)
    return img

#统一使用各种图像増广方法
def image_augment(img):
    ops = [random_brightness, random_contrast, random_color, random_sharpness, random_crop, \
            random_flip, random_rotate, random_noise]
    np.random.shuffle(ops)

    img = Image.fromarray(img)
    img = ops[0](img)
    img = ops[1](img)
    img = ops[2](img)
    img = ops[3](img)
    img = ops[4](img)
    img = ops[5](img)
    img = ops[6](img)
    img = ops[7](img)
    img = np.asarray(img)

    return img

五、Sample Pairing

为了再次驯服我们亲爱的模型，我们要寻找更加强大的技术。既然一张图片进行増广已经没啥新花样了，就试试两张一起搞的。

论文《Data Augmentation by Pairing Samples for Images Classification》提出了一种高效数据增强方式 SamplePairing，可以使训练集规模从 N 扩增到 N*N。
论文在使用 GoogLeNet，在 ILSVRC 2012 数据集从 top-1 错误率从 33.5% 降低到 29%，在 CIFAR-10 数据集 top-1 错误率从 8.22％降低到 6.93％。对于训练集有限的任务而言，提高了模型的准确性，效果很明显。

SamplePairing 的实现很简单，样本采用两幅图片直接像素相加求平均，样本的 label 不变。但是在训练过程中，先用普通数据增广方式，完成多个 epoch 后间歇性禁止 SamplePairing，在训练损失函数和精度稳定后，禁止 SamplePairing 进行微调。

附上论文地址：

Data Augmentation by Pairing Samples for Images Classification（https://arxiv.org/abs/1801.02929）

Paddle代码实现：

#Sample Pairing方式进行数据増广
import numpy as np

def samplePairing(img1, img2):
    h = max(img1.shape[0], img2.shape[0])
    w = max(img1.shape[1], img2.shape[1])
    img = np.zeros((h, w, img1.shape[2]), 'float32')
    img[:img1.shape[0], :img1.shape[1], :] = img1.astype('float32') / 2
    img[:img2.shape[0], :img2.shape[1], :] += img2.astype('float32') / 2
    if img1.dtype == 'uint8':
        return img.astype('uint8')   # 处理、返回归一化前图片 
    else:
        return img                   # 处理、返回归一化后图片

Sample Pairing的图片处理实现竟然这么简单。但人家实实在在的提高了模型的效果。根据论文，Sample Pairing并不是全程加入训练，而且要间歇性禁用，所以在训练过程中也要插入一些代码。

# 如果选择samplePairing,在设定的epoch范围内进行samplePairing处理,每10次间歇性禁用2次。
if augment == 'samplePairing' and epoch >= sample_pairing_start_epoch \
    and epoch < sample_pairing_end_epoch and epoch % 10 < 8:
    for i in range(x_data.shape[0]):
        x_data[i] = samplePairing(x_data[i], x_data[np.random.randint(0, x_data.shape[0])])

下面，看看Sample Pairing处理图片的效果：

# 查看Sample Pairing处理图片的结果
img1 = cv2.imread("/home/aistudio/work/Images/ak47/001_0086.jpg")
img1 = cv2.cvtColor(img1, cv2.COLOR_BGR2RGB)
img2 = cv2.imread("/home/aistudio/work/Images/cannon/029_0002.jpg")
img2 = cv2.cvtColor(img2, cv2.COLOR_BGR2RGB)
img1_baseAugmented = image_augment(img1)
img2_baseAugmented = image_augment(img2)
img_paired = samplePairing(img1_baseAugmented, img2_baseAugmented)

def erase(ax, plt):
    ax.spines['top'].set_visible(False)
    ax.spines['right'].set_visible(False)
    ax.spines['bottom'].set_visible(False)
    ax.spines['left'].set_visible(False)
    plt.xticks([])
    plt.yticks([])

plt.figure(figsize=(12,8),dpi=80)
#1-1
ax = plt.subplot(3, 3, 1)
plt.imshow(img1)
plt.title('img1_original')
erase(ax, plt)
#1-2
ax = plt.subplot(3, 3, 2)
plt.imshow(img1_baseAugmented)
plt.title('img1_baseAugmented')
erase(ax, plt)
#1-3
ax = plt.subplot(3, 3, 3)
plt.imshow(np.zeros(img1.shape, dtype='uint8') + 255)
erase(ax, plt)
#2-1
ax = plt.subplot(3, 3, 4)
plt.imshow(np.zeros(img_paired.shape, dtype='uint8') + 255)
erase(ax, plt)
#2-2
ax = plt.subplot(3, 3, 5)
plt.imshow(np.zeros(img_paired.shape, dtype='uint8') + 255)
erase(ax, plt)
#2-3
ax = plt.subplot(3, 3, 6)
plt.imshow(img_paired)
plt.title('img_samplePaired')
erase(ax, plt)
#3-1
ax = plt.subplot(3, 3, 7)
plt.imshow(img2)
plt.title('img2_original')
erase(ax, plt)
#3-2
ax = plt.subplot(3, 3, 8)
plt.imshow(img2_baseAugmented)
plt.title('img2_baseAugmented')
erase(ax, plt)
#3-3
ax = plt.subplot(3, 3, 9)
plt.imshow(np.zeros(img2.shape, dtype='uint8') + 255)
erase(ax, plt)

原图片img1和img2分贝经过基线的数据増广处理后按照0.5:0.5的比例逐像素叠加成一张图片，新图片的宽度为两张图片宽度的最大值，高度亦然。

六、Mixup

既然有了Sample Pairing这样牛叉的存在，这世上没准儿就要上演一番“瑜亮之争”。果然，Mixup半路杀出，増广的方法简直与Sample Pairing如出一辙，但更胜一筹。论文《mixup: Beyond Empirical Risk Minimization》从ERM的不足出发，理论上解释了为什么mixup可以改进模型（而Sample Pairing方法的有效原因未提出合理的解释是其论文的硬伤）。mixup是一种非常规的数据增强方法，一个和数据无关的简单数据增强原则，其以线性插值的方式来构建新的训练样本和标签，并且不止限于处理图像数据。也有观点认为这种数据増广方式实际上是一种对模型添加正则化约束的方法，也可以理解成对模型进行了剪枝。它希望模型尽可能往线性函数靠近。既保证模型预测尽可能准确，又让模型尽可能简单。结果就是，Mixup中了2018年ICLR而Sample Pairing被拒了。

Mixup的实现也十分简单，而且和Sample Pairing很像。甚至有人认为Sample Pairing可以看成是Mixup的一个特例。

上图公式中的λ（既代码中的lam）为服从beta分布的位于[0,1]区间的随机数，可使用numpy库的np.random.beta(alpha, alpha)产生。其中的alpha为超参数，在本项目中取alpha=1.5。

附上论文地址：

mixup: Beyond Empirical Risk Minimization（https://arxiv.org/abs/1710.09412）

Paddle代码实现：

#Mix Up方式进行数据増广
import numpy as np

def mixup(img1, img2, lambd):
    h = max(img1.shape[0], img2.shape[0])
    w = max(img1.shape[1], img2.shape[1])
    img = np.zeros((h, w, img1.shape[2]), 'float32')
    img[:img1.shape[0], :img1.shape[1], :] = img1.astype('float32') * lambd
    img[:img2.shape[0], :img2.shape[1], :] += img2.astype('float32') * (1 - lambd)
    if img1.dtype == 'uint8':
        return img.astype('uint8')   # 处理、返回归一化前图片 
    else:
        return img                   # 处理、返回归一化后图片

Mixup与Sample Pairing的实现非常相似，只是用lambd参数作为比例，取代了Sample Pairing中固定的0.5:0.5比例。在训练过程中也有不同。Mixup不但将输入数据（这里是存储图片像素向量）按比例加和，而且计算loss时也是将标签（label）按比例加和在一起的。

# 如果选择mixup,加入mixup处理
label_mixup = []
lambd = 0
if augment == 'mixup':
    while lambd <= 0 or lambd >= 1:
        lambd = np.random.beta(1.5, 1.5) # 超参数 alpha = 1.5, beta = 1.5， lambd服从beta分布
    for i in range(x_data.shape[0]):
        img2_sn = np.random.randint(0, x_data.shape[0])
        label_mixup.append(y_data[img2_sn][0])
        x_data[i] = mixup(x_data[i], x_data[img2_sn], lambd)
    label_mixup = np.array(label_mixup).reshape(-1, 1)
                            .
                            .
                            .
loss = fluid.layers.softmax_with_cross_entropy(logits, label)
# 如果使用mixup则模型的loss也要按lambda参数的比例合成
if augment == 'mixup':
    label_mixup = fluid.dygraph.to_variable(label_mixup)
    loss_mixup = fluid.layers.softmax_with_cross_entropy(logits, label_mixup)
    loss = loss * lambd + loss_mixup * (1 - lambd)

下面，看看Mixup处理图片的效果：

# 查看Mix Up处理图片的结果
img1 = cv2.imread("/home/aistudio/work/Images/ak47/001_0086.jpg")
img1 = cv2.cvtColor(img1, cv2.COLOR_BGR2RGB)
img2 = cv2.imread("/home/aistudio/work/Images/cannon/029_0002.jpg")
img2 = cv2.cvtColor(img2, cv2.COLOR_BGR2RGB)
img1_baseAugmented = image_augment(img1)
img2_baseAugmented = image_augment(img2)
img_mixuped, img_lambd = [], []
for i in range(12):
    lambd = 0
    while lambd <= 0 or lambd >= 1:
        lambd = np.random.beta(1.5, 1.5)
    img_lambd.append(lambd)
    img_mixuped.append(mixup(img1_baseAugmented, img2_baseAugmented, lambd))

plt.figure(figsize=(12,8),dpi=80)
#1-1
ax = plt.subplot(4, 4, 1)
plt.imshow(img1)
plt.title('img1_original')
erase(ax, plt)
#1-2
ax = plt.subplot(4, 4, 2)
plt.imshow(img1_baseAugmented)
plt.title('img1_baseAugmented')
erase(ax, plt)
#1-3
ax = plt.subplot(4, 4, 3)
plt.imshow(img2)
plt.title('img2_original')
erase(ax, plt)
#1-4
ax = plt.subplot(4, 4, 4)
plt.imshow(img2_baseAugmented)
plt.title('img2_baseAugmented')
erase(ax, plt)
#2-1 ~ 4-4
for i in range(12):
    ax = plt.subplot(4, 4, 4 + i +1)
    plt.imshow(img_mixuped[i])
    plt.title('mixed[lambda='+str(round(img_lambd[i], 2))+']')
    erase(ax, plt)

原图片img1和img2分贝经过基线的数据増广处理后按照 λ:(1 - λ) 的比例逐像素叠加成一张图片，新图片的宽度为两张图片宽度的最大值，高度亦然。其中，λ为符合beta分布的随机数，beta的alpha值在本项目中取alpha=1.5。

七、看看这次又能涨多少点

分类模型采用了GoogleNet网络，这也是Sample Pairing论文中使用的网络。

跑之前最好先读下代码。这个模型采用Sample Pairing和Mixup方法都跑了一遍，需要时间较长。我已经跑完一遍，已经有结果输出了。各位同学也可以先跳到后面看结果。

#分别使用baseline（只使用简单数据増广）、SamplePairing和MixUp三种方式训练模型，以对比效果
import numpy as np
import paddle
import paddle.fluid as fluid
from paddle.fluid.layer_helper import LayerHelper
from paddle.fluid.dygraph.nn import Conv2D, Pool2D, BatchNorm, FC
from paddle.fluid.dygraph.base import to_variable

# 数据读取
def normalize_img(img, augment=''): # 图片数据归一化
    # 将图片尺寸缩放道 224x224
    img = cv2.resize(img, (224, 224))
    # 使用自定义数据増广(包括使用samplePairing和mixup时)
    if augment == 'userDef' or augment == 'samplePairing' or augment == 'mixup':
        img = image_augment(img)
    '''
    elif augment == 'imgaugLib':  # 使用imgaug库进行数据増广
        img = image_augment_imgauglib(img)
    elif augment == 'allab':  # 使用两种方式叠加进行数据増广(先userDef后imgaugLib)
        img = image_augment_imgauglib(image_augment(img))
    elif augment == 'allba':  # 使用两种方式叠加进行数据増广(先imgaugLib后userDef)
        img = image_augment(image_augment_imgauglib(img))
    '''
    #plt.imshow(img)
    # 读入的图像数据格式是[H, W, C]。使用转置操作将其变成[C, H, W], 以适应Paddle的卷积操作对数据格式的要求
    img = np.transpose(img, (2,0,1))
    img = img.astype('float32')
    # 将数据范围调整到[-1.0, 1.0]之间
    img = img / 255.
    img = img * 2.0 - 1.0
    #img = np.mean(img, axis = 0).reshape((1, 28, 28))
    return img

def data_reader(mode='train', batch_size=8, augment=''): #定义读取器
    # 将datadir目录下的文件列出来，每条文件都要读入
    if(mode == 'train'):
        fileNames = np.loadtxt("./data/data22612/Train.txt", dtype=np.str)
        np.random.shuffle(fileNames) #只有训练集做shuffle
    elif(mode == 'validation'):
        fileNames = np.loadtxt("./data/data22612/Eval.txt", dtype=np.str)
    def reader():
        batch_imgs = []
        batch_labels = []
        for name in fileNames:
            img = cv2.imread("./work/Images/"+name[0])
            img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
            if(mode == 'train'):
                img = normalize_img(img, augment) #训练集使用图像増广
            elif(mode == 'validation'):
                img = normalize_img(img) #验证集不使用图像増广
            label = name[1]
            batch_imgs.append(img)
            batch_labels.append(label)
            if len(batch_imgs) == batch_size:
                imgs_array = np.array(batch_imgs).astype('float32')
                labels_array = np.array(batch_labels).astype('int64').reshape(-1, 1)
                yield imgs_array, labels_array
                batch_imgs = []
                batch_labels = []
        if len(batch_imgs) > 0:
            imgs_array = np.array(batch_imgs).astype('float32')
            labels_array = np.array(batch_labels).astype('int64').reshape(-1, 1)
            yield imgs_array, labels_array
    return reader

# 定义VGG模型（简单好用，便于初学者理解）
# 定义vgg块，包含多层卷积和1层2x2的最大池化层
class vgg_block(fluid.dygraph.Layer):
    def __init__(self, name_scope, num_convs, num_channels):
        """
        num_convs, 卷积层的数目
        num_channels, 卷积层的输出通道数，在同一个Incepition块内，卷积层输出通道数是一样的
        """
        super(vgg_block, self).__init__(name_scope)
        self.conv_list = []
        for i in range(num_convs):
            conv_layer = self.add_sublayer('conv_' + str(i), Conv2D(self.full_name(), 
                                        num_filters=num_channels, filter_size=3, padding=1, act='relu'))
            self.conv_list.append(conv_layer)
        self.pool = Pool2D(self.full_name(), pool_stride=2, pool_size = 2, pool_type='max')
    def forward(self, x):
        for item in self.conv_list:
            x = item(x)
        return self.pool(x)

class VGG(fluid.dygraph.Layer):
    def __init__(self, name_scope, conv_arch=((2, 64), 
                                (2, 128), (3, 256), (3, 512), (3, 512)), num_classes=1):
        super(VGG, self).__init__(name_scope)
        self.vgg_blocks=[]
        iter_id = 0
        # 添加vgg_block
        # 这里一共5个vgg_block，每个block里面的卷积层数目和输出通道数由conv_arch指定
        for (num_convs, num_channels) in conv_arch:
            block = self.add_sublayer('block_' + str(iter_id), 
                    vgg_block(self.full_name(), num_convs, num_channels))
            self.vgg_blocks.append(block)
            iter_id += 1
        self.fc1 = FC(self.full_name(),
                      size=4096,
                      act='relu')
        self.drop1_ratio = 0.5
        self.fc2= FC(self.full_name(),
                      size=4096,
                      act='relu')
        self.drop2_ratio = 0.5
        self.fc3 = FC(self.full_name(),
                      size=num_classes,
                      )
    def forward(self, x):
        for item in self.vgg_blocks:
            x = item(x)
        x = fluid.layers.dropout(self.fc1(x), self.drop1_ratio)
        x = fluid.layers.dropout(self.fc2(x), self.drop2_ratio)
        x = self.fc3(x)
        return x

# GoogLeNet模型代码
import numpy as np
import paddle
import paddle.fluid as fluid
from paddle.fluid.layer_helper import LayerHelper
from paddle.fluid.dygraph.nn import Conv2D, Pool2D, BatchNorm, FC
from paddle.fluid.dygraph.base import to_variable

# 定义Inception块
class Inception(fluid.dygraph.Layer):
    def __init__(self, name_scope, c1, c2, c3, c4, **kwargs):
        '''
        Inception模块的实现代码，
        name_scope, 模块名称，数据类型为string
        c1,  图(b)中第一条支路1x1卷积的输出通道数，数据类型是整数
        c2，图(b)中第二条支路卷积的输出通道数，数据类型是tuple或list, 
               其中c2[0]是1x1卷积的输出通道数，c2[1]是3x3
        c3，图(b)中第三条支路卷积的输出通道数，数据类型是tuple或list, 
               其中c3[0]是1x1卷积的输出通道数，c3[1]是3x3
        c4,  图(b)中第一条支路1x1卷积的输出通道数，数据类型是整数
        '''
        super(Inception, self).__init__(name_scope)
        # 依次创建Inception块每条支路上使用到的操作
        self.p1_1 = Conv2D(self.full_name(), num_filters=c1, 
                           filter_size=1, act='relu')
        self.p2_1 = Conv2D(self.full_name(), num_filters=c2[0], 
                           filter_size=1, act='relu')
        self.p2_2 = Conv2D(self.full_name(), num_filters=c2[1], 
                           filter_size=3, padding=1, act='relu')
        self.p3_1 = Conv2D(self.full_name(), num_filters=c3[0], 
                           filter_size=1, act='relu')
        self.p3_2 = Conv2D(self.full_name(), num_filters=c3[1], 
                           filter_size=5, padding=2, act='relu')
        self.p4_1 = Pool2D(self.full_name(), pool_size=3, 
                           pool_stride=1,  pool_padding=1, 
                           pool_type='max')
        self.p4_2 = Conv2D(self.full_name(), num_filters=c4, 
                           filter_size=1, act='relu')

    def forward(self, x):
        # 支路1只包含一个1x1卷积
        p1 = self.p1_1(x)
        # 支路2包含 1x1卷积 + 3x3卷积
        p2 = self.p2_2(self.p2_1(x))
        # 支路3包含 1x1卷积 + 5x5卷积
        p3 = self.p3_2(self.p3_1(x))
        # 支路4包含 最大池化和1x1卷积
        p4 = self.p4_2(self.p4_1(x))
        # 将每个支路的输出特征图拼接在一起作为最终的输出结果
        return fluid.layers.concat([p1, p2, p3, p4], axis=1)  
    
class GoogLeNet(fluid.dygraph.Layer):
    def __init__(self, name_scope, num_classes=1):
        super(GoogLeNet, self).__init__(name_scope)
        # GoogLeNet包含五个模块，每个模块后面紧跟一个池化层
        # 第一个模块包含1个卷积层
        self.conv1 = Conv2D(self.full_name(), num_filters=64, filter_size=7, 
                            padding=3, act='relu')
        # 3x3最大池化
        self.pool1 = Pool2D(self.full_name(), pool_size=3, pool_stride=2,  
                            pool_padding=1, pool_type='max')
        # 第二个模块包含2个卷积层
        self.conv2_1 = Conv2D(self.full_name(), num_filters=64, 
                              filter_size=1, act='relu')
        self.conv2_2 = Conv2D(self.full_name(), num_filters=192, 
                              filter_size=3, padding=1, act='relu')
        # 3x3最大池化
        self.pool2 = Pool2D(self.full_name(), pool_size=3, pool_stride=2,  
                            pool_padding=1, pool_type='max')
        # 第三个模块包含2个Inception块
        self.block3_1 = Inception(self.full_name(), 64, (96, 128), (16, 32), 32)
        self.block3_2 = Inception(self.full_name(), 128, (128, 192), (32, 96), 64)
        # 3x3最大池化
        self.pool3 = Pool2D(self.full_name(), pool_size=3, pool_stride=2,  
                               pool_padding=1, pool_type='max')
        # 第四个模块包含5个Inception块
        self.block4_1 = Inception(self.full_name(), 192, (96, 208), (16, 48), 64)
        self.block4_2 = Inception(self.full_name(), 160, (112, 224), (24, 64), 64)
        self.block4_3 = Inception(self.full_name(), 128, (128, 256), (24, 64), 64)
        self.block4_4 = Inception(self.full_name(), 112, (144, 288), (32, 64), 64)
        self.block4_5 = Inception(self.full_name(), 256, (160, 320), (32, 128), 128)
        # 3x3最大池化
        self.pool4 = Pool2D(self.full_name(), pool_size=3, pool_stride=2,  
                               pool_padding=1, pool_type='max')
        # 第五个模块包含2个Inception块
        self.block5_1 = Inception(self.full_name(), 256, (160, 320), (32, 128), 128)
        self.block5_2 = Inception(self.full_name(), 384, (192, 384), (48, 128), 128)
        # 全局池化，尺寸用的是global_pooling，pool_stride不起作用
        self.pool5 = Pool2D(self.full_name(), pool_stride=1, 
                               global_pooling=True, pool_type='avg')
        self.fc = FC(self.full_name(),  size=num_classes)

    def forward(self, x):
        x = self.pool1(self.conv1(x))
        x = self.pool2(self.conv2_2(self.conv2_1(x)))
        x = self.pool3(self.block3_2(self.block3_1(x)))
        x = self.block4_3(self.block4_2(self.block4_1(x)))
        x = self.pool4(self.block4_5(self.block4_4(x)))
        x = self.pool5(self.block5_2(self.block5_1(x)))
        x = self.fc(x)
        return x

# 模型训练
# 定义训练过程
def train(model, augment=''):
    with fluid.dygraph.guard():
        print('start training ... ')
        model.train()
        epoch_num = 500
        sample_pairing_start_epoch = int(epoch_num / 10)
        sample_pairing_end_epoch = epoch_num - sample_pairing_start_epoch
        BATCH_SIZE = 8
        opt = fluid.optimizer.AdamOptimizer(learning_rate=0.0001)
        # opt = fluid.optimizer.MomentumOptimizer(learning_rate=0.001, momentum=0.9)
        train_loader = data_reader(mode='train', batch_size=BATCH_SIZE, augment=augment)
        valid_loader = data_reader(mode='validation', batch_size=BATCH_SIZE, augment=augment)
        lossTrain, accTrain, lossEval, accEval = [], [], [], []
        bestPrecise = 0
        for epoch in range(epoch_num):
            lossEpochMean = 0
            accEpochMean = 0
            for batch_id, data in enumerate(train_loader()):
                x_data, y_data = data
                # 如果选择samplePairing,在设定的epoch范围内进行samplePairing处理,每10次间歇性禁用2次。
                if augment == 'samplePairing' and epoch >= sample_pairing_start_epoch \
                    and epoch < sample_pairing_end_epoch and epoch % 10 < 8:
                    for i in range(x_data.shape[0]):
                        x_data[i] = samplePairing(x_data[i], x_data[np.random.randint(0, x_data.shape[0])])
                # 如果选择mixup,加入mixup处理
                label_mixup = []
                lambd = 0
                if augment == 'mixup':
                    while lambd <= 0 or lambd >= 1:
                        lambd = np.random.beta(1.5, 1.5) # 超参数 alpha = 1.5, beta = 1.5， lambd服从beta分布
                    for i in range(x_data.shape[0]):
                        img2_sn = np.random.randint(0, x_data.shape[0])
                        label_mixup.append(y_data[img2_sn][0])
                        x_data[i] = mixup(x_data[i], x_data[img2_sn], lambd)
                    label_mixup = np.array(label_mixup).reshape(-1, 1)
                # 将numpy.ndarray转化成Tensor
                img = fluid.dygraph.to_variable(x_data)
                label = fluid.dygraph.to_variable(y_data)
                # 计算模型输出
                logits = model(img)
                pred = fluid.layers.softmax(logits)
                #print(label.numpy().T)
                # 计算损失函数
                loss = fluid.layers.softmax_with_cross_entropy(logits, label)
                # 如果使用mixup则模型的loss也要按lambda参数的比例合成
                if augment == 'mixup':
                    label_mixup = fluid.dygraph.to_variable(label_mixup)
                    loss_mixup = fluid.layers.softmax_with_cross_entropy(logits, label_mixup)
                    loss = loss * lambd + loss_mixup * (1 - lambd)
                avg_loss = fluid.layers.mean(loss)
                lossEpochMean += avg_loss.numpy()[0]
                acc = fluid.layers.accuracy(pred, label)
                accEpochMean += acc.numpy()[0]
                avg_loss.backward()
                opt.minimize(avg_loss)
                model.clear_gradients()
            lossEpochMean = lossEpochMean / (batch_id+1)
            accEpochMean = accEpochMean / (batch_id+1)
            lossTrain.append(lossEpochMean)
            accTrain.append(accEpochMean)
            print("epoch: {}, loss is: {}, acc is: {}".format(epoch, [lossEpochMean], [accEpochMean]))

            model.eval()
            lossEpochMean2 = 0
            accEpochMean2 = 0
            for batch_id2, data2 in enumerate(valid_loader()):
                x_data2, y_data2 = data2
                # 将numpy.ndarray转化成Tensor
                img2 = fluid.dygraph.to_variable(x_data2)
                label2 = fluid.dygraph.to_variable(y_data2)
                # 计算模型输出
                logits2 = model(img2)
                pred2 = fluid.layers.softmax(logits2)
                #print(label2.numpy().T)
                # 计算损失函数
                loss2 = fluid.layers.softmax_with_cross_entropy(logits2, label2)
                avg_loss2 = fluid.layers.mean(loss2)
                lossEpochMean2 += avg_loss2.numpy()[0]
                acc2 = fluid.layers.accuracy(pred2, label2)
                accEpochMean2 += acc2.numpy()[0]
            lossEpochMean2 = lossEpochMean2 / (batch_id2+1)
            accEpochMean2 = accEpochMean2 / (batch_id2+1)
            lossEval.append(lossEpochMean2)
            accEval.append(accEpochMean2)
            print("[validation] loss/accuracy: {}/{}".format(lossEpochMean2, accEpochMean2))
            model.train()
        
        if augment == 'userDef': # 使用自定义数据増广
            graphSavePath = './logs/userDefAug_'
        elif augment == 'imgaugLib':  # 使用imgaug库进行数据増广
            graphSavePath = './logs/imgaugLibAug_'
        elif augment == 'allab':  # 使用imgaug库进行数据増广
            graphSavePath = './logs/allabAug_'
        elif augment == 'allba':  # 使用imgaug库进行数据増广
            graphSavePath = './logs/allbaAug_'
        elif augment == 'samplePairing':  # 使用samplePairing
            graphSavePath = './logs/samplePairingAug_'
        elif augment == 'mixup':  # 使用mixup
            graphSavePath = './logs/mixupAug_'
        else: #不使用数据増广
            graphSavePath = './logs/noAug_'
        np.save(graphSavePath+"lossTrain.npy", np.array(lossTrain))
        np.save(graphSavePath+"accTrain.npy", np.array(accTrain))
        np.save(graphSavePath+"lossEval.npy", np.array(lossEval))
        np.save(graphSavePath+"accEval.npy", np.array(accEval))
        #print(lossTrain, accTrain, lossEval, accEval)
        print('graphs saved...')
        print('end...')

if __name__ == '__main__':
    # 创建模型
    #model = LeNet("LeNet", num_classes=16)
    #model = AlexNet("AlexNet", num_classes=16)
    #model = VGG("VGG", num_classes=16)
    #model = GoogLeNet("GoogLeNet", num_classes=16)
    #model = ResNet("ResNet", class_dim=16)
    #model = ResNet("ResNet", class_dim=16, layers=101)
    #model = ResNet("ResNet", class_dim=16, layers=152)
    #启动训练过程

    # train(model) # 不使用数据増广的训练
    # model = VGG("VGG", num_classes=16) # 重新初始化网络权重参数
    # train(model, augment='userDef') # 使用自定义数据増广的训练
    # model = VGG("VGG", num_classes=16)
    # train(model, augment='imgaugLib') # 使用imgaug库进行数据増广的训练
    # model = VGG("VGG", num_classes=16)
    # train(model, augment='allab') # 使用两种方式进叠加行数据増广的训练(先userDef后imgaugLib)
    # model = VGG("VGG", num_classes=16)
    # train(model, augment='allba') # 使用两种方式叠加进行数据増广的训练(先imgaugLib后userDef)
    # model = VGG("VGG", num_classes=16)
    # train(model, augment='samplePairing') # 使用samplePairing
    # model = VGG("VGG", num_classes=16)
    # train(model, augment='mixup') # 使用mixup

    # model = GoogLeNet("GoogLeNet", num_classes=16)
    # train(model, augment='userDef') # 使用自定义数据増广的训练
    model = GoogLeNet("GoogLeNet", num_classes=16)
    train(model, augment='samplePairing') # 使用samplePairing
    model = GoogLeNet("GoogLeNet", num_classes=16)
    train(model, augment='mixup') # 使用mixup

让我们看看分别用了 Sample Pairing 和 Mixup 进行数据増广后与基线版本的比较。

#查看训练结果(loss)
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline
figurePath = "./logs/"
start = 400 # 查看最后100epoch
start = 0
end = -1
userDefAug_lossTrain = np.load(figurePath+"userDefAug_lossTrain.npy")[start:end]
userDefAug_lossEval = np.load(figurePath+"userDefAug_lossEval.npy")[start:end]
samplePairingAug_lossTrain = np.load(figurePath+"samplePairingAug_lossTrain.npy")[start:end]
samplePairingAug_lossEval = np.load(figurePath+"samplePairingAug_lossEval.npy")[start:end]
mixupAug_lossTrain = np.load(figurePath+"mixupAug_lossTrain.npy")[start:end]
mixupAug_lossEval = np.load(figurePath+"mixupAug_lossEval.npy")[start:end]
plt.figure(figsize=(12,8),dpi=80)
plt.plot(range(len(userDefAug_lossTrain)), userDefAug_lossTrain, 'g--', label='userDefAug_lossTrain')
plt.plot(range(len(userDefAug_lossEval)), userDefAug_lossEval, 'g', label='userDefAug_lossEval')
plt.plot(range(len(samplePairingAug_lossTrain)), samplePairingAug_lossTrain, 'b--', label='samplePairingAug_lossTrain')
plt.plot(range(len(samplePairingAug_lossEval)), samplePairingAug_lossEval, 'b', label='samplePairingAug_lossEval')
plt.plot(range(len(mixupAug_lossTrain)), mixupAug_lossTrain, 'r--', label='mixupAug_lossTrain')
plt.plot(range(len(mixupAug_lossEval)), mixupAug_lossEval, 'r', label='mixupAug_lossEval')
plt.legend(loc="upper left")
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.grid()
plt.show()

#查看训练结果(Accuracy)
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline
figurePath = "./logs/"
start = 400 # 查看最后100epoch
start = 0
end = 500

userDefAug_accTrain = np.load(figurePath+"userDefAug_accTrain.npy")[start:end]
userDefAug_accEval = np.load(figurePath+"userDefAug_accEval.npy")[start:end]
samplePairingAug_accTrain = np.load(figurePath+"samplePairingAug_accTrain.npy")[start:end]
samplePairingAug_accEval = np.load(figurePath+"samplePairingAug_accEval.npy")[start:end]
mixupAug_accTrain = np.load(figurePath+"mixupAug_accTrain.npy")[start:end]
mixupAug_accEval = np.load(figurePath+"mixupAug_accEval.npy")[start:end]
plt.figure(figsize=(12,8),dpi=80)
plt.plot(range(len(userDefAug_accTrain)), userDefAug_accTrain, 'g--', label='userDefAug_accTrain')
plt.plot(range(len(userDefAug_accEval)), userDefAug_accEval, 'g', label='userDefAug_accEval')
plt.plot(range(len(samplePairingAug_accTrain)), samplePairingAug_accTrain, 'b--', label='samplePairingAug_accTrain')
plt.plot(range(len(samplePairingAug_accEval)), samplePairingAug_accEval, 'b', label='samplePairingAug_accEval')
plt.plot(range(len(mixupAug_accTrain)), mixupAug_accTrain, 'r--', label='mixupAug_accTrain')
plt.plot(range(len(mixupAug_accEval)), mixupAug_accEval, 'r', label='mixupAug_accEval')
plt.legend(loc="upper left")
plt.xlabel('Epoch')
plt.ylabel('Accuracy')
plt.grid()
plt.show()
# print(userDefAug_lossTrain[-10:-1].mean(),userDefAug_lossEval[-10:-1].mean(),samplePairingAug_lossTrain[-10:-1].mean(),\
#     samplePairingAug_lossEval[-10:-1].mean(),mixupAug_lossTrain[-10:-1].mean(),mixupAug_lossEval[-10:-1].mean())
# print(userDefAug_accTrain[-10:-1].mean(),userDefAug_accEval[-10:-1].mean(),samplePairingAug_accTrain[-10:-1].mean(),\
#     samplePairingAug_accEval[-10:-1].mean(),mixupAug_accTrain[-10:-1].mean(),mixupAug_accEval[-10:-1].mean())

上面的两幅折线图中，第一幅画的是loss曲线，第二副画的的accuracy（准确率）曲线；绿色线为基线版本的曲线，蓝线Sample Pairing版本的，红线是Mixup版本的；虚线是训练集曲线，实线是验证集曲线。

绿色线代表的基线版本（只采用了拉伸、旋转、颜色、清晰度、加噪等几种简单的数据増广方法）的曲线早早就显示出模型过拟合了。loss曲线“上下大劈叉”，验证集的accuracy曲线早早就追不上训练集曲线的“凤舞九天”，这些都是过拟合的典型症状。

蓝色线代表的加Sample Pairing处理版本的训练集曲线震动的幅度“大而整齐”，这是间歇性停用Sample Pairing处理造成的。在模型开始训练的前1/10和即将结束的最后1/10epoch中没有启用用Sample Pairing处理，所以那时的训练曲线就没有震动幅度“大而整齐”的现象。纵观所有训练epoch，从大概150epoch开始，绿色实现开始运动到红色曲线的上方，也是说从那时开始其验证集的准确率已经开始超过基线版本。

红色曲线代表的加Mixup处理版本的loss曲线开始时下降慢，accuracy（准确率）曲线开始时上升也慢。这是因为，我们从模型一开始训练就加入了Mixup操作。从前面实验各种数据増广时的情况看，在训练集加越多的増广处理，模型训练的初期，loss曲线的下降越慢（acc曲线上上升也越慢）。在模型训练大概250epoch左右后，加Mixup处理的模型的accuracy曲线开始向上超越基线版本的曲线。

为了展示模型在三种条件下训练500epoch后分类精度的提升情况，我们将模型训练的最终数据汇总于下表。由于模型准确率曲线震动幅度较大，我们分别取各条曲线最后10个数值的平均值作为参考值。

从实验结果看，这个项目采用Sample Pairing方法时精度提高了6个点，采用Mixup方法时提高了3个点左右。等等，项目前面不是说Mixup是比Sample Pairing更牛叉的存在么（ICLR不也同意么）？怎么这里Mixup效果还不如Sample Pairing？我的想法是“丹得亲自炼，方得自己选”，没哪个方法一定在所有情况下都是最好的，诸葛两也不是次次都赢周瑜，赤壁其实是周瑜烧的，没诸葛亮啥事，但考试答题时还是得答…当然得看是历史考试还是语文考试…

总之，今天我们项目里介绍的这两种“双打”的图像増广技术比（上）文中介绍的技术更加强大，再次驯服了模型的过拟合。在训练了500epoch后，采用了Sample Pairing和Mixup的模型也没有出现过拟合的迹象，而且还获得了不小的分类精度提升。

最后再来个“穿帮镜头的片花”，。

下面的折线图是我用VGGNet模型做上面实验的结果。当时我以为在（比Sample Pairing论文中提到的GoogleNet）效率稍低点的模型上实验能取得更加显著的效果，便于展示（也基于同样的原因，我没有在模型中添加正则化项以控制夸张的过拟合）。没想到结果竟是这样的…

#查看采用VGGNet训练结果(loss)
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline
figurePath = "./logs_vggnet/"
start = 400 # 查看最后100epoch
start = 0
end = -1
userDefAug_lossTrain = np.load(figurePath+"userDefAug_lossTrain.npy")[start:end]
userDefAug_lossEval = np.load(figurePath+"userDefAug_lossEval.npy")[start:end]
samplePairingAug_lossTrain = np.load(figurePath+"samplePairingAug_lossTrain.npy")[start:end]
samplePairingAug_lossEval = np.load(figurePath+"samplePairingAug_lossEval.npy")[start:end]
mixupAug_lossTrain = np.load(figurePath+"mixupAug_lossTrain.npy")[start:end]
mixupAug_lossEval = np.load(figurePath+"mixupAug_lossEval.npy")[start:end]
plt.figure(figsize=(12,8),dpi=80)
plt.plot(range(len(userDefAug_lossTrain)), userDefAug_lossTrain, 'g--', label='userDefAug_lossTrain')
plt.plot(range(len(userDefAug_lossEval)), userDefAug_lossEval, 'g', label='userDefAug_lossEval')
plt.plot(range(len(samplePairingAug_lossTrain)), samplePairingAug_lossTrain, 'b--', label='samplePairingAug_lossTrain')
plt.plot(range(len(samplePairingAug_lossEval)), samplePairingAug_lossEval, 'b', label='samplePairingAug_lossEval')
plt.plot(range(len(mixupAug_lossTrain)), mixupAug_lossTrain, 'r--', label='mixupAug_lossTrain')
plt.plot(range(len(mixupAug_lossEval)), mixupAug_lossEval, 'r', label='mixupAug_lossEval')
plt.legend(loc="upper left")
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.grid()
plt.show()

#查看采用VGGNet训练结果(Accuracy)
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline
figurePath = "./logs_vggnet/"
start = 400 # 查看最后100epoch
start = 0
end = -1

userDefAug_accTrain = np.load(figurePath+"userDefAug_accTrain.npy")[start:end]
userDefAug_accEval = np.load(figurePath+"userDefAug_accEval.npy")[start:end]
samplePairingAug_accTrain = np.load(figurePath+"samplePairingAug_accTrain.npy")[start:end]
samplePairingAug_accEval = np.load(figurePath+"samplePairingAug_accEval.npy")[start:end]
mixupAug_accTrain = np.load(figurePath+"mixupAug_accTrain.npy")[start:end]
mixupAug_accEval = np.load(figurePath+"mixupAug_accEval.npy")[start:end]
plt.figure(figsize=(12,8),dpi=80)
plt.plot(range(len(userDefAug_accTrain)), userDefAug_accTrain, 'g--', label='userDefAug_accTrain')
plt.plot(range(len(userDefAug_accEval)), userDefAug_accEval, 'g', label='userDefAug_accEval')
plt.plot(range(len(samplePairingAug_accTrain)), samplePairingAug_accTrain, 'b--', label='samplePairingAug_accTrain')
plt.plot(range(len(samplePairingAug_accEval)), samplePairingAug_accEval, 'b', label='samplePairingAug_accEval')
plt.plot(range(len(mixupAug_accTrain)), mixupAug_accTrain, 'r--', label='mixupAug_accTrain')
plt.plot(range(len(mixupAug_accEval)), mixupAug_accEval, 'r', label='mixupAug_accEval')
plt.legend(loc="upper left")
plt.xlabel('Epoch')
plt.ylabel('Accuracy')
plt.grid()
plt.show()

当我用VGG模型在GPU跑了1天半就得出上面这一坨准确率曲线时，真是满头大汗。这个结果根本看不出用了SamplePairing和Mixup后有任何准确率上的改善，这让我怎么圆场…我总不能无良的把曲线从400epoch截断，然后勉强的说Mixup总算还有点用吧。所以，我果断决定以“采用更好的模型GoogleNet”、“填加L2正则化项”、“添加dropout层”等操作泡制新的测试环境，直到做出“令同学们满意的”结果为止。然后，就有了前面正文里那个“还算说得过去”的结果。当然，我也并不觉得这种行为比“从400epoch截断”高尚多少。但这个项目的重点并不是小弟的“人品”，毕竟论文不是我写的，mixup满大街都在用。通过这个项目我想说的是，任何的方法都不是万灵丹，只有在合适的条件下才能发挥作用。比如，大伙儿在应用mixup时一般也不会全程使用，后期精调（finetune）时都是要把各种数据増广处理去掉的。采众家之长，才是我辈炼丹的奥义。

可见，要复现“天花乱坠”的论文结果也不是都能一气呵成的。除了靠“人品”，还要有点儿修为（技术），至少要有“一顿操作猛如虎”觉悟。谁能保证像Sample Pairing、Mixup这样的技术不是“大力出奇迹”的产物呢？哇哈哈哈。

【未完待续：下次玩玩SMOTE方法进行増广】

PS.后来我查阅论文时发现，文中Mixup方法的超参数alpha的取值范围应为[0.1,0.4]，取值过大可能会导致模型欠拟合。本项目中alpha取值为1.5，也可能过大了。这也可能是为什么其效果不如Sample Pairing的原因吧。alpha的取值是因项目而异的。

你可能感兴趣的:(百度PaddlePaddle)

直返APP与其他返利平台相比，有哪些不同之处？日常购物技巧呀
想要下载直返APP，你可以在各大应用商店搜索“直返”并下载安装。无论你是使用的是苹果的AppStore还是安卓的GooglePlay，都能找到直返APP的身影。只需轻轻一点，就能将这款实用的购物工具添加到你的手机中。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高
淘宝签到红包商家吃亏吗?淘宝签到红包谁承担一起高省
消费者的淘宝签到红包变成2毛的原因主要与红包机制有关，如果消费者长期坚持签到，获得的红包金额就会越来越小，可能只有0.2元。若是消费者想要获取更大的红包，可以选择停止签到几天，过一段时候后重新签到的话就有可能从0.2元变成更大的红包。高省APP高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。古楼导师高省邀请码51
赚金街怎么样?赚金街能赚钱吗? 高省APP大九
赚金街真的省钱吗？赚金街怎么注册的？赚金街怎么赚钱的？有人带你做赚金街吗？先领券，再下单。省钱不止一点点！你购物还能拿佣金，京东淘宝拼多多，苏宁赚金街唯品会海量商品任你选！点外卖，看电影，住酒店都有优惠~我为何从赚金街转到高省呢？当然是高省佣金更高啊！自用省钱，普通用户无需升级，佣金最高大家好，我是高省最大团队大九，【高省】是一个可省钱佣金高，能赚钱有收益的平台，百度有几百万篇报道，也期待你的加入
氧惠怎么赚钱?实操氧惠月入10万+的方法秘诀全网优惠分享
氧惠怎么赚钱?实操氧惠月入10万+的方法秘诀，加入我的团队手把手教学。下面告诉大家怎么加入到氧惠手机应用商店搜索「氧惠」下载，注册时填写邀请码：222999注册时填写邀请码：222999（此码注册可直接享受V8权益）氧惠是与以往完全不同的抖客+淘客app！全新模式，我的直推也会放到你下面，我曾经1年做到百万团队，现在加入我也会帮你做到百万团队。【氧惠】百度有几百万篇报道，也期待你的加入。氧惠邀请码
淘宝优惠券返利app，让你省钱攻略不再错过！古楼
在物价不断攀升的今天，如何能省钱过日子，已经成为许多人关心的问题。而今天，我要向大家介绍一款可以让我们省钱购物、还能赚钱的app——高省。高省是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高省——高佣领
年轻人最赚钱的工作什么行业稀缺又赚钱日常购物技巧呀
在任何时代中，年轻人都是社会发展的主流，年轻人是充满活力与拼搏力的人群。下面我为大家整理了最能赚钱的年轻人都有哪些特质，一起来看看吧！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。古楼导师高省邀请码518518，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。一、什么是购物返利——高省简单说一下，
京东返利是什么意思?京东返利app是哪个应用？高省APP珊珊
京东返利是指在购物完成后，根据一定比例将购物金额的一部分返还给购物者的一种优惠政策。京东返利通常是以一定比例的现金或京豆的形式返还。【高省APP】（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省是公认的返利最高的软件。珊珊导师高省邀请码66612
Go入门指南(The Way to Go) 完整版PDF book_longker 资源 golang pdf 开发语言
TheWayToGo可以说是入门Go的经典书籍，这本书有内容丰富各种资料链接，这是截止到目前，大叔看到的写得最好的go语言教材，非常详细.一口气读下来，舍不得放手，大叔强烈推荐你去学习百度网盘分享
领券网淘宝优惠券，领券网淘宝优惠券分享赚佣金？一起高省
领券网是一个提供淘宝优惠券的平台，用户可以在该平台上领取淘宝商品的优惠券，并享受相应的折扣。领券网的优惠券种类繁多，覆盖了家居、服饰、美妆、数码、家电等各个领域，用户可以根据自己的需求在平台上搜索和领取相应的优惠券。【高省APP】（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高
连续上多个热搜的chatgpt到底是什么？高省张导师
近日，一款名为ChatGPT的人工智能聊天机器人火了。ChatGPT能做什么呢？除了简单的对话，它能帮你写代码、写文章、写诗、翻译，只要你能想到...，甚至有人用它来写作业。大家好我是氧惠APP最大团队张导师，氧惠首批邀请码520888，注册就帮你推广，一起做到百万团队。氧惠APP，2023全新模式，我的直推也会放到你下面，我曾经1年做到百万团队，现在加入我也会帮你做到百万团队。【氧惠】百度有几百
京东优惠券怎么赚佣金?要注意什么?(京东优惠券软件赚佣金) 测评君高省
京东优惠券软件赚佣金是一种通过推广京东优惠券来获取佣金的方式。这种模式在电商行业中比较常见，主要是通过让利给消费者和推广者来提升销量和知名度。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省是公认的返利最高的软件。古楼导师高省邀请码
直返APP的创始人是谁?他们的创业背景和经历如何? 好项目高省
直返APP是直返科技有限公司的得意之作。直返科技有限公司是一家专注于电商领域的高科技企业，自成立以来，始终致力于打造创新的购物平台，为用户提供更加便捷、实惠的购物体验。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省是公认的返利最高
【数据获取与读取】JSON & CSV yogurt=b 数据分析 json python
数据分析流程获取数据-读取数据-评估数据-清洗数据-整理数据-分析数据-可视化数据公开数据集飞桨（百度旗下深度学习平台）数据集：https:/aistudio.baidu.com/aistudio/datasetoverview天池（阿里云旗下开发者竞赛平台）:https:/tianchiaiyun.com/dataset/和鲸社区（数据科学开源社区）数据集：htps://www.heywhale
团油是什么意思,为什么那么便宜高省_飞智666600
用团油APP加油会比直接到加油站加油便宜，原因是因为和团油合作的燃油公司很多，为了吸引顾客，燃油公司因而做出对应的让利活动。简单来说，团油就是燃油行业中的美团，这样就非常容易理解了。高省APP（帮朋友一起省）佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。高省邀请码666600，注册送2皇冠会员，送万元推广大礼包，教你如何
直返城市代理商如何建立良好的客户关系,提高用户满意度? 好项目高省
在繁华的都市中，直返代理商们如星罗棋布，各自为战。在这个竞争激烈的市场环境中，如何建立良好的客户关系并提高用户满意度，成为了每一位代理商都必须面对的挑战。接下来，我们将一起探讨如何构建坚实的客户关系，提升用户满意度。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高
上什么大学很重要，它决定了你人生的难易程度！柴狗夫斯基
大家好，我是柴妹最近柴妹发现很多人都在谈读书无用很多人对此还深信不疑对此以至于让柴妹都恍惚起来新时代下我们可以抬头看看一众互联网大佬他们的学历如何百度李彦宏年轻的时候不仅颜值在线而且还会唱戏剧要是搁在现在都能C位出道了但是他学习成绩实在是太好了放弃上大学的机会去唱戏实在是太可惜了于是他果断选择了考大学很随意的就考上了北大同样能考上北大清华的雷军更加随意据说是因为有朋友在武汉大学所以选择了武大柴妹不
python调用pyd文件_python的py文件生成pyd文件，pycharm直接调用pyd文件 weixin_39799561 python调用pyd文件
这段时间做接口自动化测试，用python直接调用接口，sign值是经过系列复杂算法加密后生成的字符串，保密级别高，不能直接以py文件供大家调用~~pyc文件呢，很容易就被反编译了，pyd文件和一般dll类似，不容易被反编译。生成pyd很容易，网上百度一堆堆，但是调用pyd文件会遇到好多错误。在此贴一下生成pyd到调用pyd文件的方法供参考：1.新建一个setup.py文件：#用cpython生成p
css之雪碧图（精灵图）星月心城 css css 前端
听到雪碧图是不是跟我一样，啥？雪碧图？不知所以。如果一张大图由许多小图构成，那么每张小图都需要进行网络请求，这样一来就会有很多请求，为了减少网络请求，雪碧图就出现了。雪碧图（Sprite）是一种在Web开发中常用的图像合并技术，将多个小图标或图片合并成一张大图，然后通过CSS来显示其不同部分。这种技术可以减少HTTP请求数量，提高网页加载速度。以下是本人自己写的例子，大图的图片是在百度找的http
靠着霸王餐活动,这家烧烤店一个月内获客3W,具体如何做到的高省_飞智666600
最近有一家烧烤店靠着“霸王餐”活动，竟然在一个月内吸引了3W新顾客！这个数字也太惊人了，让我们一起来看看他们是怎么做到的吧！【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省是公认的返利最高的软件。古楼导师高省邀请码555888，注册
selenium中键盘操作：Keys类 weixin_41812355 web自动化 selenium python
前言：本文详细介绍了如何使用Selenium库进行键盘操作，包括非组合键如回车、删除等，以及Ctrl+A、Ctrl+C等常见组合键的模拟。通过实例演示了在百度搜索中的应用，并展示了ActionChains类的使用方法。一、导入相关类selenium提供了比较完整的键盘操作，在使用的模拟键盘操作之前需要我们导入Keys类fromselenium.webdriver.common.keysimport
不知道写什么了，就这样吧最不要面子的鹿
“满纸荒唐言，一把辛酸泪”——曹雪芹一句话道破了千年来多少写手心中想表达的念想，写一篇小说，可不就是一场酩酊大醉么。看似荒唐的桥段、无法理解的疯狂、莫名其妙的感情宣泄、突如其来的生离死别——作者们不过是在描绘自己因笔墨而醉然后又因大醉而生的梦境罢了，所以才有这般荒唐，才有这般辛酸。王国维先生曾经说，读书的最高境界，莫过于“众里寻他千百度，暮然回首，那人却在灯火阑珊处”，说的是读书到身处，心中所想与
说说百度大模型算法工程师二面经历 AI小白熊百度算法人工智能大模型面试 ai 自然语言处理
百度大模型算法工程师面试题应聘岗位：百度大模型算法工程师面试轮数：第二轮整体面试感觉：偏简单面试过程回顾1.自我介绍在自我介绍环节，我清晰地阐述了个人基本信息、教育背景、工作经历和技能特长，展示了自信和沟通能力。2.Leetcode题具体题意记不清了，但是类似【208.实现Trie(前缀树)】题目内容Trie（发音类似“try”）或者说前缀树是一种树形数据结构，用于高效地存储和检索字符串数据集中的
python使用win32类_python使用win32com的心得 weixin_39537298 python使用win32类
python可以使用一个第三方库叫做win32com达到操作com的目的，我是安装了ActivePython的第三方库，从官网下载了安装包，该第三方库几乎封装了所有python下面的win32相关的操作，例如win32api,win32gui等等，可以说是比较齐全的了，下载地址可以自行百度获取。主要是有个项目可能要用到ppt转换成视频的功能。之后在想使用com操作excel还有word，ppt的时
2023-10-30 孙土焱
山花不为秾艳晓山开，月尽迎阳妆束来。绿野情怀连海岱，劝君切莫醉楼台。--新韵，录之拙作《华翰雕龙》，书名输入百度即可找到。
识货的东西是正品吗为什么便宜？识货app上的衣服是正品吗？高省APP珊珊
识货的东西不一定都是正品，便宜的原因如下：【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省是公认的返利最高的软件。珊珊导师高省邀请码666123，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。商家从品牌方或者总代批量
加油优惠软件有哪些?好用的加油优惠软件一起高省
亲爱的车主朋友们，你们是否在寻找加油优惠的软件呢？让我来分享一些经验，帮助你们轻松找到这些省钱的宝藏软件。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省是公认的返利最高的软件。古楼导师高省邀请码555888，注册送2皇冠会员，送万
javafx_scenebuilder-2_0-windows.msi 百度云盘下载招风的黑耳后端 javafx
javafxscenebuilder官网下载很慢网上有很多人分享，都要付积分下载。下面是从官网下载好的，传我百度网盘了，有需要的大家去下载吧。链接：https://pan.baidu.com/s/1tUynlqfagoN6av8hRitTCQ提取码：9a2h无偿分享，大家愿意就点个关注呗，会有更多资源分享。
适合女性上下班干的副业,实际的副业兼职氧惠好项目
很多上班族都想搞副业赚钱，作为一名上班族每个月拿微薄的薪水，现在物价又较高，生活压力越来越大，买房子，看病，养孩子都需要钱，更不用说日常花销、人情往来，反正下班后也没事干，不如找点副业赚点钱。（全网优惠上氧惠）——是与以往完全不同的淘客app！2022全新模式，0投资，最快63天做到月入十万。我的直推也会放到你下面，我曾经1年做到百万团队，现在加入我也会帮你做到百万团队。【氧惠】百度有几百万篇报道
热度星客怎么样靠谱吗？类事热度星客佣金更高的平台！一起高省
其实热度星客就是一个抖音购物省钱平台，用户在抖音购物时，只需要把商品链接复制到热度星客平台，就可以获得额外优惠券或省掉佣金，类似于之前的淘宝购物省钱平台。那么我为何做高省app呢？当然是高省佣金高，模式更好，不怕对比高省登录邀请码171717，此码注册，总部扶持，提供百度推广平台，带你一年做到百万团队，做平台扶持政策更好才会有更好的发展！大家都知道购物省钱也叫返利平台，也叫抖客淘宝客等两种赚钱方式
H5漂流瓶交友源码_社交漂流瓶H5源码北漂的老猿好代码交友漂流瓶
简介：社交漂流瓶搭建教程环境：Nginx1.20.1-MySQL5.6.50-PHP-7.3上传源码至网站根目录，创建并导入数据库数据库信息修改：/config/database.php网站运行目录/public好代码免费下载：百度网盘
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR