贝壳er

DL知识拾贝（Pytorch）(五)：如何调整学习率

文章目录

1. Pytorch中的学习率调整API

1.1 等间隔调整学习率
1.2 按指定区间调整学习率
1.3 指数衰减调整学习率
1.4 余弦退火调整学习率
1.5 自适应调整学习率
1.6 自定义规则学习率

2. cyclical learning rate

2.1 原理及超参数解释
2.2 如何确定超参数的值
2.3 cyclical learning rate的三种调整方式
2.4 Pytorch实战案例

2.4.1 定义cyclical_learning_rate函数
2.4.2 CIFAR10数据集划分和预处理
2.4.3 定义深度卷积分类网络
2.4.4 超参数范围的确定
2.4.5 模型训练和测试结果

3. warm up

学习率对于深度学习是一个重要的超参数，它控制着基于损失梯度调整神经网络权值的速度，大多数优化算法（SGD、RMSprop、Adam）对其都有所涉及。学习率过下，收敛的太慢，网络学习的也太慢；学习率过大，最优化的“步伐”太大，往往会跨过最优值，从而达不到好的训练效果。

1. Pytorch中的学习率调整API

1.1 等间隔调整学习率

class torch.optim.lr_scheduler.StepLR(optimizer, step_size, gamma=0.1, last_epoch=-1)

等间隔调整学习率，调整倍数为 gamma 倍，调整间隔为 step_size。当last_epoch = -1时，将初始lr设置为lr。

参数：
optimizer (Optimizer) – 包装的优化器。
step_size (int) – 学习率衰减间隔，例如若为 30，则会在 30、 60、 90…个 epoch 时，将学习率调整为 lr * gamma。
gamma (float) – 学习率衰减的乘积因子。
last_epoch (int) – 最后一个epoch的指数。这个变量用来指示学习率是否需要调整。当last_epoch 符合设定的间隔时，就会对学习率进行调整。当为-1 时，学习率设置为初始值。

'''
例：lr = 0.05， step_size=30, gamma=0.1
lr = 0.05     if epoch < 30
lr = 0.005    if 30 <= epoch < 60
lr = 0.0005   if 60 <= epoch < 90
'''

import torch
import torch.optim as optim
from torch.optim import lr_scheduler
from torchvision.models import AlexNet
import matplotlib.pyplot as plt

model = AlexNet(num_classes=2)
optimizer = optim.SGD(params=model.parameters(), lr=0.05)

scheduler1 = lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1)
plt.figure()
x1 = list(range(100))
y1 = []
for epoch in range(100):
    scheduler1.step()
    y1.append(scheduler1.get_lr()[0])

plt.plot(x1, y1)

1.2 按指定区间调整学习率

class torch.optim.lr_scheduler.MultiStepLR(optimizer, milestones, gamma=0.1, last_epoch=-1)

参数：
optimizer (Optimizer) – 包装的优化器。
milestones (list) – 分隔区间，例如[a,b]（a gamma (float) – 学习率衰减的乘积因子。
last_epoch (int) – 最后一个epoch的指数。这个变量用来指示学习率是否需要调整。当last_epoch 符合设定的间隔时，就会对学习率进行调整。当为-1 时，学习率设置为初始值。

'''
例：lr = 0.05， milestones=[30,60,100], gamma=0.1
lr = 0.05     if epoch < 30
lr = 0.005    if 30 <= epoch < 60
lr = 0.0005   if 60 <= epoch < 100
lr = 0.00005  if epoch >= 100
'''

scheduler2 = lr_scheduler.MultiStepLR(optimizer, [30, 60,100], 0.1)
plt.figure()
x2 = list(range(150))
y2 = []
for epoch in range(150):
    scheduler2.step()
    y2.append(scheduler2.get_lr()[0])

plt.plot(x2, y2)

1.3 指数衰减调整学习率

class torch.optim.lr_scheduler.ExponentialLR(optimizer, gamma, last_epoch=-1)

根据epoch数和gamma调整学习率，每个epoch都在改变，调整公式：lr∗gamma^epoch。
参数：
optimizer (Optimizer) – 包装的优化器。
gamma (float) – 学习率衰减的乘积因子。
last_epoch (int) – 最后一个epoch的指数。这个变量用来指示学习率是否需要调整。当last_epoch 符合设定的间隔时，就会对学习率进行调整。当为-1 时，学习率设置为初始值。

scheduler3 = lr_scheduler.ExponentialLR(optimizer, gamma=0.9)
plt.figure()
x3 = list(range(100))
y3 = []
for epoch in range(100):
    scheduler3.step()
    y3.append(scheduler3.get_lr()[0])

plt.plot(x3, y3)

1.4 余弦退火调整学习率

以余弦函数为周期，并在每个周期最大值时重新设置学习率。以初始学习率为最大学习率，以 2∗Tmax 为周期，在一个周期内先下降，后上升。

torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max, eta_min=0, last_epoch=-1)

参数：
T_max(int) – 一次学习率周期的迭代次数，即 T_max 个 epoch 之后重新设置学习率。
eta_min(float) – 最小学习率，即在一个周期中，学习率最小会下降到 eta_min，默认值为 0。

scheduler4 = lr_scheduler.CosineAnnealingLR(optimizer, 10, eta_min=0, last_epoch=-1)
plt.figure()
x4 = list(range(100))
y4 = []
for epoch in range(100):
    scheduler4.step()
    y4.append(scheduler4.get_lr()[0])

plt.plot(x4, y4)

1.5 自适应调整学习率

当某指标不再变化（下降或升高），调整学习率，这是非常实用的学习率调整策略。
例如，当验证集的 loss 不再下降时，进行学习率调整；或者监测验证集的 accuracy，当accuracy 不再上升时，则调整学习率。

torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10,    
verbose=False, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08)

参数：
mode(str) – 模式选择，有 min 和 max 两种模式， min 表示当指标不再降低(如监测loss)， max 表示当指标不再升高(如监测 accuracy)。
factor(float) – 学习率调整倍数(等同于其它方法的 gamma)，即学习率更新为 lr = lr * factor。
patience(int) –忍受该指标多少个 step 不变化，当忍无可忍时，调整学习率。
verbose(bool) – 是否打印学习率信息， print(‘Epoch {:5d}: reducing learning rate of group {} to {:.4e}.’.format(epoch, i, new_lr))
threshold_mode(str) – 选择判断指标是否达最优的模式，有两种模式， rel 和 abs：
1.当 threshold_mode == rel，并且 mode == max 时， dynamic_threshold = best * ( 1 +threshold )；
2.当 threshold_mode == rel，并且 mode == min 时， dynamic_threshold = best * ( 1 -threshold )；
2.当 threshold_mode == abs，并且 mode== max 时， dynamic_threshold = best + threshold ；
4.当 threshold_mode == rel，并且 mode == max 时， dynamic_threshold = best - threshold；
threshold(float) – 配合 threshold_mode 使用。
cooldown(int) – “冷却时间“，当调整学习率之后，让学习率调整策略冷静一下，让模型再训练一段时间，再重启监测模式。
min_lr(float or list) – 学习率下限，可为 float，或者 list，当有多个参数组时，可用 list 进行设置。
eps(float) – 学习率衰减的最小值，当学习率变化小于 eps 时，则不调整学习率。

optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)
scheduler = ReduceLROnPlateau(optimizer, 'min')
for epoch in range(10):
    train(...)
    val_loss = validate(...)
     # Note that step should be called after validate()
    scheduler.step(val_loss)

1.6 自定义规则学习率

将每个参数组的学习速率设置为初始的lr乘以一个给定的函数。

class torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda, last_epoch=-1)

参数：
optimizer (Optimizer) – 包装的优化器。
lr_lambda (function or list) – 一个函数来计算一个乘法因子给定一个整数参数的epoch，或列表等功能，为每个组optimizer.param_groups。
last_epoch (int) – 最后一个epoch的指数。这个变量用来指示学习率是否需要调整。当last_epoch 符合设定的间隔时，就会对学习率进行调整。当为-1 时，学习率设置为初始值。

lambda1 = lambda epoch: epoch // 30
lambda2 = lambda epoch: 0.95 ** epoch
scheduler = LambdaLR(optimizer, lr_lambda=[lambda1, lambda2])   # lambda的结果作为乘法因子与学习率相乘
for epoch in range(100):
    scheduler.step()    # 在训练的时候进行迭代
    train(...)
    validate(...)

2. cyclical learning rate

2.1 原理及超参数解释

该方法来自于IEEE 2017 的一篇论文：论文地址，所谓的cyclical learning rate，就是采用周期变化的策略调整学习率，在上面说到的余弦退火策略实际上也是一种cyclical learning rate。

周期变化的策略能够使模型跳出在训练过程中遇到的局部最低点和鞍点。有理论表明，相比于局部最低点，鞍点更加阻碍收敛。如果鞍点正好发生在一个巧妙的平衡点，小的学习率通常不能产生足够大的梯度变化使其跳过该点（即使跳过，也需要花费很长时间）。这正是周期性高学习率的作用所在，它能够更快地跳过鞍点。同时，假设最佳的LR一定会落在预设的max和min之间，那么周期性的调整相当于不断地迭代寻找出最优解。

来看论文中对cyclical learning rate的定义：

假设训练样本数为N，那么一个epoch的iteration就是（iteration = N / batch_size）。一个cycle定义为学习率从低到高，然后从高到低走一轮所用的iteration数。而stepsize指的是cycle迭代步数的一半。图中的上下两条红线分别代表LR周期变化的最大值(max_lr)和最小值(base_lr)。

2.2 如何确定超参数的值

cyclical learning rate主要的超参数为stepsize， max_lr 和base_lr。原论文中给出三个超参的确定方式。其中实验证明将stepsize设成一个epoch包含的iteration数量的2-10倍能取得理想效果。而对于max_lr 和base_lr则需要做一个pre_Experiments:

在pre_Experiments开始训练模型的同时，从低到高地增加学习率，将损失和学习率画在一张图中：

在上图中，可以看出，开始的时候，准确率随着学习率的增加而增加，然后进入平缓起期，然后又开始减小，出现震荡。准确率开始迅速增加的临界点和开始下降或者发生波动的临界点的附近，便可以取base_lr和max_lr的值，在上图中可以取：base_lr = 0.001 ; max_lr = 0.006。

2.3 cyclical learning rate的三种调整方式

cyclical learning rate的计算方法分为Triangular以及它的两个变种：Triangular2和Exp_range。

Triangular LR计算方法如下，其中：

opt.LR是指定的最小学习率,等于上面图中的base_lr
epochCounter是当前epochs数
lr是当前用于迭代的学习率
stepsize是周期长度(cycle length)二分之一
max_lr是最大学习率，等于图中的max_lr

Triangular2 LR与Triangular LR策略相同，只是在每个周期结束时将学习率差减半。这意味着学习率的差异在每个周期后都会下降，如下：
Exp_range LR学习率变化速度在最小和最大边界之间变化，并且每个边界值都会随着伽玛迭代的指数因子而下降：

2.4 Pytorch实战案例

我们用 $pytorch^{[2]}$ 来实现这个方法并应用在CIFAR10的深度学习任务中：

2.4.1 定义cyclical_learning_rate函数


import numpy as np
import matplotlib.pyplot as plt

##定义cyclical_learning_rate，这里为了方便将triangular2和exp_range放在一起来定义
def cyclical_learning_rate(batch_step,
                           step_size,
                           base_lr=0.001,
                           max_lr=0.006,
                           mode='triangular',
                           gamma=0.999995):

    cycle = np.floor(1 + batch_step / (2. * step_size))
    x = np.abs(batch_step / float(step_size) - 2 * cycle + 1)

    lr_delta = (max_lr - base_lr) * np.maximum(0, (1 - x))  #triangular LR
    
    if mode == 'triangular':
        pass
    elif mode == 'triangular2':
        lr_delta = lr_delta * 1 / (2. ** (cycle - 1))    #triangular2 LR
    elif mode == 'exp_range':
        lr_delta = lr_delta * (gamma**(batch_step))      #exp_range LR
    else:
        raise ValueError('mode must be "triangular", "triangular2", or "exp_range"')
        
    lr = base_lr + lr_delta
    
    return lr


##定义超参数
num_epochs = 50     #定义epochs数
num_train = 50000    #定义训练样本
batch_size = 100     #定义batch_size
iter_per_ep = num_train // batch_size   #计算iteration

##triangular可视化
batch_step = -1
collect_lr = []
for e in range(num_epochs):
    for i in range(iter_per_ep):
        batch_step += 1
        cur_lr = cyclical_learning_rate(batch_step=batch_step,
                                        step_size=iter_per_ep*5)
        
        collect_lr.append(cur_lr)
        
plt.scatter(range(len(collect_lr)), collect_lr)
plt.ylim([0.0, 0.01])
plt.xlim([0, num_epochs*iter_per_ep + 5000])
plt.show()

triangular LR 可视化如下：

2.4.2 CIFAR10数据集划分和预处理

下面在CIFAR10上搭建深度学习任务：

import time
import torch
import torch.nn.functional as F
from torchvision import datasets
from torchvision import transforms
from torch.utils.data.sampler import SubsetRandomSampler
from torch.utils.data import DataLoader


if torch.cuda.is_available():
    torch.backends.cudnn.deterministic = True

 Device
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

# 定义超参数
random_seed = 1
batch_size = 128
num_classes = 10   #10为类别数

## 划分训练集和验证集
np.random.seed(random_seed)
idx = np.arange(50000) # the size of CIFAR10-train
np.random.shuffle(idx)
val_idx, train_idx = idx[:1000], idx[1000:]
train_sampler = SubsetRandomSampler(train_idx)
val_sampler = SubsetRandomSampler(val_idx)


train_dataset = datasets.CIFAR10(root='data', 
                                 train=True, 
                                 transform=transforms.ToTensor(),
                                 download=True)

test_dataset = datasets.CIFAR10(root='data', 
                                train=False, 
                                transform=transforms.ToTensor())

##Pytorch DataLoader容器载入数据
train_loader = DataLoader(dataset=train_dataset, 
                          batch_size=batch_size, 
                          # shuffle=True, # Subsetsampler already shuffles
                          sampler=train_sampler)

val_loader = DataLoader(dataset=train_dataset, 
                        batch_size=batch_size, 
                        # shuffle=True,
                        sampler=val_sampler)

test_loader = DataLoader(dataset=test_dataset, 
                         batch_size=batch_size, 
                         shuffle=False)

# Checking the dataset
for images, labels in train_loader:  
    print('Image batch dimensions:', images.shape)
    print('Image label dimensions:', labels.shape)
    break
    
cnt = 0
for images, labels in train_loader: 
    cnt += images.shape[0]
print('Number of training examples:', cnt)

cnt = 0
for images, labels in val_loader: 
    cnt += images.shape[0]
print('Number of validation instances:', cnt)

cnt = 0
for images, labels in test_loader: 
    cnt += images.shape[0]
print('Number of test instances:', cnt)

输出：

Files already downloaded and verified
Image batch dimensions: torch.Size([128, 3, 32, 32])
Image label dimensions: torch.Size([128])
Number of training examples: 49000
Number of validation instances: 1000
Number of test instances: 10000

每一个batch的样本为128个，图像大小为33232，划分的训练集样本为49000，验证集样本为1000，测试集样本为10000。

2.4.3 定义深度卷积分类网络

下面定义网络结构和前向传播过程：

class ConvNet(torch.nn.Module):

    def __init__(self, num_classes):
        super(ConvNet, self).__init__()
        
        # calculate same padding:
        # (w - k + 2*p)/s + 1 = o
        # => p = (s(o-1) - w + k)/2
        
        # 32x32x3 => 32x32x6
        self.conv_1 = torch.nn.Conv2d(in_channels=3,
                                      out_channels=6,
                                      kernel_size=(3, 3),
                                      stride=(1, 1),
                                      padding=1) # (1(32-1) - 32 + 3) / 2) = 1
        # 32x32x4 => 16x16x6
        self.pool_1 = torch.nn.MaxPool2d(kernel_size=(2, 2),
                                         stride=(2, 2),
                                         padding=0) # (2(16-1) - 32 + 2) = 0                                       
        
        
        # 16x16x6 => 16x16x12
        self.conv_2 = torch.nn.Conv2d(in_channels=6,
                                      out_channels=12,
                                      kernel_size=(3, 3),
                                      stride=(1, 1),
                                      padding=1) # (1(16-1) - 16 + 3) / 2 = 1                 
        # 16x16x12 => 8x8x12                             
        self.pool_2 = torch.nn.MaxPool2d(kernel_size=(2, 2),
                                         stride=(2, 2),
                                         padding=0) # (2(8-1) - 16 + 2) = 0
        
        
        # 8x8x12 => 8x8x18
        self.conv_3 = torch.nn.Conv2d(in_channels=12,
                                      out_channels=18,
                                      kernel_size=(3, 3),
                                      stride=(1, 1),
                                      padding=1) # (1(8-1) - 8 + 3) / 2 = 1                 
        # 8x8x18 => 4x4x18                             
        self.pool_3 = torch.nn.MaxPool2d(kernel_size=(2, 2),
                                         stride=(2, 2),
                                         padding=0) # (2(4-1) - 8 + 2) = 0
        
        
        # 4x4x18 => 4x4x24
        self.conv_4 = torch.nn.Conv2d(in_channels=18,
                                      out_channels=24,
                                      kernel_size=(3, 3),
                                      stride=(1, 1),
                                      padding=1)                 
        # 4x4x24 => 2x2x24                             
        self.pool_4 = torch.nn.MaxPool2d(kernel_size=(2, 2),
                                         stride=(2, 2),
                                         padding=0)
        
        
        # 2x2x24 => 2x2x30
        self.conv_5 = torch.nn.Conv2d(in_channels=24,
                                      out_channels=30,
                                      kernel_size=(3, 3),
                                      stride=(1, 1),
                                      padding=1)                 
        # 2x2x30 => 1x1x30                             
        self.pool_5 = torch.nn.MaxPool2d(kernel_size=(2, 2),
                                         stride=(2, 2),
                                         padding=0)
        
        self.linear_1 = torch.nn.Linear(1*1*30, num_classes)

        
    def forward(self, x):
        out = self.conv_1(x)
        out = F.relu(out)
        out = self.pool_1(out)

        out = self.conv_2(out)
        out = F.relu(out)
        out = self.pool_2(out)
        
        out = self.conv_3(out)
        out = F.relu(out)
        out = self.pool_3(out)
        
        out = self.conv_4(out)
        out = F.relu(out)
        out = self.pool_4(out)
        
        out = self.conv_5(out)
        out = F.relu(out)
        out = self.pool_5(out)
        
        logits = self.linear_1(out.view(-1, 1*1*30))
        probas = F.softmax(logits, dim=1)
        return logits, probas

该网络结构比较简单，输入数据经过五层卷积层之后，由全连接层接softmax输出结果，这里并非为CIFAR10数据集分类的最佳网络设计，只是为了演示三种CLR学习率调整方法在相同网络下的不同表现。

2.4.4 超参数范围的确定

根据2.2节的描述确定超参数，我们将训练进行5-10个时期，并将学习率线性提高到一个上限。选择（训练或验证）准确性开始提高的临界值作为base_lr。选择精度提高停止，降低或大幅波动的临界值作为max_lr。

def compute_accuracy(model, data_loader):     ##定义计算accuracy函数
    correct_pred, num_examples = 0, 0
    for features, targets in data_loader:
        features = features.to(device)
        targets = targets.to(device)
        logits, probas = model(features)
        _, predicted_labels = torch.max(probas, 1)
        num_examples += targets.size(0)
        correct_pred += (predicted_labels == targets).sum()
    return correct_pred.float()/num_examples * 100


################################
### Setting for this run
#################################

num_epochs = 10    
iter_per_ep = len(train_loader)
base_lr = 0.01    #粗略的定base_lr
max_lr = 0.2      ##粗略的定max_lr

#################################
### Init Model
#################################

torch.manual_seed(random_seed)
model = ConvNet(num_classes=num_classes)
model = model.to(device)

##########################
### COST AND OPTIMIZER
##########################

cost_fn = torch.nn.CrossEntropyLoss()  
optimizer = torch.optim.SGD(model.parameters(), lr=base_lr)  

########################################################################
# Collect the data to be evaluated via the LR Range Test
collect = {'lr': [], 'cost': [], 'train_batch_acc': [], 'val_acc': []}
########################################################################


batch_step = -1
cur_lr = base_lr

start_time = time.time()
for epoch in range(num_epochs):
    for batch_idx, (features, targets) in enumerate(train_loader):
        
        batch_step += 1
        features = features.to(device)
        targets = targets.to(device)

        ### FORWARD AND BACK PROP
        logits, probas = model(features)
        cost = cost_fn(logits, targets)
        optimizer.zero_grad()

        cost.backward()

        ### UPDATE MODEL PARAMETERS
        optimizer.step()
        
        #############################################
        # Logging
        if not batch_step % 200:
            print('Total batch # %5d/%d' % (batch_step, 
                                            iter_per_ep*num_epochs), 
                  end='')
            print('   Curr. Batch Cost: %.5f' % cost)     

        #############################################
        # Collect stats    
        model = model.eval()
        train_acc = compute_accuracy(model, [[features, targets]])
        val_acc = compute_accuracy(model, val_loader)
        collect['lr'].append(cur_lr)
        collect['train_batch_acc'].append(train_acc)
        collect['val_acc'].append(val_acc)
        collect['cost'].append(cost)
        model = model.train()
        #############################################
        # update learning rate
        cur_lr = cyclical_learning_rate(batch_step=batch_step,
                                        step_size=num_epochs*iter_per_ep,
                                        base_lr=base_lr,
                                        max_lr=max_lr)
        for g in optimizer.param_groups:
            g['lr'] = cur_lr
        ############################################

    print('Time elapsed: %.2f min' % ((time.time() - start_time)/60))
    
print('Total Training Time: %.2f min' % ((time.time() - start_time)/60))


##可视化：Learning Rate---Accuracy
plt.plot(collect['lr'], collect['train_batch_acc'], label='train_batch_acc')
plt.plot(collect['lr'], collect['val_acc'], label='val_acc')
plt.xlabel('Learning Rate')
plt.ylabel('Accuracy')
plt.legend()
plt.show()

通过可视化的结果可以看出base_lr大概在0.08-0.09之间，max_lr大概在0.175或是在0.2之间。

2.4.5 模型训练和测试结果

下面将参数确定结果应用到模型中，其中，base_lr = 0.09； max_lr = 0.175：

################################
### Setting for this run
#################################

num_epochs = 150
iter_per_ep = len(train_loader.sampler.indices) // train_loader.batch_size
base_lr = 0.09   
max_lr = 0.175

#################################
### Init Model
#################################

torch.manual_seed(random_seed)
model = ConvNet(num_classes=num_classes)
model = model.to(device)

##########################
### COST AND OPTIMIZER
##########################

cost_fn = torch.nn.CrossEntropyLoss()  
optimizer = torch.optim.SGD(model.parameters(), lr=base_lr)  

########################################################################
collect = {'epoch': [], 'cost': [], 'train_acc': [], 'val_acc': []}
########################################################################

start_time = time.time()
for epoch in range(num_epochs):
    epoch_avg_cost = 0.
    model = model.train()
    for batch_idx, (features, targets) in enumerate(train_loader):
        
        features = features.to(device)
        targets = targets.to(device)

        ### FORWARD AND BACK PROP
        logits, probas = model(features)
        cost = cost_fn(logits, targets)
        optimizer.zero_grad()

        cost.backward()

        ### UPDATE MODEL PARAMETERS
        optimizer.step()

        epoch_avg_cost += cost
        
        #############################################
        # Logging
        if not batch_step % 600:
            print('Batch %5d/%d' % (batch_step, iter_per_ep*num_epochs),
                                    end='')
            print('   Cost: %.5f' % cost)     


    #############################################
    # Collect stats    
    model = model.eval()
    train_acc = compute_accuracy(model, train_loader)
    val_acc = compute_accuracy(model, val_loader)
    epoch_avg_cost /= batch_idx+1
    collect['epoch'].append(epoch+1)
    collect['val_acc'].append(val_acc)
    collect['train_acc'].append(train_acc)
    collect['cost'].append(epoch_avg_cost / iter_per_ep)
    
    ################################################
    # Logging
    print('Epoch %3d' % (epoch+1), end='')
    print('  |  Train/Valid Acc: %.2f/%.2f' % (train_acc, val_acc))
    
    
    #############################################
    # cyclical_learning_rate
    base_lr = cyclical_learning_rate(batch_step=batch_step,
                                     step_size=num_epochs*iter_per_ep,
                                     base_lr=base_lr,
                                     max_lr=max_lr)
    for g in optimizer.param_groups:
        g['lr'] = base_lr
    ############################################
    

    print('Time elapsed: %.2f min' % ((time.time() - start_time)/60))
    
print('Total Training Time: %.2f min' % ((time.time() - start_time)/60))


##训练结果可视化

plt.plot(collect['epoch'], collect['train_acc'], label='train_acc')
plt.plot(collect['epoch'], collect['val_acc'], label='val_acc')
plt.xlabel('Epoch')
plt.ylabel('Accuracy')
plt.legend()
plt.show()


plt.plot(collect['epoch'], collect['cost'])
plt.xlabel('Epoch')
plt.ylabel('Avg. Cost Per Epoch')
plt.show()

查看测试集结果：

print('Test accuracy: %.2f%%' % (compute_accuracy(model, test_loader)))

'''
Test accuracy: 61.69%
'''

3. warm up

warm up 已经被很多任务当作是训练时候的tricks使用，例如这篇CVPR 2019 的文章：论文链接

为什么会用warm up 呢？由于刚开始训练时,模型的权重(weights)是随机初始化的，此时若选择一个较大的学习率,可能带来模型的不稳定(振荡)，选择Warmup预热学习率的方式，可以使得开始训练的几个epoches或者一些steps内学习率较小,在预热的小学习率下，模型可以慢慢趋于稳定,等模型相对稳定后再选择预先设置的学习率进行训练,使得模型收敛速度变得更快，模型效果更佳。

按作者所说：Warmup学习率并不是一个新颖的东西，在很多task上面都被证明是有效的，在之前的工作中也有过验证。j假设初始学习率为3.5e-4，总共训,120个epoch，在第40和70个epoch进行学习率下降。用一个很大的学习率初始化网路可能使得网络震荡到一个次优空间，因为网络初期的梯度是很大的。Warmup的策略就是初期用一个逐渐递增的学习率去初始化网络，渐渐初始化到一个更优的搜索空间。下图是论文中用最简单的线性策略，即前10个epoch学习从0逐渐增加到初始学习率。

参考：
[1] https://www.jianshu.com/p/e014539d2962
[2] https://github.com/rasbt/deeplearning-models/blob/master/pytorch_ipynb/
[3] https://zhuanlan.zhihu.com/p/61831669

你可能感兴趣的:(机器学习和深度学习)

数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
消融实验（Ablation Study） xwhking 深度学习机器学习深度学习消融实验
消融实验（AblationStudy）定义：消融实验是一种科学研究方法，通过逐步移除模型、算法或系统中的某个组件（如模块、层、特征、数据等），观察其对整体性能的影响，从而验证该组件的必要性和有效性。其名称来源于医学领域的“消融术”（切除部分组织以研究功能），在计算机视觉、机器学习和深度学习中被广泛用于分析模型设计。为什么要做消融实验？1.验证组件的有效性核心目的：确认模型中某个设计（如注意力机制、
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
AI驱动的代码重构与优化技术 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
AI驱动的代码重构与优化技术概述什么是AI驱动的代码重构与优化？AI驱动的代码重构与优化技术，是指利用人工智能，特别是机器学习和深度学习的算法，对软件代码进行自动分析和改进的技术。这种技术能够通过学习大量的代码样本，识别出代码中的模式、问题和改进点，从而自动完成代码的重构和优化。重构的定义重构（Refactoring）是改进代码内部结构而不改变外部行为的过程。其目的通常是为了提高代码的可读性、可维
大模型生成人物关系思维导图的实战教程 herosunly 大模型生成人物关系生成思维导图实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了大模型生成人物关系思维导图的实战教程，希望对使用大语言模型的同学们有所帮
【漫话机器学习系列】137.随机搜索（Randomized Search） IT古董漫话机器学习系列专辑机器学习人工智能
随机搜索（RandomizedSearch）详解在机器学习和深度学习的模型训练过程中，超参数调优（HyperparameterTuning）是至关重要的一环。随机搜索（RandomizedSearch）是一种高效的超参数优化方法，它通过在候选超参数的数值分布（如正态分布、均匀分布等）中随机选择超参数组合，从而找到最优的超参数配置。1.超参数调优的必要性超参数是模型在训练之前需要人为设定的参数，例如
PyTorch 和 Python关系一只积极向上的小咸鱼 python pytorch 人工智能
1PyTorch和Python关系PyTorch和Python是两个不同但相互关联的工具，主要用于机器学习和深度学习领域。以下是它们之间的关系和各自的作用：Python编程语言:Python是一种高级编程语言，以其简洁易读的语法而闻名。广泛使用:Python在数据科学、人工智能、Web开发、自动化等多个领域有着广泛的应用。库和生态系统丰富:Python拥有丰富的第三方库和工具，如NumPy、pan
基于大模型的Text2SQL微调的实战教程(二) herosunly AIGC Text2SQL 微调实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了基于大模型的Text2SQL微调的实战教程(二)，希望对学习大语言模型的
考研复习之记忆方法 herosunly 考名校研究生经验分享考研
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
AI Agent: AI的下一个风口从图形用户界面到自然语言的进化 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIAgent:AI的下一个风口从图形用户界面到自然语言的进化文章目录AIAgent:AI的下一个风口从图形用户界面到自然语言的进化1.背景介绍1.1人机交互的演变历程1.1.1命令行界面时代1.1.2图形用户界面时代1.1.3自然语言交互的兴起1.2AI技术的发展现状1.2.1机器学习和深度学习的突破1.2.2自然语言处理技术的进步1.2.3知识图谱和语义理解的发展1.3AIAgent的概念与意
【AI-42】如何调整参数和超参 W Y 人工智能
在机器学习和深度学习中，参数和超参数是两个重要概念，以下是一些常见的参数和超参数及其作用：参数权重（Weight）解释：可以将权重想象成连接不同神经元之间的“桥梁”，其大小决定了一个神经元的输出对下一个神经元的影响程度。权重越大，说明前一个神经元对后一个神经元的影响就越大；权重越小，影响就越小。作用：在模型训练过程中，权重不断调整，使得模型能够学习到输入数据中的各种特征和模式，从而实现对数据的准确
深度学习篇---Opencv中的机器学习和深度学习 Ronin-Lotus 深度学习篇图像处理篇深度学习 opencv 机器学习 python
文章目录前言一、OpenCV中的机器学习1.概述2.使用步骤步骤1：准备数据步骤2：创建模型步骤3：训练模型步骤4：预测3.优点简单易用轻量级实时性4.缺点特征依赖性能有限二、OpenCV中的深度学习1.概述图像分类（如ResNet、MobileNet）目标检测（如YOLO、SSD）语义分割（如DeepLab）人脸检测（如OpenFace）2.使用步骤步骤1：加载模型步骤2：准备输入数据步骤3：推
介绍常见的图片分类模型与算法萧鼎 python基础到进阶教程算法分类数据挖掘
介绍常见的图片分类模型与算法在机器学习和深度学习的领域中，图片分类任务是一个广泛的应用场景。随着深度学习技术的飞速发展，很多强大的图像分类算法和模型已经被提出，广泛应用于从医疗影像到自动驾驶、从人脸识别到图像检索等多个领域。本文将重点介绍多种用于图像分类的经典算法与模型，帮助你了解在图像分类任务中常用的技术。1.传统机器学习模型在深度学习崭露头角之前，传统的机器学习模型是图像分类的主流方法。这些模
大模型推理速度测评的实战代码 herosunly 大模型推理速度人工智能实战代码
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。今天给大家带来的文章是大模型推理速度测评的实战代码，希望能对学习大模型的同学们有所帮助
AI人工智能代理工作流AI Agent WorkFlow：搭建可拓展的AI代理工作流架构 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI人工智能代理工作流AIAgentWorkFlow：搭建可拓展的AI代理工作流架构1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，特别是机器学习和深度学习技术的广泛应用，构建高度智能且自动化的代理系统成为了一个迫切的需求。这些代理系统能够自主地进行决策、执行任务并适应不断变化的环境。然而，现有的代理系统往往在面对复杂任务时缺乏灵活性和可扩展性，这限制了它们在实际应用中的广泛部署和大规模应
LLaMA Factory添加新模型template的实战解析 herosunly 大模型 llama factory 新模型 template 实战解析
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
Matlab 大量接单 matlabgoodboy matlab 开发语言
分享一个matlab接私活、兼职的平台1、技术方向满足任一即可2、技术要求3、最后技术方向满足即可MATLAB：熟练掌握MATLAB编程语言，能够使用MATLAB进行数据处理、机器学习和深度学习等相关工作。机器学习、深度学习、强化学习、仿真、复现、算法、神经网络、建模、图像识别、数据挖掘、数据获取、爬虫、数据分析、目标检测、算法创新、因子分析、相关分析、方差分析、判别分析、方程分析、线性回归、中介
考研导师选择方法 herosunly 考名校研究生经验分享考研选择导师考研导师选择方法
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
阿里云服务器的作用腾云服务器阿里云服务器云计算
使用阿里云服务器能做什么？大家都知道可以用来搭建网站、数据库、机器学习、Python爬虫、大数据分析等应用，阿里云服务器网来详细说下使用阿里云服务器常见的玩法以及企业或个人用户常见的使用场景：玩转阿里云服务器使用阿里云服务器最常见的应用就是用来搭建网站，例如个人博客、企业网站等；除了搭建网站还可以利用阿里云GPU服务器搭建机器学习和深度学习等AI应用；使用阿里云大数据类型云服务器做数据分析；利用云
AI探索笔记：浅谈人工智能算法分类安意诚Matrix 机器学习笔记人工智能笔记
人工智能算法分类这是一张经典的图片，基本概况了人工智能算法的现状。这张图片通过三个同心圆展示了人工智能、机器学习和深度学习之间的包含关系，其中人工智能是最广泛的范畴，机器学习是其子集，专注于数据驱动的算法改进，而深度学习则是机器学习中利用多层神经网络进行学习的特定方法。但是随着时代的发展，这张图片表达得也不是太全面了。我更喜欢把人工智能算法做如下的分类：传统机器学习算法-线性回归、逻辑回归、支持向
正则化技术和模型融合等方法提高模型的泛化能力小赖同学啊人工智能人工智能
在机器学习和深度学习中，提高模型的泛化能力至关重要，正则化技术和模型融合是两种有效的手段，以下将详细介绍它们的原理、常见方法及代码示例。正则化技术原理正则化是通过在损失函数中添加一个正则化项，来限制模型的复杂度，防止模型过拟合训练数据，从而提高模型在未见过数据上的泛化能力。正则化项通常与模型的参数相关，通过惩罚过大的参数值，使模型更加平滑和简单。常见方法L1正则化（Lasso正则化）原理：在损失函
数据挖掘中特征发现与特征提取的数学原理调皮的芋头数据挖掘人工智能 AIGC 计算机视觉
好的，我将深入研究数据挖掘中特征发现与特征提取的数学原理，涵盖统计学基础、特征工程的数学方法、以及在机器学习和深度学习中的应用。我会整理相关数学公式和理论，包括主成分分析（PCA）、独立成分分析（ICA）、线性判别分析（LDA）、信息增益、互信息、方差分析等统计方法，并结合金融量化交易的实际应用，确保内容既有理论深度，又能落地实践。完成后，我会通知您！1.统计学基础：描述性统计、方差分析、相关性与
PyTorch知识点总结之一 Rain松机器学习与深度学习 pytorch 深度学习 python
PyTorch知识点总结之一1.什么是PyTorch？它有什么特点和优势？PyTorch是一个基于Python的科学计算库，它是用于机器学习和深度学习的框架之一。它由Facebook的人工智能研究团队开发和维护，是一个开源的软件包，可以帮助开发者构建各种深度学习模型。PyTorch的特点和优势如下：易于使用和学习：PyTorch采用了类似于Python的语法，使得它容易上手和学习。它还提供了丰富的
AI环境初识网络飞鸥 AI 人工智能
在搭建AI环境时，当前流行的技术涉及多个方面，包括开发框架、深度学习库、硬件支持以及具体的应用技术等。以下是一些主要的技术趋势和流行技术：一、开发框架与深度学习库TensorFlow：由谷歌开发的一个开源机器学习库，广泛用于研究和生产环境。它提供了强大的张量计算能力和灵活的架构，支持广泛的机器学习和深度学习算法。PyTorch：由Facebook推出，也是一个广受欢迎的开源机器学习库。PyTorc
机器学习和深度学习有什么区别？ facaixxx2024 AI大模型机器学习深度学习人工智能
深度学习和机器学习有什么区别？深度学习是机器学习一个分支，机器学习包含深度学习。下面阿小云从定义、技术、数据需求、应用领域、模型复杂度和计算资源多维度来对比深度学习和机器学习的区别：二者的定义区别机器学习：是一种数据分析技术，通过算法使计算机能够在无明确编程的情况下进行学习和决策。深度学习：是机器学习的一个子领域，使用神经网络模型，尤其是深层神经网络模型，来处理、解释和分类数据。依赖算法和技术不同
DeepSeek原理介绍以及对网络安全行业的影响 AI拉呱 Deepseek 人工智能
大家好，我是AI拉呱，一个专注于人工智领域与网络安全方面的博主，现任资深算法研究员一职，兼职硕士研究生导师；热爱机器学习和深度学习算法应用，深耕大语言模型微调、量化、私域部署。曾获多次获得AI竞赛大奖，拥有多项发明专利和学术论文。对于AI算法有自己独特见解和经验。曾辅导十几位非计算机学生转行到算法岗位就业。关注评审分享一起学习更多知识。1.DeepSeek公司介绍1.1DeepSeek是什么：wh
PyTorch与TensorFlow的对比：哪个框架更适合你的项目？木觞清 pytorch tensorflow 人工智能
在机器学习和深度学习领域，PyTorch和TensorFlow是最流行的两个框架。它们各有特点，适用于不同的开发需求和场景。本文将详细对比这两个框架，帮助你根据项目需求选择最合适的工具。一、概述PyTorch和TensorFlow都是深度学习框架，它们为构建、训练和部署神经网络提供了强大的工具。尽管它们的最终目标相同，但其设计哲学和实现方式有所不同。PyTorch：由Facebook的人工智能研究
随机梯度下降一定会收敛么？ AndrewHZ 人工智能深度学习算法
1.什么是随机梯度下降？随机梯度下降（StochasticGradientDescent，SGD）是一种用于最小化目标函数的迭代优化算法，在机器学习和深度学习领域应用广泛。2.随机梯度下降算法的基本原理1.基于梯度的优化基础该算法是基于梯度的优化算法，用于寻找函数的最优解，通常是最小化损失函数。在机器学习和深度学习中，模型通过调整参数来最小化损失函数，以达到最佳的预测性能。2.迭代更新参数从初始的
DeepSeek R1蒸馏版模型部署的实战教程 herosunly DeepSeek从入门到精通 deepseek 大模型人工智能实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
使用多模态大语言模型进行深度学习的图像、文本和语音数据增强数行天下人工智能语言模型深度学习人工智能自然语言处理
在过去的五年里，研究方向已从传统的机器学习（ML）和深度学习（DL）方法转向利用大语言模型（LLMs），包括多模态方法，用于数据增强，以提高泛化能力，并在训练深度卷积神经网络时防止过拟合。然而，现有的综述文章主要集中于机器学习和深度学习技术或有限的模态（如文本或图像），在涵盖LLM方法的最新进展和多模态应用方面仍存在空白。本文通过探索利用多模态LLMs进行图像、文本和语音数据增强的最新文献，填补了
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http