云端FFF

机器学习基础（6）—— 使用权重衰减和丢弃法缓解过拟合问题

参考：动手学深度学习
注：本文是 jupyter notebook 文档转换而来，部分代码可能无法直接复制运行！
关于过拟合问题的详细说明请见：机器学习基础（3）—— 泛化能力、过拟合与欠拟合

文章目录

1. 权重衰减
- 1.1 原理
- 1.2 实验
- - 1.2.1 手动实现
  - 1.2.2 利用 Pytorch 简洁实现
2. 丢弃法
- 2.1 原理
- 2.2 实验
- - 2.2.1 手动实现
  - 2.2.2 利用 Pytorch 简洁实现

1. 权重衰减

1.1 原理

权重衰减等价于L2正则化。正则化是一种基于“策略”的模型选择方法，是结构风险最小化策略 SRM 的实现，通过在经验风险最小化上增加一个正则化项regularizer/罚项penalty item，使得优化后得到的模型的经验风险和复杂度同时小，避免过拟合
稍微多讲一点原理
- 我们知道，模型复杂度相对样本复杂度过高时就会出现过拟合，一个没有任何约束的全连接 MLP 网络是复杂度最高的，需要最多数据训练，很容易因数据复制度相对低导致过拟合（从另一方面讲，这样的网络容量最大，表示能力最强，数据充分多时性能上限也是最高的）
- 降低网络尺寸是减小网络容量最简单的做法，但这种 naive 的方式效果不怎么好
- L2 正则化、权重衰减和 dropout 本质上都是稍微高级一点的减少网络复杂度的方式，它们基本都是给网络加上了一个 “让网络参数的平方范数小一点” 的约束，以免参数中出现极大值主导网络输出。除了这些以外还有一些其他的正则化方法，总之只要是通用的减少模型复杂度的方法，一般都称为正则化 regularization，到处都可以用
- 对网络结构的修改也可以看作对 MLP 增加约束来减少网络复杂度（网络容量），从这个角度看，CNN, Transformer 这些复杂的网络结构都可以看作 MLP 以特定方式减少容量后的结果，而这个约束方式（网络结构）是基于被处理的数据特点而专门设计的。换句话说，虽然这时模型容量降低了，但是提取这些特定数据特征的能力并没有下降太多，这样就能用更少的数据学到更好的结果。这种针对被处理数据特性而进行的，通过修改网络结构，有针对性地减少模型复杂度的 “正则化” 方法，称为 模型的归纳偏置 model bias
- 很多论文中，作者会在损失函数中提出自己的正则化项，本质上基本都可以理解为：作者注意到了问题或数据的一些潜在特点，于是通过向损失中增加正则化项，来针对性地、隐式地约束网络优化方向，从而限制网络结构，减少网络容量，增强模型的归纳偏置
L2正则化对模型原始损失添加了一个 $L_2$ 范数惩罚项。对于一个普通的线性回归问题，原始损失为
$\mathcal{l}(w_1,w_2,b) = \frac{1}{n}\sum_{i=1}^n\frac{1}{2}(x_1^{(i)}w_1+x_2^{(i)}w_2+b-y^{(i)})^2$

将参数表示为权重向量 $\pmb{w}=[w_1,w_2]$ ，增加 $L_2$ 范数惩罚项，得到新的损失函数为
$\mathcal{l}(w_1,w_2,b) + \frac{\lambda}{2n}||\pmb{w}||^2$
其中 $\lambda>0$ 用来控制惩罚项的作用程度，用来控制经验风险和模型复杂度之间的权衡。这种情况下随机梯度下降的迭代公式变成
$\begin{aligned} w_i \leftarrow & w_i -\frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} x_i^{(i)}\left(x_1^{(i)} w_1+x_2^{(i)} w_2+b-y^{(i)}\right)- \frac{\eta \lambda}{|\mathcal{B}|} w_i\\ = &\left(1-\frac{\eta \lambda}{|\mathcal{B}|}\right) w_i-\frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} x_i^{(i)}\left(x_1^{(i)} w_1+x_2^{(i)} w_2+b-y^{(i)}\right) \end{aligned}$

可见， $L_2$ 正则化中权重 $w_i$ 先乘以小于 1 的数，再减去原版不含惩罚项损失的梯度，因此 $L_2$ 范数又称为权重衰减。权重衰减通过惩罚绝对值较大的模型参数为需要学习的模型增加了限制，这可能对过拟合有效
实际场景中，我们有时也将惩罚项设置为偏差元素的平方和（即把上面惩罚项中的 $|\mathcal{B}|$ 去掉），迭代公式为
$w_i = \left(1-\eta \lambda\right) w_i-\frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} x_i^{(i)}\left(x_1^{(i)} w_1+x_2^{(i)} w_2+b-y^{(i)}\right)$

1.2 实验

首先设计一个高维线性回归问题来造成过拟合，再观察使用权重衰减后对过拟合问题的缓解效果。如下生成训练样本
$0.05+\sum_{i=1}^p 0.01x_i+\epsilon$ 其中 $\epsilon\sim N(0,0.01)$ 是高斯采样误差，前面部分是回归的目标函数， $p$ 是样特征数（问题维度）。为了造成过拟合，我们通过如下两步使模型复杂度相对样本复杂度过高

使用维度和问题维度相同的模型，将问题维度调高使模型复杂，使 $p = 200$
样本复杂度尽量低，减少训练样本数量，使 $n = 20$

%matplotlib inline
import numpy as np
import math
import scipy.stats as st
import matplotlib.pylab as plt
import numpy as np
from scipy import stats
import torch
import random
from IPython import display
import matplotlib

# 真实参数
n_train, n_test, num_inputs = 20, 100, 200
true_w, true_b = torch.ones(num_inputs, 1)*0.01, 0.05

# 构造样本集（训练集和测试集）
features = torch.randn((n_train + n_test, num_inputs))
labels = torch.matmul(features, true_w) + true_b
labels += torch.tensor(np.random.normal(0, 0.01, size=labels.size()), dtype=torch.float)
train_features, test_features = features[:n_train, :], features[n_train:, :]
train_labels, test_labels = labels[:n_train], labels[n_train:]

1.2.1 手动实现

手动实现带线性回归，在损失函数后增加 $L_2$ 范数惩罚项来实现权重衰减

# matplotlib 处理负号无法显示的问题
matplotlib.rcParams.update(
    {
        'text.usetex': False,
        'font.family': 'stixgeneral',
        'mathtext.fontset': 'stix',
    }
)

batch_size, num_epochs, lr = 1, 100, 0.003
dataset = torch.utils.data.TensorDataset(train_features, train_labels)
train_iter = torch.utils.data.DataLoader(dataset, batch_size, shuffle=True)

# 绘图函数，在一张图中绘制两条曲线，用来对比训练损失和验证损失的变化过程，观察过拟合
def semilogy(x_vals, y_vals, x_label, y_label, x2_vals=None, y2_vals=None, legend=None, semilogy=True, figsize=(3.5, 2.5)):
    # 设置图像尺寸
    display.set_matplotlib_formats('svg')  # Use svg format to display plot in jupyter
    fig = plt.figure(figsize = figsize)
    #plt.rcParams['figure.figsize'] = figsize
    
    # 坐标轴文本
    plt.xlabel(x_label)
    plt.ylabel(y_label)
    
    # 绘制第一组数据
    if semilogy: plt.semilogy(x_vals, y_vals)  # y轴使用对数尺度的点线图
    else: plt.plot(x_vals, y_vals)             # 普通点线图
    
    # 绘制第二组数据，y轴使用对数尺度的点线图（如果有的话）
    if x2_vals != None and y2_vals != None:
        if semilogy: plt.semilogy(x2_vals, y2_vals, linestyle=':')
        else: plt.plot(x2_vals, y2_vals, linestyle=':')
        plt.legend(legend)
    
    plt.show()

def linreg(X, w, b):
    return torch.mm(X, w) + b

def squared_loss(y_hat, y): 
    # 注意这里返回的是向量, 另外, pytorch里的MSELoss并没有除以 2
    return ((y_hat - y.view(y_hat.size())) ** 2) / 2

def l2_penalty(w):
    return (w**2).sum() / 2

def sgd(params, lr, batch_size):
    for param in params:
        param.data -= lr * param.grad / batch_size

def fit_and_plot(lambd):
    # 参数初始化
    w = torch.randn((num_inputs, 1), requires_grad=True)
    b = torch.zeros(1, requires_grad=True)
    
    # 模型和损失
    net = linreg
    loss = squared_loss
    
    # 训练 100 epoch，记录训练损失和测试损失变化
    train_ls, test_ls = [], []
    for _ in range(num_epochs):
        for X, y in train_iter:
            # 添加了L2范数惩罚项
            l = loss(net(X, w, b), y) + lambd * l2_penalty(w)
            
            # 梯度清零
            if w.grad is not None:
                w.grad.data.zero_()
                b.grad.data.zero_()
            
            # 计算梯度
            l = l.sum()
            l.backward()
            
            # 随机梯度下降
            sgd([w, b], lr, batch_size)
        
        # 记录损失
        train_ls.append(loss(net(train_features, w, b), train_labels).mean().item())
        test_ls.append(loss(net(test_features, w, b), test_labels).mean().item())
    
    semilogy(range(1, num_epochs + 1), train_ls, 'epochs', 'loss',
             range(1, num_epochs + 1), test_ls, ['train', 'test'])
    
    # 观察最后得到模型参数的 L2 范数
    print('L2 norm of w:', w.norm().item())

先看不使用权重衰减时的情况，设置参数 lambda=0，观察训练误差和验证误差随训练 epoch 的变化过程
```
fit_and_plot(lambd=0)
```
1. 训练误差正常下降但测试误差一直很高，说明出现了过拟合
2. 最终学出的 $L_2$ 范数较大，说明模型复杂度高
使用权重衰减，设置参数 lambda=3
```
fit_and_plot(lambd=3)
```
1. 训练误差虽然有所提高，但测试集上的误差有所下降，过拟合现象得到一定程度的缓解
2. 权重参数的 $L_2$ 范数比不使用权重衰减时更小，说明这时模型复杂度被控制

1.2.2 利用 Pytorch 简洁实现

pytorch 中的优化器有参数 weight_decay，可以直接设置权重衰减超参数 $\lambda$

PyTorch 默认会对权重和偏置同时衰减，这里我们分别对权重和偏差构造优化器实例，从而只对权重衰减。只需修改上面的 fit_and_plot_pytorch 函数

def fit_and_plot_pytorch(wd):
    # 用一个全连接层作为线性模型，初始化参数
    net = torch.nn.Linear(num_inputs, 1)
    torch.nn.init.normal_(net.weight, mean=0, std=1)
    torch.nn.init.normal_(net.bias, mean=0, std=1)
    
    # MSE 损失（pytorch 中在 loss 这里对 batch_size 取平均，下面优化器里不取平均）
    loss = torch.nn.MSELoss()   
    
    # 权重和偏置用两个独立的优化器
    optimizer_w = torch.optim.SGD(params=[net.weight], lr=lr, weight_decay=wd) # 对权重参数衰减
    optimizer_b = torch.optim.SGD(params=[net.bias], lr=lr)  # 不对偏差参数衰减
    
    # 训练 100 epoch，记录训练损失和测试损失变化
    train_ls, test_ls = [], []
    for _ in range(num_epochs):
        for X, y in train_iter:
            
            # 梯度清零
            optimizer_w.zero_grad()
            optimizer_b.zero_grad()
            
            # 反向传播计算梯度
            l = loss(net(X), y).mean()
            l.backward()

            # 对两个optimizer实例分别调用step函数，从而分别更新权重和偏差
            optimizer_w.step()
            optimizer_b.step()
        
        # 记录损失
        train_ls.append(loss(net(train_features), train_labels).mean().item())
        test_ls.append(loss(net(test_features), test_labels).mean().item())
    semilogy(range(1, num_epochs + 1), train_ls, 'epochs', 'loss',
             range(1, num_epochs + 1), test_ls, ['train', 'test'])
    print('L2 norm of w:', net.weight.data.norm().item())

和 1.2.1 节一样，再次观察 $\gamma=0$ 不使用权重衰减和设置 $\gamma=3$ 使用权重衰减的情况
```
fit_and_plot_pytorch(0)
fit_and_plot_pytorch(3)
```
同样观察到使用权重衰减（ $L_2$ 正则化）对过拟合的缓解情况

2. 丢弃法

2.1 原理

丢弃法dropout 是另一种深度学习模型常常使用的处理过拟合的方法，丢弃法有一些变体，这里特指 倒置丢弃法inverted dropout
丢弃法的核心思想就是每轮训练随机去掉一些隐藏层单元，使得模型无法过于依赖某些特定的隐藏层单元，起到降低模型复杂度的作用。以有一个隐藏层的多层感知机为例，其原始结构为

用 $\phi$ 表示激活函数，任意隐藏层单元的输出 $h_i(i=1,...,5)$ 为
$h_i = \phi(\sum_{j=1}^4 x_iw_{ji}+b_i)$ 当对该隐藏层使用丢弃法时，该层的隐藏单元将有一定概率被丢弃掉，丢弃概率是一个超参数，设为 $p$ ，则对于任意单元 $i$
1. 有 $p$ 的概率此单元输出 $h_i$ 被清零
2. 有 $1 - p$ 的概率此单元输出会除以 $1 - p$ 进行放大
即该单元输出为
$h_i'=\left\{ \begin{aligned} &0 & &以 \space p \space 的概率 \\ &\frac{1}{1-p}h_i & &以 \space 1-p\space 的概率 \end{aligned} \right.$

显然有 $\mathbb{E}(h_i')=h_i$ ，即丢弃法不会改变任何隐藏层单元输出的期望值
应用丢弃法后，假设某轮训练迭代中第2和第5个隐藏单元输出被清零，则等效网络结构表示为
dropout 有效的原因
1. 直观上看，使用 dropout 会将原本较大较复杂的网络变成一个相对简单的网络，减少了网络参数，降低了模型的相对复杂度
2. 另一种直观理解是，dropout 使得模型无法过于依赖某些特定的隐藏层单元，这样就不会给某些神经元赋予过大的权重，最终会产生收缩权重的平方范数的效果，类似 L2 正则化
两个应用 dropout 的技巧
1. 含多个隐藏层的模型，通常把靠近输入层的丢弃概率设得小一点
2. 为了拿到更加确定性的结果，测试模型时一般不使用丢弃法

2.2 实验

2.2.1 手动实现

构造一个含有两个全连接隐藏层的多层感知机，每个隐藏层输出为 256，ReLU 激活函数，做 softmax 回归来解决 Fashion-MNIST 分类任务。第一个隐藏层的丢弃概率设为0.2，把第二个隐藏层的丢弃概率设为0.5
注意测试阶段不使用 dropout，如果用了 Pytorch 提供的 nn.Dropout() 和 nn.BatchNorm2d 等方法，可以用 torch.nn.Module 的 .eval() 和 .train() 方法
1. model.eval()：不启用 BatchNormalization 和 Dropout。此时pytorch会自动把 BN 和 DropOut 固定住，不会取平均，而是用训练好的值。不然的话，一旦 test 的 batch_size 过小，很容易就会因 BN 层导致模型 performance 损失较大；
2. model.train()：启用 BatchNormalization 和 Dropout。在模型测试阶段使用 model.train() 让 model 变成训练模式，此时 dropout 和 batch normalization 的操作在训练时起到防止网络过拟合的问题

下面给出完整代码，可以直接复杂到 vscode 运行

import torch
import torchvision
import torchvision.transforms as transforms
import numpy as np
from IPython import display
import matplotlib.pyplot as plt
import matplotlib

# 绘图相关 --------------------------------------------------------------------------------------------------
# matplotlib 处理负号无法显示的问题
matplotlib.rcParams.update(
    {
        'text.usetex': False,
        'font.family': 'stixgeneral',
        'mathtext.fontset': 'stix',
    }
)

# 绘图函数，在一张图中绘制两条曲线
def semilogy(x_vals, y_vals, x_label, y_label, x2_vals=None, y2_vals=None, legend=None, semilogy=True, figsize=(3.5, 2.5)):
    # 设置图像尺寸
    display.set_matplotlib_formats('svg')  # Use svg format to display plot in jupyter
    fig = plt.figure(figsize = figsize)
    #plt.rcParams['figure.figsize'] = figsize
    
    # 坐标轴文本
    plt.xlabel(x_label)
    plt.ylabel(y_label)
    
    # 绘制第一组数据
    if semilogy: plt.semilogy(x_vals, y_vals)  # y轴使用对数尺度的点线图
    else: plt.plot(x_vals, y_vals)             # 普通点线图
    
    # 绘制第二组数据，y轴使用对数尺度的点线图（如果有的话）
    if x2_vals != None and y2_vals != None:
        if semilogy: plt.semilogy(x2_vals, y2_vals, linestyle=':')
        else: plt.plot(x2_vals, y2_vals, linestyle=':')
        plt.legend(legend)
    
    plt.show()

# 数据集相关 --------------------------------------------------------------------------------------------------
# 加载数据集,train_size 指定使用的数据量
def load_data_fashion_mnist(train_size, batch_size, num_workers=0, root='./Datasets/FashionMNIST'):
    mnist_train = torchvision.datasets.FashionMNIST(root=root, train=True, download=True,transform=transforms.ToTensor())
    mnist_test = torchvision.datasets.FashionMNIST(root=root, train=False, download=True,transform=transforms.ToTensor())

    train_iter = torch.utils.data.DataLoader(dataset=mnist_train, sampler=torch.utils.data.RandomSampler(mnist_train, replacement=True, num_samples=train_size), batch_size=batch_size, shuffle=False, num_workers=0)
    test_iter = torch.utils.data.DataLoader(dataset=mnist_test, batch_size=batch_size, shuffle=False, num_workers=0)
    
    # 这两个 iter 用来得到全部 train data 和 test data，访问一次即可
    valid_train_iter = torch.utils.data.DataLoader(dataset=mnist_train, batch_size=train_size, shuffle=False, num_workers=0)
    valid_test_iter = torch.utils.data.DataLoader(dataset=mnist_test, batch_size=len(mnist_test), shuffle=False, num_workers=0)
    
    return train_iter, test_iter, valid_train_iter, valid_test_iter


# 模型定义 --------------------------------------------------------------------------------------------------------
# 对某一层输出做 dropout 操作，其实就是把所有元素按上面 h' 公式原地更新一下
def dropout(X, drop_prob):
    # tensor 转换为 float 类型
    X = X.float()  
    
    # 用断言确保丢弃概率合法
    assert 0 <= drop_prob <= 1
    keep_prob = 1 - drop_prob
    
    # 这种情况下把全部元素都丢弃
    if keep_prob == 0:
        return torch.zeros_like(X)
    
    # 以 keep_prob 概率生成一个过滤 mask，这里先得到 bool 型 tensor，然后用 .float 把元素转换为 1.0 和 0.0
    mask = (torch.rand(X.shape) < keep_prob).float()
    return mask * X / keep_prob              # 这里应用了广播机制

# 定义模型
drop_prob1, drop_prob2 = 0.2, 0.5
def net(X, is_training=True):
    # 每行一个样本特征
    X = X.view(-1, num_inputs)
    
    # 第一个隐藏层，只在训练时使用丢弃法
    H1 = (torch.matmul(X, W1) + b1).relu()
    if is_training:  
        H1 = dropout(H1, drop_prob1)  # 添加丢弃层
    
    # 第二个隐藏层，只在训练时使用丢弃法
    H2 = (torch.matmul(H1, W2) + b2).relu()
    if is_training:
        H2 = dropout(H2, drop_prob2)  # 添加丢弃层
    
    # 输出层返回
    return torch.matmul(H2, W3) + b3

# 优化方法：小批量随机梯度下降
def sgd(params, lr, batch_size):
    for param in params:
        param.data -= lr * param.grad / batch_size      # 注意这里更改 param 时用的param.data，这样不会影响梯度计算

# 评估模型（注意不进行 dropout 操作）
def evaluate_accuracy(data_iter, net):
    acc_sum, n = 0.0, 0
    for X, y in data_iter:
        
        # 使用 pytorch 模型
        if isinstance(net, torch.nn.Module):
            # 评估模式, 这会关闭dropout
            net.eval() 
            # 累计 batch 中预测对的样本数量
            acc_sum += (net(X).argmax(dim=1) == y).float().sum().item()
            # 改回训练模式
            net.train() 
        
        # 自定义模型
        else: 
            # 如果 callable 对象 net 中有 is_training 这个参数
            if('is_training' in net.__code__.co_varnames):    # func.__code__.co_varnames 将函数局部变量以元组的形式返回。
                acc_sum += (net(X, is_training=False).argmax(dim=1) == y).float().sum().item() # 将is_training设置成False
            else:
                acc_sum += (net(X).argmax(dim=1) == y).float().sum().item() 
        
        # 总样本数
        n += y.shape[0]
    return acc_sum / n

# 模型训练 --------------------------------------------------------------------------------------------------------
def train(net, train_iter, test_iter, valid_train_iter, valid_test_iter, loss, num_epochs, batch_size, params=None, lr=None):
    # 拿到计算训练集 & 测试集损失的数据
    for valid_train_X, valid_train_y in valid_train_iter: pass
    for valid_test_X, valid_test_y in valid_test_iter: pass
    train_size = len(valid_train_X)
    # 训练执行 num_epochs 轮    
    train_ls, test_ls = [], []
    for epoch in range(num_epochs):
        train_l_sum = 0.0    # 本 epoch 总损失
        train_acc_sum = 0.0  # 本 epoch 总准确率
        n = 0                # 本 epoch 总样本数
        
        for X, y in train_iter:
            # 计算小批量损失
            y_hat = net(X, is_training=True)  # 这里设置 is_training=False 则回到普通情况
            l = loss(y_hat, y).mean()  

            # 梯度清零
            if params is not None and params[0].grad is not None:
                for param in params:
                    param.grad.data.zero_()
        
            # 小批量的损失对模型参数求梯度
            l.backward()
            
            # 做小批量随机梯度下降进行优化
            sgd(params, lr, batch_size)   # 手动实现优化算法
 
            # 记录训练数据
            train_l_sum += l.item()
            train_acc_sum += (y_hat.argmax(dim=1) == y).sum().item()
            n += y.shape[0]
            
        # 训练完成一个 epoch 后，评估测试集上的准确率
        test_acc = evaluate_accuracy(test_iter, net)
        
        # 训练损失 & 测试损失
        trainls = loss(net(valid_train_X, is_training=False), valid_train_y).mean().item()
        testls = loss(net(valid_test_X, is_training=False), valid_test_y).mean().item()
        train_ls.append(trainls)
        test_ls.append(testls)

        # 打印提示信息
        print('epoch %d, loss %.4f, tranin loss %.4f, test loss %.4f, train acc %.3f, test acc %.3f'
              % (epoch + 1,  train_l_sum / (train_size/batch_size), trainls, testls, train_acc_sum / n, test_acc))

    # 绘图
    semilogy(range(1, num_epochs + 1), train_ls, 'epochs', 'loss',
             range(1, num_epochs + 1), test_ls, ['train', 'test'])


if __name__ == '__main__':
    # 输入输出维度
    num_inputs, num_outputs, num_hiddens1, num_hiddens2 = 784, 10, 256, 256

    # 初始化模型参数 & 设定超参数
    W1 = torch.tensor(np.random.normal(0, 0.01, size=(num_inputs, num_hiddens1)), dtype=torch.float, requires_grad=True)
    b1 = torch.zeros(num_hiddens1, requires_grad=True)
    W2 = torch.tensor(np.random.normal(0, 0.01, size=(num_hiddens1, num_hiddens2)), dtype=torch.float, requires_grad=True)
    b2 = torch.zeros(num_hiddens2, requires_grad=True)
    W3 = torch.tensor(np.random.normal(0, 0.01, size=(num_hiddens2, num_outputs)), dtype=torch.float, requires_grad=True)
    b3 = torch.zeros(num_outputs, requires_grad=True)
    params = [W1, b1, W2, b2, W3, b3]

    num_epochs, lr = 10, 100.0
    batch_size = 256       
    train_size = 60000    # 这个控制使用多少数据训练，最多 60000
    
    # 获取数据读取迭代器
    train_iter, test_iter, valid_train_iter, valid_test_iter = load_data_fashion_mnist(train_size, batch_size, 4)

    # 交叉熵损失
    loss = torch.nn.CrossEntropyLoss()

    # 进行训练
    train(net, train_iter, test_iter, valid_train_iter, valid_test_iter, loss, num_epochs, batch_size, params, lr)

注意定义模型的 net 函数，其中 is_training 参数用来控制是否在模型中加入 dropout 参数。下面左图在 train 函数中设置 is_training=False 来禁用 dropout，可见出现了一定的过拟合现象；右图使用 dropout，过拟合得到缓解

我上面的程序中也可以通过主函数中的 train_size 参数设置训练使用的样本量，从而控制数据复杂度，但是这里调整的效果不太好，可能是因为 Fashion-MNIST 分类任务太难了，需要很多次训练来取平均

2.2.2 利用 Pytorch 简洁实现

在PyTorch中，我们只需要在全连接层后添加 nn.Dropout 层并指定丢弃概率即可实现丢弃法
训练模型时，Dropout层将以指定的丢弃概率随机丢弃上一层的输出元素；在测试模型时（即 model.eval() 后），Dropout层不发挥作用

下面给出可以在 vscode 直接运行的完整代码，同时删除了绘图等附加代码

import torch
from torch import nn
import torchvision
import torchvision.transforms as transforms
import numpy as np
from IPython import display

# 数据集相关 --------------------------------------------------------------------------------------------------
# 加载数据集
def load_data_fashion_mnist(batch_size, num_workers=0, root='./Datasets/FashionMNIST'):
    mnist_train = torchvision.datasets.FashionMNIST(root=root, train=True, download=True,transform=transforms.ToTensor())
    mnist_test = torchvision.datasets.FashionMNIST(root=root, train=False, download=True,transform=transforms.ToTensor())

    train_iter = torch.utils.data.DataLoader(mnist_train, batch_size=batch_size, shuffle=True, num_workers=num_workers)
    test_iter = torch.utils.data.DataLoader(mnist_test, batch_size=batch_size, shuffle=False, num_workers=num_workers)

    return train_iter, test_iter
	
# 模型定义 --------------------------------------------------------------------------------------------------------
class FlattenLayer(nn.Module):
    def __init__(self):
        super(FlattenLayer, self).__init__()
        
    def forward(self, x): # x shape: (batch, *, *, ...)
        return x.view(x.shape[0], -1)

# 评估模型（注意不进行 dropout 操作）
def evaluate_accuracy(data_iter, net):
    acc_sum, n = 0.0, 0
    for X, y in data_iter:
        
        # 使用 pytorch 模型
        if isinstance(net, torch.nn.Module):
            # 评估模式, 这会关闭dropout
            net.eval() 
            # 累计 batch 中预测对的样本数量
            acc_sum += (net(X).argmax(dim=1) == y).float().sum().item()
            # 改回训练模式
            net.train() 
        
        # 自定义模型
        else: 
            # 如果 callable 对象 net 中有 is_training 这个参数
            if('is_training' in net.__code__.co_varnames):    # func.__code__.co_varnames 将函数局部变量以元组的形式返回。
                acc_sum += (net(X, is_training=False).argmax(dim=1) == y).float().sum().item() # 将is_training设置成False
            else:
                acc_sum += (net(X).argmax(dim=1) == y).float().sum().item() 
        # 总样本数
        n += y.shape[0]
    return acc_sum / n

def train(net, train_iter, test_iter, loss, num_epochs, batch_size, params=None, lr=None, optimizer=None):
    # 训练执行 num_epochs 轮
    for epoch in range(num_epochs):
        train_l_sum = 0.0    # 本 epoch 总损失
        train_acc_sum = 0.0  # 本 epoch 总准确率
        n = 0                # 本 epoch 总样本数
        
        # 逐小批次地遍历训练数据
        for X, y in train_iter:
            
            # 计算小批量损失
            y_hat = net(X)
            l = loss(y_hat, y).sum()  

            # 梯度清零
            optimizer.zero_grad()

            # 小批量的损失对模型参数求梯度
            l.backward()
            
            # 做小批量随机梯度下降进行优化
            optimizer.step()              

            # 记录训练数据
            train_l_sum += l.item()
            train_acc_sum += (y_hat.argmax(dim=1) == y).sum().item()
            n += y.shape[0]
        
        # 训练完成一个 epoch 后，评估测试集上的准确率
        test_acc = evaluate_accuracy(test_iter, net)
        
        # 打印提示信息
        print('epoch %d, loss %.4f, train acc %.3f, test acc %.3f'
              % (epoch + 1, train_l_sum / n, train_acc_sum / n, test_acc))

if __name__ == '__main__':
    # 输入输出维度
    num_inputs, num_outputs, num_hiddens1, num_hiddens2 = 784, 10, 256, 256
    
    # 超参数
    num_epochs, lr = 10, 0.5
    # 获取数据读取迭代器
    batch_size = 256  
    train_iter, test_iter = load_data_fashion_mnist(batch_size, 4)

    # 定义模型网络结构
    drop_prob1, drop_prob2 = 0.2, 0.5
    net = nn.Sequential(
        FlattenLayer(),
        nn.Linear(num_inputs, num_hiddens1),
        nn.ReLU(),
        nn.Dropout(drop_prob1),
        nn.Linear(num_hiddens1, num_hiddens2), 
        nn.ReLU(),
        nn.Dropout(drop_prob2),
        nn.Linear(num_hiddens2, 10)
        )

    # 初始化模型参数
    W1 = torch.tensor(np.random.normal(0, 0.01, size=(num_inputs, num_hiddens1)), dtype=torch.float, requires_grad=True)
    b1 = torch.zeros(num_hiddens1, requires_grad=True)
    W2 = torch.tensor(np.random.normal(0, 0.01, size=(num_hiddens1, num_hiddens2)), dtype=torch.float, requires_grad=True)
    b2 = torch.zeros(num_hiddens2, requires_grad=True)
    W3 = torch.tensor(np.random.normal(0, 0.01, size=(num_hiddens2, num_outputs)), dtype=torch.float, requires_grad=True)
    b3 = torch.zeros(num_outputs, requires_grad=True)
    params = [W1, b1, W2, b2, W3, b3]

    # 损失 & 优化器
    loss = nn.CrossEntropyLoss()
    optimizer = torch.optim.SGD(net.parameters(), lr=lr) # 学习率 0.1

    # 进行训练
    train(net, train_iter, test_iter, loss, num_epochs, batch_size, None, None, optimizer)

'''
epoch 1, loss 0.0035, train acc 0.673, test acc 0.774
epoch 2, loss 0.0021, train acc 0.805, test acc 0.812
epoch 3, loss 0.0018, train acc 0.832, test acc 0.813
epoch 4, loss 0.0017, train acc 0.846, test acc 0.853
epoch 5, loss 0.0016, train acc 0.853, test acc 0.825
epoch 6, loss 0.0015, train acc 0.859, test acc 0.850
epoch 7, loss 0.0014, train acc 0.866, test acc 0.818
epoch 8, loss 0.0014, train acc 0.869, test acc 0.854
epoch 9, loss 0.0014, train acc 0.872, test acc 0.865
epoch 10, loss 0.0013, train acc 0.876, test acc 0.855
'''

你可能感兴趣的:(机器学习,过拟合,权重衰减,丢弃法,dropout,L2正则化)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
渝婧感恩日记第68天梁渝婧lydia
1.哇！我真是太幸福啦！感恩奇迹感恩训练营毕业典礼，让我能共振到同学们的喜悦和能量，感谢！感谢！感谢！2.哇！我真是太幸福啦！感恩每天早起，运动3公里！这个星期又做到连续三天，不间断！感谢亲爱的渝婧！你真的是非常的棒！加油，继续坚持！感谢！感谢！感谢！3.哇！我真是太幸福啦！感恩曾正波班主任给我们分享的艾宾浩斯的记忆曲线255学习法，让我蠢蠢欲试，感谢！感谢！感谢！4.哇！我真是太幸福啦！感恩胜利
209. 长度最小的子数组（滑动窗口法）清榎 leetcode刷题 c++leetcode 算法
209.长度最小的子数组题目描述：给定一个含有n个正整数的数组和一个正整数target。找出该数组中满足其和≥target的长度最小的连续子数组[numsl,numsl+1,...,numsr-1,numsr]，并返回其长度。如果不存在符合条件的子数组，返回0。解答：法一：直接使用暴力法。两重循环，对每一个元素向后进行寻找，若找到一个子数组≥target，比较其长度和result的大小，如果其长度
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
2024.8.22 Python，链表两数之和，链表快速反转，二叉树的深度，二叉树前中后序遍历，N叉树递归遍历，翻转二叉树 RaidenQ python 链表开发语言
1.链表两数之和输入：l1=[2,4,3],l2=[5,6,4]输出：[7,0,8]解释：342+465=807.示例2：输入：l1=[0],l2=[0]输出：[0]示例3：输入：l1=[9,9,9,9,9,9,9],l2=[9,9,9,9]输出：[8,9,9,9,0,0,0,1]昨天的这个题，用自己的办法写的麻烦的要死，然后刚才一看chat归类的办法，感觉自己像个智障。classListNode
5分钟说透AppStore审核原理，让你拥有上架新思路！ Q仔本人噢
在AppStore上架是越来越难了!相信非常多公司的技术人员都为此困扰，然而外包团队水平又层次不齐，容易遇坑，实在是内忧外患。是什么原因导致审核机制频繁调整？又是什么原因使得审核变得越发严格？那么接下来听小Q分解，马上给各位带来解答!首先看一下近一年的上下架的情况：近一年上架情况近一年下架情况通过数据我们发现越是马甲包产量权重高的分类里被下架的app数量越多，苹果此举可谓是上有政策，下有对策。通过
一分钟学会刷牙，受用终生！好易康
讲真，刷了十几二十年牙，没刷对过一次......来来来，划重点，更重要的是执行：①每天刷牙2次，②每次刷牙2~3分钟，③每3个月更换牙刷。最后，请使用正确的刷牙方法：巴氏（BASS）刷牙法undefined_腾讯视频视频来源ADA美国牙医协会巴氏刷牙法又称龈沟清扫法或水平颤动法。是由美国牙科协会推荐的一种有效去除龈缘附近及龈沟内菌斑的方法。刷牙不仅是刷牙齿，同时也要刷牙龈。因为口腔与细菌的战场就在
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
项目：事半功倍的法宝小小效能
行动的三大流程：记录、排程和执行，也讲了易效能的4D原则以及T-step标签法。这些流程和方法能够解决我们眼前的一地鸡毛，让我们有更多时间和精力去关注更为长远的事情，完成工作、生活和人生中重要的项目。项目管理能够让我们围绕结果去做事情，达成事半功倍的效果，也就是做更少的事情，但达成更好的效果。如果我们能够不断地达成一个又一个的项目，那么我们的人生无疑会像滚雪球一样，在长坡道上面不断积累。一、项目的
2022-1-12晨间日记云卷云舒_a1b9
起床：6：20就寝：23：00天气：阴心情：还好纪念日：法考主观体出分的日子叫我起床的不是闹钟是梦想年度目标及关键点：备考初级会计师；坚持运动，减重，阅读，学习本月重要成果：报名今日三只青蛙/番茄钟学习听课；瑜伽课；记账盘点成功日志-记录三五件有收获的事务1.收到鲜花2.早起做早餐3.引导孩子做计划财务检视支出严重超预算，检视一月的预算是否合理人际的投入同学联系；开卷有益-学习/读书/听书听初级课
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
思考成长丁昆朋
这篇文章是加紧赶出来“应付”日更，一方面不想要再晚睡了；另一方面不想失去日更达人的称号，只能坐下来匆忙写下一点文字。既然标题是成长，先来总结一下这段时间的收获：1、整理箱子站着可以看电脑，坐着反而是一种享受，减少了坐着腰酸背痛的现象；2、使用讯飞输入法大大增加自己的输出量；3、Anaconda+“pythontutor.com"+Google算是简单入门python；4、英语的阅读文章能力、听力提
信息系统安全相关概念(下) YuanDaima2048 基础概念课程笔记安全
文章总览：YuanDaiMa2048博客文章总览上篇指路：信息系统安全相关概念(上)信息系统安全相关概念[下]信息系统风险评估安全风险评估信息系统等级保护网络安全法等级保护等级保护工作流程环境安全信息系统风险评估安全风险评估对信息系统整体安全态势的感知和对重大安全事件的预警，实现“事前能预防，事中能控制，事后能处理”。安全风险组成的四要素：信息系统资产（Asset）信息系统脆弱性（Vulnerab
连环画中的冷门绝技：汉代宝藏“画像石”的神奇搬运（高清）江户川小歪
虽然连环画只有巴掌大小，但是打开它，你会发现一座中国美术技法的宝库。单线白描是大家最熟悉不过了的，还有工笔重彩、黑白色块、素描、版画、剪纸等种种技术百花齐放。从80年代开始，画家们各显神通，做了诸多尝试，以至于达到了“万法皆为我用”的境界。今天我来说说一种冷门的美术——汉画像石。汉画像石是个什么东西？古时候，王族、有钱人会在墓穴的石头、砖头上绘制一些图案，这些东西有雕刻和绘画的双属性，在美术形式上
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
【ShuQiHere】进制与补码的世界：从符号-大小表示法到二补码 ShuQiHere 二进制计算机组成原理
【ShuQiHere】在计算机系统中，表示正数是相对简单的，只需使用其对应的二进制形式即可。然而，如何有效地表示负数一直是计算机科学中的一个关键问题。为了解决这个问题，科学家们提出了多种表示方法，包括符号-大小表示法（Sign-MagnitudeRepresentation）、一补码（One’sComplement）和二补码（Two’sComplement）。在本文中，我们将深入探讨这些表示方法的
L1 L2 L3 缓存京天不下雨 windows 缓存 windows
L1L2L3缓存L1Cache(一级bai缓存)是CPU第一层高速缓存，分为数据缓存和指令缓存。du内置的zhiL1高速缓存的容量和结构对daoCPU的性能影响较大，不过高速缓冲存储器均由静态RAM组成，结构较复杂，在CPU管芯面积不能太大的情况下，L1级高速缓存的容量不可能做得太大。一般服务器CPU的L1缓存的容量通常在32—4096KB。L2由于L1级高速缓存容量的限制，为了再次提高CPU的运
【高中数学/三角函数/判别式法求极值】已知：实数a,b满足a^2/4-b^2=1 求：3a^2+2ab的最小值普兰店拉马努金高中数学之三角函数高中数学三角函数判别式
【问题】已知：实数a,b满足a^2/4-b^2=1求：3a^2+2ab的最小值【来源】App"网易新闻"中up主“我服子佩”的数学视频专辑，据其称是北京市某年的竞赛题。【解答】由a^2/4-b^2=1，联想到secθ^2-tanθ^2=1故设a/2=1/cosθ,b=sinθ/cosθ将a=2/cosθ,b=sinθ/cosθ代入3a^2+2ab得f(θ)=(12+4sinθ)/(1-sinθ^2
郭生白中药方论之二(破除温凉寒热的框框) 本能学堂a昨年
离病说药茫茫然，对症下药不着边。顺势利导一乘法，排异调节渡法船。无限整合非模糊，模糊病区得清楚。共性之外求个性，亲和不生抗药性。温凉寒热巧方便，君臣佐使筏喻焉。药包大小折中看，毒性有无一念间。导读破除温凉寒热的框框寒热温凉是基于中药共性的传统分类药无寒热人有寒热药无寒热病有寒热抛弃温凉不并用的错误观念寒热温凉是基于中药共性的传统分类寒热温凉是个共性，是说的共性。这个共性，知道什么叫共性吗？所有的药
在陌生场合如何用闲谈打破冷场小小雁儿
你有没有发生过这种情况？当谈话的对象是陌生人，或是不怎么熟悉的人，或是沉默寡言的人时，不知道如何开口聊天，谈话很容易陷入冷场，气氛也可能变僵……如果你在一个商务场合，肯定也不希望自己一个人傻站着，只能和手机发生点互动。每个人都渴望在人群中被他人关注，都渴望被搭讪。面对这些局面，怎样让自己快速进入状态，开始一次有趣的闲谈呢？在这里我介绍两种心理暗示法:心理暗示法一：“我是主人”。如果参加一场宴会，你
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
《历史》与《战国策》札记（一百四）刘子曰_b08e
卫鞅亡魏入秦，孝公以为相，封之于商，号曰商君。商君治秦，法令至行，公平无私，罚不讳强大，赏不私亲近，法及太子，黥劓其傅。期年之后，道不拾遗，民不妄取，兵革大强，诸侯畏惧。然刻深寡恩，特以强服之耳。孝公行之八年，疾且不起，欲傅商君，辞不受。孝公已死，惠王代后，莅政有顷，商君告归。人说惠王曰：“大臣太重者国危，左右太亲者身危。今秦妇人婴儿皆言商君之法，莫言大王之法。是商君反为主，大王更为臣也。且夫商君
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe