醉一心

《深度学习实战》第2章机器学习快速入门

参考书籍《深度学习实战》杨云、杜飞著

softmax实现练习

在本章练习中我们将逐步完成：

1.熟悉使用CIFAR-10 数据集
2.编码softmax_loss_naive函数使用显式循环计算损失函数以及梯度
3.编码softmax_loss_vectorized函数使用向量化表达计算损失函数以及梯度
4.编码最小批量梯度下降算法训练softmax分类器
5.使用验证数据选择超参数

#-*- coding: utf-8 -*-
import random
import numpy as np
from utils.data_utils import load_CIFAR10
from classifiers.chapter2 import *
import matplotlib.pyplot as plt

%matplotlib inline
plt.rcParams['figure.figsize'] = (10.0, 8.0) 
%load_ext autoreload
%autoreload 2

# 导入 CIFAR-10 数据.
cifar10_dir = 'datasets\\cifar-10-batches-py'
X_train, y_train, X_test, y_test = load_CIFAR10(cifar10_dir)

# 查看数据
print('训练数据（数据个数，数据维度）: ', X_train.shape)
print('训练数据标记（数据标记个数，）: ', y_train.shape)
print('测试数据（数据个数，数据维度）: ', X_test.shape)
print('测试数据标记（数据标记个数，）: ', y_test.shape)

训练数据（数据个数，数据维度）:  (50000, 32, 32, 3)
训练数据标记（数据标记个数，）:  (50000,)
测试数据（数据个数，数据维度）:  (10000, 32, 32, 3)
测试数据标记（数据标记个数，）:  (10000,)

# 数据可视化.
classes = ['plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']
# 类别总数
num_classes = len(classes)
# 每个类别采样个数
samples_per_class = 7
for y, cls in enumerate(classes): # 对列表的元素位置和元素进行循环，y表示元素位置（0,num_class），cls元素本身'plane'等
    # numpy.flatnonzero():
    # 该函数输入一个矩阵，返回扁平化后矩阵中非零元素的位置（index）
    idxs = np.flatnonzero(y_train == y)  # 找出标签中y类的位置
    idxs = np.random.choice(idxs, samples_per_class, replace=False) #从中选出我们所需的7个样本
    for i, idx in enumerate(idxs): # 对所选的样本的位置和样本所对应的图片在训练集中的位置进行循环
        plt_idx = i * num_classes + y + 1  # 在子图中所占位置的计算
        plt.subplot(samples_per_class, num_classes, plt_idx)  # 说明要画的子图的编号
        plt.imshow(X_train[idx].astype('uint8'))  # 画图
        plt.axis('off')
        if i == 0:
            plt.title(cls)  # 写上标题，也就是类别名
plt.show()  # 显示

1.数据预处理

在通常情况下，我们需要对输入数据进行归一化处理，也就是使得数据呈均值为零，方差为1的标准正态分布。由于图像的特征范围在[0,255]，其方差已经被约束了，我们只需要将数据进行零均值中心化处理即可，不需要将数据压缩在[-1,1]范围(当然，你也可以进行此项处理)。

def get_CIFAR10_data(num_training=49000, num_validation=100, num_test=10000, num_sample=250):
    '''
    熟练使用CIFAR-10数据集
    CIFAR-10数据集包括了60000张，大小为32*32的十分类图片。
    num_training: 训练数据样本数
    num_validation: 验证数据样本数
    num_test: 测试数据样本数
    num_sample: 示例数据样本数
    '''
    # 导入 CIFAR-10 data
    cifar10_dir = 'datasets/cifar-10-batches-py'
    X_train, y_train, X_test, y_test = load_CIFAR10(cifar10_dir)
    
    # 采样数据
    mask = range(num_training, num_training + num_validation)
    X_val = X_train[mask]
    y_val = y_train[mask]
    mask = range(num_training)
    X_train = X_train[mask] 
    y_train = y_train[mask]
    mask = range(num_test)
    X_test = X_test[mask]
    y_test = y_test[mask]
    mask = np.random.choice(num_training, num_sample, replace=False)
    X_sample = X_train[mask]
    y_sample = y_train[mask]
    
    # 数据形状转换
    # 将(宽，高，色道)压缩在一维上
    # 将数据重塑成（数据个数，维度）形状
    X_train = np.reshape(X_train,(X_train.shape[0], -1))
    X_val = np.reshape(X_val,(X_val.shape[0], -1))
    X_test = np.reshape(X_test,(X_test.shape[0], -1))
    X_sample = np.reshape(X_sample,(X_sample.shape[0], -1))
    
    # 数据归一化
    # 数据预处理，减去其均值
    mean_image = np.mean(X_train, axis = 0)
    X_train -= mean_image
    X_val -= mean_image
    X_test -= mean_image
    X_sample -= mean_image
    
    # 在每列数据中加入偏置项
    # np.hstack将参数元组的元素数组按水平方向进行叠加
    X_train = np.hstack([X_train, np.ones((X_train.shape[0], 1))])
    X_val = np.hstack([X_val, np.ones((X_val.shape[0], 1))])
    X_test = np.hstack([X_test, np.ones((X_test.shape[0], 1))])
    X_sample = np.hstack([X_sample, np.ones((X_sample.shape[0], 1))])
    
    return X_train, y_train, X_val, y_val, X_test, y_test, X_sample, y_sample

X_train, y_train, X_val, y_val, X_test, y_test, X_sample, y_sample = get_CIFAR10_data()
print('Train data shape: ', X_train.shape)
print('Train labels shape: ', y_train.shape)
print('Validation data shape: ', X_val.shape)
print('Validation labels shape: ', y_val.shape)
print('Test data shape: ', X_test.shape)
print('Test labels shape: ', y_test.shape)
print('sample data shape: ', X_sample.shape)
print('sample labels shape: ', y_sample.shape)

Train data shape:  (49000, 3073)
Train labels shape:  (49000,)
Validation data shape:  (100, 3073)
Validation labels shape:  (100,)
Test data shape:  (10000, 3073)
Test labels shape:  (10000,)
sample data shape:  (250, 3073)
sample labels shape:  (250,)

2.使用显式循环计算损失函数以及梯度

请尽可能少地使用循环，使用的循环越少，就可以节约更多的计算时间。需要逐渐地适应向量化计算表达，因为采用向量化表达，既书写简介，使得代码的可读性大大提高，不容易产生错误，又极大地提高了运算效率。

# 首先我们将用循环的方式实现softmax的损失函数（代价函数）
# 打开 classifiers/chapter2/softmax_loss.py 文件并实现softmax_loss_naive函数
# 完成之后运行该单元代码
from classifiers.chapter2.softmax_loss import softmax_loss_naive
import time

# 初始化权重
W = np.random.randn(3073, 10) * 0.0001
loss, grad = softmax_loss_naive(W, X_sample, y_sample, 0.0)

# 你的初始化损失值应该接近于 -log(0.1).
print('你实现的softmax损失值loss: %f' % loss)
print('正确的损失值: %f' % ( -np.log(0.1) ))

你实现的softmax损失值loss: 2.322683
正确的损失值: 2.302585

# 使用数值梯度检验你已实现的softmax_loss_naive
# 你实现的梯度应该要接近于数值梯度
from utils.gradient_check import grad_check_sparse
loss, grad = softmax_loss_naive(W, X_sample, y_sample, 0.0)

print('检验无权重衰减的softmax_loss_naive梯度：')
f = lambda w: softmax_loss_naive(w, X_sample, y_sample, 0.0)[0]
grad_numerical = grad_check_sparse(f, W, grad, 10)

print('检验加入权重衰减项后的softmax_loss_naive梯度：')
loss, grad = softmax_loss_naive(W, X_sample, y_sample, 1e2)
f = lambda w: softmax_loss_naive(w, X_sample, y_sample, 1e2)[0]
grad_numerical = grad_check_sparse(f, W, grad, 10)

检验无权重衰减的softmax_loss_naive梯度：
numerical: -1.643731 analytic: -1.643731, relative error: 1.767333e-08
numerical: -0.903899 analytic: -0.903899, relative error: 4.933728e-08
numerical: -1.871885 analytic: -1.871886, relative error: 1.466657e-08
numerical: 1.315985 analytic: 1.315985, relative error: 2.012378e-08
numerical: 1.398138 analytic: 1.398138, relative error: 2.379984e-08
numerical: 0.787859 analytic: 0.787859, relative error: 3.121790e-08
numerical: -2.592382 analytic: -2.592382, relative error: 2.092500e-08
numerical: -2.854713 analytic: -2.854713, relative error: 7.280248e-09
numerical: 1.232664 analytic: 1.232664, relative error: 2.542693e-08
numerical: 1.706167 analytic: 1.706167, relative error: 3.109060e-08
检验加入权重衰减项后的softmax_loss_naive梯度：
numerical: -0.176439 analytic: -0.176439, relative error: 3.089932e-07
numerical: -3.940286 analytic: -3.940286, relative error: 7.815151e-09
numerical: -1.458173 analytic: -1.458173, relative error: 3.271034e-09
numerical: -0.478771 analytic: -0.478771, relative error: 9.152370e-09
numerical: -0.668009 analytic: -0.668009, relative error: 1.134638e-07
numerical: -1.660221 analytic: -1.660221, relative error: 1.547873e-08
numerical: 1.744188 analytic: 1.744188, relative error: 2.014491e-08
numerical: -0.485254 analytic: -0.485254, relative error: 5.129877e-08
numerical: -2.515499 analytic: -2.515499, relative error: 2.575850e-09
numerical: 2.403642 analytic: 2.403642, relative error: 1.413098e-08

3. 使用向量化表达计算损失函数以及梯度

# 现在我们将实现向量化的softmax损失及其梯度计算
# 打开softmax_loss_vectorized函数并完成相应任务，运行该段代码
# 向量化版本应该和显式循环版本相同，但前者的计算效率应该快速得很多
tic = time.time()
loss_naive, grad_naive = softmax_loss_naive(W, X_sample, y_sample, 0.00001)
toc = time.time()
print('显式循环版loss: %e   花费时间 %fs' % (loss_naive, toc - tic))

from classifiers.chapter2.softmax_loss import softmax_loss_vectorized
tic = time.time()
loss_vectorized, grad_vectorized = softmax_loss_vectorized(W, X_sample, y_sample, 0.00001)
toc = time.time()
print('向量化版本 loss: %e    花费时间 %fs' % (loss_vectorized, toc - tic))

# 比较结果
grad_difference = np.linalg.norm(grad_naive - grad_vectorized, ord='fro')
print('损失误差: %f' % np.abs(loss_naive - loss_vectorized))
print('梯度误差: %f' % grad_difference)

显式循环版loss: 2.322683e+00   花费时间 0.101504s
向量化版本 loss: 2.322683e+00    花费时间 0.001956s
损失误差: 0.000000
梯度误差: 0.000000

4.最小批量梯度下降算法训练softmax分类器

# 打开softmax.trian()完成随机梯度下降任务，然后执行该段代码
from classifiers.chapter2.softmax import *
softmax = Softmax()
tic = time.time()
loss_hist = softmax.train(X_sample, y_sample, learning_rate=1e-7, reg=5e4,
                      num_iters=3500, verbose=True)
toc = time.time()
print('花费时间 %fs' % (toc - tic))

迭代次数 0 / 3500: loss 777.592212
迭代次数 500 / 3500: loss 7.042712
迭代次数 1000 / 3500: loss 1.952050
迭代次数 1500 / 3500: loss 1.920996
迭代次数 2000 / 3500: loss 1.897792
迭代次数 2500 / 3500: loss 1.923868
迭代次数 3000 / 3500: loss 1.904769
花费时间 11.818226s

# 查看损失值的变化情况
plt.plot(loss_hist)
plt.xlabel('Iteration number')
plt.ylabel('Loss value')
plt.show()

# 测试训练集，验证集的精度
y_train_pred = softmax.predict(X_sample)
print(y_train_pred.shape)
print('训练数据量：%f    训练正确率: %f' % (X_sample.shape[0],np.mean(y_sample == y_train_pred), ))
y_val_pred = softmax.predict(X_val)
print('验证数据量：%f    验证正确率: %f' % (X_val.shape[0],np.mean(y_val == y_val_pred), ))

(250,)
训练数据量：250.000000    训练正确率: 0.576000
验证数据量：100.000000    验证正确率: 0.240000

5.使用验证数据选择超参数

# 使用验证集调整超参数(权重衰减因子，学习率)
from classifiers.chapter2.softmax import *
results = {
     }
best_val = -1
best_l = 0  # 最佳的学习率
best_r = 0  # 最佳的权重衰减因子
best_softmax = None
# 学习率
learning_rates=np.logspace(-9, 0, num=10)
# 权重衰减因子
regularization_strengths=np.logspace(0, 5, num=10)
batch_size = [50]
num_iters  = [300]

for b in batch_size:
    for n in num_iters:
        for l in learning_rates:
            for r in regularization_strengths:
                # 创建Softmax类来进行对比
                softmax = Softmax()
                loss_hist = softmax.train(X_sample, y_sample, 
                                         learning_rate=l,reg=r,
                                         num_iters=n,
                                         batch_size=b,
                                         verbose=False)
                y_train_pred = softmax.predict(X_sample)
                train_accuracy= np.mean(y_sample == y_train_pred)
                y_val_pred = softmax.predict(X_val)
                val_accuracy= np.mean(y_val == y_val_pred)
                results[(l,r)]=(train_accuracy,val_accuracy)
                # 找出准确率最高的参数配置
                if(best_val < val_accuracy):
                    best_val = val_accuracy
                    best_softmax = softmax
                    best_l =l
                    best_r =r
    
for lr, reg in sorted(results):
    train_accuracy, val_accuracy = results[(lr, reg)]
    print('lr %e reg %e 训练精度: %f 验证精度: %f' % (
                lr, reg, train_accuracy, val_accuracy))
    
print('最佳学习率为：%e 最佳权重衰减系数为：%e 其所对应的验证精度为: %f' % (best_l,best_r,best_val))

lr 1.000000e-09 reg 1.000000e+00 训练精度: 0.152000 验证精度: 0.120000
lr 1.000000e-09 reg 3.593814e+00 训练精度: 0.064000 验证精度: 0.090000
lr 1.000000e-09 reg 1.291550e+01 训练精度: 0.116000 验证精度: 0.170000
lr 1.000000e-09 reg 4.641589e+01 训练精度: 0.048000 验证精度: 0.080000
lr 1.000000e-09 reg 1.668101e+02 训练精度: 0.104000 验证精度: 0.150000
lr 1.000000e-09 reg 5.994843e+02 训练精度: 0.148000 验证精度: 0.100000
lr 1.000000e-09 reg 2.154435e+03 训练精度: 0.096000 验证精度: 0.090000
lr 1.000000e-09 reg 7.742637e+03 训练精度: 0.112000 验证精度: 0.140000
lr 1.000000e-09 reg 2.782559e+04 训练精度: 0.064000 验证精度: 0.100000
lr 1.000000e-09 reg 1.000000e+05 训练精度: 0.108000 验证精度: 0.070000
lr 1.000000e-08 reg 1.000000e+00 训练精度: 0.108000 验证精度: 0.060000
lr 1.000000e-08 reg 3.593814e+00 训练精度: 0.104000 验证精度: 0.160000
lr 1.000000e-08 reg 1.291550e+01 训练精度: 0.092000 验证精度: 0.110000
lr 1.000000e-08 reg 4.641589e+01 训练精度: 0.080000 验证精度: 0.090000
lr 1.000000e-08 reg 1.668101e+02 训练精度: 0.136000 验证精度: 0.090000
lr 1.000000e-08 reg 5.994843e+02 训练精度: 0.132000 验证精度: 0.080000
lr 1.000000e-08 reg 2.154435e+03 训练精度: 0.080000 验证精度: 0.080000
lr 1.000000e-08 reg 7.742637e+03 训练精度: 0.148000 验证精度: 0.080000
lr 1.000000e-08 reg 2.782559e+04 训练精度: 0.104000 验证精度: 0.080000
lr 1.000000e-08 reg 1.000000e+05 训练精度: 0.092000 验证精度: 0.070000
lr 1.000000e-07 reg 1.000000e+00 训练精度: 0.216000 验证精度: 0.170000
lr 1.000000e-07 reg 3.593814e+00 训练精度: 0.300000 验证精度: 0.120000
lr 1.000000e-07 reg 1.291550e+01 训练精度: 0.276000 验证精度: 0.150000
lr 1.000000e-07 reg 4.641589e+01 训练精度: 0.304000 验证精度: 0.170000
lr 1.000000e-07 reg 1.668101e+02 训练精度: 0.252000 验证精度: 0.180000
lr 1.000000e-07 reg 5.994843e+02 训练精度: 0.232000 验证精度: 0.170000
lr 1.000000e-07 reg 2.154435e+03 训练精度: 0.224000 验证精度: 0.140000
lr 1.000000e-07 reg 7.742637e+03 训练精度: 0.256000 验证精度: 0.130000
lr 1.000000e-07 reg 2.782559e+04 训练精度: 0.376000 验证精度: 0.240000
lr 1.000000e-07 reg 1.000000e+05 训练精度: 0.500000 验证精度: 0.210000
lr 1.000000e-06 reg 1.000000e+00 训练精度: 0.856000 验证精度: 0.190000
lr 1.000000e-06 reg 3.593814e+00 训练精度: 0.872000 验证精度: 0.200000
lr 1.000000e-06 reg 1.291550e+01 训练精度: 0.864000 验证精度: 0.170000
lr 1.000000e-06 reg 4.641589e+01 训练精度: 0.852000 验证精度: 0.200000
lr 1.000000e-06 reg 1.668101e+02 训练精度: 0.828000 验证精度: 0.190000
lr 1.000000e-06 reg 5.994843e+02 训练精度: 0.868000 验证精度: 0.240000
lr 1.000000e-06 reg 2.154435e+03 训练精度: 0.876000 验证精度: 0.220000
lr 1.000000e-06 reg 7.742637e+03 训练精度: 0.808000 验证精度: 0.240000
lr 1.000000e-06 reg 2.782559e+04 训练精度: 0.600000 验证精度: 0.200000
lr 1.000000e-06 reg 1.000000e+05 训练精度: 0.404000 验证精度: 0.190000
lr 1.000000e-05 reg 1.000000e+00 训练精度: 1.000000 验证精度: 0.230000
lr 1.000000e-05 reg 3.593814e+00 训练精度: 1.000000 验证精度: 0.170000
lr 1.000000e-05 reg 1.291550e+01 训练精度: 1.000000 验证精度: 0.230000
lr 1.000000e-05 reg 4.641589e+01 训练精度: 1.000000 验证精度: 0.210000
lr 1.000000e-05 reg 1.668101e+02 训练精度: 1.000000 验证精度: 0.200000
lr 1.000000e-05 reg 5.994843e+02 训练精度: 0.996000 验证精度: 0.210000
lr 1.000000e-05 reg 2.154435e+03 训练精度: 0.644000 验证精度: 0.200000
lr 1.000000e-05 reg 7.742637e+03 训练精度: 0.460000 验证精度: 0.210000
lr 1.000000e-05 reg 2.782559e+04 训练精度: 0.224000 验证精度: 0.260000
lr 1.000000e-05 reg 1.000000e+05 训练精度: 0.140000 验证精度: 0.080000
lr 1.000000e-04 reg 1.000000e+00 训练精度: 1.000000 验证精度: 0.160000
lr 1.000000e-04 reg 3.593814e+00 训练精度: 1.000000 验证精度: 0.160000
lr 1.000000e-04 reg 1.291550e+01 训练精度: 1.000000 验证精度: 0.220000
lr 1.000000e-04 reg 4.641589e+01 训练精度: 1.000000 验证精度: 0.210000
lr 1.000000e-04 reg 1.668101e+02 训练精度: 0.564000 验证精度: 0.180000
lr 1.000000e-04 reg 5.994843e+02 训练精度: 0.492000 验证精度: 0.190000
lr 1.000000e-04 reg 2.154435e+03 训练精度: 0.160000 验证精度: 0.150000
lr 1.000000e-04 reg 7.742637e+03 训练精度: 0.160000 验证精度: 0.120000
lr 1.000000e-04 reg 2.782559e+04 训练精度: 0.052000 验证精度: 0.050000
lr 1.000000e-04 reg 1.000000e+05 训练精度: 0.092000 验证精度: 0.110000
lr 1.000000e-03 reg 1.000000e+00 训练精度: 1.000000 验证精度: 0.190000
lr 1.000000e-03 reg 3.593814e+00 训练精度: 1.000000 验证精度: 0.180000
lr 1.000000e-03 reg 1.291550e+01 训练精度: 0.700000 验证精度: 0.200000
lr 1.000000e-03 reg 4.641589e+01 训练精度: 0.304000 验证精度: 0.160000
lr 1.000000e-03 reg 1.668101e+02 训练精度: 0.216000 验证精度: 0.180000
lr 1.000000e-03 reg 5.994843e+02 训练精度: 0.116000 验证精度: 0.130000
lr 1.000000e-03 reg 2.154435e+03 训练精度: 0.084000 验证精度: 0.210000
lr 1.000000e-03 reg 7.742637e+03 训练精度: 0.104000 验证精度: 0.100000
lr 1.000000e-03 reg 2.782559e+04 训练精度: 0.112000 验证精度: 0.070000
lr 1.000000e-03 reg 1.000000e+05 训练精度: 0.112000 验证精度: 0.070000
lr 1.000000e-02 reg 1.000000e+00 训练精度: 0.692000 验证精度: 0.190000
lr 1.000000e-02 reg 3.593814e+00 训练精度: 0.380000 验证精度: 0.180000
lr 1.000000e-02 reg 1.291550e+01 训练精度: 0.340000 验证精度: 0.160000
lr 1.000000e-02 reg 4.641589e+01 训练精度: 0.148000 验证精度: 0.090000
lr 1.000000e-02 reg 1.668101e+02 训练精度: 0.112000 验证精度: 0.060000
lr 1.000000e-02 reg 5.994843e+02 训练精度: 0.076000 验证精度: 0.060000
lr 1.000000e-02 reg 2.154435e+03 训练精度: 0.112000 验证精度: 0.070000
lr 1.000000e-02 reg 7.742637e+03 训练精度: 0.112000 验证精度: 0.070000
lr 1.000000e-02 reg 2.782559e+04 训练精度: 0.112000 验证精度: 0.070000
lr 1.000000e-02 reg 1.000000e+05 训练精度: 0.112000 验证精度: 0.070000
lr 1.000000e-01 reg 1.000000e+00 训练精度: 0.292000 验证精度: 0.200000
lr 1.000000e-01 reg 3.593814e+00 训练精度: 0.196000 验证精度: 0.180000
lr 1.000000e-01 reg 1.291550e+01 训练精度: 0.124000 验证精度: 0.110000
lr 1.000000e-01 reg 4.641589e+01 训练精度: 0.116000 验证精度: 0.170000
lr 1.000000e-01 reg 1.668101e+02 训练精度: 0.112000 验证精度: 0.070000
lr 1.000000e-01 reg 5.994843e+02 训练精度: 0.112000 验证精度: 0.070000
lr 1.000000e-01 reg 2.154435e+03 训练精度: 0.112000 验证精度: 0.070000
lr 1.000000e-01 reg 7.742637e+03 训练精度: 0.112000 验证精度: 0.070000
lr 1.000000e-01 reg 2.782559e+04 训练精度: 0.112000 验证精度: 0.070000
lr 1.000000e-01 reg 1.000000e+05 训练精度: 0.112000 验证精度: 0.070000
lr 1.000000e+00 reg 1.000000e+00 训练精度: 0.108000 验证精度: 0.200000
lr 1.000000e+00 reg 3.593814e+00 训练精度: 0.108000 验证精度: 0.050000
lr 1.000000e+00 reg 1.291550e+01 训练精度: 0.112000 验证精度: 0.070000
lr 1.000000e+00 reg 4.641589e+01 训练精度: 0.112000 验证精度: 0.070000
lr 1.000000e+00 reg 1.668101e+02 训练精度: 0.112000 验证精度: 0.070000
lr 1.000000e+00 reg 5.994843e+02 训练精度: 0.112000 验证精度: 0.070000
lr 1.000000e+00 reg 2.154435e+03 训练精度: 0.112000 验证精度: 0.070000
lr 1.000000e+00 reg 7.742637e+03 训练精度: 0.112000 验证精度: 0.070000
lr 1.000000e+00 reg 2.782559e+04 训练精度: 0.112000 验证精度: 0.070000
lr 1.000000e+00 reg 1.000000e+05 训练精度: 0.112000 验证精度: 0.070000
最佳学习率为：1.000000e-05 最佳权重衰减系数为：2.782559e+04 其所对应的验证精度为: 0.260000

import math
# 生成对应的点图
x_scatter = [math.log10(x[0]) for x in results]
y_scatter = [math.log10(x[1]) for x in results]

# 绘制训练数据精度
marker_size = 100
# 生产颜色
colors = [results[x][0] for x in results]
plt.subplot(2, 1, 1)
# 绘制相应点
plt.scatter(x_scatter, y_scatter, marker_size, c=colors)
# 添加颜色柱
plt.colorbar()
plt.xlabel('log learning rate')
plt.ylabel('log regularization strength')
plt.title('CIFAR-10 training accuracy')

# 绘制验证数据精度
colors = [results[x][1] for x in results] 
plt.subplot(2, 1, 2)
# 绘制相应点
plt.scatter(x_scatter, y_scatter, marker_size, c=colors)
# 添加颜色柱
plt.colorbar()
plt.xlabel('log learning rate')
plt.ylabel('log regularization strength')
plt.title('CIFAR-10 validation accuracy')
# 自动布局
plt.tight_layout()
plt.show()

从可视化结果可以清晰地看出，学习率大约在[1e-6, 1e-4]之间效果显著，惩罚因子在[1e0, 1e4]之间效果较好，并且惩罚因子越小可能效果越好。因此我们下一步就在这个范围内继续缩小。

#使用验证集调整超参数(权重衰减因子，学习率)
from classifiers.chapter2.softmax import *
results = {
     }
best_val = -1
best_l = 0
best_r = 0
best_softmax = None
learning_rates=np.logspace(-6, -4, num=10)
regularization_strengths=np.logspace(-1, 4, num=5)
batch_size = [50]
num_iters  = [300]

for b in batch_size:
    for n in num_iters:
        for l in learning_rates:
            for r in regularization_strengths:
                softmax = Softmax()
                loss_hist = softmax.train(X_sample, y_sample,
                                         learning_rate=l, reg=r,
                                         num_iters=n,batch_size=b, verbose=False)
                y_train_pred = softmax.predict(X_sample)
                train_accuracy= np.mean(y_sample == y_train_pred)
                y_val_pred = softmax.predict(X_val)
                val_accuracy= np.mean(y_val == y_val_pred)
                results[(l,r)]=(train_accuracy,val_accuracy)
                if (best_val < val_accuracy):
                    best_val = val_accuracy
                    best_softmax = softmax
                    best_l =l
                    best_r =r

    
print('最佳学习率为：%e 最佳权重衰减系数为：%e 其所对应的验证精度为: %f' % (best_l,best_r,best_val))

D:\workspace\Python\jupyter\深度学习实战范例\DLAction\classifiers\chapter2\softmax_loss.py:111: RuntimeWarning: divide by zero encountered in log
  loss += -np.sum(y_trueClass*np.log(prob))/num_train+0.5*reg*np.sum(W*W)
D:\workspace\Python\jupyter\深度学习实战范例\DLAction\classifiers\chapter2\softmax_loss.py:111: RuntimeWarning: invalid value encountered in multiply
  loss += -np.sum(y_trueClass*np.log(prob))/num_train+0.5*reg*np.sum(W*W)


最佳学习率为：1.291550e-05 最佳权重衰减系数为：1.000000e+04 其所对应的验证精度为: 0.240000

import math
x_scatter = [math.log10(x[0]) for x in results]
y_scatter = [math.log10(x[1]) for x in results]


# 绘制训练数据精度
marker_size = 100
colors = [results[x][0] for x in results]
plt.subplot(2, 1, 1)
plt.scatter(x_scatter, y_scatter, marker_size, c=colors)
plt.colorbar()
plt.xlabel('log learning rate')
plt.ylabel('log regularization strength')
plt.title('CIFAR-10 training accuracy')

#绘制验证数据精度
colors = [results[x][1] for x in results] 
plt.subplot(2, 1, 2)
plt.scatter(x_scatter, y_scatter, marker_size, c=colors)
plt.colorbar()
plt.xlabel('log learning rate')
plt.ylabel('log regularization strength')
plt.title('CIFAR-10 validation accuracy')
# 自动布局
plt.tight_layout()
plt.show()

继续缩小参数范围。

#使用验证集调整超参数(权重衰减因子，学习率)
from classifiers.chapter2.softmax import *
results = {
     }
best_val = -1
best_l = 0
best_r = 0
best_softmax = None
learning_rates=np.logspace(-5, -4, num=10)
regularization_strengths=np.logspace(-2, 3, num=5)
batch_size = [50]
num_iters  = [300]

for b in batch_size:
    for n in num_iters:
        for l in learning_rates:
            for r in regularization_strengths:
                softmax = Softmax()
                loss_hist = softmax.train(X_sample, y_sample, learning_rate=l,
                                         reg=r,num_iters=n,batch_size=b, verbose=False)
                y_train_pred = softmax.predict(X_sample)
                train_accuracy= np.mean(y_sample == y_train_pred)
                y_val_pred = softmax.predict(X_val)
                val_accuracy= np.mean(y_val == y_val_pred)
                results[(l,r)]=(train_accuracy,val_accuracy)
                if (best_val < val_accuracy):
                    best_val = val_accuracy
                    best_softmax = softmax
                    best_l =l
                    best_r =r
    
print('最佳学习率为：%e 最佳权重衰减系数为：%e 其所对应的验证精度为: %f' % (best_l,best_r,best_val))

最佳学习率为：1.000000e-05 最佳权重衰减系数为：3.162278e+00 其所对应的验证精度为: 0.230000

import math
x_scatter = [math.log10(x[0]) for x in results]
y_scatter = [math.log10(x[1]) for x in results]

marker_size = 100
colors = [results[x][0] for x in results]
plt.subplot(2, 1, 1)
plt.scatter(x_scatter, y_scatter, marker_size, c=colors)
plt.colorbar()
plt.xlabel('log learning rate')
plt.ylabel('log regularization strength')
plt.title('CIFAR-10 training accuracy')


colors = [results[x][1] for x in results] 
plt.subplot(2, 1, 2)
plt.scatter(x_scatter, y_scatter, marker_size, c=colors)
plt.colorbar()
plt.xlabel('log learning rate')
plt.ylabel('log regularization strength')
plt.title('CIFAR-10 validation accuracy')
# 自动布局
plt.tight_layout()
plt.show()

#在测试数据集上评估最佳softmax分类器
y_test_pred = best_softmax.predict(X_test)
test_accuracy = np.mean(y_test == y_test_pred)
print('测试集精度: %f' % test_accuracy)

测试集精度: 0.234500

我们观察到效果并不理想，这是因为我们训练的数据量实在是太小了。

数据量提升可以避免过拟合现象的发生，但同时也使得我们在选择超参数时耗时耗力。因此我们可以先使用较小的数据去粗略地选择超参数的取值范围，这样可以节约训练时间。但是在较小数据中表现最好的超参数，不一定在数据量较大时同样表现得更好，因此需要注意数据量的把控，但这是一个非常以来于经验的一个问题，需要从大量的实验中自己积累敬仰，进行不断地尝试。记住，千万不要怕错。

def get_CIFAR10_data(num_training=49000, num_validation=1000, num_test=10000):
    cifar10_dir = 'datasets/cifar-10-batches-py'
    X_train, y_train, X_test, y_test = load_CIFAR10(cifar10_dir) 
    mask = range(num_training, num_training + num_validation)
    X_val = X_train[mask]
    y_val = y_train[mask]
    mask = range(num_training)
    X_train = X_train[mask]
    y_train = y_train[mask]
    mask = range(num_test)
    X_test = X_test[mask]
    y_test = y_test[mask]    
    X_train = np.reshape(X_train, (X_train.shape[0], -1))
    X_val = np.reshape(X_val, (X_val.shape[0], -1))
    X_test = np.reshape(X_test, (X_test.shape[0], -1))    
    mean_image = np.mean(X_train, axis = 0)
    X_train -= mean_image
    X_val -= mean_image
    X_test -= mean_image
    X_train = np.hstack([X_train, np.ones((X_train.shape[0], 1))])
    X_val = np.hstack([X_val, np.ones((X_val.shape[0], 1))])
    X_test = np.hstack([X_test, np.ones((X_test.shape[0], 1))]) 
    return X_train, y_train, X_val, y_val, X_test, y_test


X_train, y_train, X_val, y_val, X_test, y_test = get_CIFAR10_data()
print ('Train data shape: ', X_train.shape)
print ('Train labels shape: ', y_train.shape)
print ('Validation data shape: ', X_val.shape)
print ('Validation labels shape: ', y_val.shape)
print ('Test data shape: ', X_test.shape)
print ('Test labels shape: ', y_test.shape)

Train data shape:  (49000, 3073)
Train labels shape:  (49000,)
Validation data shape:  (1000, 3073)
Validation labels shape:  (1000,)
Test data shape:  (10000, 3073)
Test labels shape:  (10000,)

from classifiers.chapter2.softmax  import Softmax
results = {
     }
best_val = -1
best_softmax = None
################################################################################
#                            任务:                                             #
#               使用全部训练数据训练一个最佳softmax                            #
################################################################################
learning_rates = [1.4e-7, 1.45e-7, 1.5e-7, 1.55e-7, 1.6e-7]  #学习率
regularization_strengths = [2.3e4, 2.6e4, 2.7e4, 2.8e4, 2.9e4]  #权重衰减因子
for l in learning_rates:
    for r in regularization_strengths:
        softmax = Softmax()
        loss_hist = softmax.train(X_train, y_train, learning_rate=l, 
                                  reg=r,num_iters=2000, verbose=True)
        y_train_pred = softmax.predict(X_train)
        train_accuracy= np.mean(y_train == y_train_pred)
        y_val_pred = softmax.predict(X_val)
        val_accuracy= np.mean(y_val == y_val_pred)
        results[(l,r)]=(train_accuracy,val_accuracy)
        if (best_val < val_accuracy):
            best_val = val_accuracy
            best_softmax = softmax
################################################################################
#                            结束编码                                          #
################################################################################

for lr, reg in sorted(results):
    train_accuracy, val_accuracy = results[(lr, reg)]
    print('lr %e reg %e train accuracy: %f val accuracy: %f' % (
                lr, reg, train_accuracy, val_accuracy))
    
print('最佳验证精度为: %f' % best_val)

迭代次数 0 / 2000: loss 362.275538
迭代次数 500 / 2000: loss 15.973378
迭代次数 1000 / 2000: loss 2.563832
迭代次数 1500 / 2000: loss 2.039525
迭代次数 0 / 2000: loss 402.579894
迭代次数 500 / 2000: loss 12.217043
迭代次数 1000 / 2000: loss 2.312635
迭代次数 1500 / 2000: loss 2.033261
迭代次数 0 / 2000: loss 420.798641
迭代次数 500 / 2000: loss 11.346001
迭代次数 1000 / 2000: loss 2.314607
迭代次数 1500 / 2000: loss 2.044269
迭代次数 0 / 2000: loss 440.503492
迭代次数 500 / 2000: loss 10.521333
迭代次数 1000 / 2000: loss 2.191913
迭代次数 1500 / 2000: loss 2.124927
迭代次数 0 / 2000: loss 453.308193
迭代次数 500 / 2000: loss 9.689195
迭代次数 1000 / 2000: loss 2.130514
迭代次数 1500 / 2000: loss 2.027209
迭代次数 0 / 2000: loss 362.176210
迭代次数 500 / 2000: loss 14.451922
迭代次数 1000 / 2000: loss 2.447913
迭代次数 1500 / 2000: loss 2.041807
迭代次数 0 / 2000: loss 402.706053
迭代次数 500 / 2000: loss 11.013674
迭代次数 1000 / 2000: loss 2.216208
迭代次数 1500 / 2000: loss 2.032448
迭代次数 0 / 2000: loss 421.450555
迭代次数 500 / 2000: loss 10.149416
迭代次数 1000 / 2000: loss 2.186461
迭代次数 1500 / 2000: loss 2.062753
迭代次数 0 / 2000: loss 431.157711
迭代次数 500 / 2000: loss 9.254785
迭代次数 1000 / 2000: loss 2.161939
迭代次数 1500 / 2000: loss 1.991775
迭代次数 0 / 2000: loss 444.492450
迭代次数 500 / 2000: loss 8.409564
迭代次数 1000 / 2000: loss 2.136935
迭代次数 1500 / 2000: loss 1.971083
迭代次数 0 / 2000: loss 362.221476
迭代次数 500 / 2000: loss 13.076090
迭代次数 1000 / 2000: loss 2.398948
迭代次数 1500 / 2000: loss 1.981336
迭代次数 0 / 2000: loss 404.341723
迭代次数 500 / 2000: loss 9.917005
迭代次数 1000 / 2000: loss 2.178486
迭代次数 1500 / 2000: loss 1.977197
迭代次数 0 / 2000: loss 422.058121
迭代次数 500 / 2000: loss 9.169317
迭代次数 1000 / 2000: loss 2.147070
迭代次数 1500 / 2000: loss 2.085903
迭代次数 0 / 2000: loss 430.965383
迭代次数 500 / 2000: loss 8.230988
迭代次数 1000 / 2000: loss 2.127792
迭代次数 1500 / 2000: loss 1.982288
迭代次数 0 / 2000: loss 449.796595
迭代次数 500 / 2000: loss 7.626812
迭代次数 1000 / 2000: loss 2.066997
迭代次数 1500 / 2000: loss 2.038826
迭代次数 0 / 2000: loss 355.354397
迭代次数 500 / 2000: loss 11.726022
迭代次数 1000 / 2000: loss 2.327054
迭代次数 1500 / 2000: loss 1.960372
迭代次数 0 / 2000: loss 408.173326
迭代次数 500 / 2000: loss 8.995592
迭代次数 1000 / 2000: loss 2.188157
迭代次数 1500 / 2000: loss 2.035182
迭代次数 0 / 2000: loss 416.190544
迭代次数 500 / 2000: loss 8.098396
迭代次数 1000 / 2000: loss 2.138810
迭代次数 1500 / 2000: loss 2.016468
迭代次数 0 / 2000: loss 435.709668
迭代次数 500 / 2000: loss 7.583673
迭代次数 1000 / 2000: loss 2.123043
迭代次数 1500 / 2000: loss 2.050762
迭代次数 0 / 2000: loss 455.764297
迭代次数 500 / 2000: loss 6.993459
迭代次数 1000 / 2000: loss 2.058059
迭代次数 1500 / 2000: loss 1.998903
迭代次数 0 / 2000: loss 360.201729
迭代次数 500 / 2000: loss 10.908834
迭代次数 1000 / 2000: loss 2.237939
迭代次数 1500 / 2000: loss 2.049242
迭代次数 0 / 2000: loss 406.568389
迭代次数 500 / 2000: loss 8.150559
迭代次数 1000 / 2000: loss 2.124073
迭代次数 1500 / 2000: loss 2.041791
迭代次数 0 / 2000: loss 418.556158
迭代次数 500 / 2000: loss 7.397969
迭代次数 1000 / 2000: loss 2.090971
迭代次数 1500 / 2000: loss 2.099561
迭代次数 0 / 2000: loss 434.558226
迭代次数 500 / 2000: loss 6.857017
迭代次数 1000 / 2000: loss 2.133622
迭代次数 1500 / 2000: loss 2.058132
迭代次数 0 / 2000: loss 444.248523
迭代次数 500 / 2000: loss 6.207619
迭代次数 1000 / 2000: loss 2.031800
迭代次数 1500 / 2000: loss 1.994766
lr 1.400000e-07 reg 2.300000e+04 train accuracy: 0.351163 val accuracy: 0.367000
lr 1.400000e-07 reg 2.600000e+04 train accuracy: 0.349898 val accuracy: 0.365000
lr 1.400000e-07 reg 2.700000e+04 train accuracy: 0.347102 val accuracy: 0.360000
lr 1.400000e-07 reg 2.800000e+04 train accuracy: 0.344673 val accuracy: 0.359000
lr 1.400000e-07 reg 2.900000e+04 train accuracy: 0.345122 val accuracy: 0.355000
lr 1.450000e-07 reg 2.300000e+04 train accuracy: 0.352020 val accuracy: 0.364000
lr 1.450000e-07 reg 2.600000e+04 train accuracy: 0.345939 val accuracy: 0.362000
lr 1.450000e-07 reg 2.700000e+04 train accuracy: 0.340673 val accuracy: 0.355000
lr 1.450000e-07 reg 2.800000e+04 train accuracy: 0.350980 val accuracy: 0.359000
lr 1.450000e-07 reg 2.900000e+04 train accuracy: 0.347735 val accuracy: 0.361000
lr 1.500000e-07 reg 2.300000e+04 train accuracy: 0.350551 val accuracy: 0.366000
lr 1.500000e-07 reg 2.600000e+04 train accuracy: 0.348245 val accuracy: 0.362000
lr 1.500000e-07 reg 2.700000e+04 train accuracy: 0.347898 val accuracy: 0.363000
lr 1.500000e-07 reg 2.800000e+04 train accuracy: 0.344327 val accuracy: 0.352000
lr 1.500000e-07 reg 2.900000e+04 train accuracy: 0.345857 val accuracy: 0.360000
lr 1.550000e-07 reg 2.300000e+04 train accuracy: 0.352531 val accuracy: 0.368000
lr 1.550000e-07 reg 2.600000e+04 train accuracy: 0.347714 val accuracy: 0.359000
lr 1.550000e-07 reg 2.700000e+04 train accuracy: 0.348286 val accuracy: 0.354000
lr 1.550000e-07 reg 2.800000e+04 train accuracy: 0.345224 val accuracy: 0.370000
lr 1.550000e-07 reg 2.900000e+04 train accuracy: 0.350837 val accuracy: 0.376000
lr 1.600000e-07 reg 2.300000e+04 train accuracy: 0.349327 val accuracy: 0.366000
lr 1.600000e-07 reg 2.600000e+04 train accuracy: 0.350327 val accuracy: 0.366000
lr 1.600000e-07 reg 2.700000e+04 train accuracy: 0.345673 val accuracy: 0.356000
lr 1.600000e-07 reg 2.800000e+04 train accuracy: 0.352796 val accuracy: 0.358000
lr 1.600000e-07 reg 2.900000e+04 train accuracy: 0.345510 val accuracy: 0.360000
最佳验证精度为: 0.376000

y_test_pred = best_softmax.predict(X_test)
test_accuracy = np.mean(y_test == y_test_pred)
print('测试集精度: %f' % test_accuracy)

测试集精度: 0.354200

另一种直观检验模型好坏的方法是可视化模型参数，比如我们识别图片“马”，那模型的参数其实就是图片的“马模板”，也可以通过可视化参数来反推数据情况。比如我们的图片汇总如果存在大量“马头向左”与“马头向右”的图片，那训练出来的模型参数很可能就变成了“双头马”。同理，如果图片中汽车的颜色大多数都是红色，那训练出的模型就可能是一辆“红车模板”。

# 可视化学习到的参数
w = best_softmax.W[:-1,:] # 移除偏置项
w = w.reshape(32, 32, 3, 10)

w_min, w_max = np.min(w), np.max(w)

classes = ['plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']
for i in range(10):
    plt.subplot(2, 5, i + 1)
    #将权重缩放回0-255
    wimg = 255.0 * (w[:, :, :, i].squeeze() - w_min) / (w_max - w_min)
    plt.imshow(wimg.astype('uint8'))
    plt.axis('off')
    plt.title(classes[i])

你可能感兴趣的:(Python,深度学习,机器学习,1024程序员节,python,深度学习)

Python 网络爬虫的基本流程及 robots 协议详解女码农的重启 python 网络爬虫 JAVA 开发语言
数据驱动的时代，网络爬虫作为高效获取互联网信息的工具，其规范化开发离不开对基本流程的掌握和对robots协议的遵守。本文将系统梳理Python网络爬虫的核心流程，并深入解读robots协议的重要性及实践规范。一、Python网络爬虫的基本流程Python网络爬虫的工作过程可分为四个核心阶段，每个阶段环环相扣，共同构成数据采集的完整链路。1.1发起网络请求这是爬虫与目标服务器交互的第一步，通过发送H
python中的pydantic是什么？ John Song Python python 前端开发语言 pydantic
Pydantic是Python中一个用于数据验证和设置管理的库，主要通过Python类型注解（TypeHints）来定义数据结构，并自动验证输入数据的合法性。它广泛应用于API开发（如FastAPI）、配置管理、数据序列化等场景。核心功能数据验证自动检查输入数据是否符合类型和约束条件（如字符串长度、数字范围等）。类型转换将原始数据（如JSON、字典）转换为Python类型（如datetime、En
python视频工具包 ffmpeg 使用示例 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
量化价值投资中的深度学习技术：TensorFlow实战
量化价值投资中的深度学习技术：TensorFlow实战关键词：量化价值投资,深度学习,TensorFlow,股票预测,因子模型,LSTM神经网络,量化策略摘要：本文将带你走进"量化价值投资"与"深度学习"的交叉地带，用小学生都能听懂的语言解释复杂概念，再通过手把手的TensorFlow实战案例，教你如何用AI技术挖掘股票市场中的价值宝藏。我们会从传统价值投资的痛点出发，揭示深度学习如何像"超级分析
python汇率_用Python抓取汇率
抓取的是中行的数据:网址代码#-*-coding:utf-8-*-importreimporturllib.requesturl='http://www.boc.cn/sourcedb/whpj/index.html'#网址req=urllib.request.Request(url)response=urllib.request.urlopen(req)the_page=response.rea
python抓取汇率_09 使用Python爬取中国银行网站选择汇率最坑的一天
爬取2018年8月27日~9月2日的欧元汇率。先说结论：如果是现汇卖出价，可以选择2018-08-3109:19:26，现钞卖出价805.28。我刚问了报销过的人她说任选都行，可以不是中行折算价。最近出差，学校可以以人民币的形式报销路费、住宿费，汇率，可以任选出差期间的任何一天任何时候的中国银行的汇率，中国银行网站上的汇率长这样：如果想要合理利用规则，多回一点本，不妨选择汇率最坑的一天(默默给财务
爬虫小结 Crescent_P python小项目 python 数据分析
python爬虫小组作业上周布置了python的小组作业,每一组要求爬取老师指定的信息,本组抽到的题目如下:从中国银行网址：http://www.boc.cn/sourcedb/whpj/获取主要外汇（美元、欧元、英镑、加拿大元、澳大利亚元、日元、韩元、新台币、澳门元和港币）的牌价信息，计算出它们的每天平均价。要求把今年5月份每天平均价格保存到Excel文件中，每种外汇的数据保存在一个工作表中，并
Python 爬虫实战：抓取华尔街日报付费文章摘要的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的信息时代，获取高质量的新闻内容对于研究、投资和决策具有重要意义。《华尔街日报》（TheWallStreetJournal，简称WSJ）作为国际知名的财经媒体，其文章内容备受关注。然而，WSJ的大部分内容属于付费订阅，普通用户无法直接访问。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，抓取WSJ的付费文章摘要。一、了解目标网站结构1.1WSJ网站结构分析WSJ的官方
Python爬虫实战：使用最新技术爬取头条新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言：Python爬虫在现代数据获取中的重要性在当今信息爆炸的时代，数据已经成为最宝贵的资源之一。作为数据获取的重要手段，网络爬虫技术在各个领域发挥着越来越重要的作用。Python凭借其简洁的语法、丰富的库生态系统和强大的社区支持，已经成为网络爬虫开发的首选语言。本文将详细介绍如何使用Python及其最新的爬虫技术来爬取头条新闻数据。我们将从基础概念讲起，逐步深入到高级技巧，最后给出完整的爬虫
Python爬虫实战：爬取ETF基金持仓变化 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
1.项目背景ETF（Exchange-TradedFund，交易型开放式指数基金）作为一种在交易所上市交易的基金，其持仓信息对于投资者具有重要参考价值。了解ETF的持仓变化，可以帮助投资者判断市场趋势和资金流向。本文将通过Python爬虫技术，自动化地获取ETF基金的持仓变化数据，进行存储和分析。2.技术选型与环境准备2.1技术选型编程语言：Python3.8+爬虫框架：Scrapy数据解析：Be
【Python】（一）面试题和Py基础题戏精亿点点菜 python 开发语言
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（TransmissionControlProtocol，传输控制协议）提供的是面向连接，可靠的字节流服务。即客户和服务器交换数据前，必须现在双方之间建立一个TCP连接，之后才能传输数据。并且提供超时重发，丢弃重复数据，检验数据，流量控制等功能，保证数据能从一端传到另一端。UDP（UserDataProtocol，用户数据报协议）是一个简单
Python 爬虫实战：实时采集外汇汇率数据的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的金融市场中，外汇汇率的实时数据对于投资者、企业和研究人员来说至关重要。通过自动化的方式获取这些数据，不仅可以提高效率，还能为决策提供及时的支持。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，实时采集外汇汇率数据。一、外汇汇率数据的获取途径1.1使用官方API接口许多金融机构和数据提供商提供了官方的API接口，供开发者获取外汇汇率数据。例如：AlphaVantage
ResNet：深度卷积神经网络的里程碑心想事“程” 小知识点 cnn 人工智能神经网络
一、引言在深度学习的发展历程中，深度卷积神经网络（CNN）不断演进，旨在提升对图像等数据的特征提取与分类能力。然而，随着网络层数的增加，传统CNN面临着梯度消失、梯度爆炸以及退化等棘手问题，训练变得愈发困难。2015年，由微软研究院提出的ResNet（ResidualNetworks，残差网络）横空出世，它以独特的残差学习思想，成功攻克了这些难题，在ImageNet竞赛中大放异彩，开创了深度神经网
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南一、项目概述大家好！今天给大家带来一个干货满满的实战项目——基于ESP32S3硬件和Python后端的智能语音助手系统。这个项目将物联网技术与AI技术完美结合，打造一个可以实时对话、意图识别的智能语音交互系统。相比传统的离线语音系统只能识别固定命令词，我们这套系统可以：实现自然语言理解，支持多种表达方式无需预设固定命令词，更
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
卷积神经网络架构的演进：从AlexNet到EfficientNet t0_54manong 大数据与人工智能 cnn 架构人工智能个人开发
在过去的8.5年里，深度学习取得了飞速的进步。回溯到2012年，AlexNet在ImageNet上的Top-1准确率仅为63.3%，而如今，借助EfficientNet架构和师生训练法，我们已经能达到超过90%的准确率。本文将聚焦于卷积神经网络（CNN）架构的演变，深入探究其背后的基本原理。一些关键术语在深入了解各种架构之前，我们需要明确几个关键术语。更宽的网络意味着卷积层中有更多的特征图（滤波器
Python 领域 pytest 的测试用例的可维护性设计
Python领域pytest的测试用例的可维护性设计关键词：pytest、测试用例、可维护性、测试框架、自动化测试、测试设计模式、重构摘要：本文深入探讨了如何在Python测试框架pytest中设计可维护的测试用例。我们将从测试用例可维护性的核心原则出发，分析pytest的特性和最佳实践，介绍多种提高测试代码可维护性的设计模式和技巧。文章包含实际代码示例、项目实战案例以及可维护性评估指标，帮助开发
Python爬虫小白入门指南，成为大牛必须经历的三个阶段
学习任何一门技术，都应该带着目标去学习，目标就像一座灯塔，指引你前进，很多人学着学着就学放弃了，很大部分原因是没有明确目标，所以，一定要明确学习目的，在你准备学爬虫前，先问问自己为什么要学习爬虫。有些人是为了一份工作，有些人是为了好玩，也有些人是为了实现某个黑科技功能。不过可以肯定的是，学会了爬虫能给你的工作提供很多便利。小白入门必读作为零基础小白，大体上可分为三个阶段去实现。第一阶段是入门，掌握
python 包管理工具uv
uv--versionuvpythonfinduvpythonlistexportUV_DEFAULT_INDEX="https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"#换成私有的repoexportUV_HTTP_TIMEOUT=120uvpythoninstall3.12uvvenvmyenv--python3.12--seeduvhtt
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
Python 包管理工具（uv） cliffordl python python uv 开发语言
Python虚拟环境（conda）Python虚拟环境（venv）Python包管理工具（uv）文章目录1.uv的特点2.安装uv2.1.使用官方推荐方式2.2.使用pip安装（Python>=3.8）2.3.使用conda/mamba安装3.基本使用方法3.1.初始化项目并创建虚拟环境3.1.1.CMD运行结果3.1.2.VScode运行结果3.2.安装依赖3.3.生成依赖文件3.4.使用pyp
Python协程从入门到精通：9个案例解析yield、gevent与asyncio实战 python_chai Python python 开发语言协程并发 yield生成器 gerrnlet gevent
引言痛点分析：传统多线程在高并发场景下的性能瓶颈。协程优势：轻量级、高并发、低资源消耗。本文目标：通过9个代码案例，系统讲解协程的核心技术和应用场景。目录引言1.协程基础：理解yield生成器1.1yield的暂停与恢复机制1.2生产者-消费者模型实战1.3双向通信：send()方法详解2.手动协程控制：greenlet进阶2.1greenlet的显式切换原理2.2多任务协作案例3.自动化协程：g
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
Python 爬虫实战：精准抓取母婴电商平台数据，深入分析用户评价洞察市场趋势程序员威哥最新爬虫实战项目 python 爬虫开发语言
前言随着生活水平的提高，越来越多的年轻父母开始关注母婴产品的质量和品牌。而母婴电商平台成为了他们选择和购买产品的主要渠道之一。母婴产品市场也因此变得异常活跃且充满竞争。在这样的市场环境下，用户评价不仅反映了产品的实际质量，也揭示了消费者的需求和偏好，成为品牌决策的核心依据之一。Python爬虫是获取电商平台用户评价数据、产品详情、价格等关键信息的强大工具。通过抓取和分析这些数据，品牌商可以实时了解
*Python爬虫应用：从社交媒体数据中提取有价值的用户行为洞察程序员威哥 python 爬虫媒体
引言在现代数字化时代，社交媒体已成为获取用户行为数据的重要来源。每秒钟，数百万条信息在平台上传播，用户的互动行为——点赞、评论、分享、关注等，构成了大量宝贵的行为数据。企业和个人通过分析这些数据，不仅可以理解用户需求、改进产品，还能精准制定营销策略。然而，如何高效地抓取、分析并从中提取有价值的用户行为洞察？这正是Python爬虫和数据分析技术的优势所在。本文将介绍如何利用Python爬虫从社交媒体
Python异步编程终极指南：用协程与事件循环重构你的高并发系统
title:Python异步编程终极指南：用协程与事件循环重构你的高并发系统date:2025/2/24updated:2025/2/24author:cmdragonexcerpt:深入剖析Python异步编程的核心机制。你将掌握：\n事件循环的底层实现原理与调度算法\nasync/await协程的6种高级用法模式\n异步HTTP请求的性能优化技巧（速度提升15倍+）\n常见异步陷阱的26种解决
python 异步编程：协程与 asyncio 花_城 Python 开发语言后端异步协程
文章目录一、协程（coroutine）1.1协程的概念1.2实现协程的方式二、asyncio异步编程2.1事件循环2.2快速上手2.3运行协程2.4await关键字2.5可等待对象2.5.1协程2.5.2任务（Task）2.5.3asyncio.Future三、concurrent.futures.Future（补充）3.1爬虫案例（asyncio+不支持异步的模块）四、asyncio异步迭代器五
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
Python面试题：Python中的异步编程：详细讲解asyncio库的使用超哥同学 Python系列 python 开发语言面试编程
Python的异步编程是实现高效并发处理的一种方法，它使得程序能够在等待I/O操作时继续执行其他任务。在Python中，asyncio库是实现异步编程的主要工具。asyncio提供了一种机制来编写可以在单线程内并发执行的代码，适用于I/O密集型任务。以下是对asyncio库的详细讲解，包括基本概念、用法、示例以及注意事项。1.基本概念1.1协程（Coroutines）协程是一个特殊的函数，它可以被
Python 爬虫实战：如何搭建高效的分布式爬虫架构，突破数据抓取极限程序员威哥 python 爬虫分布式
随着互联网数据量的飞速增长，单一爬虫在抓取大量数据时的效率和稳定性往往无法满足需求。在这种情况下，分布式爬虫架构应运而生。分布式爬虫通过多节点并行工作，可以大大提高数据抓取的速度，同时减少单点故障的风险。本文将深入探讨如何使用Python构建一个高效的分布式爬虫架构，从架构设计到技术实现，帮助你突破数据抓取的极限。一、什么是分布式爬虫？分布式爬虫系统将爬虫任务拆分为多个子任务，分布到不同的服务器或
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

《深度学习实战》第2章 机器学习快速入门