府学路18号车神

【进阶篇】全流程学习《20天掌握Pytorch实战》纪实 | Day02 | 图片数据建模流程范例

作者简介：大家好，我是车神哥，府学路18号的车神
⚡About—>车神：从寝室到实验室最快3分钟，最慢3分半（那半分钟其实是等红绿灯）
个人主页：车手只需要车和手，压力来自论文_府学路18号车神_CSDN博客
官方认证：人工智能领域优质创作者
点赞➕评论➕收藏 == 养成习惯（一键三连）

⚡希望大家多多支持~一起加油

专栏

《20天掌握Pytorch实战》

不定期学习《20天掌握Pytorch实战》，有兴趣就跟着专栏一起吧~

开源自由，知识无价~

最近读Paper，发现有很多提出的改进和创新都存在很多trick，无法复现。看到一句话，真的很戳搞科研的心，但也很现实：

很多的邻域门槛很低，当某一天那些灌水的paper干不过在网络搜出来的东西，那么这波人也就自动消失了。我们到底应不应该花大量的时间阅读那些最新的研究？应该，但更多的时候，它们不配。

图片数据建模流程范例

前言：torch和torchvision安装
概览
一、准备数据
二、定义模型
三、训练模型
四、评估模型
五、使用模型
六、保存模型
Reference

前言：torch和torchvision安装

由于我是在PyCharm中进行实验的，所以需要自行安装torch的库，和其他的库安装一样，直接在Terminal中pip就OK了。

pip install torch
pip install torchvision -i https://pypi.tuna.tsinghua.edu.cn/simple/
整个安装过程可能有点慢，包也比较大，耐心等待即可。

如果是使用Jupyter notebook的同学，可以直接使用。（mac系统上pytorch和matplotlib在jupyter中同时跑需要更改环境变量）

所用到的源代码及书籍+数据集以帮各位小伙伴下载放在文末，自取即可~

概览

一、准备数据

老规矩，后面模型的history需要获取每次迭代的时间，下面的打印时间代码必备~

import os
import datetime

#打印时间
def printbar():
    nowtime = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')
    print("\n"+"=========="*8 + "%s"%nowtime)

#mac系统上pytorch和matplotlib在jupyter中同时跑需要更改环境变量
os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"

cifar2数据集为cifar10数据集的子集，只包括前两种类别airplane和automobile。

训练集有airplane和automobile图片各5000张，测试集有airplane和automobile图片各1000张。

cifar2任务的目标是训练一个模型来对飞机airplane和机动车automobile两种图片进行分类。

我们准备的Cifar2数据集的文件结构如下所示。

在Pytorch中构建图片数据管道通常有两种方法。

第一种是使用 torchvision中的datasets.ImageFolder来读取图片然后用 DataLoader来并行加载。
第二种是通过继承 torch.utils.data.Dataset 实现用户自定义读取逻辑然后用 DataLoader来并行加载。
第二种方法是读取用户自定义数据集的通用方法，既可以读取图片数据集，也可以读取文本数据集。

文档中只介绍了第一种方法，那就直接搞起来吧~

和上一篇的数据构建有所不同

导入库

import torch 
from torch import nn
from torch.utils.data import Dataset,DataLoader
from torchvision import transforms,datasets

有的小伙伴可能也没有安装torchvision，下面给出安装的指令，同样也是在terminal命令行：

pip install torchvision -i https://pypi.tuna.tsinghua.edu.cn/simple/

国内由于网速的限制，使用命令安装时需在后面加上清华的镜像，这样下载速度会大大提升，安装更容易成功。

下面简单介绍一下torchvision ：

torchvision 是PyTorch中专门用来处理图像的库。这个包中有四个大类。

torchvision.datasets: 用来进行数据加载的，PyTorch团队在这个包中帮我们提前处理好了很多很多图片数据集。

torchvision.models: 为我们提供了已经训练好的模型，让我们可以加载之后，直接使用。

torchvision.transforms: 提供了一般的图像转换操作类

torchvision.utils：数据处理工作箱，包括四个类，具体可以参考这里。

划分数据集

transform_train = transforms.Compose(
    [transforms.ToTensor()])
transform_valid = transforms.Compose(
    [transforms.ToTensor()])

ds_train = datasets.ImageFolder("./data/cifar2/train/",
            transform = transform_train,target_transform= lambda t:torch.tensor([t]).float())	# 训练集构建
ds_valid = datasets.ImageFolder("./data/cifar2/test/",
            transform = transform_train,target_transform= lambda t:torch.tensor([t]).float())   # 验证集构建

print(ds_train.class_to_idx)		# 输出训练集的类别与index，按顺序为这些类别定义索引为0,1...

关于ImageFolder

ImageFolder是一个通用的数据加载器，它要求我们以下面这种格式来组织数据集的训练、验证或者测试图片。

参数解析：

dataset=torchvision.datasets.ImageFolder(
                       root, transform=None, 
                       target_transform=None, 
                       loader=<function default_loader>, 
                       is_valid_file=None)

root：图片存储的根目录，即各类别文件夹所在目录的上一级目录。
transform：对图片进行预处理的操作（函数），原始图片作为输入，返回一个转换后的图片。
target_transform：对图片类别进行预处理的操作，输入为 target，输出对其的转换。如果不传该参数，即对 target 不做任何转换，返回的顺序索引 0,1, 2…
loader：表示数据集加载方式，通常默认加载方式即可。
is_valid_file：获取图像文件的路径并检查该文件是否为有效文件的函数(用于检查损坏文件)

返回的dataset都有以下三种属性：

self.classes：用一个 list 保存类别名称
self.class_to_idx：类别对应的索引，与不做任何转换返回的 target 对应
self.imgs：保存(img-path, class) tuple的 list

运行结果：

{'0_airplane': 0, '1_automobile': 1}

加载数据

dl_train = DataLoader(ds_train,batch_size = 50,shuffle = True,num_workers=0)	# ds_train表示加载的数据集；batch_size:每批次加载了50个样本；num_workers:加载数据的子进程数有3个
dl_valid = DataLoader(ds_valid,batch_size = 50,shuffle = True,num_workers=0)    # 验证集的数据加载如上

用到了torch.utils.data.DataLoader

DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, batch_sampler=None, num_workers=0, collate_fn=, pin_memory=False, drop_last=False, timeout=0, worker_init_fn=None)

参数说明：

dataset (Dataset): 加载数据的数据集

batch_size (int, optional): 每批加载多少个样本

shuffle (bool, optional): 设置为“真”时,在每个epoch对数据打乱.（默认：False）

sampler (Sampler, optional): 定义从数据集中提取样本的策略,返回一个样本

batch_sampler (Sampler, optional): like sampler, but returns a batch of indices at a time 返回一批样本. 与atch_size, shuffle, sampler和
drop_last互斥.

num_workers (int, optional): 用于加载数据的子进程数。0表示数据将在主进程中加载。（默认：0）

collate_fn (callable, optional): 合并样本列表以形成一个 mini-batch. #　callable可调用对象

pin_memory (bool, optional): 如果为 True, 数据加载器会将张量复制到 CUDA 固定内存中,然后再返回它们.

drop_last (bool, optional): 设定为 True 如果数据集大小不能被批量大小整除的时候, 将丢掉最后一个不完整的batch,(默认：False).

timeout (numeric, optional): 如果为正值，则为从工作人员收集批次的超时值。应始终是非负的。（默认：0）

worker_init_fn (callable, optional): If not None, this will be called on each worker subprocess with the worker id (an int in [0, num_workers - 1]) as input, after seeding and before data loading.
(default: None)．

这里提供下官方的手册：

torch.utils.data官方手册
torch.utils.data官方手册中文翻译

下面准备数据的最后一步，查看上面加载到管道的数据，我们根据文档内容通过循环遍历输出图片：

# %matplotlib inline
# %config InlineBackend.figure_format = 'svg'

#查看部分样本
from matplotlib import pyplot as plt

plt.figure(figsize=(8,8))		# 设置图片大小，matplot就不解释了，过于基础
for i in range(9):				# 循环遍历9个图片
    img,label = ds_train[i]
    img = img.permute(1,2,0)
    ax=plt.subplot(3,3,i+1)
    ax.imshow(img.numpy())
    ax.set_title("label = %d"%label.item())
    ax.set_xticks([])
    ax.set_yticks([])
plt.show()

原始数据集图像和上面加载出来的一致，由于图片像素极低，放大后更低更模糊了。

# Pytorch的图片默认顺序是 Batch,Channel,Width,Height
for x,y in dl_train:
    print(x.shape,y.shape) 
    break

注意：这里运行会报错，文档作者不知道是不是会报错，反正我的报错了。已经有博主解决这个问题啦~

原因：datasets.ImageFolder使用了lambda函数，cell4中num_workers被设置为3，这两个因素共同作用导致报错。
解决方法：依旧是在jupyter notebook环境中，把num_workers=3改为num_workers=0

输出：

torch.Size([50, 3, 32, 32]) torch.Size([50, 1])		# 分别表示（batch size：50, channel:3, height：32, width：:32）

对torch.Size的理解：

torch.Size括号中有几个数字就是几维
第一层（最外层）中括号里面包含了两个中括号（以逗号进行分割），这就是（2，3，4）中的2
第二层中括号里面包含了三个中括号（以逗号进行分割），这就是（2，3，4）中的3
第三层中括号里面包含了四个数（以逗号进行分割），这就是（2，3，4）中的4

二、定义模型

使用Pytorch通常有三种方式构建模型：使用nn.Sequential按层顺序构建模型，继承nn.Module基类构建自定义模型，继承nn.Module基类构建模型并辅助应用模型容器(nn.Sequential,nn.ModuleList,nn.ModuleDict)进行封装。

此处选择通过继承nn.Module基类构建自定义模型。

#测试AdaptiveMaxPool2d的效果
pool = nn.AdaptiveAvgPool2d((1, 1))		# 输出尺寸指定为1*1
t = torch.randn(10, 8, 32, 32)			# 
print(pool(t).shape)

关于nn.AdaptiveMaxPool2d的解释：

class torch.nn.AdaptiveMaxPool2d(output_size, return_indices=False)

对输入信号，提供2维的自适应最大池化操作对于任何输入大小的输入，可以将输出尺寸指定为H*W，但是输入和输出特征的数目不会变化。可以用来实现全局平均最大池化层output_size=1.

output_size: 输出信号的尺寸,可以用（H,W）表示HW的输出，也可以使用数字H表示HH大小的输出

return_indices: 如果设置为True，会返回输出的索引。对 nn.MaxUnpool2d有用，默认值是False

关于torch.randn的解释：

torch.randn(*size, *, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False) → Tensor
返回一个符合均值为0，方差为1的正态分布（标准正态分布）中填充随机数的张量

参数解释：

size(int…) --定义输出张量形状的整数序列。可以是数量可变的参数，也可以是列表或元组之类的集合。

Keyword Arguments:

out(Tensor, optional) --输出张量

dtype(torch.dtype, optional) --返回张量所需的数据类型。默认:如果没有，使用全局默认值

layout(torch.layout, optional) --返回张量的期望布局。默认值:torch.strided

device(torch.device, optional) --返回张量的所需 device。默认:如果没有，则使用当前设备作为默认张量类型.(CPU或CUDA)

requires_grad(bool, optional) –autograd是否应该记录对返回张量的操作(说明当前量是否需要在计算中保留对应的梯度信息)。默认值:False。

输出结果：

torch.Size([10, 8, 1, 1])

模型构建

class Net(nn.Module):
    
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(in_channels=3,out_channels=32,kernel_size = 3)	 
        self.pool = nn.MaxPool2d(kernel_size = 2,stride = 2)
        self.conv2 = nn.Conv2d(in_channels=32,out_channels=64,kernel_size = 5)
        self.dropout = nn.Dropout2d(p = 0.1)
        self.adaptive_pool = nn.AdaptiveMaxPool2d((1,1))
        self.flatten = nn.Flatten()
        self.linear1 = nn.Linear(64,32)
        self.relu = nn.ReLU()
        self.linear2 = nn.Linear(32,1)
        self.sigmoid = nn.Sigmoid()
        
    def forward(self,x):
     	"""
        前向传播函数
        :param x:  输入，tensor 类型
        :return: 返回结果
        """
        x = self.conv1(x)
        x = self.pool(x)
        x = self.conv2(x)
        x = self.pool(x)
        x = self.dropout(x)
        x = self.adaptive_pool(x)
        x = self.flatten(x)
        x = self.linear1(x)
        x = self.relu(x)
        x = self.linear2(x)
        y = self.sigmoid(x)
        return y
        
net = Net()
print(net)

输出打印出来构建的整个网络的具体信息，如池化层、优化器、卷积等设置：

Net(
  (conv1): Conv2d(3, 32, kernel_size=(3, 3), stride=(1, 1))
  (pool): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  (conv2): Conv2d(32, 64, kernel_size=(5, 5), stride=(1, 1))
  (dropout): Dropout2d(p=0.1, inplace=False)
  (adaptive_pool): AdaptiveMaxPool2d(output_size=(1, 1))
  (flatten): Flatten(start_dim=1, end_dim=-1)
  (linear1): Linear(in_features=64, out_features=32, bias=True)
  (relu): ReLU()
  (linear2): Linear(in_features=32, out_features=1, bias=True)
  (sigmoid): Sigmoid()
)

一一解释上面构建的网络：

nn.Conv2d：Conv2d(in_channels, out_channels, kernel_size, stride=1,padding=0, dilation=1, groups=1,bias=True, padding_mode=‘zeros’)

in_channels：输入的通道数目【必选】

out_channels：输出的通道数目【必选】

kernel_size：卷积核的大小，类型为int或者元组，当卷积是方形的时候，只需要一个整数边长即可，卷积不是方形，要输入一个元组表示高和宽。【必选】

stride：卷积每次滑动的步长为多少，默认是 1 【可选】

padding：设置在所有边界增加值为 0 的边距的大小（也就是在feature map外围增加几圈 0 ），例如当 padding =1 的时候，如果原来大小为 3 × 3 ，那么之后的大小为 5 × 5 。即在外围加了一圈0 。【可选】

dilation：控制卷积核之间的间距【可选】

groups：控制输入和输出之间的连接。（不常用）【可选】

bias：是否将一个学习到的 bias 增加输出中，默认是 True 。【可选】

padding_mode ：字符串类型，接收的字符串只有 “zeros” 和 “circular”。【可选】

注意：参数 kernel_size，stride，padding，dilation 都可以是一个整数或者是一个元组，一个值的情况将会同时作用于高和宽两个维度，两个值的元组情况代表分别作用于高和宽维度。

nn.MaxPool2d：

class torch.nn.MaxPool2d(kernel_size, stride=None, padding=0, dilation=1, return_indices=False, ceil_mode=False)

参数解释：

kernel_size ：表示做最大池化的窗口大小，可以是单个值，也可以是tuple元组
stride ：步长，可以是单个值，也可以是tuple元组
padding ：填充，可以是单个值，也可以是tuple元组
dilation ：控制窗口中元素步幅
return_indices ：布尔类型，返回最大值位置索引
ceil_mode ：布尔类型，为True，用向上取整的方法，计算输出形状；默认是向下取整。

具体参数的详解在：这里

也可在官方文档内查询。

nn.Dropout2d：为了防止或减轻过拟合而使用的函数，它一般用在全连接层

Dropout就是在不同的训练过程中随机扔掉一部分神经元。也就是让某个神经元的激活值以一定的概率p，让其停止工作，这次训练过程中不更新权值，也不参加神经网络的计算。但是它的权重得保留下来（只是暂时不更新而已），因为下次样本输入时它可能又得工作了。

Dropout常常用于抑制过拟合，pytorch也提供了很方便的函数。但是经常不知道dropout的参数p是什么意思。在TensorFlow中p叫做keep_prob,就一直以为pytorch中的p应该就是保留节点数的比例，但是实验结果发现反了，实际上表示的是不保留节点数的比例。

nn.AdaptiveMaxPool2d:

class torch.nn.AdaptiveMaxPool2d(output_size, return_indices=False)

对输入信号，提供2维的自适应最大池化操作对于任何输入大小的输入，可以将输出尺寸指定为H*W，但是输入和输出特征的数目不会变化。可以用来实现全局平均最大池化层output_size=1.

参数：

output_size: 输出信号的尺寸,可以用（H,W）表示HW的输出，也可以使用数字H表示HH大小的输出
return_indices: 如果设置为True，会返回输出的索引。对nn.MaxUnpool2d有用，默认值是False

nn.Flatten():

torch.nn.Flatten()，因为其被用在神经网络中，输入为一批数据，第一维为batch，通常要把一个数据拉成一维，而不是将一批数据拉为一维。所以torch.nn.Flatten()默认从第二维开始平坦化。

nn.Linear:

torch.nn.Linear(in_features, out_features, bias=True)

nn.Linear（）是用于设置网络中的全连接层的，需要注意在二维图像处理的任务中，全连接层的输入与输出一般都设置为二维张量，形状通常为[batch_size, size]，不同于卷积层要求输入输出是四维张量。

参数：

in_features指的是输入的二维张量的大小，即输入的[batch_size, size]中的size。
out_features指的是输出的二维张量的大小，即输出的二维张量的形状为[batch_size，output_size]，当然，它也代表了该全连接层的神经元个数。

从输入输出的张量的shape角度来理解，相当于一个输入为[batch_size, in_features]的张量变换成了[batch_size, out_features]的输出张量。

nn.ReLU:

class torch.nn.ReLU(inplace: bool = False)

线性整流函数（Rectified Linear Unit, ReLU），又称修正线性单元。其定义如下图，在横坐标的右侧，ReLU函数为线性函数。在横坐标的右侧，ReLU函数为值为0。

参数:

inplace=True：inplace为True，将会改变输入的数据，否则不会改变原输入，只会产生新的输出

nn.Sigmoid:

import torchkeras
torchkeras.summary(net,input_shape= (3,32,32))

输出：

----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
================================================================
            Conv2d-1           [-1, 32, 30, 30]             896
         MaxPool2d-2           [-1, 32, 15, 15]               0
            Conv2d-3           [-1, 64, 11, 11]          51,264
         MaxPool2d-4             [-1, 64, 5, 5]               0
         Dropout2d-5             [-1, 64, 5, 5]               0
 AdaptiveMaxPool2d-6             [-1, 64, 1, 1]               0
           Flatten-7                   [-1, 64]               0
            Linear-8                   [-1, 32]           2,080
              ReLU-9                   [-1, 32]               0
           Linear-10                    [-1, 1]              33
          Sigmoid-11                    [-1, 1]               0
================================================================
Total params: 54,273
Trainable params: 54,273
Non-trainable params: 0
----------------------------------------------------------------
Input size (MB): 0.011719
Forward/backward pass size (MB): 0.359634
Params size (MB): 0.207035
Estimated Total Size (MB): 0.578388
----------------------------------------------------------------
Process finished with exit code 0

torchkeras.summary:打印显示网络结构和参数

打印出来配置的网络参数

三、训练模型

Pytorch通常需要用户编写自定义训练循环，训练循环的代码风格因人而异。

有3类典型的训练循环代码风格：脚本形式训练循环，函数形式训练循环，类形式训练循环。

此处介绍一种较通用的函数形式训练循环。

和之前的训练模型的循环方式类似

import pandas as pd 
from sklearn.metrics import roc_auc_score

model = net
model.optimizer = torch.optim.SGD(model.parameters(),lr = 0.01)		# 优化器配置：SGD随机梯度下降法
model.loss_func = torch.nn.BCELoss()								# 构建损失函数
model.metric_func = lambda y_pred,y_true: roc_auc_score(y_true.data.numpy(),y_pred.data.numpy())	# roc_auc_score：求随机森林的AUC值
model.metric_name = "auc"

from sklearn.metrics import roc_auc_score

直接根据真实值（必须是二值）、预测值（可以是0/1,也可以是proba值）计算出auc值，中间过程的roc计算省略。

函数形式训练循环：

def train_step(model,features,labels):
    
    # 训练模式，dropout层发生作用
    model.train()
    
    # 梯度清零
    model.optimizer.zero_grad()
    
    # 正向传播求损失
    predictions = model(features)
    loss = model.loss_func(predictions,labels)
    metric = model.metric_func(predictions,labels)

    # 反向传播求梯度
    loss.backward()
    model.optimizer.step()

    return loss.item(),metric.item()

def valid_step(model,features,labels):
    
    # 预测模式，dropout层不发生作用
    model.eval()
    # 关闭梯度计算
    with torch.no_grad():
        predictions = model(features)
        loss = model.loss_func(predictions,labels)
        metric = model.metric_func(predictions,labels)
    
    return loss.item(), metric.item()


# 测试train_step效果
features,labels = next(iter(dl_train))
print(train_step(model, features, labels))

结果：

(0.6913514733314514, 0.5057471264367817)

训练模型：

def train_model(model,epochs,dl_train,dl_valid,log_step_freq):

    metric_name = model.metric_name
    dfhistory = pd.DataFrame(columns = ["epoch","loss",metric_name,"val_loss","val_"+metric_name]) 
    print("Start Training...")
    nowtime = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')
    print("=========="*8 + "%s"%nowtime)

    for epoch in range(1,epochs+1):  

        # 1，训练循环-------------------------------------------------
        loss_sum = 0.0
        metric_sum = 0.0
        step = 1

        for step, (features,labels) in enumerate(dl_train, 1):

            loss,metric = train_step(model,features,labels)

            # 打印batch级别日志
            loss_sum += loss
            metric_sum += metric
            if step%log_step_freq == 0:   
                print(("[step = %d] loss: %.3f, "+metric_name+": %.3f") %
                      (step, loss_sum/step, metric_sum/step))

        # 2，验证循环-------------------------------------------------
        val_loss_sum = 0.0
        val_metric_sum = 0.0
        val_step = 1

        for val_step, (features,labels) in enumerate(dl_valid, 1):

            val_loss,val_metric = valid_step(model,features,labels)

            val_loss_sum += val_loss
            val_metric_sum += val_metric

        # 3，记录日志-------------------------------------------------
        info = (epoch, loss_sum/step, metric_sum/step, 
                val_loss_sum/val_step, val_metric_sum/val_step)
        dfhistory.loc[epoch-1] = info

        # 打印epoch级别日志
        print(("\nEPOCH = %d, loss = %.3f,"+ metric_name + \
              "  = %.3f, val_loss = %.3f, "+"val_"+ metric_name+" = %.3f") 
              %info)
        nowtime = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')
        print("\n"+"=========="*8 + "%s"%nowtime)

    print('Finished Training...')
    
    return dfhistory

epochs = 20

dfhistory = train_model(model,epochs,dl_train,dl_valid,log_step_freq = 50)

注意：这里还是会报错，和Day01的一样，只需将num_workers=3改为num_workers=0即可。如下位置，修改。

测试结果：
迭代20个epoch，需要等待几分钟。

Start Training...
================================================================================2022-04-10 21:26:09
[step = 50] loss: 0.690, auc: 0.633
[step = 100] loss: 0.688, auc: 0.665
[step = 150] loss: 0.686, auc: 0.688
[step = 200] loss: 0.684, auc: 0.703

EPOCH = 1, loss = 0.684,auc  = 0.703, val_loss = 0.673, val_auc = 0.825

================================================================================2022-04-10 21:26:23
[step = 50] loss: 0.672, auc: 0.773
[step = 100] loss: 0.669, auc: 0.772
[step = 150] loss: 0.665, auc: 0.774
[step = 200] loss: 0.660, auc: 0.776

EPOCH = 2, loss = 0.660,auc  = 0.776, val_loss = 0.632, val_auc = 0.831

================================================================================2022-04-10 21:26:33
[step = 50] loss: 0.631, auc: 0.785
[step = 100] loss: 0.624, auc: 0.789
[step = 150] loss: 0.616, auc: 0.792
[step = 200] loss: 0.608, auc: 0.795

EPOCH = 3, loss = 0.608,auc  = 0.795, val_loss = 0.559, val_auc = 0.835

......

[step = 50] loss: 0.401, auc: 0.913
[step = 100] loss: 0.399, auc: 0.915
[step = 150] loss: 0.394, auc: 0.916
[step = 200] loss: 0.393, auc: 0.917

EPOCH = 18, loss = 0.393,auc  = 0.917, val_loss = 0.361, val_auc = 0.930

================================================================================2022-04-10 21:29:10
[step = 50] loss: 0.388, auc: 0.932
[step = 100] loss: 0.387, auc: 0.926
[step = 150] loss: 0.387, auc: 0.924
[step = 200] loss: 0.385, auc: 0.924

EPOCH = 19, loss = 0.385,auc  = 0.924, val_loss = 0.332, val_auc = 0.935

================================================================================2022-04-10 21:29:20
[step = 50] loss: 0.420, auc: 0.919
[step = 100] loss: 0.393, auc: 0.923
[step = 150] loss: 0.384, auc: 0.924
[step = 200] loss: 0.382, auc: 0.927

EPOCH = 20, loss = 0.382,auc  = 0.927, val_loss = 0.343, val_auc = 0.938

================================================================================2022-04-10 21:29:29
Finished Training...

Process finished with exit code 0

简单小节一下，通过day01的标准流程，基本大体思路还是了解了，模型训练好后，后期就验证、评估、应用了。重点还是在本小节的模型构建和训练。建议自己写一遍，模仿循环的写法，能够自己掌握最后。加油

四、评估模型

查看迭代的结果：

print(dfhistory)

结果显示：

	epoch      loss       auc  val_loss   val_auc
0     1.0  0.687199  0.689893  0.677973  0.819231
1     2.0  0.670937  0.787023  0.655124  0.826957
2     3.0  0.639157  0.797640  0.605008  0.823746
3     4.0  0.584120  0.800266  0.539534  0.828455
4     5.0  0.541584  0.808271  0.508139  0.837285
5     6.0  0.520896  0.819290  0.490145  0.846948
6     7.0  0.511996  0.825061  0.483156  0.852856
7     8.0  0.502265  0.833139  0.470060  0.860686
8     9.0  0.496100  0.838961  0.461913  0.867318
9    10.0  0.487518  0.845759  0.457740  0.870174
10   11.0  0.481599  0.853748  0.444433  0.876784
11   12.0  0.470809  0.860611  0.436102  0.886181
12   13.0  0.459603  0.867360  0.430747  0.892251
13   14.0  0.451145  0.876519  0.438098  0.897483
14   15.0  0.438103  0.885233  0.402668  0.903118
15   16.0  0.428677  0.896389  0.459490  0.908623
16   17.0  0.418870  0.902935  0.375793  0.918269
17   18.0  0.420009  0.909187  0.359411  0.925013
18   19.0  0.405186  0.913822  0.345665  0.929664
19   20.0  0.393956  0.921699  0.335796  0.938696

可视化部分：

# %matplotlib inline
# %config InlineBackend.figure_format = 'svg'

import matplotlib.pyplot as plt

def plot_metric(dfhistory, metric):
    train_metrics = dfhistory[metric]
    val_metrics = dfhistory['val_'+metric]
    epochs = range(1, len(train_metrics) + 1)
    plt.plot(epochs, train_metrics, 'bo--')
    plt.plot(epochs, val_metrics, 'ro-')
    plt.title('Training and validation '+ metric)
    plt.xlabel("Epochs")
    plt.ylabel(metric)
    plt.legend(["train_"+metric, 'val_'+metric])
    plt.show()
plot_metric(dfhistory,"loss")

结果：

plot_metric(dfhistory,"auc")

结果：

模型训练完后，迭代次数越多精确度越高。从上上图中，在epoch=16~18的时候，验证集的损失值呈现震荡，或许陷入了局部最优，又导致了跳出最优后面epoch=20，loss又上升了。

五、使用模型

模型预测的应用

def predict(model,dl):
    model.eval()
    with torch.no_grad():
        result = torch.cat([model.forward(t[0]) for t in dl])
    return(result.data)

#预测概率
y_pred_probs = predict(model,dl_valid)
print(y_pred_probs)

预测的结果：

tensor([[0.3127],
        [0.0375],
        [0.1940],
        ...,
        [0.6114],
        [0.2975],
        [0.9395]])

预测类别：

#预测类别
y_pred = torch.where(y_pred_probs>0.5,
        torch.ones_like(y_pred_probs),torch.zeros_like(y_pred_probs))
print(y_pred)

预测的结果：

tensor([[0.],
        [0.],
        [0.],
        ...,
        [1.],
        [0.],
        [1.]])

torch.cat:是将两个张量（tensor）拼接在一起，cat是concatenate的意思，即拼接，联系在一起。
torch.ones_like函数和torch.zeros_like函数的基本功能是根据给定张量，生成与其形状相同的全1张量或全0张量.

图片的预测和之前的结构化数据模型有区别，torch.cat和torch.ones_like、torch.zeros_like的操作得熟记。

六、保存模型

在Day01的最后提到了两种模型保存的方式，后面应该也只选择了一种方式。那咱们就记住了哈~

推荐使用保存参数方式保存Pytorch模型。

print(model.state_dict().keys())

输出显示：

odict_keys(['conv1.weight', 'conv1.bias', 'conv2.weight', 'conv2.bias', 'linear1.weight', 'linear1.bias', 'linear2.weight', 'linear2.bias'])

保存模型的代码：

# 保存模型参数

torch.save(model.state_dict(), "./data/model_parameter.pkl")

net_clone = Net()
net_clone.load_state_dict(torch.load("./data/model_parameter.pkl"))

predict(net_clone,dl_valid)

提醒记牢，建议自己多写，这样记忆深刻。

保存结果：

tensor([[0.0204],
        [0.7692],
        [0.4967],
        ...,
        [0.6078],
        [0.7182],
        [0.8251]])

第二期就到这里吧，慢中出细活，多看多练，多理解其中的原理，不做屌爆侠(调包侠)，加油~

Reference

https://github.com/lyhue1991/eat_pytorch_in_20_days
https://blog.csdn.net/u013230291/article/details/108487877
https://blog.csdn.net/qq_33590958/article/details/102602029
https://blog.csdn.net/weixin_43135178/article/details/115139178
https://blog.csdn.net/tsq292978891/article/details/79414512
https://pytorch.org/docs/0.3.1/data.html
https://pytorch.apachecn.org/#/
https://blog.csdn.net/weixin_42802447/article/details/118394274
https://blog.csdn.net/qq_24503095/article/details/103683403
https://blog.csdn.net/qq_42119367/article/details/110004734
https://blog.csdn.net/qq_38863413/article/details/104108808
https://blog.csdn.net/weixin_43135178/article/details/115495220
https://blog.csdn.net/qq_24503095/article/details/103683403
https://blog.csdn.net/qq_42079689/article/details/102873766
https://blog.csdn.net/weixin_42495721/article/details/111518564
https://blog.csdn.net/qq_39938666/article/details/88809726

书籍源码在此：
链接：https://pan.baidu.com/s/1P3WRVTYMpv1DUiK-y9FG3A
提取码：yyds

❤坚持读Paper，坚持做笔记，坚持学习，坚持刷力扣LeetCode❤！！！
坚持刷题！！！
⚡To Be No.1

⚡⚡哈哈哈哈

⚡创作不易⚡，过路能❤关注、收藏、点个赞❤三连就最好不过了

ღ( ´･ᴗ･` )

❤

你可能感兴趣的:(#,人工智能,python,神经网络,深度学习,Pytorch)

Python Pandas数据清洗与处理大数据张老师 Python程序设计 python pandas 开发语言
PythonPandas数据清洗与处理在进行数据分析时，原始数据往往包含了许多不完整、不准确或者冗余的信息。数据清洗与处理的任务就是将这些杂乱无章的数据清理干净，确保数据的准确性和一致性，从而为后续的分析工作打下坚实的基础。Pandas提供了强大的工具来帮助我们清洗和处理数据，尤其是在处理Series和DataFrame时，它能够高效地进行数据的筛选、填充、删除、替换等操作。本节将通过一些常见的数
成功使用devpi搭建PyPI缓存源，建立内网python安装包服务器（通过代理上网） jcsx 基础运维知识库开源学习 python pip nginx
前言缓存源和镜像源的区别：缓存源：初始状态为空。下载请求的软件包没有缓存，则回源到设置的上游镜像源，然后该软件包会被缓存。如果请求的软件包已经被缓存，则直接从本地缓存返回用户。下载速度：第一次速度=通过外网从上游镜像源下载的速度；之后的速度=内网带宽速度。磁盘空间：少。初始时只保存了软件包索引，随着使用过程，软件包被缓存，磁盘占用逐渐变大。镜像源：初始状态含有所有软件包，并且定时与上游镜像源同步。
Python接口自动化测试框架（实战篇）-- Jenkins持续集成职说测试 python jenkins ci/cd 自动化测试接口自动化测试
文章目录一、前言二、[Jenkins](https://www.jenkins.io/)2.1、环境搭建2.2、插件准备2.3、创建job2.4、小结2.5、构建策略2.6、报告展示2.7、扩展三、总结一、前言温馨提示：在框架需要集成jenkins的时候，一定要注意环境切换问题，如果jenkins和开发环境是同样的系统且都有python环境，基本不用太担心代码的移植问题，如果是跨平台了，那么需要注
Topaz Video AI——视频修复爱研究的小牛 AIGC—视频 AIGC
一、TopazVideoAI介绍及使用TopazVideoAI是一款基于人工智能的视频增强和修复软件，主要用于提升视频质量、去噪、插帧和分辨率提升。它利用深度学习技术对视频进行智能化处理，使得视频看起来更加清晰和流畅。TopazVideoAI特别适合那些需要修复旧视频、提升低分辨率视频质量的用户。二、TopazVideoAI的主要功能视频去噪：通过AI模型去除视频中的噪点，使画面更加干净。分辨率提
python实战项目34：基于flask的天气数据可视化系统1.0 wp_tao Python副业接单实战项目 flask 信息可视化 python
基于flask的天气数据可视化系统1.0一、效果展示二、flask简介三、图表绘制四、前端页面编写五、完整代码一、效果展示该flask项目相对简单入门，使用了flask框架、bootstrap前端技术，数据使用的是上一篇scrapy爬取城市天气数据中爬取到的数据。二、flask简介Flask是一个基于Python的Web开发框架，它以灵活、微框架著称，基于werkzeug的轻量级web框架，可提高
Jira用例自动去除summary重复用例吾爱乐享 w w w w .f e n
title:Jira用例自动去除summary重复用例tags:-jira-pythoncategories:-python一、背景与需求二、解决方案思路三、实施步骤本文永久更新地址:在使用Jira进行项目管理时，测试用例的维护至关重要。随着项目推进，用例数量增多，可能会出现summary重复的情况，手动排查费时费力，因此实现自动去除重复用例功能意义重大。一、背景与需求项目团队在Jira中积累了大
RPA与Python 空着
部分朋友可能是了解Python的。Python这两年，火的两点，就是聚焦于两个场景：数据抓取和办公自动化。那么Python算RPA吗？RPA是一种概念，依托于这个概念诞生了很多产品。而Python是一种计算机语言，Python不仅仅可以做RPA概念范围内的东西，还可以做其他东西。但是，Python做数据抓取也好，做办公自动化也好，他都是聚焦于具体的场景本身。而并非聚焦于RPA概念上的。所以，很少见
Python爬虫技术第12节设置headers和cookies hummhumm python 爬虫开发语言 django flask java spring
在使用Python进行网络爬虫开发时，经常需要模拟浏览器行为，这包括设置请求头（headers）和处理cookies。下面我将详细介绍如何在Python中使用requests库来设置headers和处理cookies。设置HeadersHeaders包含了客户端发送给服务器的信息，比如用户代理（User-Agent）、接受的内容类型（Accept）、语言偏好（Accept-Language）等。设
Python爬虫技术第16节 XPath hummhumm python 爬虫开发语言 flask java maven java-ee
XPath是一种在XML文档中查找信息的语言，尽管XML和HTML在语法上有区别，但XPath同样适用于HTML文档的解析，尤其是在使用如lxml这样的库时。XPath提供了一种强大的方法来定位和提取XML/HTML文档中的元素和属性。XPath基础XPath表达式由路径表达式组成，它们指定了文档中的位置。下面是一些基本的XPath语法：根节点：/表示绝对路径的开始，指向文档的根节点。//表示从当
RPA真的是人工智能吗？微刻时光 RPA加油站 rpa 人工智能
1.RPA与AI的定义与区别1.1RPA的定义与特点机器人流程自动化（RoboticProcessAutomation，简称RPA）是一种软件技术，它通过模拟人类用户的操作行为来自动执行重复性、基于规则的任务。RPA的核心特点包括：非侵入性：RPA作为外挂工具部署在客户现有系统上，不影响原有IT基础架构。基于规则的操作：RPA流程必须有明确的、可被数字化的触发指令和输入，不允许出现无法提前定义的例
影刀 RPA：企业数字化转型的强大引擎 RPA李老师 rpa
一、影刀RPA是什么影刀RPA是一种基于机器学习和人工智能技术的自动化工具，它在当今数字化时代发挥着重要作用。影刀RPA是一款软件机器人，能模拟人的各种操作，在任何应用程式上进行鼠标点击、键盘输入、读取信息等自动化操作，释放人非主观决策、逻辑性高、规则性强的工作。在了解影刀RPA之前，我们先来认识一下RPA。RPA是RoboticProcessAutomation（机器人流程自动化）的简称，201
浅析AI大模型现状及其应用，零基础入门到精通，收藏这篇就够了程序员_大白互联网程序员大模型人工智能数据挖掘大模型
随着人工智能技术的迅猛发展，AI大模型已经成为全球科技竞争的焦点，展现出巨大的发展潜力和广阔的应用前景。AI大模型的应用落地正引发行业关注，技术进步正促使AI大模型的应用逐步从云端向终端设备延伸，从通用模型向针对特定行业的定制化解决方案转变，其商业潜力和对行业的影响不断增强。与此同时，国内外企业在大模型领域的竞争日趋激烈。AI大模型蓬勃发展AI大模型主要特征AI大模型具有泛化性(知识迁移到新领域)
【实践】Python实现气象数据分析与可视化大数据张老师 Python程序设计信息可视化 python 数据分析可视化
一、项目需求在本节中，我们将明确“气象数据分析与可视化”项目的需求，定义项目的功能和目标，为后续的实现奠定基础。通过本项目，读者将学习如何使用Python的各种数据处理和可视化工具来分析和展示气象数据，从而掌握数据处理与可视化的核心技能。1.项目目标“气象数据分析与可视化”项目的目标是通过对历史气象数据的处理和分析，生成直观的图表和统计结果，帮助用户理解气象趋势并预测未来变化。项目的主要功能如下：
证券量化交易选择合适的编程语言 jcsx 量化 numpy pandas pyqt servlet javascript
在证券量化交易中，选择合适的编程语言至关重要，因为它直接影响到开发效率、运行速度和策略的灵活性。常用的编程语言有几个，它们各自有不同的优势和应用场景。以下是一些在量化交易中常用的编程语言：PythonPython是目前量化交易中最流行的编程语言之一，特别是在金融数据分析和模型开发中，广泛被使用。Python的流行主要有以下原因：数据处理能力：Python有非常强大的数据处理库，如pandas（数据
基于 Jenkins 的测试报告获取与处理并写入 Jira Wiki 的技术总结吾爱乐享 w w w w .f e n
title:基于Jenkins的测试报告获取与处理并写入JiraWiki的技术总结tags:-jenkins-pythoncategories:-jenkins在软件开发的持续集成与持续交付（CI/CD）流程里，及时、准确地获取并分析测试报告对保障软件质量至关重要。本文将详细阐述如何借助Jenkins搭建自动化系统，实现批量触发测试任务、获取测试报告关键信息并写入JiraWiki的全流程自动化，为
已解决python 的SyntaxError ：invalid syntax异常正确解决办法，亲测有效，嘿嘿嘿代码无疆 Python python 开发语言
文章目录问题分析报错原因解决思路解决方法示例1：拼写错误示例2：缺少符号示例3：错误的缩进示例4：错误的语句结构SyntaxError:invalidsyntax异常是Python中最常见的错误之一，它表示代码中存在语法错误。这种错误通常发生在Python解释器无法理解你的代码时，比如因为拼写错误、缺少符号、错误的缩进、不正确的语句结构等。问题分析当Python解释器报告SyntaxError:i
【Python篇】从零到精通：全面分析Scikit-Learn在机器学习中的绝妙应用半截诗 Python python 机器学习 scikit-learn 人工智能深度学习数据分析随机森林
文章目录从零到精通：全面揭秘Scikit-Learn在机器学习中的绝妙应用前言第一部分：深入了解Scikit-Learn的基础知识1.什么是Scikit-Learn？2.安装Scikit-Learn3.Scikit-Learn中的基本构件4.数据集的加载与探索5.数据预处理标准化数据6.构建和训练机器学习模型构建逻辑回归模型7.模型评估与验证混淆矩阵第二部分：深入理解Scikit-Learn的高级
Python设计模式 - 抽象工厂模式 mofei12138 设计模式 python python 设计模式抽象工厂模式
定义抽象工厂模式是一种创建型设计模式，它提供了一种创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。产品等级结构与产品族为了更好地理解抽象工厂模式，先引入两个概念：产品等级结构：就是产品的继承结构。例如电视机抽象类有A品牌电视机子类和B品牌电视机子类，那么抽象电视机和具体品牌的电视机就构成了一个产品等级结构。产品族：同一个工厂生产的，位于不同产品等级结构中的一组产品。例如海尔工厂生产的海
【Python设计模式07】工厂方法模式一碗姜汤设计模式 python 设计模式工厂方法模式
工厂方法模式（FactoryMethodPattern）是一种创建型设计模式，它定义了一个用于创建对象的接口，让子类决定实例化哪一个类。工厂方法使得一个类的实例化延迟到其子类。通过使用工厂方法模式，可以将对象的创建过程与使用过程分离，从而提高代码的灵活性和可扩展性。工厂方法模式的结构工厂方法模式主要包括以下几个角色：抽象产品（Product）：定义产品的接口。具体产品（ConcreteProduc
分形、大自然的分形几何、数据可视化、Python绘图 timedot-hj python绘图指南 -分形与数据可视化可视化 python 几何学算法
分形、大自然的分形几何、数据可视化、Python绘图中国传统中的『分形』大自然的分形几何数据可视化本系列采用turtle、matplotlib、numpy这三个Python工具，以分形与计算机图像处理的经典算法为实例，通过程序和图像，来帮助读者一步步掌握Python绘图和数据可视化的方法和技巧，并且让读者感受到“龙枝屈曲竞分形，瑰丽绮错千万状”的分形魅力。本系列共有八章，分别为海岸线有多长，基因与
python用电预测_用Python实时追踪你家的电量使用情况 weixin_39626745 python用电预测
现在的电表(附在你家房子外面的玩意)在每瓦时电量被使用后就会发出一下红外闪光，穿过电表顶部的端口。事实证明，你可以很容易地监测这一闪光，把它解码变成“实时的”电量使用情况，然后做成像这样酷的图表：Y轴表示实时功率，单位是KW，X轴表示时间。这闪光灯，好像有很高的瞬间准确度，至少我家的是这样，这意味着当1瓦时电量被使用时，它会很精确地闪了。这实在太棒了，因为它使得显示精确、实时的电量使用情况可以实现
Python Web开发 twc829 Python
Web开发介绍一、Web开发概述1C/S结构和B/S结构C/S—Client/Server，即客户机/服务器结构B/S—Browse/Server，即浏览器/服务器结构2B/S结构的优势2.1不用通知客户端安装某个软件2.2不用通知客户端升级2.3可轻松地实现跨平台3访问网站过程用户向服务器发起请求，服务器将HTML文件返回给用户，浏览器将HTML文件渲染成用户看到的网站；4分类4.1静态网站用户
【自然语言处理（NLP）】jieba分词的使用（分词模式、关键词提取）道友老李自然语言处理(NLP)自然语言处理人工智能
文章目录介绍jieba分词的使用1.安装2.jieba分词模式2.1精确模式2.2全模式2.3搜索引擎模式2.4词性标注2.5加载自己的分词文件3.查看词频4.关键词提取个人主页：道友老李欢迎加入社区：道友老李的学习社区介绍**自然语言处理（NaturalLanguageProcessing，NLP）**是计算机科学领域与人工智能领域中的一个重要方向。它研究的是人类（自然）语言与计算机之间的交互。
如何优化Python开发：PIP和Anaconda的作用及国内源设置指南 Chaiio Dain python python pip 开发语言 conda
前言在现代数据科学和软件开发的世界中，Python已经成为了最受欢迎的编程语言之一。其强大的生态系统和丰富的第三方库使得开发者可以快速构建各种应用程序和解决方案。然而，随着项目规模的扩大和复杂性的增加，管理Python包和依赖项变得尤为重要。PIP（Python包管理工具）和Anaconda（一个开源的Python发行版）就是在这种背景下应运而生的重要工具。PIP和Anaconda不仅简化了包的安
配置pip安装源勤劳的搬砖工。 pip python linux
在Linux下配置pip的安装源折磨人的下载速度用过pip的人都知道，pip的下载速度简直令人窒息，有时候好有时候坏，简直全靠运气，甚至施加魔法也不行，所以选择配置一个下载源，从国内下载python包就显得很快，说实话百度网盘都比pip快。Linux下配置python2的安装源总所周知，python2和python3不一样，所以他们pip也不一样，配置也不一样修改工作目录下的.pip/pip.co
FastAPI介绍 -zZR fastapi python
1.fastapi介绍一个用于构建API的现代、快速（高性能）的web框架。特点快速：可与NodeJS和Go并肩的极高性能（归功于Starlette和Pydantic）。最快的Pythonweb框架之一。高效编码：提高功能开发速度约200％至300％。更少bug：减少约40％的人为（开发者）导致错误。智能：极佳的编辑器支持。处处皆可自动补全，减少调试时间。简单：设计的易于使用和学习，阅读文档的时
Python 潮流周刊#87：媲美 OpenAI-o1 的开源模型（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。本期分享了12篇文章，12个开源项目。下周因春节假期停更一周，提前恭祝大家蛇年吉祥，万事顺意！（PS.我在Python猫公众号给大家准备了一些红包封面，免费领取哟～）以下是本期摘要：文章&教程①优
【深度学习|变化检测孪生网络】基于共享权重的双流 U-Net 变化检测网络架构，附代码（一）努力学习的大大深度学习基础深度学习网络架构人工智能 python
【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）文章目录【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）基于共享权重的双流U-Net变化检测网络架构1.双流网络（SiameseNetwork）概述2.双流网络的应用——变化检测3.U
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向努力学习的大大学术会议推荐人工智能大数据深度学习神经网络
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向文章目录【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向2025
【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPC Loss）如何计算？以及Wasserstein距离和CPC Loss结合的对抗训练示例，附代码（二）努力学习的大大深度学习基础深度学习迁移学习人工智能 python
【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPCLoss）如何计算？以及Wasserstein距离和CPCLoss结合的对抗训练示例，附代码（二）【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPCLoss）如何计算？以及Wasserstein距离和CPCLoss结合的对抗训练示例，附代码（二）文章目录【深度学习|迁移学习】Wassers
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_