Greyson：

动手学:深度学习Task1

线性回归

主要内容包括：

线性回归的基本要素
线性回归模型从零开始的实现
线性回归模型使用pytorch的简洁实现

线性回归的基本要素

模型

为了简单起见，这里我们假设价格只取决于房屋状况的两个因素，即面积（平方米）和房龄（年）。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系:

$\mathrm{price} = w_{\mathrm{area}} \cdot \mathrm{area} + w_{\mathrm{age}} \cdot \mathrm{age} + b$

数据集

我们通常收集一系列的真实数据，例如多栋房屋的真实售出价格和它们对应的面积和房龄。我们希望在这个数据上面寻找模型参数来使模型的预测价格与真实价格的误差最小。在机器学习术语里，该数据集被称为训练数据集（training data set）或训练集（training set），一栋房屋被称为一个样本（sample），其真实售出价格叫作标签（label），用来预测标签的两个因素叫作特征（feature）。特征用来表征样本的特点。

损失函数

在模型训练中，我们需要衡量价格预测值与真实值之间的误差。通常我们会选取一个非负数作为误差，且数值越小表示误差越小。一个常用的选择是平方函数。

它在评估索引为 $i$ 的样本误差的表达式为

$l^{(i)}(\mathbf{w}, b) = \frac{1}{2} \left(\hat{y}^{(i)} - y^{(i)}\right)^2,$

$L(\mathbf{w}, b) =\frac{1}{n}\sum_{i=1}^n l^{(i)}(\mathbf{w}, b) =\frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right)^2.$

优化函数 - 随机梯度下降

当模型和损失函数形式较为简单时，上面的误差最小化问题的解可以直接用公式表达出来。这类解叫作解析解（analytical solution）。本节使用的线性回归和平方误差刚好属于这个范畴。然而，大多数深度学习模型并没有解析解，只能通过优化算法有限次迭代模型参数来尽可能降低损失函数的值。这类解叫作数值解（numerical solution）。

在求数值解的优化算法中，小批量随机梯度下降（mini-batch stochastic gradient descent）在深度学习中被广泛使用。

它的算法很简单：
先选取一组模型参数的初始值，如随机选取；接下来对参数进行多次迭代，使每次迭代都可能降低损失函数的值。在每次迭代中，先随机均匀采样一个由固定数目训练数据样本所组成的小批量（mini-batch） $\mathcal{B}$ ，然后求小批量中数据样本的平均损失有关模型参数的导数（梯度），最后用此结果与预先设定的一个正数的乘积作为模型参数在本次迭代的减小量。

$(\mathbf{w},b) \leftarrow (\mathbf{w},b) - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_{(\mathbf{w},b)} l^{(i)}(\mathbf{w},b)$

学习率: $\eta$ 代表在每次优化中，能够学习的步长的大小
批量大小: $\mathcal{B}$ 是小批量计算中的批量大小batch size

优化函数的有以下两个步骤：

(i)初始化模型参数，一般来说使用随机初始化；
(ii)我们在数据上迭代多次，通过在负梯度方向移动参数来更新每个参数。

矢量计算

在模型训练或预测时，我们常常会同时处理多个数据样本并用到矢量计算。在介绍线性回归的矢量计算表达式之前，让我们先考虑对两个向量相加的两种方法。

向量相加的一种方法是，将这两个向量按元素逐一做标量加法。
向量相加的另一种方法是，将这两个向量直接做矢量加法。

import torch
import time

# init variable a, b as 1000 dimension vector
n = 1000
a = torch.ones(n)
b = torch.ones(n)

#define a timer class to record time
class Timer(object):
    '''Record multiple running times.'''
    def __init__(self):
        self.times=[]
        self.start()
        
    def start(self):
        self.start_time=time.time()
        
    def stop(self):
        self.times.append(time.time()-self.start_time)
        return self.times[-1]
    
    def avg(self):
        return sum(self.times)/len(self.times)
    
    def sum(self):
        return sum(self.times)

第一种方式

timer = Timer()
c = torch.zeros(n)
for i in range(n):
   c[i] = a[i] + b[i]
'%.5f sec' % timer.stop()

time=‘0.01599 sec’

第二种方式

timer.start()
d=a+b
'%.5f sec'%timer.stop()

time=‘0.00000 sec’

结论

结果很明显,后者比前者运算速度更快。因此，我们应该尽可能采用矢量计算，以提升计算效率。

线性回归模型从零开始的实现

# import packages and modules
%matplotlib inline
import torch
from IPython import display
from matplotlib import pyplot as plt
import numpy as np
import random

print(torch.__version__)

生成数据集

使用线性模型来生成数据集，生成一个1000个样本的数据集，下面是用来生成数据的线性关系：

$\mathrm{price} = w_{\mathrm{area}} \cdot \mathrm{area} + w_{\mathrm{age}} \cdot \mathrm{age} + b$

# set input feature number 
num_inputs = 2
# set example number
num_examples = 1000

# set true weight and bias in order to generate corresponded label
true_w = [2, -3.4]
true_b = 4.2

features = torch.randn(num_examples, num_inputs,
                      dtype=torch.float32)
labels = true_w[0] * features[:, 0] + true_w[1] * features[:, 1] + true_b
labels += torch.tensor(np.random.normal(0, 0.01, size=labels.size()),
                       dtype=torch.float32)

使用图像来展示生成的数据

plt.scatter(features[:, 1].numpy(), labels.numpy(), 1);
plt.savefig("plot1.jpg")

out:

读取数据集

def data_iter(batch_size,features,labels):
    num_examples=len(features)
    indices=list(range(num_examples))
    random.shuffle(indices)  #random read 10 samples
    #将样本数据集打乱
    for i in range(0,num_examples,batch_size):
        j=torch.LongTensor(indices[i:min(i+batch_size,num_examples)])
        #the last time may be not enough for a whole batch
        #取样本
        yield features.index_select(0,j),labels.index_select(0,j)
        #返回值,类似于c++的容器

batch_size=10

for X,y in data_iter(batch_size,features,labels):
    print(X,'\n',y)
    break

out

tensor([[ 0.3780, -0.2086],
        [-2.6805,  1.8928],
        [ 0.1166, -0.7393],
        [-0.4237,  1.0401],
        [-0.6714,  0.0518],
        [ 0.7414, -0.7626],
        [-0.4197, -0.8076],
        [ 0.5792,  1.5133],
        [ 0.4058, -1.1025],
        [ 1.7678,  1.1474]]) 
 tensor([ 5.6734, -7.5974,  6.9397, -0.1808,  2.6712,  8.2900,  6.1222,  0.2101,
         8.7490,  3.8297])

初始化模型参数

w = torch.tensor(np.random.normal(0, 0.01, (num_inputs, 1)), dtype=torch.float32)
b = torch.zeros(1, dtype=torch.float32)

w.requires_grad_(requires_grad=True)
b.requires_grad_(requires_grad=True)

定义模型

定义用来训练参数的训练模型：

$\mathrm{price} = w_{\mathrm{area}} \cdot \mathrm{area} + w_{\mathrm{age}} \cdot \mathrm{age} + b$

def linreg(X, w, b):
    return torch.mm(X, w) + b

定义损失函数

我们使用的是均方误差损失函数：
$l^{(i)}(\mathbf{w}, b) = \frac{1}{2} \left(\hat{y}^{(i)} - y^{(i)}\right)^2,$

def squared_loss(y_hat,y):
    return(y_hat-y.view(y_hat.size()))**2/2
#view()列矩阵

定义优化函数

在这里优化函数使用的是小批量随机梯度下降：

$(\mathbf{w},b) \leftarrow (\mathbf{w},b) - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_{(\mathbf{w},b)} l^{(i)}(\mathbf{w},b)$

  def sgd(params, lr, batch_size): 
    for param in params:
        param.data -= lr * param.grad / batch_size # ues .data to operate param without gradient track

训练

当数据集、模型、损失函数和优化函数定义完了之后就可来准备进行模型的训练了。

lr=0.03 #学习率
num_epochs=5  #训练周期

net=linreg
loss=squared_loss

for epoch in range(num_epochs):
    
    for X,y in data_iter(batch_size,features,labels):
        l=loss(net(X,weight,bias),y).sum()
        l.backward()
        sgd([weight,bias],lr,batch_size)

        weight.grad.data.zero_()
        bias.grad.data.zero_()
    train_l=loss(net(features,weight,bias),labels)
    
    print("epoch %d, loss %f" % (epoch+1,train_l.mean().item()))

out

epoch 1, loss 0.034249
epoch 2, loss 0.000116
epoch 3, loss 0.000048
epoch 4, loss 0.000048
epoch 5, loss 0.000048

weight,true_weight

out

(tensor([[ 2.0000],
         [-3.4000]], requires_grad=True),
 [2, -3.4])

bias,true_bias

out

(tensor([4.1994], requires_grad=True), 4.2)

线性回归模型使用pytorch的简洁实现

import torch
from torch import nn
import numpy as np
torch.manual_seed(1)

print(torch.__version__)
torch.set_default_tensor_type('torch.FloatTensor')

生成数据集

num_inputs = 2
num_examples = 1000

true_w = [2, -3.4]
true_b = 4.2

features = torch.tensor(np.random.normal(0, 1, (num_examples, num_inputs)), dtype=torch.float)
labels = true_w[0] * features[:, 0] + true_w[1] * features[:, 1] + true_b
labels += torch.tensor(np.random.normal(0, 0.01, size=labels.size()), dtype=torch.float)

读取数据集

import torch.utils.data as Data

batch_size=10

#combine features and labels of dataset
dataset=Data.TensorDataset(features,labels)

#put dataset into Dataloader
data_iter=Data.DataLoader(
    dataset=dataset,   #torch TensorDataset format
    batch_size=batch_size, #mini batch size
    shuffle=True,          #wheather shuffle the data or not
    num_workers=2,         #read daa in multithreading
)

for X,y in data_iter:
    print(X,'\n',y)
    break

out

tensor([[ 0.6026,  0.4998],
        [ 1.8688, -0.2474],
        [-0.3715, -0.1875],
        [-1.3590, -0.1800],
        [ 0.3386,  0.5171],
        [ 0.7842, -0.5742],
        [-0.6862,  0.7972],
        [ 0.1831,  0.2232],
        [ 0.0189, -1.7685],
        [ 1.6762, -0.6230]]) 
 tensor([ 3.7056,  8.7779,  4.0815,  2.0885,  3.1275,  7.7235,  0.1136,  3.8046,
        10.2441,  9.6686])

定义模型

class LinearNet(nn.Module):
    def __init__(self,n_feature):
        super(LinearNet,self).__init__()
        self.linear=nn.Linear(n_feature,1)
        
    def forword(self,x):
        y=self.linear(x)
        return y
    
net=LinearNet(num_inputs)
print(net)

out

LinearNet(
  (linear): Linear(in_features=2, out_features=1, bias=True)
)

# ways to init a multilayer networker
#生成多层网络
#method one
net=nn.Sequential(
    nn.Linear(num_inputs,1)
    #Other layers can be add there
)

#method two
net1=nn.Sequential()
net1.add_module('linear',nn.Linear(num_inputs,1))
#net.add_module .....
#添加网络模型

#method three
from collections import OrderedDict
net2=nn.Sequential(OrderedDict([
    ('linear',nn.Linear(num_inputs,1))
    #............
]))

print(net)
print(net[0])

初始化模型参数

from torch.nn import init

init.normal_(net[0].weight, mean=0.0, std=0.01)
init.constant_(net[0].bias, val=0.0)  # or you can use `net[0].bias.data.fill_(0)` to modify it directly

out

Parameter containing:
tensor([0.], requires_grad=True)

for param in net.parameters():
    print(param)

out

Parameter containing:
tensor([[-0.0142, -0.0161]], requires_grad=True)
Parameter containing:
tensor([0.], requires_grad=True)

定义损失函数

loss = nn.MSELoss()    
#均方误差损失函数
# nn built-in squared loss function
# function prototype: `torch.nn.MSELoss(size_average=None, reduce=None, reduction='mean')`

定义优化函数

import torch.optim as optim

optimizer=optim.SGD(net.parameters(),lr=0.03)
#built-in random gradient descent function
print(optimizer)
#function prototype:"torch.optim.SGD(params,lr=,momentum=0,dampening=0,weight_dacat=0,nesterov=False)"

out

SGD (
Parameter Group 0
    dampening: 0
    lr: 0.03
    momentum: 0
    nesterov: False
    weight_decay: 0
)

训练

num_epochs=3
for epoch in range(1,num_epochs+1):
    for X,y in data_iter:
        output=net(X)
        l=loss(output,y.view(-1,1))
        optimizer.zero_grad()
        #reset gradient,equal to net.zero_grad()
        l.backward()
        optimizer.step()
    print('epoch %d, loss : %f' % (epoch,l.item()))

out

epoch 1, loss : 0.000245
epoch 2, loss : 0.000106
epoch 3, loss : 0.000102

#result comparision
dense=net[0]
print(true_weight,dense.weight.data)
print(true_bias,dense.bias.data)

out

[2, -3.4] tensor([[ 1.9996, -3.4001]])
4.2 tensor([4.1991]

笔记区:

(如有侵权请告知删除)

1. 测试集和验证集的区别

模型训练的过程其实就是在求【参数】的过程，我们先假定某类【模型】（比如决策树模型），然后用【训练集】来训练，学习到对应的最优的【参数】。但是问题在于，我们没有办法保证我们假设的那个【模型】是最优的，我们极有可能假设错误对吧。那怎么办呢？有一个简单的解决方案就是我们假设一堆的模型，然后用【训练集】分别对这些模型来进行训练，学习到每一个【模型】中分别对应的参数——这是第一步，也就是【训练集】的任务。
那么我们已经学习到了一堆的模型了，哪一个模型是最好的呢？这其实就是要来考察不同结构的模型在这些data上的优劣程度了。通常来说，我们用【超参数】来控制模型的结构（例如正则项系数、神经网络中隐层的节点个数，k值等）。那这个时候，我们就可以找一些数据来训练和学习我们具体的超参数了。用什么样的数据呢？直接用【训练集】肯定是不行的，因为我们现在的每一个模型都是用【训练集】来学习出来的，他们在【训练集】上的效果已经很好了，继续用它们来训练超参数不会有太大的效果，所以说我们就选择了使用【验证集】来选择这些超参数。这是第二步，也就是【验证集】的任务，我们也通常称之为【调参】。
最后，当我们学习到了【参数】和【非参数】后，我们就确定了我们具体的模型结构，这个时候我们再用一些数据来测试这个模型在新的数据上的效果。因此，我们就不能够使用之前已经使用过的数据了，而要选择一个全新的数据集，这既是【测试集】。这个时候我们就要来看最后的结果怎么样，如果结果很好，那么说明一切顺利，但是如果结果很差，那问题出在哪里呢？其中可能的一个原因就是我们事先假定的那一类的【模型】（比如我们最先选择的决策树模型）并不是适合来分析这些数据，因此哪怕我们选择出了这一堆决策树模型中最好的一个（超参数的选择过程），它的效果依旧不怎么样。
这里还有两个遗留的问题：
（1）训练集、验证集和测试集的比例应该怎么去进行分配呢？
传统上是6：2：2的比例，但是不同的情况下你的选择应当不同。这方面的研究也有很多，如果你想要知道我们在设置比例的时候应当参考那些东西，可以去看Isabelle Guyon的这篇论文：A scaling law for the validation-set training-set size ratio 。他的个人主页（http://www.clopinet.com/isabelle/）里也展示了他对于这个问题的研究。
（2）训练集、验证集和测试集的数据是否可以有所重合？
有些时候我们的数据太少了，又不想使用数据增强，那么训练集、验证集和测试集的数据是否可以有所重合呢？这方面的研究就更多了，各种交叉方法，感兴趣的话可以去看Filzmoser这一篇文章Repeated double cross validation

2.

3.

4.

作业区

解析：（如有侵权请告知删除）

softmax和分类模型

内容包含：

softmax回归的基本概念
如何获取Fashion-MNIST数据集和读取数据
softmax回归模型的从零开始实现，实现一个对Fashion-MNIST训练集中的图像数据进行分类的模型
使用pytorch重新实现softmax回归模型

softmax的基本概念

分类问题
一个简单的图像分类问题，输入图像的高和宽均为2像素，色彩为灰度。
图像中的4像素分别记为 $x_1, x_2, x_3, x_4$ 。
假设真实标签为狗、猫或者鸡，这些标签对应的离散值为 $y_1, y_2, y_3$ 。
我们通常使用离散的数值来表示类别，例如 $y_1=1, y_2=2, y_3=3$ 。
权重矢量
$\begin{aligned} o_1 &= x_1 w_{11} + x_2 w_{21} + x_3 w_{31} + x_4 w_{41} + b_1 \end{aligned}$

$\begin{aligned} o_2 &= x_1 w_{12} + x_2 w_{22} + x_3 w_{32} + x_4 w_{42} + b_2 \end{aligned}$

$\begin{aligned} o_3 &= x_1 w_{13} + x_2 w_{23} + x_3 w_{33} + x_4 w_{43} + b_3 \end{aligned}$

神经网络图
下图用神经网络图描绘了上面的计算。softmax回归同线性回归一样，也是一个单层神经网络。由于每个输出 $o_1, o_2, o_3$ 的计算都要依赖于所有的输入 $x_1, x_2, x_3, x_4$ ，softmax回归的输出层也是一个全连接层。

$\begin{aligned}softmax回归是一个单层神经网络\end{aligned}$

既然分类问题需要得到离散的预测输出，一个简单的办法是将输出值 $o_i$ 当作预测类别是 $i$ 的置信度，并将值最大的输出所对应的类作为预测输出，即输出 $\underset{i}{\arg\max} o_i$ 。例如，如果 $o_1,o_2,o_3$ 分别为 $0.1, 10, 0.1$ ，由于 $o_2$ 最大，那么预测类别为2，其代表猫。

输出问题
直接使用输出层的输出有两个问题：
1. 一方面，由于输出层的输出值的范围不确定，我们难以直观上判断这些值的意义。例如，刚才举的例子中的输出值10表示“很置信”图像类别为猫，因为该输出值是其他两类的输出值的100倍。但如果 $o_1=o_3=10^3$ ，那么输出值10却又表示图像类别为猫的概率很低。
2. 另一方面，由于真实标签是离散值，这些离散值与不确定范围的输出值之间的误差难以衡量。

softmax运算符（softmax operator）解决了以上两个问题。它通过下式将输出值变换成值为正且和为1的概率分布：

$\hat{y}_1, \hat{y}_2, \hat{y}_3 = \text{softmax}(o_1, o_2, o_3)$

其中

$\hat{y}1 = \frac{ \exp(o_1)}{\sum_{i=1}^3 \exp(o_i)},\quad \hat{y}2 = \frac{ \exp(o_2)}{\sum_{i=1}^3 \exp(o_i)},\quad \hat{y}3 = \frac{ \exp(o_3)}{\sum_{i=1}^3 \exp(o_i)}.$

容易看出 $\hat{y}_1 + \hat{y}_2 + \hat{y}_3 = 1$ 且 $\leq \hat{y}_1, \hat{y}_2, \hat{y}_3 \leq 1$ ，因此 $\hat{y}_1, \hat{y}_2, \hat{y}_3$ 是一个合法的概率分布。这时候，如果 $\hat{y}_2=0.8$ ，不管 $\hat{y}_1$ 和 $\hat{y}_3$ 的值是多少，我们都知道图像类别为猫的概率是80%。此外，我们注意到

$\underset{i}{\arg\max} o_i = \underset{i}{\arg\max} \hat{y}_i$

因此softmax运算不改变预测类别输出。

计算效率
- 单样本矢量计算表达式
  为了提高计算效率，我们可以将单样本分类通过矢量计算来表达。在上面的图像分类问题中，假设softmax回归的权重和偏差参数分别为

$\boldsymbol{W} = \begin{bmatrix} w_{11} & w_{12} & w_{13} \\ w_{21} & w_{22} & w_{23} \\ w_{31} & w_{32} & w_{33} \\ w_{41} & w_{42} & w_{43} \end{bmatrix},\quad \boldsymbol{b} = \begin{bmatrix} b_1 & b_2 & b_3 \end{bmatrix},$

设高和宽分别为2个像素的图像样本 $i$ 的特征为

$\boldsymbol{x}^{(i)} = \begin{bmatrix}x_1^{(i)} & x_2^{(i)} & x_3^{(i)} & x_4^{(i)}\end{bmatrix},$

输出层的输出为

$\boldsymbol{o}^{(i)} = \begin{bmatrix}o_1^{(i)} & o_2^{(i)} & o_3^{(i)}\end{bmatrix},$

预测为狗、猫或鸡的概率分布为

$\boldsymbol{\hat{y}}^{(i)} = \begin{bmatrix}\hat{y}_1^{(i)} & \hat{y}_2^{(i)} & \hat{y}_3^{(i)}\end{bmatrix}.$

softmax回归对样本 $i$ 分类的矢量计算表达式为

$\begin{aligned} \boldsymbol{o}^{(i)} &= \boldsymbol{x}^{(i)} \boldsymbol{W} + \boldsymbol{b},\\ \boldsymbol{\hat{y}}^{(i)} &= \text{softmax}(\boldsymbol{o}^{(i)}). \end{aligned}$

小批量矢量计算表达式
为了进一步提升计算效率，我们通常对小批量数据做矢量计算。广义上讲，给定一个小批量样本，其批量大小为 $n$ ，输入个数（特征数）为 $d$ ，输出个数（类别数）为 $q$ 。设批量特征为 $\boldsymbol{X} \in \mathbb{R}^{n \times d}$ 。假设softmax回归的权重和偏差参数分别为 $\boldsymbol{W} \in \mathbb{R}^{d \times q}$ 和 $\boldsymbol{b} \in \mathbb{R}^{1 \times q}$ 。softmax回归的矢量计算表达式为

$\begin{aligned} \boldsymbol{O} &= \boldsymbol{X} \boldsymbol{W} + \boldsymbol{b},\\ \boldsymbol{\hat{Y}} &= \text{softmax}(\boldsymbol{O}), \end{aligned}$

其中的加法运算使用了广播机制， $\boldsymbol{O}, \boldsymbol{\hat{Y}} \in \mathbb{R}^{n \times q}$ 且这两个矩阵的第 $i$ 行分别为样本 $i$ 的输出 $\boldsymbol{o}^{(i)}$ 和概率分布 $\boldsymbol{\hat{y}}^{(i)}$ 。

交叉熵损失函数

对于样本 $i$ ，我们构造向量 $\boldsymbol{y}^{(i)}\in \mathbb{R}^{q}$ ，使其第 $y^{(i)}$ （样本 $i$ 类别的离散数值）个元素为1，其余为0。这样我们的训练目标可以设为使预测概率分布 $\boldsymbol{\hat y}^{(i)}$ 尽可能接近真实的标签概率分布 $\boldsymbol{y}^{(i)}$ 。

平方损失估计

$\begin{aligned}Loss = |\boldsymbol{\hat y}^{(i)}-\boldsymbol{y}^{(i)}|^2/2\end{aligned}$

然而，想要预测分类结果正确，我们其实并不需要预测概率完全等于标签概率。例如，在图像分类的例子里，如果 $y^{(i)}=3$ ，那么我们只需要 $\hat{y}^{(i)}_3$ 比其他两个预测值 $\hat{y}^{(i)}_1$ 和 $\hat{y}^{(i)}_2$ 大就行了。即使 $\hat{y}^{(i)}_3$ 值为0.6，不管其他两个预测值为多少，类别预测均正确。而平方损失则过于严格，例如 $\hat y^{(i)}_1=\hat y^{(i)}_2=0.2$ 比 $\hat y^{(i)}_1=0, \hat y^{(i)}_2=0.4$ 的损失要小很多，虽然两者都有同样正确的分类预测结果。

改善上述问题的一个方法是使用更适合衡量两个概率分布差异的测量函数。其中，交叉熵（cross entropy）是一个常用的衡量方法：

$H\left(\boldsymbol y^{(i)}, \boldsymbol {\hat y}^{(i)}\right ) = -\sum_{j=1}^q y_j^{(i)} \log \hat y_j^{(i)},$

其中带下标的 $y_j^{(i)}$ 是向量 $\boldsymbol y^{(i)}$ 中非0即1的元素，需要注意将它与样本 $i$ 类别的离散数值，即不带下标的 $y^{(i)}$ 区分。在上式中，我们知道向量 $\boldsymbol y^{(i)}$ 中只有第 $y^{(i)}$ 个元素 $y^{(i)}{y^{(i)}}$ 为1，其余全为0，于是 $H(\boldsymbol y^{(i)}, \boldsymbol {\hat y}^{(i)}) = -\log \hat y_{y^{(i)}}^{(i)}$ 。也就是说，交叉熵只关心对正确类别的预测概率，因为只要其值足够大，就可以确保分类结果正确。当然，遇到一个样本有多个标签时，例如图像里含有不止一个物体时，我们并不能做这一步简化。但即便对于这种情况，交叉熵同样只关心对图像中出现的物体类别的预测概率。

假设训练数据集的样本数为 $n$ ，交叉熵损失函数定义为
$\ell(\boldsymbol{\Theta}) = \frac{1}{n} \sum_{i=1}^n H\left(\boldsymbol y^{(i)}, \boldsymbol {\hat y}^{(i)}\right ),$

其中 $\boldsymbol{\Theta}$ 代表模型参数。同样地，如果每个样本只有一个标签，那么交叉熵损失可以简写成 $\ell(\boldsymbol{\Theta}) = -(1/n) \sum_{i=1}^n \log \hat y_{y^{(i)}}^{(i)}$ 。从另一个角度来看，我们知道最小化 $\ell(\boldsymbol{\Theta})$ 等价于最大化 $\exp(-n\ell(\boldsymbol{\Theta}))=\prod_{i=1}^n \hat y_{y^{(i)}}^{(i)}$ ，即最小化交叉熵损失函数等价于最大化训练数据集所有标签类别的联合预测概率。

改善上述问题的一个方法是使用更适合衡量两个概率分布差异的测量函数。其中，交叉熵（cross entropy）是一个常用的衡量方法：

$H\left(\boldsymbol y^{(i)}, \boldsymbol {\hat y}^{(i)}\right ) = -\sum_{j=1}^q y_j^{(i)} \log \hat y_j^{(i)},$

假设训练数据集的样本数为 $n$ ，交叉熵损失函数定义为
$\ell(\boldsymbol{\Theta}) = \frac{1}{n} \sum_{i=1}^n H\left(\boldsymbol y^{(i)}, \boldsymbol {\hat y}^{(i)}\right ),$

模型训练和预测

在训练好softmax回归模型后，给定任一样本特征，就可以预测每个输出类别的概率。通常，我们把预测概率最大的类别作为输出类别。如果它与真实类别（标签）一致，说明这次预测是正确的。在3.6节的实验中，我们将使用准确率（accuracy）来评价模型的表现。它等于正确预测数量与总预测数量之比。

获取Fashion-MNIST训练集和读取数据

在介绍softmax回归的实现前我们先引入一个多类图像分类数据集。它将在后面的章节中被多次使用，以方便我们观察比较算法之间在模型精度和计算效率上的区别。图像分类数据集中最常用的是手写数字识别数据集MNIST[1]。但大部分模型在MNIST上的分类精度都超过了95%。为了更直观地观察算法之间的差异，我们将使用一个图像内容更加复杂的数据集Fashion-MNIST[2]。

我这里我们会使用torchvision包，它是服务于PyTorch深度学习框架的，主要用来构建计算机视觉模型。torchvision主要由以下几部分构成：

torchvision.datasets: 一些加载数据的函数及常用的数据集接口；
torchvision.models: 包含常用的模型结构（含预训练模型），例如AlexNet、VGG、ResNet等；
torchvision.transforms: 常用的图片变换，例如裁剪、旋转等；
torchvision.utils: 其他的一些有用的方法。

pip install torchtext

# import needed package
%matplotlib inline
from IPython import display
import matplotlib.pyplot as plt

import torch
import torchvision
import torchvision.transforms as transforms
import time

import sys
sys.path.append("/home/kesci/input")
import d2lzh1981 as d2l

print(torch.__version__)
print(torchvision.__version__)

get dataset

mnist_train = torchvision.datasets.FashionMNIST(root='/home/kesci/input/FashionMNIST2065', train=True, download=True, transform=transforms.ToTensor())
mnist_test = torchvision.datasets.FashionMNIST(root='/home/kesci/input/FashionMNIST2065', train=False, download=True, transform=transforms.ToTensor())

**class torchvision.datasets.FashionMNIST(root, train=True, transform=None, target_transform=None, download=False)

root（string）– 数据集的根目录，其中存放processed/training.pt和processed/test.pt文件。
train（bool, 可选）– 如果设置为True，从training.pt创建数据集，否则从test.pt创建。
download（bool, 可选）– 如果设置为True，从互联网下载数据并放到root文件夹下。如果root目录下已经存在数据，不会再次下载。
transform（可被调用 , 可选）– 一种函数或变换，输入PIL图片，返回变换之后的数据。如：transforms.RandomCrop。
target_transform（可被调用 , 可选）– 一种函数或变换，输入目标，进行变换。

# show result 
print(type(mnist_train))
print(len(mnist_train), len(mnist_test))

out

<class 'torchvision.datasets.mnist.FashionMNIST'>
60000 10000

# 我们可以通过下标来访问任意一个样本
feature, label = mnist_train[0]
print(feature.shape, label)  # Channel x Height x Width

out

torch.Size([1, 28, 28]) 9

如果不做变换输入的数据是图像，我们可以看一下图片的类型参数：

mnist_PIL = torchvision.datasets.FashionMNIST(root='/home/kesci/input/FashionMNIST2065', train=True, download=True)
PIL_feature, label = mnist_PIL[0]
print(PIL_feature)

out

<PIL.Image.Image image mode=L size=28x28 at 0x7F54A41612E8>

# 本函数已保存在d2lzh包中方便以后使用
def get_fashion_mnist_labels(labels):
    text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat',
                   'sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']
    return [text_labels[int(i)] for i in labels]

def show_fashion_mnist(images, labels):
    d2l.use_svg_display()
    # 这里的_表示我们忽略（不使用）的变量
    _, figs = plt.subplots(1, len(images), figsize=(12, 12))
    for f, img, lbl in zip(figs, images, labels):
        f.imshow(img.view((28, 28)).numpy())
        f.set_title(lbl)
        f.axes.get_xaxis().set_visible(False)
        f.axes.get_yaxis().set_visible(False)
    plt.show()

X, y = [], []
for i in range(10):
    X.append(mnist_train[i][0]) # 将第i个feature加到X中
    y.append(mnist_train[i][1]) # 将第i个label加到y中
show_fashion_mnist(X, get_fashion_mnist_labels(y))

# 读取数据
batch_size = 256
num_workers = 4
train_iter = torch.utils.data.DataLoader(mnist_train, batch_size=batch_size, shuffle=True, num_workers=num_workers)
test_iter = torch.utils.data.DataLoader(mnist_test, batch_size=batch_size, shuffle=False, num_workers=num_workers)

start = time.time()
for X, y in train_iter:
    continue
print('%.2f sec' % (time.time() - start))

out

4.95 sec

softmax从零开始的实现

import torch
import torchvision
import numpy as np
import sys
sys.path.append("/home/kesci/input")
import d2lzh1981 as d2l

print(torch.__version__)
print(torchvision.__version__)

获取训练集数据和测试集数据

batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, root='/home/kesci/input/FashionMNIST2065')

模型参数初始化

num_inputs = 784
print(28*28)
num_outputs = 10

W = torch.tensor(np.random.normal(0, 0.01, (num_inputs, num_outputs)), dtype=torch.float)
b = torch.zeros(num_outputs, dtype=torch.float)

W.requires_grad_(requires_grad=True)
b.requires_grad_(requires_grad=True)

对多维Tensor按维度操作

X = torch.tensor([[1, 2, 3], [4, 5, 6]])
print(X.sum(dim=0, keepdim=True))  # dim为0，按照相同的列求和，并在结果中保留列特征
print(X.sum(dim=1, keepdim=True))  # dim为1，按照相同的行求和，并在结果中保留行特征
print(X.sum(dim=0, keepdim=False)) # dim为0，按照相同的列求和，不在结果中保留列特征
print(X.sum(dim=1, keepdim=False)) # dim为1，按照相同的行求和，不在结果中保留行特征

tensor([[5, 7, 9]])
tensor([[ 6],
        [15]])
tensor([5, 7, 9])
tensor([ 6, 15])

定义softmax操作

$\hat{y}_j = \frac{ \exp(o_j)}{\sum_{i=1}^3 \exp(o_i)}$

def softmax(X):
    X_exp = X.exp()
    partition = X_exp.sum(dim=1, keepdim=True)
    # print("X size is ", X_exp.size())
    # print("partition size is ", partition, partition.size())
    return X_exp / partition  # 这里应用了广播机制

X = torch.rand((2, 5))
X_prob = softmax(X)
print(X_prob, '\n', X_prob.sum(dim=1))

tensor([[0.2253, 0.1823, 0.1943, 0.2275, 0.1706],
        [0.1588, 0.2409, 0.2310, 0.1670, 0.2024]]) 
 tensor([1.0000, 1.0000])

softmax回归模型

$\begin{aligned} \boldsymbol{o}^{(i)} &= \boldsymbol{x}^{(i)} \boldsymbol{W} + \boldsymbol{b},\\ \boldsymbol{\hat{y}}^{(i)} &= \text{softmax}(\boldsymbol{o}^{(i)}). \end{aligned}$

def net(X):
    return softmax(torch.mm(X.view((-1, num_inputs)), W) + b)

y_hat = torch.tensor([[0.1, 0.3, 0.6], [0.3, 0.2, 0.5]])
y = torch.LongTensor([0, 2])
y_hat.gather(1, y.view(-1, 1))

tensor([[0.1000],
        [0.5000]])

def cross_entropy(y_hat, y):
    return - torch.log(y_hat.gather(1, y.view(-1, 1)))

定义准确率

我们模型训练完了进行模型预测的时候，会用到我们这里定义的准确率。

def accuracy(y_hat, y):
    return (y_hat.argmax(dim=1) == y).float().mean().item()
  
print(accuracy(y_hat, y))

0.5

# 本函数已保存在d2lzh_pytorch包中方便以后使用。该函数将被逐步改进：它的完整实现将在“图像增广”一节中描述
def evaluate_accuracy(data_iter, net):
    acc_sum, n = 0.0, 0
    for X, y in data_iter:
        acc_sum += (net(X).argmax(dim=1) == y).float().sum().item()
        n += y.shape[0]
    return acc_sum / n
    
print(evaluate_accuracy(test_iter, net))

0.1445

训练模型


num_epochs, lr = 5, 0.1

# 本函数已保存在d2lzh_pytorch包中方便以后使用
def train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size,
              params=None, lr=None, optimizer=None):
    for epoch in range(num_epochs):
        train_l_sum, train_acc_sum, n = 0.0, 0.0, 0
        for X, y in train_iter:
            y_hat = net(X)
            l = loss(y_hat, y).sum()
            
            # 梯度清零
            if optimizer is not None:
                optimizer.zero_grad()
            elif params is not None and params[0].grad is not None:
                for param in params:
                    param.grad.data.zero_()
            
            l.backward()
            if optimizer is None:
                d2l.sgd(params, lr, batch_size)
            else:
                optimizer.step() 
            
            
            train_l_sum += l.item()
            train_acc_sum += (y_hat.argmax(dim=1) == y).sum().item()
            n += y.shape[0]
        test_acc = evaluate_accuracy(test_iter, net)
        print('epoch %d, loss %.4f, train acc %.3f, test acc %.3f'
              % (epoch + 1, train_l_sum / n, train_acc_sum / n, test_acc))

train_ch3(net, train_iter, test_iter, cross_entropy, num_epochs, batch_size, [W, b], lr)
----------------------------------------------------------------------

epoch 1, loss 0.7851, train acc 0.750, test acc 0.791
epoch 2, loss 0.5704, train acc 0.814, test acc 0.810
epoch 3, loss 0.5258, train acc 0.825, test acc 0.819
epoch 4, loss 0.5014, train acc 0.832, test acc 0.824
epoch 5, loss 0.4865, train acc 0.836, test acc 0.827

模型预测

现在我们的模型训练完了，可以进行一下预测，我们的这个模型训练的到底准确不准确。
现在就可以演示如何对图像进行分类了。给定一系列图像（第三行图像输出），我们比较一下它们的真实标签（第一行文本输出）和模型预测结果（第二行文本输出）。

softmax的简洁实现

# 加载各种包或者模块
import torch
from torch import nn
from torch.nn import init
import numpy as np
import sys
sys.path.append("/home/kesci/input")
import d2lzh1981 as d2l

print(torch.__version__)

初始化参数和获取数据

batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, root='/home/kesci/input/FashionMNIST2065')

定义网络模型

num_inputs = 784
num_outputs = 10

class LinearNet(nn.Module):
    def __init__(self, num_inputs, num_outputs):
        super(LinearNet, self).__init__()
        self.linear = nn.Linear(num_inputs, num_outputs)
    def forward(self, x): # x 的形状: (batch, 1, 28, 28)
        y = self.linear(x.view(x.shape[0], -1))
        return y
    
# net = LinearNet(num_inputs, num_outputs)

class FlattenLayer(nn.Module):
    def __init__(self):
        super(FlattenLayer, self).__init__()
    def forward(self, x): # x 的形状: (batch, *, *, ...)
        return x.view(x.shape[0], -1)

from collections import OrderedDict
net = nn.Sequential(
        # FlattenLayer(),
        # LinearNet(num_inputs, num_outputs) 
        OrderedDict([
           ('flatten', FlattenLayer()),
           ('linear', nn.Linear(num_inputs, num_outputs))]) # 或者写成我们自己定义的 LinearNet(num_inputs, num_outputs) 也可以
        )

初始化模型参数

init.normal_(net.linear.weight, mean=0, std=0.01)
init.constant_(net.linear.bias, val=0)

out

Parameter containing:
tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], requires_grad=True)

定义损失函数

loss = nn.CrossEntropyLoss() # 下面是他的函数原型
# class torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='mean')

定义优化函数

optimizer = torch.optim.SGD(net.parameters(), lr=0.1) # 下面是函数原型
# class torch.optim.SGD(params, lr=, momentum=0, dampening=0, weight_decay=0, nesterov=False)

训练

num_epochs = 5
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, None, None, optimizer)

out

epoch 1, loss 0.0031, train acc 0.751, test acc 0.795
epoch 2, loss 0.0022, train acc 0.813, test acc 0.809
epoch 3, loss 0.0021, train acc 0.825, test acc 0.806
epoch 4, loss 0.0020, train acc 0.833, test acc 0.813
epoch 5, loss 0.0019, train acc 0.837, test acc 0.822

笔记区

交叉熵
https://zhuanlan.zhihu.com/p/35709485
https://www.cnblogs.com/kyrieng/p/8694705.html
https://blog.csdn.net/b1055077005/article/details/100152102

习题区

多层感知机

多层感知机的基本知识
使用多层感知机图像分类的从零开始的实现
使用pytorch的简洁实现

多层感知机的基本知识

深度学习主要关注多层模型。在这里，我们将以多层感知机（multilayer perceptron，MLP）为例，介绍多层神经网络的概念。

隐藏层

下图展示了一个多层感知机的神经网络图，它含有一个隐藏层，该层中有5个隐藏单元。

表达公式

具体来说，给定一个小批量样本 $\boldsymbol{X} \in \mathbb{R}^{n \times d}$ ，其批量大小为 $n$ ，输入个数为 $d$ 。假设多层感知机只有一个隐藏层，其中隐藏单元个数为 $h$ 。记隐藏层的输出（也称为隐藏层变量或隐藏变量）为 $\boldsymbol{H}$ ，有 $\boldsymbol{H} \in \mathbb{R}^{n \times h}$ 。因为隐藏层和输出层均是全连接层，可以设隐藏层的权重参数和偏差参数分别为 $\boldsymbol{W}_h \in \mathbb{R}^{d \times h}$ 和 $\boldsymbol{b}_h \in \mathbb{R}^{1 \times h}$ ，输出层的权重和偏差参数分别为 $\boldsymbol{W}_o \in \mathbb{R}^{h \times q}$ 和 $\boldsymbol{b}_o \in \mathbb{R}^{1 \times q}$ 。

我们先来看一种含单隐藏层的多层感知机的设计。其输出 $\boldsymbol{O} \in \mathbb{R}^{n \times q}$ 的计算为

$\begin{aligned} \boldsymbol{H} &= \boldsymbol{X} \boldsymbol{W}_h + \boldsymbol{b}_h,\\ \boldsymbol{O} &= \boldsymbol{H} \boldsymbol{W}_o + \boldsymbol{b}_o, \end{aligned}$

也就是将隐藏层的输出直接作为输出层的输入。如果将以上两个式子联立起来，可以得到

$\boldsymbol{O} = (\boldsymbol{X} \boldsymbol{W}_h + \boldsymbol{b}_h)\boldsymbol{W}_o + \boldsymbol{b}_o = \boldsymbol{X} \boldsymbol{W}_h\boldsymbol{W}_o + \boldsymbol{b}_h \boldsymbol{W}_o + \boldsymbol{b}_o.$

从联立后的式子可以看出，虽然神经网络引入了隐藏层，却依然等价于一个单层神经网络：其中输出层权重参数为 $\boldsymbol{W}_h\boldsymbol{W}_o$ ，偏差参数为 $\boldsymbol{b}_h \boldsymbol{W}_o + \boldsymbol{b}_o$ 。不难发现，即便再添加更多的隐藏层，以上设计依然只能与仅含输出层的单层神经网络等价。

激活函数

上述问题的根源在于全连接层只是对数据做仿射变换（affine transformation），而多个仿射变换的叠加仍然是一个仿射变换。解决问题的一个方法是引入非线性变换，例如对隐藏变量使用按元素运算的非线性函数进行变换，然后再作为下一个全连接层的输入。这个非线性函数被称为激活函数（activation function）。

下面我们介绍几个常用的激活函数：

ReLU函数

ReLU（rectified linear unit）函数提供了一个很简单的非线性变换。给定元素 $x$ ，该函数定义为

$\text{ReLU}(x) = \max(x, 0).$

可以看出，ReLU函数只保留正数元素，并将负数元素清零。为了直观地观察这一非线性变换，我们先定义一个绘图函数xyplot。

%matplotlib inline
import torch
import numpy as np
import matplotlib.pyplot as plt
import sys
sys.path.append("/home/kesci/input")
import d2lzh1981 as d2l
print(torch.__version__)

def xyplot(x_vals, y_vals, name):
    # d2l.set_figsize(figsize=(5, 2.5))
    plt.plot(x_vals.detach().numpy(), y_vals.detach().numpy())
    plt.xlabel('x')
    plt.ylabel(name + '(x)')

x = torch.arange(-8.0, 8.0, 0.1, requires_grad=True)
y = x.relu()
xyplot(x, y, 'relu')

y.sum().backward()
xyplot(x, x.grad, 'grad of relu')

Sigmoid函数

sigmoid函数可以将元素的值变换到0和1之间：

$\text{sigmoid}(x) = \frac{1}{1 + \exp(-x)}.$

y = x.sigmoid()
xyplot(x, y, 'sigmoid')

依据链式法则，sigmoid函数的导数

$\text{sigmoid}'(x) = \text{sigmoid}(x)\left(1-\text{sigmoid}(x)\right).$

下面绘制了sigmoid函数的导数。当输入为0时，sigmoid函数的导数达到最大值0.25；当输入越偏离0时，sigmoid函数的导数越接近0。

x.grad.zero_()
y.sum().backward()
xyplot(x, x.grad, 'grad of sigmoid')

tanh函数

tanh（双曲正切）函数可以将元素的值变换到-1和1之间：

$\text{tanh}(x) = \frac{1 - \exp(-2x)}{1 + \exp(-2x)}.$

我们接着绘制tanh函数。当输入接近0时，tanh函数接近线性变换。虽然该函数的形状和sigmoid函数的形状很像，但tanh函数在坐标系的原点上对称。

y = x.tanh()
xyplot(x, y, 'tanh')

依据链式法则，tanh函数的导数

$\text{tanh}'(x) = 1 - \text{tanh}^2(x).$

下面绘制了tanh函数的导数。当输入为0时，tanh函数的导数达到最大值1；当输入越偏离0时，tanh函数的导数越接近0。

x.grad.zero_()
y.sum().backward()
xyplot(x, x.grad, 'grad of tanh')

关于激活函数的选择

ReLu函数是一个通用的激活函数，目前在大多数情况下使用。但是，ReLU函数只能在隐藏层中使用。

用于分类器时，sigmoid函数及其组合通常效果更好。由于梯度消失问题，有时要避免使用sigmoid和tanh函数。

在神经网络层数较多的时候，最好使用ReLu函数，ReLu函数比较简单计算量少，而sigmoid和tanh函数计算量大很多。

在选择激活函数的时候可以先选用ReLu函数如果效果不理想可以尝试其他激活函数。

多层感知机

多层感知机就是含有至少一个隐藏层的由全连接层组成的神经网络，且每个隐藏层的输出通过激活函数进行变换。多层感知机的层数和各隐藏层中隐藏单元个数都是超参数。以单隐藏层为例并沿用本节之前定义的符号，多层感知机按以下方式计算输出：

$\begin{aligned} \boldsymbol{H} &= \phi(\boldsymbol{X} \boldsymbol{W}_h + \boldsymbol{b}_h),\\ \boldsymbol{O} &= \boldsymbol{H} \boldsymbol{W}_o + \boldsymbol{b}_o, \end{aligned}$

其中 $\phi$ 表示激活函数。

多层感知机从零开始的实现

import torch
import numpy as np
import sys
sys.path.append("/home/kesci/input")
import d2lzh1981 as d2l
print(torch.__version__)

获取训练集

batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size,root='/home/kesci/input/FashionMNIST2065')

定义模型参数

num_inputs, num_outputs, num_hiddens = 784, 10, 256

W1 = torch.tensor(np.random.normal(0, 0.01, (num_inputs, num_hiddens)), dtype=torch.float)
b1 = torch.zeros(num_hiddens, dtype=torch.float)
W2 = torch.tensor(np.random.normal(0, 0.01, (num_hiddens, num_outputs)), dtype=torch.float)
b2 = torch.zeros(num_outputs, dtype=torch.float)

params = [W1, b1, W2, b2]
for param in params:
    param.requires_grad_(requires_grad=True)

定义激活函数

def relu(X):
    return torch.max(input=X, other=torch.tensor(0.0))

定义网络

def net(X):
    X = X.view((-1, num_inputs))
    H = relu(torch.matmul(X, W1) + b1)
    return torch.matmul(H, W2) + b2

定义损失函数

loss = torch.nn.CrossEntropyLoss()

训练

num_epochs, lr = 5, 100.0
# def train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size,
#               params=None, lr=None, optimizer=None):
#     for epoch in range(num_epochs):
#         train_l_sum, train_acc_sum, n = 0.0, 0.0, 0
#         for X, y in train_iter:
#             y_hat = net(X)
#             l = loss(y_hat, y).sum()
#             
#             # 梯度清零
#             if optimizer is not None:
#                 optimizer.zero_grad()
#             elif params is not None and params[0].grad is not None:
#                 for param in params:
#                     param.grad.data.zero_()
#            
#             l.backward()
#             if optimizer is None:
#                 d2l.sgd(params, lr, batch_size)
#             else:
#                 optimizer.step()  # “softmax回归的简洁实现”一节将用到
#             
#             
#             train_l_sum += l.item()
#             train_acc_sum += (y_hat.argmax(dim=1) == y).sum().item()
#             n += y.shape[0]
#         test_acc = evaluate_accuracy(test_iter, net)
#         print('epoch %d, loss %.4f, train acc %.3f, test acc %.3f'
#               % (epoch + 1, train_l_sum / n, train_acc_sum / n, test_acc))

d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, params, lr)

----------------------------------------------------------------------
epoch 1, loss 0.0030, train acc 0.712, test acc 0.806
epoch 2, loss 0.0019, train acc 0.821, test acc 0.806
epoch 3, loss 0.0017, train acc 0.847, test acc 0.825
epoch 4, loss 0.0015, train acc 0.856, test acc 0.834
epoch 5, loss 0.0015, train acc 0.863, test acc 0.847

多层感知机pytorch实现

import torch
from torch import nn
from torch.nn import init
import numpy as np
import sys
sys.path.append("/home/kesci/input")
import d2lzh1981 as d2l

print(torch.__version__)

初始化模型和各个参数

num_inputs, num_outputs, num_hiddens = 784, 10, 256
    
net = nn.Sequential(
        d2l.FlattenLayer(),
        nn.Linear(num_inputs, num_hiddens),
        nn.ReLU(),
        nn.Linear(num_hiddens, num_outputs), 
        )
    
for params in net.parameters():
    init.normal_(params, mean=0, std=0.01)

训练

batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size,root='/home/kesci/input/FashionMNIST2065')
loss = torch.nn.CrossEntropyLoss()

optimizer = torch.optim.SGD(net.parameters(), lr=0.5)

num_epochs = 5
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, None, None, optimizer)
----------------------------------------------------------------------------------------

epoch 1, loss 0.0031, train acc 0.701, test acc 0.774
epoch 2, loss 0.0019, train acc 0.821, test acc 0.806
epoch 3, loss 0.0017, train acc 0.841, test acc 0.805
epoch 4, loss 0.0015, train acc 0.855, test acc 0.834
epoch 5, loss 0.0014, train acc 0.866, test acc 0.840

笔记区

2.

3.

习题区

你可能感兴趣的:(随笔乱摘动手学深度学习)

随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
今日联对0306 诗图佳得
自对联：烟销皓月临江浒，水漫金山荡塔裙。一一肖士平2020.3.6.1、试对肖老师联：烟销皓月临江浒，夜笼寒沙梦晚舟。耀哥求正2、试对萧老师联:烟销浩月临江浒，雾散乾坤解汉城。秀霞习作请各位老师校正3、自对联：烟销皓月临江浒，水漫金山荡塔裙。一一肖士平2020.3.6.4、试对肖老师垫场联：烟销皓月临江浒，雾锁寒林缈葉丛。小智求正[抱拳]5、试对肖老师联：烟销皓月临江浒；风卷乱云入峰巅。一一五品6
今日囧事唯愿岁月可回首
今天晚上，房东打来电话说晚上过来取个东西。晚上到家后，洗了一下水果，把卧室的空调打开，在卧室的阳台叠衣服。不一会儿，听见了敲门声，老公和丫头出去开门，果然是房东来了。由于我在叠衣服，床上比较乱，老公随手就把卧室门带上了。我赶紧把衣服收在柜子里，一拧门，好吧，打不开。听见外面热热闹闹的，我喊老公帮我开门，开了几次都开不开。丫头说：妈妈，你先在里面休息一会，我们正在找钥匙。听见外面房东拿了自己东西，老
诡谲的一夜乔三鳞
门缝里有一些眼睛，我再熟悉不过了，眼睛总和门有关。上次开门的时候，母亲的义眼骨碌碌地滚到我的脚边，顺着滚动的轨迹看过去，原来是父亲又打了母亲。父亲常这样殴打母亲，抓着她的头，往墙上，重重地砸。母亲的眼睛会掉下来，地上有灰，所以总要洗洗才能装回眼窝里。我想，装回去的时候会疼的——很疼，因为母亲总是流出血泪。所以，在我的认知里，门和眼睛的关系是紧密的，现在也一样，门缝里那些如葡萄般一串串的眼睛，摘一个
祭坛随笔阿门不热
街角右拐，便是北宋的祠堂。平日里冉冉的佛香被雨水打湿了，一地枯黄的银杏显得平静哀伤，如同一地被踩碎的阳光。我喜欢在这样的阴暗里吞噬古代的讯息，那遥远的来自过去的历史风潮。谢却茶扉，轻轻地抚上墙壁，寒风不御，无数深浅的纹路交织在心底，如同一把古琴不堪重负的尾音。寂寞锁朱门，香客们已是三三两两，巨大的雨帘让天空失掉了颜色，灰蒙蒙掉在阁楼一角，沉稳不惊地暗下去，再暗下去......古树上红色的挂牌像一块
《吹牛大王历险记》读书随笔赵炳森
这本书的作者是埃·拉斯伯戈·毕尔格。（没查到相关内容，好像他只写过《吹牛大王历险记》。）最让人百思不得其解的是他居然能自己拉自己的辫子出泥潭？！我觉得自己拉自己的辫子只会把自己的辫子拉断，而不会飞出泥潭。（问:图片中底下的屁股为什么插了一根钢针？）屁股底下居然有根钢针？在泥潭应该是滑滑的吧，可是他怎么能夹紧马肚呢？马肚子应该是在马的下方。还有如果能从泥潭里把连人带马都给拽出来的话，他力气肯定很大，
樵夫随笔 NO.1146吓了公交司机一大跳痴信不改一书生
傍晚，我把公交司机吓了一大跳！下班回家路上，先在公交车上读了会儿书，又写了篇文章，还有大约10分钟才到站，于是，靠在座椅上小眯一会儿。这一眯不要紧，直接眯到了终点站！而且，除我以外的所有人都下车后，司机直接关掉车厢内的灯，紧接着下车，关门儿，准备去厕所。这时，我被惊醒，拍打着玻璃，大喊“师傅……师傅……”司机师傅打开车门后的第一句话就是：“你可把我吓得够呛！”说说当时的情景：终点站设在一破旧的小院
终于可以出去玩了开心外婆
今天终于可以带宝宝下去玩了，吃过早饭就准备出门。首先把口罩带好，虽然现在疫情差不多结束了吧，但防护措施还是要做好，宝宝两个多月没出门，好久没带口罩刚带上有点不舒服，总是用手去拿，然后告诉他一定要带好口罩，要不然就不能出去，可能宝宝很想出去，后来就没有摘口罩了。出去也不敢乱走，就在小区广场上玩他的踏板车，玩了两圈就有一个大白经过广场并告诉我马上旁边楼栋要做核酸，要我们先回家去，就这样结束了上午的活动
随笔（探悟）杰语唱响
亲兄弟姐妹之间不来往，其实不就是吃亏的人不想吃亏了，或者是占便宜的人占不到便宜了，从此就断绝了来往，互不搭理了。那些极度自私的人，是最不讲道理的，无论他们遇到什么事，都要让他占到便宜。顺着他的心情才行。否则那就是别人的不对。有这种想法的人，一看就是个穷命，那些个处处想着占便宜的人，老是想多要点，原因就是我没有吗，什么都没有，德行也没有，财富也没有，你说他的命怎么可能会好。家庭不和，兄弟姐妹断绝来往
第二十五辑-安尘乱物 wallowed
1、《劳犁》作犁耕土解炎林，劳碌秋丰四两金。挥汗佝偻衣褴褛，卖得如洗衬寒贫。春种南山锄造力，傍老倚仗体民心。颗籽无收黍稷尘，农田饥劬苦疫病。牛羊冷炙食蚕桑，丁壮耒耜宿闲勤。归来未已开红豆，篱落花稀麦苗青。米贵征徭生柴火，荒草凄清渐鸡鸣。谷雨时节方期许，择日又是复曾经。2、《忘言》久别似相识，对酒客长安。嘘唏一仗夜，临行却忘言。江雪空投岸，梨花淡云烟。若问有缘人，相窥两不厌。莫作酒魂归，窗台结生寒。
组诗·三国群英颂（周瑜、马超、贾诩、赵云）颍川荀清
念奴娇·怀周郎矶头万仞、若关情，仍叹当年英物！一揽长江，龙流怒，化作孙吴阵壁。浪里船城，铁锁平川，袖挽千堆雪。烈胆豪情，斗牛惊认奇杰！但看戎马余生，纵横万里，正英姿勃发。宏图霸业弹指间，惟见涛生云灭。苍天轻狂，妒意猖作，帅将难华发。难忆郎顾，青史相伴别月。古体·西凉天将军大漠狂烟起，孑然佩青锋。神威震羌月，锦袍曜汉空。终囚蜀山险，瘴疠掩长虹。天地一孤啸，匹马又西风。水调歌头·文和乱武山水应将残，清
中学生父母的修养再简单不过了
我是一个中学生的父母，我有许多心情，偶尔彷徨，偶尔愤怒，偶尔欣喜，偶尔还会感伤，我彷徨的是。他仿佛瞬间长大了，失去了我的掌控，从而愤怒他不再和我那么亲近，第一次告诉我说，你根本就不懂我，欣喜的是，我经常看到的小一些人，已经以我察觉不到的速度慢慢的蜕变成一棵树，虽然不够枝繁叶茂，但是已经有很多分支，绿叶还有开叉了，我感觉自己并没有老去，但孩子却已经有自己的世界。他会说，不准随便进他的房间，不要乱问班
济宁高新区“路长制”8月28日工作日志 JNSGAJGXQFJ
【工作日志】一、洸河路“路长制”工作每日战报【早高峰巡逻】凯赛中队与高新区特警早高峰巡逻【平峰治理】凯赛中队与高新区特警平峰巡逻【晚高峰巡逻】凯赛中队与高新区特警在商检岗集合晚高峰巡逻二、吴泰闸路“路长制”工作每日战报【早高峰巡逻】圣地岗和贵和岗巡逻劝导非机动车走机动车道等重点违法行为，在重点路段疏导交通。【平峰巡逻】吴泰闸中队治理乱停乱放【晚高峰巡逻】圣地岗和贵和岗巡逻劝导非机动车走机动车道等重
【新教育-教师随笔】读《做最好的英语老师》有感 164c5aca7b79
伊川县直中学王素平《做最好的英语老师》这本书是作者这些年在他教学中得与失的总结。里面给我们提供了听力，单词，句子，阅读，作文等模块的教学方法，让我受益匪浅，现总结如下：一.语文教学给了我们什么启示？（1）：现有的英语教材内容简单，枯燥，与学生的心智发展水平严重脱节。我们要给学生补中一些贴近学生生活，能感动和影响他们的经典作品。让学生学习知识的同时，有所感悟和思考，同时享受审美的乐趣！如AWiseO
夏日随笔日记夏天的夜住在城里的庄户孩子
浅聊微信朋友圈及其它文/王立虎（一）又是一个深夜了，夏天的夜显得有些浮躁有些闷热，透过窗户外面街道上街灯依旧明亮，照着匆忙的车与人回家。关上电脑，打开，还是先完成日更，一直坚持着努力着写着，虽没有什么优秀的大作出现，但有时候还是佩服自己对文学的执着和爱好，佩服自己的自律。写点吧，在这夜深人静的时候，独处着，习惯着，随笔写下自己一天的心情，有感悟，有事件，有温度，我想写下总是好的。也有人喜欢这个点来
随笔 Csar_NFBC
别再奋战在凌晨四点半不断留存的我们的遗憾一般流汗不呐喊的伪善到了虚荣心的年纪都眼馋那么多浮夸的浮华都摞在每个人的肩头献丑般的伎俩扩大了每个人的心愁个个都能说会道到最后却难免想上帝苦苦的祷告，越光鲜的就越阴险着，人血馒头吃在嘴里拿在手里从不做冒险者谁又想阴暗呢，现实多残酷，上班族碌碌，面对现实谁又是无辜的？那天空气有些浑浊，办公室中气氛紧张影响脉搏，明明有些事情很清楚还要说上三遍到处传达着加班到凌晨
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
来时空去时空如是万般皆空一航文学与艺术
关注一航文学与艺术每一天都与众不同更漏子文/宁静致远（阑珊）北风寒，梅蕊落，陌上花开花落。观世间，月儿圆，来回皆是缘。来时空，去时空，如是万般皆空。花儿落，水东流，落花人长留。2018.2.4给我一支笔文／宁静致远（阑珊）给我一支笔绘一幅水墨丹青绿水青山给我一支笔写一曲岁月如歌曲水流觞给我一支笔写下风花雪月前世今生给我一支笔写下灿烂的诗篇吟古诵今2018.2.3游无为寺随笔文/宁静致远光阴一去不复
柿子红遍的季节相宜人生
曾经与鹤山有约：“秋去冬来万物休，唯有柿树挂灯笼”的暮秋时节来鹤山踏秋赏秋摘柿话秋思，给劳累的心灵放个假，让万千思绪自由飞翔！今天半晌如约而至。沿着石板小路径直来到山脚下，顺着高低错落的大大小小方方圆圆的怪石蜿蜒盘旋而上，在高高的山岗觅了一块平整洁净的巨石坐下来。沐浴着暖暖的阳光和清风做伴和仙山私语。天空，是那么的湛蓝没有一丝的白云。如水，蓝的清澈蓝的透亮蓝的晴明在心田缓缓流淌，心醉了心净了心亮了
只生欢喜不生愁花间星事
《只生欢喜不生愁》是我很喜欢的一本书，挺适合当下的环境阅读。作者林曦老师是位水墨画家，设计师。她1983年生于重庆，毕业于中央美术学院，年少成名，以手艺人自居。在她的这本艺术生活随笔集里，用自己的切身实践解析艺术美育的本质内涵。分享了艺术学习，写字的乐趣，专注心力的法门与修炼，用中式文人的视角观照当代生活的审美情趣及路径，讨论艺术之道与无用之美，让传统美学回归到现实生活践行中。林曦少年时办过不少画
柯建希老师直播4 梦想写作者
1.不要我大，不要狂妄，人家没让人帮忙还去帮忙。我大，我乱，我站错了位置，我只能做我自己，我代替不了任何人生活，我感受不了别人的感受。2.我不是你的妈妈，我是你的妻子，我还有两个孩子。我只能帮忙百分之三十最多百分之五十。3.自以为是的人从来不去问的，自我为中心。不会谦卑。越强势狂妄自大的人越容易上当受骗。4.老公站在老公的位置，妻子站在妻子的位置，老公弱，妻子学会更弱。5.给男人尊严，如果女人强势
养生和烟火气十足的生活玉竹园
内经素问的第二篇四季调神大论中是故圣人不治已病，治未病，不治已乱，治未乱，此之谓也。夫病已成而后药之，乱已成而后治之，譬犹渴而穿井，斗而铸锥，不亦晚乎。小绵羊穴健脾穴提到养生这个词，你会不会觉得离自己很遥远认为是上年纪的大爷大妈的专属？有的人觉得自己年纪轻不需要，有些是我上有老下有小工作忙忙叨叨，哪有闲心和时间来养生？养生是个很宽泛的词，也很抽象，无从下手感到迷茫。相信在阅读的你也会有过这样的闪念
真的不是老人变坏了，而是坏人变老了悠悠泡泡
晚上和爸爸视频，屏幕里一片黑暗，他急急忙忙地说有事处理，等会给我发过来。过了好一会儿，视频发过来了，爸爸特别气愤地说，有的人真的太可恶了，偷他的西瓜去卖，还是一对七十多的夫妻。爸爸这段时间一直在卖西瓜，今天正好在家休息，竟然被人告知，自己的西瓜被人偷去卖，你说气不气愤。爸爸说要是两个老人到田地里摘瓜回家吃，也没有什么。可他们大白天开着农用小车成袋装去卖，每次都偷大几百斤，已经偷了好几回了，别人看不
【随笔】我依梦澈何
崖上的雄鹰不会眷恋地上的鸡因为他愿意向着蓝天一飞冲天为此经历了无数苦难与蜕变成就了掌控蓝天的一代天骄这就是我蓝天，未来，俯视尽收眼底！图片发自App
2022-02-05 倚剑白云天
千秋岁床头历换，百岁过多半。山水秀，风雷变。载身天地老，卖赋文章贱。新句好，年来尽付红酥看。莫道春光晚，莫听林莺乱。抒啸傲，忘愁叹。劳劳冰雪调，坎坎烟霞愿。君不见，那人就在松江岸。
洪陵日记029 羊绒衫大王洪陵
洪叶羊绒说-今日记029今天周末，早上带着洪曼妮去工厂附近的草莓园摘草莓去了，算是兑现了之前答应她的，我现在要答应她什么事情，她会跟我击掌，表示要兑现答应的事情。然后她会经常提醒我中午一个在头条加我微信咨询微掌柜代理的事情，我看了他的朋友圈，2018年俩条，2017年不超过5条，我连是男是女都无法分别，头像也是个风景照。在网上做生意尤其是在微信端卖产品，我觉得一个真人头像还是很有必要的。我告诉他先
暮梦聆听雨声的忧伤
行云何去随风忘却归来路遮了半卷残阳尽道秋已暮西风正紧午夜卷去花簇簇乱了雁儿乡路又忆愁如絮明月已斜黯黯寒光照几处显了伊人消容终谙离恨苦凤箫声动舞动夜空星如雨撩乱梦里思愁悠悠无寻处雨打成线只一身寒衣……
2021-11-19 吕志刚l
京❤️达总店：吕志刚2021年11月18日落地真经严格就是爱，放纵既是害目标确认目标:油卡目标：30个完成13个。今日体验，工作杂乱无章，没有计划，就会越来越乱，越来越慢。手头上有工作，做好合理安排，了解客户要车时间，再去做其他安排，最主要的是要对自己所干的事了解清楚，盲目去干，只能是毫无头绪，耽误时间。修什么车，了解什么车，钻研什么车。
宋真宗御笔书名的“岳麓书院”，历经千年魅力永续博物馆学文化
中国古代书院，兴起于唐，清代诗人袁枚在《随园随笔》中记载：“书院之名起唐玄宗时，丽正书院、集贤书院皆建于朝省，为修书之地，非士子肄业之所也。”在《新唐书·百官志》中记载：“唐开元六年，将乾元院改为丽正修书院，十三年又改丽正修书院为集贤殿书院。”这是史料中有关书院最早的记载。是唐代为了搜集图书、校刊经籍，撰写文章的场所，而非教育机构，也非朝廷的正式办事机构。最早具有教育功能的书院是白鹿洞书院，与它一
随笔——老友记天秤座的O小姐（二）盐鱼仔
在我眼里的O小姐简直是把天秤座的性格表现得淋漓尽致，又爱美，喜欢各种尝试新事物，但是又优柔寡断，真的像个天秤一样，左右摇摆，最大的爱好就是逛街，逛各种服装店。老家是一座小县城，对街上店铺的熟悉如数家珍，也是让我敬佩不已，她逛得开心，而我更多数时候敬责的当个帮忙提包的工具人。在其他朋友或是同学看来，O小姐与我完全是180°的对立面，像我们俩这种完全相反性格的人是如何能凑到一块，并坚持了十几年的友谊不
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

动手学:深度学习Task1

目录

线性回归

线性回归的基本要素

模型

数据集

损失函数

优化函数 - 随机梯度下降

优化函数的有以下两个步骤：

矢量计算

第一种方式

第二种方式

结论

线性回归模型从零开始的实现

生成数据集

使用图像来展示生成的数据

读取数据集

初始化模型参数

定义模型

定义损失函数

定义优化函数

训练

线性回归模型使用pytorch的简洁实现

生成数据集

读取数据集

定义模型

初始化模型参数

定义损失函数

定义优化函数

训练

笔记区:

1. 测试集和验证集的区别

2.

作业区

softmax和分类模型

softmax的基本概念

交叉熵损失函数

模型训练和预测

获取Fashion-MNIST训练集和读取数据

get dataset

softmax从零开始的实现

获取训练集数据和测试集数据

模型参数初始化

对多维Tensor按维度操作

定义softmax操作

softmax回归模型

定义准确率

训练模型

模型预测

softmax的简洁实现

初始化参数和获取数据

定义网络模型

初始化模型参数

定义损失函数

定义优化函数

训练

笔记区

习题区

多层感知机

多层感知机的基本知识

隐藏层

表达公式

激活函数

ReLU函数

Sigmoid函数

tanh函数

关于激活函数的选择

多层感知机

多层感知机从零开始的实现

获取训练集

定义模型参数

定义激活函数

定义网络

定义损失函数

训练

多层感知机pytorch实现

初始化模型和各个参数

训练

笔记区

习题区