时光轻浅，半夏挽歌

读书笔记：深度学习入门-基于python的理论与实现（俗称鱼书）

文章目录

前言
三、神经网络
- 3.2 激活函数
- - 3.2.1 阶跃函数
  - 3.2.2 sigmoid函数
  - 3.2.3 ReLU函数
- 3.3 多维数组
- - 3.3.1 多维数组的维度和形状
  - 3.3.2 多维数组的点乘
- 3.4 三层神经网络的实现
- - 3.4.1 一步一步进行
  - 3.4.2 合起来实现
- 3.5 输出层的设计
- - 3.5.1 Softmax函数
  - 3.5.2 Softmax函数的特征：输出值求和为1，符合概率分布问题
四、神经网络的学习
- 4.2 损失函数
- - 4.2.1 均方误差MSE
  - 4.2.2 交叉熵误差CEE
  - 4.2.3 mini-batch上的交叉熵的实现
- 4.3 数值微分
- - 4.3.1 导数
  - 4.3.2 偏导数
- 4.4 梯度
- - 4.4.1 梯度法
  - 4.4.2 神经网络的梯度
- 4.5 学习算法的实现
五、误差反向传播法
- 5.4 简单层的实现
- 5.5 激活函数层的实现
- - 5.5.1 Relu层
  - 5.5.2 Sigmoid
- 5.6 Affine/Softmax层的实现
- - 5.6.1 Affine层数
  - 5.6.2 Softmax-with-Loss层
六、与学习相关的技巧
- 6.1 参数的更新
- - 6.1.1 SGD
  - 6.1.2 Momentum
  - 6.1.3 AdaGrad
  - 6.1.4 Adam
  - 6.1.5 使用哪种优化器呢
- 6.2 权重的初始值
- - 6.2.1 可以将权重初始值设为0吗？
  - 6.2.2 隐藏层的激活值的分布-对于对称的激活函数（sigmoid和tanh)
  - - 6.2.2.1 将初始权重设置为标准差为1的高斯分布
    - 6.2.2.2 将初始权重设置为标准差为0.01的高斯分布
    - 6.2.2.3 将初始权重设置为标准差为1/根号n（n为前一层的节点数）的高斯分布（Xavier)
  - 6.2.3 对于不对称的激活函数ReLu
  - - 6.2.3.1 将初始权重设置为标准差为0.01的高斯分布
    - 6.2.3.2 将初始权重设置为标准差为1/根号n（n为前一层的节点数）的高斯分布（Xavier）
    - 6.2.3.3 将初始权重设置为标准差为根号2/n（n为前一层的节点数）的高斯分布（He）
- 6.3 Batch Normalization
- 6.4 正则化
- - 6.4.1 过拟合
  - 6.4.2 权值衰减
  - 6.4.3 Dropout
- 6.5 超参数的验证
- - 6.5.1 验证数据
  - 6.5.2 超参数的最优化
  - 6.5.3 超参数优化的实现
七、卷积神经网络
- 7.1 卷积层
- 7.2 池化层
- 7.3 CNN的实现
八、深度学习
- 8.1 加深网络
- 8.2 深度学习的小历史
- 8.3 深度学习的高速化
- 8.4 深度学习的应用案例
- 8.5 深度学习的未来
总结

前言

终于从头到尾把鱼书看完啦，真的是非常入门，非常查漏补缺，对新手很友好，对有一定基础的人也非常不错。看完不复习等于没看，所以今天开始复盘，顺便写这篇读书笔记。希望分享给没看过这本书或者看过这本书的同僚们参考，欢迎大家指教。我将从第三章神经网络开始复习，前两章内容书里已经非常基础and清楚了。（会持续更新滴）

三、神经网络

3.2 激活函数

这一小节学习的概念是神经网络学习中非常重要的激活函数，它们都是一些非线性函数，至于为何是非线性函数，因为非线性函数组合才能实现复杂网络的构建。以下将实现三个激活函数，它们分别是阶跃函数、sigmoid函数和relu函数

3.2.1 阶跃函数

def step_function(x):
#     if x > 0:
#         y = 1
#     else:
#         y = 0
    y = x > 0
    y = y.astype(np.int)
    return y

这就是阶跃函数的代码实现，可以了解到阶跃函数就是当自变量大于零的时候等于1，小于零的时候等于0的函数，注释上面的改写成下面的原因是，为了numpy数组更方便进行后续操作。

x = np.array([1.5,-2,5.0])
step_function(x)

输出为array([1, 0, 1])

x1 = np.arange(-6,7,1)
y1 = step_function(x1)
plt.plot(x1,y1)
plt.show()

输出的图像为

3.2.2 sigmoid函数

def sigmoid(x):
    y = 1/(1+np.exp(-x))
    return y

sigmoid函数是1/(+exp(-x))的形式，当输入是numpy数组的时候，用上面的代码就可实现了。

sigmoid(x):

输出为array([0.81757448, 0.11920292, 0.99330715])

x1 = np.arange(-6,7,1)
y2 = sigmoid(x1)
plt.plot(x1,y2)
plt.show()

输出的图像为

3.2.3 ReLU函数

def ReLU(x):
    y = np.maximum(0,x)
    return y

ReLU函数相当于在自变量小于0的时候为0，大于零的时候和自变量相等，也就是在自变量和0中取最大值，如上代码即可实现。

ReLU(x)

输出为array([1.5, 0. , 5. ])

x1 = np.arange(-6,7,1)
y3 = ReLU(x1)
plt.plot(x1,y3)
plt.show()

输出图像为
以上小节激活函数，为什么激活函数不能是线性函数呢？如果使用线性函数，加深神经网络的层数就没有意义了。

3.3 多维数组

numpy多维数组的相关运算对于神经网络的实现是基本操作。

3.3.1 多维数组的维度和形状

a = np.array([[2,4,5],[2,3,9]])
a.ndim #维度 将会输出2
a.shape #形状 将会输出（2，3）

b = np.array([[2,2,1],[2,2,4],[5,4,4]])
b.ndim #维度 将会输出2
b.shape #形状 将会输出（3，3）

3.3.2 多维数组的点乘

np.dot(a,b) #维度要符合矩阵乘法，左列等于右行；不然就要符合广播机制

输出为array([[37, 32, 38],
[55, 46, 50]])

3.4 三层神经网络的实现

3.4.1 一步一步进行

第一层，大概逻辑是输入×权重加偏置，然后激活函数

X = np.array([1.0,0.5])
W1 = np.array([[0.1,0.3,0.5],[0.2,0.4,0.6]])
B1 = np.array([0.1,0.2,0.3])

print(X.shape)
print(W1.shape)
print(B1.shape)

输出为(2,)
(2, 3)
(3,)

A1 = np.dot(X,W1) + B1
print(A1)

输出为[0.3 0.7 1.1]

Z1 = sigmoid(A1)
print(Z1)

输出为[0.57444252 0.66818777 0.75026011]
第二层，和第一层的逻辑

W2 = np.array([[0.1,0.4],[0.2,0.5],[0.3,0.6]])
B2 = np.array([0.1,0.2])
A2 = np.dot(A1,W2) + B2

print(A2)

输出为[0.6 1.33]

Z2 = sigmoid(A2)
print(Z2)

输出为[0.64565631 0.79084063]
第三层，前面逻辑一样，激活函数那里用的恒等函数，回归用恒等，分类下一节介绍

W3 = np.array([[0.1,0.3],[0.2,0.4]])
B3 = np.array([0.1,0.2])
A3 = np.dot(A2,W3) + B3

print(A3)

输出为[0.426 0.912]

def identity_function(x):
    y = x
    return y

Z3=identity_function(A3)
print(Z3)

输出为[0.426 0.912]
回归问题的输出层的激活函数为恒等函数，下一节详细介绍

3.4.2 合起来实现

先构建一个初始化参数的函数，如下：

def init_network():
    network = {}
    network['W1'] = np.array([[0.1,0.3,0.5],[0.2,0.4,0.6]])
    network['W2'] = np.array([[0.1,0.4],[0.2,0.5],[0.3,0.6]])
    network['W3'] = np.array([[0.1,0.3],[0.2,0.4]])
    network['B1'] = np.array([0.1,0.2,0.3])
    network['B2'] = np.array([0.1,0.2])
    network['B3'] = np.array([0.1,0.2])
    return network

然后构建一个前进函数，如下：

def forward(network,x):
    W1,W2,W3 = network['W1'],network['W2'],network['W3']
    B1,B2,B3 = network['B1'],network['B2'],network['B3']
    A1 = np.dot(x,W1) + B1
    Z1 = sigmoid(A1)
    A2 = np.dot(Z1,W2) + B2
    Z2 = sigmoid(A2)
    A3 = np.dot(Z2,W3) + B3
    Z3 = identity_function(A3)
    return Z3

接着传入输入，观察参数通过网络的情况

network=init_network()
x=np.array([1.0,0.5])
y=forward(network,x)
print(y)

输出为[0.31682708 0.69627909]

3.5 输出层的设计

3.5.1 Softmax函数

激活函数的使用，回归问题用恒等函数，分类问题用softmax函数

def softmax(x):
    exp_x = np.exp(x)
    sum_exp_x = np.sum(exp_x)
    y = exp_x / sum_exp_x
    return y

softmax函数的函数形式相当于是自然指数除以自然之数求和

x = np.array([0.3,2.9,4.0])
y = softmax(x)
print(y)

输出为[0.01821127 0.24519181 0.73659691]

x = np.array([1010,1000,990])
y = softmax(x)
print(y)

输出为[nan nan nan]
为了解决数组中的大数的输入无法处理的问题，将softmax函数优化为下面这样，在传入自然指数的时候减去数组中的最大值，得到的函数定义代码如下：

def softmax(x):
    c = np.max(x)
    exp_x = np.exp(x-c)
    sum_exp_x = np.sum(exp_x)
    y = exp_x / sum_exp_x
    return y

x = np.array([1010,1000,990])
y = softmax(x)
print(y)

输出为[9.99954600e-01 4.53978686e-05 2.06106005e-09]，至此解决了softmax函数的大数输入问题

3.5.2 Softmax函数的特征：输出值求和为1，符合概率分布问题

sum_y = np.sum(y)
print(sum_y)

输出为1.0，因此对于分类问题的输出都是需要进行这样的softmax操作，规范输出的求和符合1.0

四、神经网络的学习

4.2 损失函数

这一小节中的y为输出的预测值，t为标签

4.2.1 均方误差MSE

均方误差的公式相当于相减的平方求和然后×0.5，如下：

def mean_standard_erro(y,t):
    return 0.5*np.sum((y-t)**2)   

t=[0,0,1,0,0,0,0,0,0,0]
y=[0.1,0.05,0.6,0.0,0.05,0.1,0.0,0.1,0.0,0.0]
mean_standard_erro(np.array(y),np.array(t))

输出为0.09750000000000003

y=[0.1,0.05,0.1,0.0,0.05,0.1,0.0,0.6,0.0,0.0]
mean_standard_erro(np.array(y),np.array(t))

输出为0.5975
一般回归问题使用的损失函数是方均误差这种形式的

4.2.2 交叉熵误差CEE

交叉熵误差相当于计算一个和另一个的lg相乘的相反数，其中lg里需要加上一个小数，避免定义域出现0的问题，这是一种保护机制，交叉熵误差的值是由正确解标签所对应的输出结果决定的，代码如下：

def cross_entropy_error(y,t):
    delta=1e-7
    return -np.sum(t*np.log(y+delta))

t=[0,0,1,0,0,0,0,0,0,0]
y=[0.1,0.05,0.6,0.0,0.05,0.1,0.0,0.1,0.0,0.0]
cross_entropy_error(np.array(y),np.array(t))

输出为0.510825457099338

y=[0.1,0.05,0.1,0.0,0.05,0.1,0.0,0.6,0.0,0.0]
cross_entropy_error(np.array(y),np.array(t))

输出为2.302584092994546
一般分类问题使用的损失函数是交叉熵误差这种形式的

4.2.3 mini-batch上的交叉熵的实现

mini-batch用的是部分计算计算近似整体的一个思路，类似于电视台求收视率，mini-batch上的交叉熵求解的代码如下：

def cross_entropy_error(y,t):
    if y.ndim==1:
        t=t.reshape(1,t.size)
        y=y.reshape(1,y.size)
    batch_size=y.shape[0]
    return -np.sum(np.log(y[np.arange(batch_size),t]+1e-7))/batch_size

np.arange(batch_size)会生成一个从0到batch_size-1的numpy数组，y[np.arange(batch_size),t]能抽出各个数据的正确解标签对应的神经网络输出
关于为何设定损失函数，不直接把精度作为标准，原因是以精度为标准的话会使得绝大多数地方的导数为0，连续、平滑才能使导数不为0，才能继续更新神经网络参数，这也是激活函数不能选择阶跃函数这样不连续光滑的函数，而是选择了sigmoid这样的函数的原因

4.3 数值微分

4.3.1 导数

导数的求解代码就像之前高中数学里学的一样，通过一个小区间里的变化来定义的，也就是说实现函数的输入需要是一个函数和一个自变量的值，因此实现代码如下：

def numberical_diff(f,x):
    h=1e-4
    return (f(x+h)-f(x-h))/(2*h)

比如定义一个函数的形式如下：

def function_1(x):
    return 0.01*x**2+0.1*x

对这个函数画图，用下面的代码：

import numpy as np
import matplotlib.pyplot as plt

x=np.arange(0.0,20.0,0.1)
y=function_1(x)
plt.xlabel("x")
plt.ylabel("y")
plt.plot(x,y)
plt.show()

输出为：
对这个函数在某个位置求导，可以直接向上面的求导的函数传入变量：

numberical_diff(function_1,5)

输出为0.1999999999990898

numberical_diff(function_1,10)

输出为0.2999999999986347

4.3.2 偏导数

偏导数的定义是针对于一个函数含有的变量不止一个的时候，那么在求导数的时候先对一个变量求导数，这个时候其它变量的处理就当作常数，然后对整个函数的每个变量依次处理就好了
比如这里定义一个对自变量平方求和的函数

def function_2(x):
    return np.sum(x**2)

对一个变量求导，另一个带入常数进去进行运算就好了

def function_tmp1(x0):
    return x0*x0+4.0**2.0
numberical_diff(function_tmp1,3.0)

输出为6.00000000000378

def function_tmp2(x1):
    return 3.0**2+x1*x1
numberical_diff(function_tmp2,4.0)

输出为7.999999999999119

4.4 梯度

梯度的定义是对含变量求偏导数形成的向量

def numberical_gradient(f,x):
    h=1e-4
    grad=np.zeros_like(x)
    for idx in range(x.size):
        tmp_val=x[idx]
        x[idx]=tmp_val+h
        fxh1=f(x)
        
        x[idx]=tmp_val-h
        fxh2=f(x)
        
        grad[idx]=(fxh1-fxh2)/(2*h)
        x[idx]=tmp_val
        
    return grad

numberical_gradient(function_2,np.array([3.0,4.0]))

输出为array([6., 8.])

numberical_gradient(function_2,np.array([0.0,2.0]))

输出为array([0., 4.])

numberical_gradient(function_2,np.array([3.0,0.0]))

输出为array([6., 0.])
梯度指示的方向是各点处的函数值减小最多的方向

4.4.1 梯度法

梯度法是用来优化参数的
梯度为0的地方不一定是最小值处，可能为极小值或鞍点
梯度法相当于以一定的速度（学习率）和步数，向损失最小点（极小点/鞍点）靠近

def gradient_descent(f,init_x,lr=0.01,step_num=100):
    x=init_x
    
    for i in range(step_num):
        grad=numberical_gradient(f,x)
        x-=lr*grad
    return x

定义一个函数：

def function_2(x):
    return x[0]**2+x[1]**2

传入输入，用梯度法优化参数：

init_x=np.array([-3.0,4.0])
gradient_descent(function_2,init_x=init_x,lr=0.1,step_num=100)

输出为array([-6.11110793e-10, 8.14814391e-10])
梯度法中，学习率是很有必要调节的参数，学习率过大过小都会存在一些问题，如下：

#学习率过大
init_x=np.array([-3.0,4.0])
gradient_descent(function_2,init_x=init_x,lr=10.0,step_num=100)

输出为array([-2.58983747e+13, -1.29524862e+12])

#学习率过小
init_x=np.array([-3.0,4.0])
gradient_descent(function_2,init_x=init_x,lr=1e-10,step_num=100)

输出为array([-2.99999994, 3.99999992])

4.4.2 神经网络的梯度

首先定义一个只有一个中间层的简单的网络，实现代码如下：

class simpleNet:
    def __init__(self):
        self.W=np.random.randn(2,3)
        
    def predict(self,x):
        return np.dot(x,self.W)
    
    def loss(self,x,t):
        z=self.predict(x)
        y=softmax(z)
        loss=cross_entropy_error(y,t)
        
        return loss

实例化这个类

net=simpleNet()
print(net.W)

输出为[[-0.15560113 0.01606903 -1.45965474]
[ 1.04496805 0.86740927 0.81660113]]

x=np.array([0.6,0.9])
p=net.predict(x)
print(p)

输出为[ 0.84711057 0.79030976 -0.14085183]

np.argmax(p)

输出最大值对应的索引，这里是0

t=np.array([0,0,1])
net.loss(x,t)

def f(W):
    return net.loss(x,t)

dW=numberical_gradient(f,net.W)
print(dW)

这里报错IndexError: index 2 is out of bounds for axis 0 with size 2
尚未解决

4.5 学习算法的实现

下面是一个有两个中间层的网络：

class TwoLayerNet:
    def __init__(self,input_size,hidden_size,output_size,weight_init_std=0.01):
        #初始化权重
        self.params={}
        self.params['W1']=weight_init_std*np.random.randn(input_size,hidden_size)
        self.params['b1']=np.zeros(hidden_size)
        self.params['W2']=weight_init_std*np.random.randn(hidden_size,output_size)
        self.params['b2']=np.zeros(output_size)
        
    def predict(self,x):
        W1,W2=self.params['W1'],self.params['W2']
        b1,b2=self.params['b1'],self.params['b2']
        
        a1=np.dot(x,W1)+b1
        z1=sigmoid(a1)
        a2=np.dot(z1,W2)+b2
        y=softmax(a2)
        
        return y
    
    #x为输入数据，t为监督数据
    def loss(self,x,t):
        y=self.predict(x)
        return cross_entropy_error(y,t)
    
    def accuracy(self,x,t):
        y=self.predict(x)
        y=np.argmax(y,axis=1)
        t=np.argmax(t,axis=1)
        
        accuracy=np.sum(y==t)/float(x.shape[0])
        return accuracy
    #x为输入数据，t为监督数据
    def numberical_gradient(self,x,t):
        loss_W=lambda W: self.loss(x,t)
        
        grads={}
        grads['W1']=numberical_gradient(loss_W,self.params['W1'])
        grads['b1']=numberical_gradient(loss_W,self.params['b1'])
        grads['W2']=numberical_gradient(loss_W,self.params['W2'])
        grads['b2']=numberical_gradient(loss_W,self.params['b2'])
        return grads

首先对这个两层的网络的类进行实例化

net=TwoLayerNet(input_size=784,hidden_size=100,output_size=10)

net.params['W1'].shape

输出为(784, 100)

net.params['b1'].shape

输出为(100,)

net.params['W2'].shape

输出为(100, 10)

net.params['b2'].shape

输出为(10,)

x=np.random.rand(100,784)
y=net.predict(x)

x=np.random.rand(100,784)
t=np.random.rand(100,10)

grads=net.numberical_gradient(x,t)

这里仍然报错index 784 is out of bounds for axis 0 with size 784

五、误差反向传播法

这一章首先定义了计算图和反向传播，
计算图计算图可以集中精力于局部计算，将复杂的计算分割成简单的局部计算，和流水线作业一样，将局部计算的结果传递给下一个节点，至于使用计算图的原因，是通过反向传播高效计算导数
链式法则则是同求偏导数一样，对各个变量一个一个进行导数运算
反向传播是计算图从右往左传播，对于加法和正向传播相等，对于乘法则与正向传播成反比例，

5.4 简单层的实现

首先，构建一个乘法层：

class MulLayer:
    def __init__(self):
        self.x=None
        self.y=None
        
    def forward(self,x,y):
        self.x=x
        self.y=y
        out=x*y
        
        return out
    
    def backward(self,dout):
        dx=dout*self.y
        dy=dout*self.x
        
        return dx,dy

输入自变量，正向传播：

apple=100
apple_num=2
tax=1.1

#layer
mul_apple_layer=MulLayer()
mul_tax_layer=MulLayer()

#forward
apple_price=mul_apple_layer.forward(apple,apple_num)
price=mul_tax_layer.forward(apple_price,tax)

print(price)

输出为220.00000000000003
反向传播：

#backward
dprice=1
dapple_price, dtax=mul_tax_layer.backward(dprice)
dapple,dapple_num=mul_apple_layer.backward(dapple_price)

print(dapple,dapple_num,dtax)

输出为2.2 110.00000000000001 200
加法层的实现：

class AddLayer:
    def __init__(self):
        pass
    def forward(self,x,y):
        out=x+y
        return out
    def backward(self,dout):
        dx=dout*1
        dy=dout*1
        return dx,dy

apple=100
apple_num=2
orange=150
orange_num=3
tax=1.1

#layer
mul_apple_layer=MulLayer()
mul_orange_layer=MulLayer()
add_apple_orange_layer=AddLayer()
mul_tax_layer=MulLayer()

#forward
apple_price=mul_apple_layer.forward(apple,apple_num)
orange_price=mul_orange_layer.forward(orange,orange_num)
all_price=add_apple_orange_layer.forward(apple_price,orange_price)
price=mul_tax_layer.forward(all_price,tax)

#backward
dprice=1
dall_price,dtax=mul_tax_layer.backward(dprice)
dapple_price,dorange_price=add_apple_orange_layer.backward(dall_price)
dorange,dorange_num=mul_orange_layer.backward(dorange_price)
dapple,dapple_num=mul_apple_layer.backward(apple_price)

print(price)
print(dapple_num,dapple,dorange,dorange_num,dtax)

输出为715.0000000000001
20000 400 3.3000000000000003 165.0 650

5.5 激活函数层的实现

5.5.1 Relu层

激活函数也都是可以画出计算图的，通过计算图的求导可以得到，比如Relu函数：

class Relu:
    def __inin__(self):
        self.mask=None
        
    def forward(self,x):
        self.mask=(x<=0)
        out=x.copy()
        out[self.mask]=0
        
        return out
    
    def backward(self,dout):
        dout[self.mask]=0
        dx=dout
        
        return dx

实例化这个类，看一下输出：

x=np.array([[1.0,-0.5],[-2.0,3.0]])
print(x)
mask=(x<=0)
print(mask)

输出为[[ 1. -0.5]
[-2. 3. ]]
[[False True]
[ True False]]

5.5.2 Sigmoid

对于Sigmoid函数：

class Sigmoid:
    def __init__(self):
        self.out=None
        
    def forward(self,x):
        out=1/(1+np.exp(-x))
        self.out=out
        
        return out
    def backward(self,dout):
        dx=dout*(1.0-self.out)*self.out
        
        return dx

5.6 Affine/Softmax层的实现

5.6.1 Affine层数

X=np.random.rand(2)
W=np.random.rand(2,3)
B=np.random.rand(3)

print(X.shape)
print(W.shape)
print(B.shape)

Y=np.dot(X,W)+B
print(Y)

输出为(2,)
(2, 3)
(3,)
[0.41279864 1.43681214 0.85228714]

X_dot_W=np.array([[0,0,0],[10,10,10]])
B=np.array([1,2,3])

print(X_dot_W)

output=X_dot_W+B

print(output)

输出为[[ 0 0 0]
[10 10 10]]
[[ 1 2 3]
[11 12 13]]

dY=np.array([[1,2,3],[4,5,6]])
print(dY)

dB=np.sum(dY,axis=0)
print(dB)

输出为[[1 2 3]
[4 5 6]]
[5 7 9]
对于线性层：

class Affine:
    def __init__ (self,W,b):
        self.W=W
        self.b=b
        self.x=None
        self.dW=None
        self.db=None
        
    def forward(self,x):
        self.x=x
        out=np.dot(x,self.W)+self.b
        
        return out
    
    def backward(self,dout):
        dx=np.dot(dout,self.W.T)
        self.dW=np.dot(self.x.T,dout)
        self.db=np.sum(dout,axis=0)
        
        return dx

5.6.2 Softmax-with-Loss层

对于Softmax-with-Loss层：

class SoftmaxWithLoss:
    def __init__(self):
        self.loss=None
        self.y=None
        self.t=None
        
    def forward(self,x,t):
        self.t=t
        self.y=softmax(x)
        self.loss=cross_entropy_error(self.y,self.t)
        
        return self.loss
    
    def backward(self,dout=1):
        batch_size=self.t.shape[0]
        dx=(self.y-self.t)/batch_size
        
        return dx

六、与学习相关的技巧

6.1 参数的更新

6.1.1 SGD

class SGD:
    def __init__(self,lr=0.01):
        self.lr=lr
    def update(self,params,grads):
        for key in params.keys():
            params[key]-=self.lr*grads[key]

缺点是对于非均匀函数的搜索效率低

6.1.2 Momentum

class Momentum:
    def __init__(self,lr=0.01,momentum=0.9):
        self.lr=lr
        self.momentum=momentum
        self.v=None
        
    def update(self,params,grads):
        if self.v is None:
            self.v={}
            for key, val in params.items():
                self.v[key]=np.zeros_like(val)
                
            for key in params.keys():
                self.v[key]=self.momentum*self.v[key]-self.lr*grads[key]
                params[key]+=self.v[key]

相当于给了一个初速度

6.1.3 AdaGrad

class AdaGrad:
    def __init__(self,lr=0.01):
        self.lr=lr
        self.h=None
        
    def update(self,params,grads):
        if self.h is None:
            self.h={}
            for key, val in params.items():
                self.h[key]=np.zeros_like(val)
                
            for key in params.keys():
                self.h[key]+=grads[key]*grads[key]
                params[key]-=self.lr*grads[key]/(np.sqrt(self.h[key])+1e-7)

根据元素调节学习率进行参数优化

6.1.4 Adam

将Momentum和AdaGrad相融合的方法

6.1.5 使用哪种优化器呢

哪种优化器最好需要根据问题而定。目前用的比较多的是Adam和SGD。

6.2 权重的初始值

6.2.1 可以将权重初始值设为0吗？

不能，误差反向传播过程中，若将权重初始值设为0，所有的权重值都会进行相同的更新，使得权重均一化

6.2.2 隐藏层的激活值的分布-对于对称的激活函数（sigmoid和tanh)

6.2.2.1 将初始权重设置为标准差为1的高斯分布

import numpy as np
import matplotlib.pyplot as plt

def sigmoid(x):
    return 1/(1+np.exp(-x))

x=np.random.randn(1000,100)
node_num=100
hidden_layer_size=5
activations={}

for i in range(hidden_layer_size):
    if i!=0:
        x=activations[i-1]
        
    w=np.random.randn(node_num,node_num)*1
    
    z=np.dot(x,w)
    a=sigmoid(z)
    activations[i]=a

for i,a in activations.items():
    plt.subplot(1,len(activations),i+1)
    plt.title(str(i+1)+"-layer")
    plt.hist(a.flatten(),30,range=(0,1))
plt.show()

6.2.2.2 将初始权重设置为标准差为0.01的高斯分布

for i in range(hidden_layer_size):
    if i!=0:
        x=activations[i-1]
        
    w=np.random.randn(node_num,node_num)*0.01
    
    z=np.dot(x,w)
    a=sigmoid(z)
    activations[i]=a

for i,a in activations.items():
    plt.subplot(1,len(activations),i+1)
    plt.title(str(i+1)+"-layer")
    plt.hist(a.flatten(),30,range=(0,1))
plt.show()

6.2.2.3 将初始权重设置为标准差为1/根号n（n为前一层的节点数）的高斯分布（Xavier)

for i in range(hidden_layer_size):
    if i!=0:
        x=activations[i-1]
    node_num=100    
    w=np.random.randn(node_num,node_num)/np.sqrt(node_num)
    
    z=np.dot(x,w)
    a=sigmoid(z)
    activations[i]=a

for i,a in activations.items():
    plt.subplot(1,len(activations),i+1)
    plt.title(str(i+1)+"-layer")
    plt.hist(a.flatten(),30,range=(0,1))
plt.show()

6.2.3 对于不对称的激活函数ReLu

对于不对成的ReLu来说，标准差为He（根号2/n）好于Xavier好于0.01

权重初始值的设置非常重要，直接决定之后的网络能否进行正常学习

6.2.3.1 将初始权重设置为标准差为0.01的高斯分布

def ReLU(x):
    y = np.maximum(0,x)
    return y

x=np.random.randn(1000,100)
node_num=100
hidden_layer_size=5
activations={}

for i in range(hidden_layer_size):
    if i!=0:
        x=activations[i-1]
        
    w=np.random.randn(node_num,node_num)*0.01
    
    z=np.dot(x,w)
    a=ReLU(z)
    activations[i]=a

for i,a in activations.items():
    plt.subplot(1,len(activations),i+1)
    plt.title(str(i+1)+"-layer")
    plt.hist(a.flatten(),30,range=(0,1))
plt.show()

6.2.3.2 将初始权重设置为标准差为1/根号n（n为前一层的节点数）的高斯分布（Xavier）

for i in range(hidden_layer_size):
    if i!=0:
        x=activations[i-1]
    
    node_num=100
    w=np.random.randn(node_num,node_num)/np.sqrt(node_num)
    
    z=np.dot(x,w)
    a=ReLU(z)
    activations[i]=a

for i,a in activations.items():
    plt.subplot(1,len(activations),i+1)
    plt.title(str(i+1)+"-layer")
    plt.hist(a.flatten(),30,range=(0,1))
plt.show()

6.2.3.3 将初始权重设置为标准差为根号2/n（n为前一层的节点数）的高斯分布（He）

for i in range(hidden_layer_size):
    if i!=0:
        x=activations[i-1]
    
    node_num=100
    w=np.random.randn(node_num,node_num)/np.sqrt(node_num/2)
    
    z=np.dot(x,w)
    a=ReLU(z)
    activations[i]=a

for i,a in activations.items():
    plt.subplot(1,len(activations),i+1)
    plt.title(str(i+1)+"-layer")
    plt.hist(a.flatten(),30,range=(0,1))
plt.show()

6.3 Batch Normalization

使得学习对初始权重不敏感

6.4 正则化

为了避免过拟合

6.4.1 过拟合

测试的精度和训练的相差很大，原因可能是数据量不够，或模型过于复杂

6.4.2 权值衰减

能在一定程度上，减少过拟合

6.4.3 Dropout

对于表现能力强的网络，能减少过拟合

class Dropout:
    def __init__(self,dropout_ratio=0.5):
        self.dropout_ratio=dropout_ratio
        self.mask=None
        
    def forward(self,x,train_flg=True):
        if train_flg:
            self.mask=np.random.rand(*x.shape)>self.dropout_ratio
            return x*self.mask
        else:
            return x*(1.0-self.dropout_ratio)
        
    def backward(self,dout):
        return dout*self.mask

6.5 超参数的验证

6.5.1 验证数据

划分验证集的意义，就是调整超参数

6.5.2 超参数的最优化

除了凭借经验，还可以通过贝叶斯最优化来进行超参数优化

6.5.3 超参数优化的实现

七、卷积神经网络

7.1 卷积层

维度：卷积层的输出=（输入+2*填充-滤波器大小）/步幅+1

def im2col(input_data, filter_h, filter_w, stride=1, pad=0):
    """

    Parameters
    ----------
    input_data : (データ数, チャンネル, 高さ, 幅)の4次元配列からなる入力データ
    filter_h : フィルターの高さ
    filter_w : フィルターの幅
    stride : ストライド
    pad : パディング

    Returns
    -------
    col : 2次元配列
    """
    N, C, H, W = input_data.shape
    out_h = (H + 2*pad - filter_h)//stride + 1
    out_w = (W + 2*pad - filter_w)//stride + 1

    img = np.pad(input_data, [(0,0), (0,0), (pad, pad), (pad, pad)], 'constant')
    col = np.zeros((N, C, filter_h, filter_w, out_h, out_w))

    for y in range(filter_h):
        y_max = y + stride*out_h
        for x in range(filter_w):
            x_max = x + stride*out_w
            col[:, :, y, x, :, :] = img[:, :, y:y_max:stride, x:x_max:stride]

    col = col.transpose(0, 4, 5, 1, 2, 3).reshape(N*out_h*out_w, -1)
    return col


def col2im(col, input_shape, filter_h, filter_w, stride=1, pad=0):
    """

    Parameters
    ----------
    col :
    input_shape : 入力データの形状（例：(10, 1, 28, 28)）
    filter_h :
    filter_w
    stride
    pad

    Returns
    -------

    """
    N, C, H, W = input_shape
    out_h = (H + 2*pad - filter_h)//stride + 1
    out_w = (W + 2*pad - filter_w)//stride + 1
    col = col.reshape(N, out_h, out_w, C, filter_h, filter_w).transpose(0, 3, 4, 5, 1, 2)

    img = np.zeros((N, C, H + 2*pad + stride - 1, W + 2*pad + stride - 1))
    for y in range(filter_h):
        y_max = y + stride*out_h
        for x in range(filter_w):
            x_max = x + stride*out_w
            img[:, :, y:y_max:stride, x:x_max:stride] += col[:, :, y, x, :, :]

    return img[:, :, pad:H + pad, pad:W + pad]

x1=np.random.rand(1,3,7,7)
col1=im2col(x1,5,5,stride=1,pad=0)
print(col1.shape)

输出(9, 75)

x2=np.random.rand(10,3,7,7)
col2=im2col(x2,5,5,stride=1,pad=0)
print(col2.shape)

输出(90, 75)

class Convolution:
    def __init__(self,W,b,stride=1,pad=0):
        self.W=W
        self.b=b
        self.stride=stride
        self.pad=pad
        
    def forward(self,x):
        FN,C,FH,FM=self.W.shaoe
        N,C,H,W=x.shape
        out_h=int(1+(H+2*sel.pad-FH)/self.stride)
        out_w=int(1+(W+2*sel.pad-FW)/self.stride)
        
        col=im2col(x,FH,FW,self.stride,self.pad)
        col_w=self.W.reshape(FN,-1).T
        out=np.dot(col,col.W)+self.b
        
        out=out.reshape(N,out_h,out_w,-1).transpose(0,3,1,2)
        
        return out

7.2 池化层

池化层的特征：1没有要学习的参数 2通道数不发生变化 3对微小的位置变化具有鲁棒性（健壮）

class Pooling:
    def __init__(self,pool_h,pool_w,stride=1,pad=0):
        self.pool_h=pool_h
        self.pool_w=pool_w
        self.stride=stride
        self.pad=pad
        
    def forward(self,x):
        N,C,H,W=x.shape
        out_h=int(1+(H-self.pool_h)/self.stride)
        out_w=int(1+(W-self.pool_w)/self.stride)
        
        col=im2col(x,self.pool_h,self.pool_w,self.stride,self.pad)
        col=col.reshape(-1,self.pool_h*self.pool_w)
        
        out=np.max(col,axis=1)
        out=out.reshape(N,out_h,out_w,C).transpose(0,3,1,2)
        
        return out

7.3 CNN的实现

class SimpleConvNet:
    def __init__(self,input_dim=(1,28,28),conv_param={'fileter_num':30,'filter_size':5,'pad':0,'stride':1},hidden_size=100,output_size=10,weight_init_std=0.01):
        filter_num=conv_param['filter_num']
        filter_size=conv_param['filter_size']
        filter_pad=conv_param['filter_pad']
        filter_stride=conv_param['filter_stride']
        input_size=input_dim[1]
        conv_output_size=(input_size-filter_size+2*filter_pad)/filter_stride+1
        pool_output_size=int(filter_num*(conv_output_size/2)*(conv_output_size/2))
        
        self.params={}
        self.params['W1']=weight_init_std*np.random.randn(filter_num,input_dim[0],filter_size,filter_size)
        self.params['b1']=np.zeros(filter_num)
        self.params['W2']=weight_init_std*np.random.randn(pool_output_size,hidden_size)
        self.params['b2']=np.zeros(hidden_size)
        self.params['W3']=weight_init_std*np.random.randn(hidden_size,output_size)
        self.params['b3']=np.zeros(output_size)
        
        self.layers=OrderedDict()
        self.layers['Conv1']=Convolution(self.params['W1'],self.params['b1'],conv_param['filter_stride'],conv_param['filter_pad'])
        self.layers['Relu1']=Relu()
        self.layers['Pool1']=Pooling(pool_h=2,pool_w=2,stride=2)
        self.layers['Affine1']=Affine(self.params['W2'],self.params['b2'])
        self.layers['Relu2']=Relu()
        self.layers['Affine2']=Affine(self.params['W3'],self.params['b3'])
        self.last_layer=SoftmaxWithLoss()
        
        def predict(self,x):
            for layer in self.layers.values():
                x=layer.forward(x)
            return x
        def loss(self,x,t):
            y=self.predict(x)
            return self.lastLayer.forward(y,t)
        def gradient(self,x,t):
            self.loss(x,t)
            
            dout=1
            dout=self.lastLayer.backward(dout)
            
            grads={}
            grads['W1']=self.layers['Conv1'].dW
            grads['b1']=self.layers['Conv1'].db
            grads['W2']=self.layers['Affine1'].dW
            grads['b2']=self.layers['Affine1'].db
            grads['W3']=self.layers['Affine2'].dW
            grads['b3']=self.layers['Affine2'].db
            
            return grads

八、深度学习

8.1 加深网络

8.2 深度学习的小历史

8.3 深度学习的高速化

8.4 深度学习的应用案例

8.5 深度学习的未来

总结

第三章到第七章将会以书上的基础内容总结为主，第八章争取找一些新东西（那些没有代码示例，但似乎很有趣的概念和算法）加进读书笔记里。
希望这一次的读书笔记不要半途而废，每天总结一小部分，积少成多，希望早日完结撒花~

你可能感兴趣的:(python,深度学习,神经网络)

Gemini vs DeepSeek：Transformer 架构下的技术路线差异与企业级选择 charles666666 transformer 架构深度学习语言模型产品经理人工智能
一、引言：从商业价值切入Gemini和DeepSeek都基于Transformer架构，但在技术路线和应用场景上各有侧重。本文将解密同源Transformer下的技术分野，帮助企业做出更明智的大模型选型决策。二、Transformer核心机制精要Transformer架构是现代大语言模型的基础，其核心机制包括自注意力机制和前馈神经网络。自注意力机制使模型能够捕捉序列中元素的全局依赖关系，但也是GP
【无标题】Python ---Day2 复合类型之序列类型、映射类型和集合类型的学习！！！
系列文章目录文章目录系列文章目录前言一、复合类型初识1.1列表类型1.1.1列表创建1.1.2列表运算1.1.3列表访问1.1.3.1索引1.1.3.2反向索引1.1.3.3切片1.1.4列表操作1.1.4.1添加数据1.1.4.2修改数据1.1.4.3删除数据1.2元组类型1.2.1元组创建1.2.2元组操作1.2.2.2查看元组1.2.2.3解包技能1.2.3元组运算1.2.4元组不可变二、映
Python数据分析案例｜从模拟数据到可视化：零售门店客流量差异分析全流程
1.依赖库导入importmatplotlib.pyplotaspltimportnumpyasnpimportpandasaspdfrommatplotlibimportfont_managerfromdatetimeimportdatetimematplotlib.pyplot：用于绘制图表。numpy：numpy：pandas：虽然代码中未font_manager：设置datetime：生成
【动手学深度学习】4.10 实战Kaggle比赛：预测房价 XiaoJ1234567 《动手学深度学习》深度学习人工智能
目录4.10实战Kaggle比赛：预测房价1）数据预处理2）模型定义与训练3）模型评估与预测4）模型训练与预测提交5）示例超参数（可调）4.10实战Kaggle比赛：预测房价数据来源：Kaggle房价预测比赛.1）数据预处理读取数据importpandasaspdtrain_data=pd.read_csv('../data/kaggle_house_pred_train.csv')test_da
【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略云天徽上机器学习机器学习人工智能
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
Python中字符串的操作方法幻鸩605 python java 开发语言
字符串拼接使用+运算符将多个字符串连接起来。例如：s1="Hello"s2="World"result=s1+""+s2print(result)#输出：HelloWorld字符串重复使用*运算符重复字符串。例如：s="abc"result=s*3print(result)#输出：abcabcabc字符串长度使用len()函数获取字符串长度。例如：s="Python"length=len(s)pr
【2025B卷专题】华为OD机试2025B卷统一考试题库清单，时间紧张就刷这个（Python/JS/C/C++）哪吒搬砖工逆袭Java架构师华为od python javascript 华为OD机试 2025B卷
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华为OD往常的操作，B卷题目是由往
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
后端领域的自然语言处理技术应用大厂资深架构师 Spring Boot 开发实战自然语言处理 easyui 人工智能 ai
后端领域的自然语言处理技术应用关键词：后端领域、自然语言处理、技术应用、算法原理、实际案例摘要：本文聚焦于后端领域中自然语言处理技术的应用。首先介绍了相关背景，包括目的范围、预期读者等。接着阐述核心概念与联系，通过文本示意图和Mermaid流程图展示其原理和架构。详细讲解了核心算法原理并给出Python源代码示例，同时介绍了数学模型和公式。通过项目实战，展示代码实际案例并进行详细解释。分析了自然语
【图像处理基石】如何检测到画面中的ppt并对其进行增强？
1.入门版ppt检测增强工具我们介绍一个使用Python进行PPT检测并校正画面的实现方案。这个方案主要利用OpenCV进行图像处理，通过边缘检测和透视变换技术来识别并校正PPT画面。importcv2importnumpyasnpfromPILimportImageimportmatplotlib.pyplotaspltclassPPTDetector:def__init__(self):#初始
Python中什么时候需要返回值，什么时候不需要返回值？？？似乎很简单 Python学习日记 python 开发语言
在Python中，函数是否需要返回值取决于它的设计目的和功能需求。需要返回值的情况计算结果需要被后续代码使用当函数的主要目的是计算或生成数据，且调用方需要这些结果时：defadd(a,b):returna+b#结果需要被其他代码使用total=add(3,5)#需要返回值需要传递状态或信息如果函数执行后需要告诉调用方是否成功、返回状态码或错误信息：defvalidate_input(input):
Python中的高阶函数---便捷的语法书写！！！！，可以简化一些函数的书写！！！似乎很简单 Python学习日记 python 开发语言学习笔记
目录1.map()函数示例1：单可迭代对象（平方运算）示例2：多可迭代对象（元素相加）2.mapvs列表推导式什么是列表推导式（ListComprehension）？对比示例列表推导式的优势map的优势5.实际应用场景场景1：批量转换数据类型场景2：多列数据处理场景3：链式操作6.性能与注意事项总结3.sorted()函数1.语法：sorted(iterable,*,key=None,revers
Seaborn高阶玩法全解析：从复杂图表到多图布局的可视化实战指南
数据可视化就像给数据“画肖像”——初级阶段是勾勒轮廓，高级阶段则是赋予灵魂。在Python可视化生态中，Seaborn凭借“一行代码出美图”的优雅，成为数据分析的“画笔利器”。但你是否遇到过这样的场景：想同时展示数据分布与统计量，却被基础图表限制；想批量绘制分面图，手动拼接效率低下；想让图表更具设计感，却对颜色搭配和注解技巧一知半解？本文将带你解锁Seaborn的高阶玩法，从复杂图表绘制到多图布局
scanpy保存图片的常用方法汇总 Bio Coder 空间转录组 &单细胞 scanpy 保存图片汇总
在使用Scanpy（一个用于单细胞RNA测序数据分析的Python库）时，保存图片（如可视化结果）是常见的操作。Scanpy的绘图功能主要基于Matplotlib和Seaborn，保存图片的方法也与这些库的保存机制一致。以下是Scanpy保存图片的详细方法及注意事项：1.基本保存图片的方法Scanpy的绘图函数（如sc.pl.umap、sc.pl.tsne、sc.pl.pca等）通常会返回Matp
MCP Streamable HTTP 样例（qbit） pythonagent
前言模型上下文协议（ModelContextProtocol，MCP），是由Anthropic推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。本文代码技术栈Python3.11.8FastMCP2.10.3MCP的传输机制StandardInput/Output(stdio)StreamableHTTPServer-SentEvents(SS
掌握变量命名与Python继承机制
掌握变量命名与Python继承机制背景简介在编程中，变量命名和继承是基础且重要的概念。良好的命名习惯可以提升代码的可读性，而继承则是一种代码复用的重要机制。本文将结合具体的书籍章节内容，深入解析变量命名规则和Python继承机制。变量命名规则变量命名是编程中最基础的部分，而正确的命名习惯能够帮助其他开发者（或未来的自己）更好地理解代码。根据书籍提供的内容，我们应当遵守以下规则：变量名只包含数字、下
从零开始：构建支持上下文窗口的AI原生应用实战指南 AI天才研究院 AI人工智能与大数据 AI-native ai
从零开始：构建支持上下文窗口的AI原生应用实战指南关键词：大语言模型（LLM）、上下文窗口、AI原生应用、token管理、对话状态保持、向量检索、记忆压缩摘要：本文从AI原生应用的核心需求出发，系统讲解支持上下文窗口的应用构建全流程。通过解析上下文窗口的技术本质、关键挑战及解决方案，结合Python代码实战和真实场景案例，帮助开发者掌握从需求分析到落地部署的完整方法。内容涵盖上下文窗口管理策略、t
python进程线程协程区别_Python：线程、进程与协程(1)——概念 weixin_39989159 python进程线程协程区别
最近的业余时间主要放在了学习Python线程、进程和协程里，第一次用python的多线程和多进程是在两个月前，当时只是简单的看了几篇博文然后就跟着用，没有仔细去研究，第一次用的感觉它们其实挺简单的，最近这段时间通过看书，看Python中文官方文档等等相关资料，发现并没有想想中的那么简单，很多知识点需要仔细去理解，Python线程、进程和协程应该是Python的高级用法。Python的高级用法有很多
全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？云原生水神职业发展系统运维运维
大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全
Python Selenium 使用指南
Selenium是一个用于自动化Web浏览器交互的强大工具，常用于网页测试、数据抓取和自动化任务。以下是Python中Selenium的详细使用说明。安装Selenium首先需要安装Selenium库和浏览器驱动：pipinstallselenium然后下载对应浏览器的驱动：Chrome:ChromeDriverFirefox:GeckoDriverEdge:EdgeDriver将驱动放在系统PA
【Python进阶】Python网络协议与套接字编程：构建客户端和服务器
1、网络通信基础与网络协议1.1网络通信模型概述网络通信是信息时代基石，它如同现实世界中的邮递系统，将数据从一处传递到另一处。其中，OSI七层模型与TCP/IP四层或五层模型是理解和构建网络通信的基础。1.1.1OSI七层模型与TCP/IP四层/五层模型OSI（开放系统互连）参考模型提出了七层结构，从物理层到应用层，每一层都有其特定的功能和职责，例如物理层关注的是信号如何在介质上传输，而应用层则处
神经网络初步学习3——数据与损失 X Y O 神经网络学习人工智能
一、传统机器学习与神经网络前言：该部分需要一定的机器学习与数学基础（很浅的基础），如果有不理解的地方可以自行查阅。（1）区别这里不妨以图像识别为例子：（1）在传统的机器学习视角中：我们需要人工手动去设置并提取我们的特征量，例如常见的SIFT、SURF和HOG等，随后需要我们选择合适的分类器（例如：SVM、KNN等分类器）,接着把我们的参数训练出来。（2）而在神经网络的视角中：我们只需要把图片喂给它
Python 网络爬虫的基本流程及 robots 协议详解女码农的重启 python 网络爬虫 JAVA 开发语言
数据驱动的时代，网络爬虫作为高效获取互联网信息的工具，其规范化开发离不开对基本流程的掌握和对robots协议的遵守。本文将系统梳理Python网络爬虫的核心流程，并深入解读robots协议的重要性及实践规范。一、Python网络爬虫的基本流程Python网络爬虫的工作过程可分为四个核心阶段，每个阶段环环相扣，共同构成数据采集的完整链路。1.1发起网络请求这是爬虫与目标服务器交互的第一步，通过发送H
python中的pydantic是什么？ John Song Python python 前端开发语言 pydantic
Pydantic是Python中一个用于数据验证和设置管理的库，主要通过Python类型注解（TypeHints）来定义数据结构，并自动验证输入数据的合法性。它广泛应用于API开发（如FastAPI）、配置管理、数据序列化等场景。核心功能数据验证自动检查输入数据是否符合类型和约束条件（如字符串长度、数字范围等）。类型转换将原始数据（如JSON、字典）转换为Python类型（如datetime、En
python视频工具包 ffmpeg 使用示例 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
量化价值投资中的深度学习技术：TensorFlow实战
量化价值投资中的深度学习技术：TensorFlow实战关键词：量化价值投资,深度学习,TensorFlow,股票预测,因子模型,LSTM神经网络,量化策略摘要：本文将带你走进"量化价值投资"与"深度学习"的交叉地带，用小学生都能听懂的语言解释复杂概念，再通过手把手的TensorFlow实战案例，教你如何用AI技术挖掘股票市场中的价值宝藏。我们会从传统价值投资的痛点出发，揭示深度学习如何像"超级分析
python汇率_用Python抓取汇率
抓取的是中行的数据:网址代码#-*-coding:utf-8-*-importreimporturllib.requesturl='http://www.boc.cn/sourcedb/whpj/index.html'#网址req=urllib.request.Request(url)response=urllib.request.urlopen(req)the_page=response.rea
python抓取汇率_09 使用Python爬取中国银行网站选择汇率最坑的一天
爬取2018年8月27日~9月2日的欧元汇率。先说结论：如果是现汇卖出价，可以选择2018-08-3109:19:26，现钞卖出价805.28。我刚问了报销过的人她说任选都行，可以不是中行折算价。最近出差，学校可以以人民币的形式报销路费、住宿费，汇率，可以任选出差期间的任何一天任何时候的中国银行的汇率，中国银行网站上的汇率长这样：如果想要合理利用规则，多回一点本，不妨选择汇率最坑的一天(默默给财务
爬虫小结 Crescent_P python小项目 python 数据分析
python爬虫小组作业上周布置了python的小组作业,每一组要求爬取老师指定的信息,本组抽到的题目如下:从中国银行网址：http://www.boc.cn/sourcedb/whpj/获取主要外汇（美元、欧元、英镑、加拿大元、澳大利亚元、日元、韩元、新台币、澳门元和港币）的牌价信息，计算出它们的每天平均价。要求把今年5月份每天平均价格保存到Excel文件中，每种外汇的数据保存在一个工作表中，并
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方