qq_45090947

【cooper】深度学习入门：基于Python的理论与实现(鱼书)_个人读书笔记

深度学习入门：基于Python的理论与实现(鱼书)

个人笔记

作者：Cooper

第三章神经网络

神经网络的基本样子就是

输入层->中间层(隐藏层)->输出层，每条线代表的就是各个神经元之间的权重，而每个神经元内部还有函数处理，将输入的数值进行一个函数变换，这就是激活函数。

3.2激活函数

3.2.1阶跃函数(step)

数学表示：

阶跃函数就是当输入x大于等于0的时候，输出1，其他时候输出0.
$h(x)=\begin{cases} 1,&x\ge 0\\ %大于等于符号是\ge 0,&x < 0 \end{cases}$

代码表示：

#1
def step_function(x):
	if x > 0:
		return 1
	else:
		return 0
#初始版本，照搬公式，但是比更不能处理numply数组，
#例如step_function(np.array([1.0,2.0]))
#2
def step_function(x):
    y = x  > 0
    return y.astype(np.int)
#更新版本，numpy数组会输出布尔型数据，再利用astype将其转换成int类型数据

阶梯函数的图形：

x = np.arange(-5.0, 5.0, 0.1)
y = step_function(x)
plt.plot(x, y)
plt.ylim(-0.1, 1.1) # 指定y轴的范围
plt.show()

plt.show()图像并不显示

1把这个matplotlib重新安装一下，之后有时间再弄

2复习一下如何使用pip指令，在lunix中进场使用pip指令来安装程序，并且其他方法很慢

3.2.2sigmoid函数

数学表示：

$h(x)=\frac{1}{1+e^{-x}}$

代码表示：

def sigmoid(x):
    return 1/(1 + np.exp(-x))

sigmoid的图形：

x = np.arange(-5.0, 5.0, 0.1)
y = sigmoid(x)
plt.plot(x, y)
plt.ylim(-0.1, 1.1) # 指定y轴的范围
plt.show()

阶跃函数与sigmoid函数之间的比较：

3.2.3ReLU函数

ReLU（Rectified Linear Unit）函数的数学表达式：
$h(x)=\begin{cases} x, &x \ge 0\\ 0, &x < 0 \end{cases}$
代码表示：

def relu(x):
    return np.maximum(0,x)  #maxium会从输入(0和x)中选择较大的输出。

note：

为什么激活的求和函数一定要使用非线性的？

如果使用了线性的，那么无论采用几层的网络其结果仍然是一个线性的，等效于一个函数，但是采用了非线性的，那可能性就很多了。

3.3多维数组

也就是矩阵部分在numpy中的实现,也就是多个行向量堆叠在一起实现矩阵，而非matlab中的列向量。

3.3.1多维数组的维度和形状

a = np.array([[1, 2,3],[2, 3,4]])
a.ndim  #维度，输出2，整型int类型，就是说shape中有几个数字就是几
a.shape #形状，输出(2,3)，元组tuple类型，就是矩阵的行列数

b = np.array([[1,2,3],[2,3,4],[3,4,5]])
b.ndim  #维度，输出3，整型int类型，是shape中的几个数字。
a.shape #形状，输出(2,4)，元组tuple类型，就是矩阵的行列数，就算只有一行也是元组类型

3.3.2多维数组的点乘

满足一切关于矩阵的法则，区分左右乘，并且需要满足乘法法则

np.dot(a,b)

输出为：

array([[14, 20, 26],
       [20, 29, 38]])

3.4 三层神经网络的实现

3.4.1单层步骤

3层神经网络主要指的是1个输入层，2个隐藏层，1个输出层，本书指的是只算中间的连接，这样叫做3层

第一层：

从输入层到隐藏层第一层，主要是输入X*连接的权重和偏置，之后到神经元激活处理。

X = np.array([1.0, 0.5])
#输入神经元主要有两个，输入数值分别是1.0 ，0.5
W1 = np.array([[0.1, 0.3, 0.5],[0.2, 0.4, 0.6]])
#由于输入2，隐藏层1有3个，所以矩阵表示，第一个神经元对于下一级三个隐藏层神经元的权值
#分别为 0.1， 0.3， 0.5 矩阵第二层同理。
B1 = np.array([0.1, 0.2, 0.3])
#分别表示对三个隐藏层神经元的偏置

print(W1.shape) # (2, 3)
print(X.shape) # (2,)
print(B1.shape) # (3,)

A1 = np.dot(X, W1) + B1
#至此，完成了输入层到隐藏层的过程

激活层处理：

Z1 = sigmoid(A1)
#这里采用激活函数sigmoid处理
print(A1) # [0.3, 0.7, 1.1]
print(Z1) # [0.57444252, 0.66818777, 0.75026011]
#第一层的输出就是这个Z1

最终第一层的输出结果为：[0.57444252, 0.66818777, 0.75026011]

第二层：

类似于第一层的处理流程，逻辑一样。

W2 = np.array([[0.1, 0.4], [0.2,0.5], [0.3, 0.6]])
B2 = np.array([0.1, 0.2])
A2 = np.dot(Z1,W2) + B2

print(A2)		#[0.51615984 1.21402696]
print(A2.shape)	#(2,)
print(W2.shape)	#(3, 2)
print(B2.shape)	#(2,)

激活层处理

Z2 = sigmoid(A2) 
print(Z2)		 #[0.62624937 0.7710107 ]
print(Z2.shape)	 #print(Z2.shape)

所以第二层最终的输出为[0.62624937 0.7710107 ]

第三层：

就是从隐藏层到输出层的流程，定义了一个从隐藏层到输出层的函数identity，就是保持函数

def identity_function(x):
    return  x

W3 = np.array([[0.1, 0.3],[0.2, 0.4]])
B3 = np.array([0.1, 0.2])
A3 = np.dot(Z2,W3) + B3

Y=identity_function(A3)
print(Y)#[0.31682708 0.69627909]

3.4.2整合设计

首先构造一个初始化函数，包括每一层的权值和偏置，其中权重为大写字母，偏置和中间结果是小写字母。

def init_network():
 network = {}
 network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
 network['b1'] = np.array([0.1, 0.2, 0.3])
 network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
 network['b2'] = np.array([0.1, 0.2])
 network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
 network['b3'] = np.array([0.1, 0.2])

 return network

前向传递函数，就是其中的激活步骤和传递三次全部整合，如下：

def forward(network, x):
 W1, W2, W3 = network['W1'], network['W2'], network['W3']
 b1, b2, b3 = network['b1'], network['b2'], network['b3']
 a1 = np.dot(x, W1) + b1
 z1 = sigmoid(a1)
 a2 = np.dot(z1, W2) + b2
 z2 = sigmoid(a2)
 a3 = np.dot(z2, W3) + b3
 y = identity_function(a3)
 return y

接着输入参数，观察网络情况：

network = init_network() #初始化
x = np.array([1.0, 0.5]) #传入输入参数
y = forward(network, x)  #前向函数
print(y) # [ 0.31682708 0.69627909] #输出结果

得到结果为[ 0.31682708 0.69627909]

3.5输出层的设计

神经网络主要有两个用途：分类和回归(预测)，一般需要根据不同的问题设置不同的输出层激活函数。

其中回归问题(数值预测)主要采用恒等函数，分类问题主要采用softmax函数。

3.5.1归一化函数(softmax函数)

数据归一化处理：把原本的值映射到0到1之间。

softmax函数干的事就是把全部的数转换成指数，然后计算他在这些指数和中的比例。

数学表达式：
$\begin{equation*} y_{k}=\frac{e^{a_{k}}}{\sum_{i=1}^{n}e^{i}} \end{equation*}$
代码表示：

#1这种方式不能满足溢出问题，当输入x过大时会出现nan的情况
def softmax(a):
    exp_a = np.exp(a)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    return y

#2
def softmax(a):
 c = np.max(a)
 exp_a = np.exp(a - c) # 溢出对策 同时减去一个最大值，指数函数不变
 sum_exp_a = np.sum(exp_a)
 y = exp_a / sum_exp_a
 return y

解释例子：

x = np.array([0.3,  2.9, 4.0])
y = softmax(x)
print(y)  #[0.01821127 0.24519181 0.73659691]

指数运算是数量级的增长，很小号计算机内存，如果数据太大就会出现无法计算的情况：

x = np.array([1010,1000,990])
y = softmax(x)
print(y)

输出结果为[nan nan nan]

softmax其数字特征：输出求和的值为1，符合概率分布问题

第四章神经网络的学习

4.2损失函数(loss function)

作为评价权重的好坏指标，有这个指标进行修改权重，主要使用的函数为均方误差和交叉熵误差。

4.2.1均方误差MSE( mean squared error)

数学表达式：
$\frac{1}{2} \sum^{n}_{i=1} (y_{k}-t_{k})^{2}$
其中yk是神经网络的输出结果，tk是监督数据也就是01，k表示第几个数据。

监督数据的表示方法：

one-hot表示方法：

比如某一组数据监督数据正确的解为2，采用one-hot方式的话，标签的表示方式就是标签“2”为1，其他标签“0”，“5”都取0，这就是one-hot表示方法。

t = [0, 0, 1, 0, 0, 0, 0,]

非one-hot表示方法(标签)形式：

直接把正确答案表示出来，比如“2”，“7"。

t = [2, 5, 7, 2]

总结就是这样的：假设标注结果是2

one-hot: t = [0, 0, 1, 0, 0, 0, 0,]

标签： t = [2]

代码表示：

def mean_squard_error(y,t):
    return 0.5*np.sum((y-t)**2)
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0,]

#例“2”的概率最高的情况(0.6)
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
print(mean_squard_error(np.array(y), np.array(t)))

输出为0.097500000000000031，由此可知输出的结果和很小，也就是误差很小。

4.2.2交叉熵误差CEE(cross entropy error)

单个数据的交叉熵误差数学表示：
$-\sum^{n}_{i=1} t_{k} \log y_{k}$
其中tk同样是监督数据，yk也是网络输出，这些都是一组数据。

实际上，当监督数据采用one-hot表示的时候，计算的只有正确的输出的自然对数。比如，当正确的解为2，只是计算了0.6的自然对数.

def cross_entropy_error(y, t):
    delta = 1e-7
    return -np.sum(t*np.log(y+delta))
#加入一个小量，防止出现log0的情况

t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]

print(cross_entropy_error(np.array(y), np.array(t)))
#实际上此时计算的只有-np.log(0.6)

4.2.3mini-batch上的交叉熵

mini-batch的思路就是类似电视收视率，以样本代替整体，随机选取一部分样本求交叉熵。

数学表达式：
$-\frac{1}{N} \sum^{N}_{j=1} \sum^{n}_{i=1} t_{k} \log y_{k}$
这里假设这一批有N个数据，每一局数据求一次交叉熵，之后再求和，在平均。

类似之前的方法，我们也只需要知道每批次正确的数据值，然后将该批次正确的值求和，就可以得到总的cee。

代码表示：

#输入数据y是二维数组
def cross_entropy_error(y, t):
 if y.ndim == 1: #如果只是一个数据的交叉熵
 	t = t.reshape(1, t.size)#t.size就是有多少个矩阵里面有多少个元素
	y = y.reshape(1, y.size)#比如2*2的矩阵size就为4
#上述操作就是把y展开成1维的    
 batch_size = y.shape[0]
 return -np.sum(np.log(y[np.arange(batch_size), t] + 1e-7)) / batch_size

首先解释一下这个np.arange(batch_size)代码部分，这一部分说的是，按照等差数列，公差为1，从0开始，到batch_sizebatch_size-1结束。例如np.arange(5)它的输出形式为：array([0, 1, 2, 3, 4])，此时，标签数据集t的表示方式为[2, 7, 0, 9, 4] (第一个正确标签为2，第二个正确标签为7)，然后，这两个一维数组通过numply的广播机制组成输出数组的二维下标，用来表示正确的结果的概率大小。，是这个样子滴[y[0,2], y[1,7], y[2,0], y[3,9], y[4,4]]，y[0,2]表示二维数组y下标为0,2时得数据大小。

4.3数值微分

4.3.1导数

就是数值分析里面的方法，取h为一个很小的量，代替真正的导数：

导数的定义：
$\frac{df(x)}{dx} = \lim_{h \to 0} \frac{f(x+h)-f(x)}{h}$
数值微分中的定义：
$\frac{df(x)}{dx} ≈\frac{f(x+h)-f(x)}{h}$
代码形式：

def numerical_diff(f, x):
    h = 10e-50
    return (f(x+h) - f(x)) / h

4.3.2偏导数

对于多元函数的导数的求法，就是偏导数问题的引出，例如下面：
$f(x_{0},x_{1}) = x_{0}^{2} + x_{1}^{2}$
利用代码实现就是如下形式：

def function_2(x):
 return x[0]**2 + x[1]**2

4.4梯度

利用中间差值的方法，求每一个值的偏导数，然后按照坐标形式排列，就得到梯度。

def numberical_gradient(f, x):
    h = 1e-4
    grad = np.zeros_like(x)
    for idx in range(x.size):
        tmp_val = x[idx]
        x[idx] = tmp_val + h
        fxh1 = f(x)

        x[idx] = tmp_val - h
        fxh2 = f(x)

        grad[idx] = (fxh1 - fxh2) / (2 * h)
        x[idx] = tmp_val

    return grad

numberical_gradient(function_2,np.array([3.0,4.0]))

输出为array([6., 8.])

numberical_gradient(function_2,np.array([0.0,2.0]))

输出为array([0., 4.])

numberical_gradient(function_2,np.array([3.0,0.0]))

输出为array([6., 0.])

梯度也就是各个方向函数值减少最多的方向，在二维平面中，就是x和y方向减少最多的方向。

4.4.1梯度法

梯度法就是寻找最优参数的。

利用数学公式表示如下：
$x_{0} = x_{0} - \eta \frac{\partial f}{\partial x_{0}}\\ x_{1} = x_{1} - \eta \frac{\partial f}{\partial x_{1}}$
其中，η表示更新量，也称为学习率(learning tate)，梯度法就是以一定的学习率和步长逼近最小值。

def gradient_descent(f ,init_x, lr=0.01, step_num=100):
    x = init_x
    for i  in range(step_num):
        grad = numerical_descent(f,x)
        x -=  lr*grad

    return x

这也算是最优化理论的一种方法，其中f表示需要初始化的函数，init_x表示初始值，lr表示learning rate， sterp_num表示梯度法的重复次数。numerical_descent(f,x)用来求解函数的梯度。

def function_2(x):
    return x[0]**2+x[1]**2

init_x=np.array([-3.0,4.0])
gradient_descent(function_2,init_x=init_x,lr=0.1,step_num=100)

得到输出结果为：array([ -6.11110793e-10, 8.14814391e-10])其实结果就为(0,0)。

在调节参数的过程中，学习率是一个超参数，这个参数过大或者过小均不能娶到很好的结果，这个数值需要根据经验试出来。

#学习率过大
init_x=np.array([-3.0,4.0])
gradient_descent(function_2,init_x=init_x,lr=10.0,step_num=100)
123

输出为array([-2.58983747e+13, -1.29524862e+12])

#学习率过小
init_x=np.array([-3.0,4.0])
gradient_descent(function_2,init_x=init_x,lr=1e-10,step_num=100)
123

输出为array([-2.99999994, 3.99999992])

4.4.2神经网络的梯度

神经网络的学习要求解梯度？(为什么要求解这个矩阵，有什么好处)。
$$
\begin{aligned}%整体行文左对齐

W = & %换行符号，维持列的方式
\begin{pmatrix}
w_{11} & w_{12} &w_{13}\
w_{21} & w_{22} &w_{23}
\end{pmatrix}
\
\frac{\partial L}{\partial W} =& %这个&可是维持左对齐的精髓，是用行列式的方式使其对齐
\begin{pmatrix}
\frac{\partial L}{\partial w_{11}} & \frac{\partial L}{\partial w_{12}} & \frac{\partial L}{\partial w_{13}}
\
\frac{\partial L}{\partial w_{21}} & \frac{\partial L}{\partial w_{22}} & \frac{\partial L}{\partial w_{23}}
\end{pmatrix}

\end{aligned} %整体行文左对齐
$$
对于第二个矩阵，我们也称之为海森矩阵(Hessian Matrix)。

4.5学习算法的实现

学习过程主要分为以下几步：

step1(mini-batch)

由于样本数据集很大，所以我们随即从其中选取一部分数据作为训练数据。主要目的是为了减少min-batch的损失函数的值

step2(计算梯度)

为了减少mini-batch的损失函数的值，我们需要求出每个权重减少最快的方向，也就是这个权重的梯度。

step3(更新参数)

将权重沿着梯度的方向更新。

step4(重复)

重复上面的123

4.5.1双层神经网络

class TwoLayerNet:
def init(self,input_size,hidden_size,output_size,weight_init_std=0.01):
#初始化权重
self.params={}
self.params[‘W1’]=weight_init_stdnp.random.randn(input_size,hidden_size)
self.params[‘b1’]=np.zeros(hidden_size)
self.params[‘W2’]=weight_init_stdnp.random.randn(hidden_size,output_size)
self.params[‘b2’]=np.zeros(output_size)

def predict(self,x):
    W1,W2=self.params['W1'],self.params['W2']
    b1,b2=self.params['b1'],self.params['b2']
    
    a1=np.dot(x,W1)+b1
    z1=sigmoid(a1)
    a2=np.dot(z1,W2)+b2
    y=softmax(a2)
    
    return y

#x为输入数据，t为监督数据
def loss(self,x,t):
    y=self.predict(x)
    return cross_entropy_error(y,t)

def accuracy(self,x,t):
    y=self.predict(x)
    y=np.argmax(y,axis=1)
    t=np.argmax(t,axis=1)
    
    accuracy=np.sum(y==t)/float(x.shape[0])
    return accuracy
#x为输入数据，t为监督数据
def numberical_gradient(self,x,t):
    loss_W=lambda W: self.loss(x,t)
    
    grads={}
    grads['W1']=numberical_gradient(loss_W,self.params['W1'])
    grads['b1']=numberical_gradient(loss_W,self.params['b1'])
    grads['W2']=numberical_gradient(loss_W,self.params['W2'])
    grads['b2']=numberical_gradient(loss_W,self.params['b2'])
    return grads

4.5.2对于测试数据的评价

神经网络的学习中必须确认网络能否识别训练数据之外的其他数据，就是确认是否会发生过拟合。过拟合就是说网络只认识训练集里面的图片，不在训练集的图片无法识别。

神经网络最终目的是掌握学习的泛化能力，就是训练集之外的数据也能认识，为了记录训练情况，我们没经过一个epoch就会记录训练数据和测试数据的识别精度。(epoch是一个单位，Epoch的值就是整个训练数据集被反复使用几次)

第五章误差反向传播算法(BP)

采用计算图的方法来讲解反向传播的过程，但是我更倾向于使用公式推导，也就是链式法则，每一次链式法则均代表反向传播一次。

5.4简单层的实现

这里只是简单地介绍了两种节点，乘法层(MulLayer)，加法节点的加法层(AddLayer)。

5.4.1乘法层的实现

class MulLayer:
    def __init__(self):
        self.x=None
        self.y=None
        
    def forward(self,x,y):
        self.x=x
        self.y=y
        out=x*y
        
        return out
    
    def backward(self,dout):
        dx=dout*self.y
        dy=dout*self.x
        
        return dx,dy

forard()接收两个参数，将他们相乘之后输出，backward()将上游传来的导数(dout)乘以正向传递的两个翻转值，之后传递给下游。

正向传播：

apple=100
apple_num=2
tax=1.1

#layer
mul_apple_layer=MulLayer()
mul_tax_layer=MulLayer()

#forward
apple_price=mul_apple_layer.forward(apple,apple_num)
price=mul_tax_layer.forward(apple_price,tax)

print(price)

最终得到价格220

各个变量的导数可以由backward()求出来。

#backward
dprice=1
dapple_price, dtax=mul_tax_layer.backward(dprice)
dapple,dapple_num=mul_apple_layer.backward(dapple_price)

print(dapple,dapple_num,dtax)

最终输出结果为： 2.2 110 200

5.4.2加法层的实现

就是计算图中的加法关系。

class AddLayer:
    def __init__(self):
        pass
    def forward(self,x,y):
        out=x+y
        return out
    def backward(self,dout):
        dx=dout*1
        dy=dout*1
        return dx,dy

5.5激活层函数

5.5.1ReLU层

ReLU(Rectified Linear Unit)可以由下式表示。
$\begin{cases} x, &x ≥ 0\\ 0, &x < 0 \end{cases}$
然后，对上式求y关于x的导数，可以得到如下结果。
$\frac{\partial{y}}{\partial{x}}= \begin{cases} 1, &x ≥ 0\\ 0, &x < 0 \end{cases}$
从实际使用效果来看，如果正向传播的输入大于0时，反向传播就会原封不动传递给下游；如果正向传播的数值小玉0，反向传播的信号就会在这里停止。

代码表示：

class Relu:
    def __inin__(self):
        self.mask=None
        
    def forward(self,x):
        self.mask=(x<=0)
        out=x.copy()
        out[self.mask]=0
        
        return out
    
    def backward(self,dout):
        dout[self.mask]=0
        dx=dout
        
        return dx

其中有一个类，mask，这个变量是一个bool型变量，将正向输入小于等于0的地方变为True，然后反向传播的时候将他们变成0。

5.5.2sigmoid层

就是之前的激活函数表示方法：
$y=\frac{1}{1+e^{-x}}$
求得反向传播导数为：
$\frac{\partial L}{\partial y} =y(1-y)$
代码表示如下：

class Sigmoid:
    def __init__(self):
        self.out=None
        
    def forward(self,x):
        out=1/(1+np.exp(-x))
        self.out=out
        
        return out
    def backward(self,dout):
        dx=dout*(1.0-self.out)*self.out
        
        return dx

5.6Affine/Softmax层的实现

5.6.1 Affine层

也就是y = x*w+b这一步按照前行和反向传播的方法重新书写一遍。

数学推导部分，暂时不会

直接上代码部分：

class Affine:
    def __init__ (self,W,b):
        self.W=W
        self.b=b
        self.x=None
        self.dW=None
        self.db=None
        
    def forward(self,x):
        self.x=x
        out=np.dot(x,self.W)+self.b
        
        return out
    
    def backward(self,dout):
        dx=np.dot(dout,self.W.T)
        self.dW=np.dot(self.x.T,dout)
        self.db=np.sum(dout,axis=0)
        
        return dx

5.6.3 Softmax-with-Loss层

反向传播最终能得到y-t这样的结果，也就是将误差向前传递，用来修改权重的参数。

class SoftmaxWithLoss:
    def __init__(self):
        self.loss=None
        self.y=None
        self.t=None
        
    def forward(self,x,t):
        self.t=t
        self.y=softmax(x)
        self.loss=cross_entropy_error(self.y,self.t)
        
        return self.loss
    
    def backward(self,dout=1):
        batch_size=self.t.shape[0]
        dx=(self.y-self.t)/batch_size
        
        return dx

第六章与学习相关的技巧

6.1参数的更新

寻找损失函数尽可能小的参数。就是最优化，但很难，我们采用SGD。

6.1.1 SGD

他的数学核心就是这一行公式：
$\gets W-\eta\frac{\partial L}{\partial W}$
代码形式如下所示：

class SGD:
    def __init__(self,lr=0.01):
        self.lr=lr
    def update(self,params,grads):
        for key in params.keys():
            params[key]-=self.lr*grads[key]

SGD他的优缺点：

他并不能很好地适应寻找最小点的情况，它所寻找的梯度是每一部分的极小点，极小点不一定和最小点重合。

6.1.2 Momentum

Momentum代表动量，也就是运动能量大小的意思，采用数学表示如下：
$\gets \alpha v-\eta\frac{\partial L}{\partial W} \\ W \gets W + v$
就是整体的下降不再是随机方向的，而是给定一个初速度，演这个方向进行梯度下降搜索。

代码表示如下：

class Momentum:
def init(self,lr=0.01,momentum=0.9):
self.lr=lr
self.momentum=momentum
self.v=None

def update(self,params,grads):
    if self.v is None:
        self.v={}
        for key, val in params.items():
            self.v[key]=np.zeros_like(val)
            
        for key in params.keys():
            self.v[key]=self.momentum*self.v[key]-self.lr*grads[key]
            params[key]+=self.v[key]

6.1.3 AdaGrad

有关技巧中，有一种被称为学习率衰减(learning rate decay)的方法，这里我们选择AdaGrad。

数学公式如下：
$\gets h + \frac{\partial L}{\partial W}\frac{\partial L}{\partial W} \\ W \gets W -\eta\frac{1}{\sqrt{h}} \frac{\partial L}{\partial W}$

class AdaGrad:
    def __init__(self,lr=0.01):
        self.lr=lr
        self.h=None
        
    def update(self,params,grads):
        if self.h is None:
            self.h={}
            for key, val in params.items():
                self.h[key]=np.zeros_like(val)
                
            for key in params.keys():
                self.h[key]+=grads[key]*grads[key]
                params[key]-=self.lr*grads[key]/(np.sqrt(self.h[key])+1e-7)

6.1.4 Adam

Adam就是将上面两种方法合并，融合了AdaGrad和Momentum两种方法。

那究竟使用哪种优化方法呢，这个得一个个试，没有统一的答案。

6.2 权重的初始值

6.2.1 可以将权重初始值设置为0吗？

达咩，不行，如果将初始值设置为0，然后向后传播，所有元素都将为0,之后反向传播的时候，根据传递法则，需要传入正向传递元素，也是0，那么就全部的值都为0了(反向传递乘法部分，交叉相乘)。所以必须采用随机化生成初始值。

6.2.2 隐藏层的激活值分布

隐藏层的激活值(也就是激活函数的输出z1，在单个神经元内部的转换的输出)。

将权值设置为标准差为1的正态分布。

代码如下：

# coding: utf-8
import numpy as np
import matplotlib.pyplot as plt


def sigmoid(x):
    return 1 / (1 + np.exp(-x))


def ReLU(x):
    return np.maximum(0, x)


def tanh(x):
    return np.tanh(x)
    
input_data = np.random.randn(1000, 100)  # 1000个数据 输入100个神经元
node_num = 100  # 各隐藏层的节点（神经元）数
hidden_layer_size = 5  # 隐藏层有5层
activations = {}  # 激活值的结果保存在这里

x = input_data

for i in range(hidden_layer_size):
    if i != 0:
        x = activations[i-1]
        #一开始i = 0，所以这一部步跳过，将每次z传递的至向后传递一次，一开始那么写复杂，这直接使用for循环

    # 改变初始值进行实验！
    w = np.random.randn(node_num, node_num) * 1
    # w = np.random.randn(node_num, node_num) * 0.01
    # w = np.random.randn(node_num, node_num) * np.sqrt(1.0 / node_num)
    # w = np.random.randn(node_num, node_num) * np.sqrt(2.0 / node_num)


    a = np.dot(x, w)


    # 将激活函数的种类也改变，来进行实验！
    z = sigmoid(a)
    # z = ReLU(a)
    # z = tanh(a)

    activations[i] = z #此时储存的是激活值

# 绘制直方图
for i, a in activations.items():
    plt.subplot(1, len(activations), i+1)
    plt.title(str(i+1) + "-layer")
    if i != 0: plt.yticks([], [])
    # plt.xlim(0.1, 1)
    # plt.ylim(0, 7000)
    plt.hist(a.flatten(), 30, range=(0,1))
plt.show()

可以看到每一层的激活值均偏向0和1的分布，这是因为sigmoid函数是S函数，随着输入向量变改变，导数值逐渐接近0，所以偏向0和1的数据在传递的过程中不断减少，最终消失，这就是梯度消失问题。

之后将标准差改为0.01的高斯分布后，结果如下图所示。

这回可以看到，数据的分布基本都位于0.5左右，但是有所偏向，这就是表现力，当所有数据均呈现相同的偏向问题，那么表现效果就相当于一个神经元，就会出现"表现力受限"的问题。所以要求激活值都应该具有适应的广度。

之后，我们采用Xavier等人的初始值，该文章表明，如果前一层的节点为n，那么后面的节点就应该采用标准差为 $\frac{1}{\sqrt{n}}$ 的分布。

实验结果如下图：

可以看到，每一层的数据都有比之前更广的分布，这就解决了之前数据分布不广的问题，使得sigmoid可以高效的学习。

6.2.3 ReLU的初始权值

Xavier初始值是以激活函数为线性时所提出的，其中sigmoid和tanh均左右对称，所以在中点附近可以视为线性函数，可以使用Xavier作为初始值。

当激活函数为ReLU时，一般使用"He初始值"，是标准差为 $\sqrt{\frac{2}{n}}$

的高斯分布。下面，给出了当激活函数为ReLU时，使用三种初始值的激活值分布情况。

总结：

当激活函数选取ReLU的时候，选取He做初始值；

当激活函数选取sigmoid和tanh，选取Xavier初始值。

6.3 Batch Normalization

使得初始值的选取不那么重要，强制调整激活函数值的分布。

简单地将就是将数据变成均值为0，方差为1的高斯函数。

6.4 过拟合与抑制方法

避免过拟合的方法。

6.4.1 过拟合

过拟合问题就是对于训练数据集过分你和，也就是准确度很高，但是测试数据集准确度很低，过拟合主要有两个方面：

模型参数过多
训练数据过少

6.4.2 权值衰减

权值衰减是一种避免过拟合的方法，该方法对学习中权值变化过大进行惩罚。主要在损失中加入权重的L2范数。

6.4.3 Dropout

神经网络过于复杂的时候该方法便不再使用，于是便使用Dropout的方法，该方法就是在训练中使神经网络的传递过程随机删除部分神经元。

代码如下：

def forward(self,x,train_flg=True):
    if train_flg:
        self.mask=np.random.rand(*x.shape)>self.dropout_ratio
        return x*self.mask
    else:
        return x*(1.0-self.dropout_ratio)
    
def backward(self,dout):
    return dout*self.mask

该函数在正反向传播中的行为和ReLU相同。

6.5超参数的验证

超参数(hyper-parameter)就是指的需要提前人为设置的数据，比如

神经元数量，batch大小，epoch大小，学习率这些都是超参数，均需要设置正确的值。

6.5.1验证数据

我们一般将数据分成三部分(train，test，validation)，其中train是用来学习数据的特征，test是用来检验学习效果，也就是泛华效果，validation就是用来检验超参数的效果如何。

6.5.2超参数的最优化

贫经验循环出来的，可以使用贝叶斯最优化。

第七章卷积神经网络

本部分将介绍重头戏卷积神经网络(Convolutional Neural Network,CNN)。

7.1卷积层

卷积层的输入输出数据叫做特征图。

7.1.1卷积运算

卷积核以一定的间隔滑动到输入数据的窗口，并进行对应的乘积累加运算(而非矩阵相乘运算)然后将将对应数据输出。对于偏置直接加到输出结果所有元素上。

7.1.2填充

卷积运算之后的矩阵会变小，所以向使得输出矩阵大小不变，需要在输入矩阵处理。这就是填充(padding)，在矩阵周围填入固定的数据(比如0或者1)。

7.1.3步幅

滤波器在输入数据移动的距离叫做步幅(stride)。

输出数据的大小可以采用如下计算公式：

假设输入大小为(H，W)滤波器大小为(FH，FW)，输出大小为(OH，OW)，填充为P，步幅为S。
$\frac{H+2P-FH}{S} +1 \\ OW = \frac{W+2P-FW}{S} +1$

7.1.4三维数据的卷积运算

三维通常指的是，长宽和通道这三个维度。运算过程就是每层单独计算，然后将三层结果相加得到输出。

需要注意，输入数据和滤波器的通道数要设置为相同的值。但是滤波器的大小并不是固定的。

参考动图：

https://cs231n.github.io/assets/conv-demo/index.html

7.1.5多维数组(结合方块)

当考虑多位数组的时候，书写顺序如下(channel,height,width),简写为(C,H,W)，滤波器也按照这个顺序书写(C,FH,FW)。

如果希望得到FN个输出，那就需要FN个滤波器(权重)。

其中滤波器的权重需要按照(ouyput_channel,input_channel,heidght,width)的顺序书写。

当需要添加偏置的时候，可以通过NumPy的广播功能实现。

7.1.6批处理

将神经网络的输出数据打包处理，对应之前的批处理(mini-batch)，需要注意的是对N个数据进行卷积运算，就是汇总数据变成1次。

其中进行了批量的im2col处理，将4维的输入数据(通道数，通道，高，长)转换成2维矩阵。

然后需要对滤波器进行相应的变换，之后才能对他做矩阵乘法

7.1.7im2col函数的处理过程

对于输入数据矩阵的二维处理过程：

对于卷积核的二维处理过程：

关于两者之后进卷积处理行的过程如下：

可以看到采用im2col的方法实现的计算效率很高。

参考文献：

https://blog.csdn.net/sty945/article/details/125135444
https://blog.csdn.net/dwyane12138/article/details/78449898

https://zhuanlan.zhihu.com/p/546871247

7.1.8卷积层的代码实现

class Convolution:
    def __init__(self,W,b,stride=1,pad=0):
        self.W=W
        self.b=b
        self.stride=stride
        self.pad=pad
        
    def forward(self,x):
        FN,C,FH,FM=self.W.shaoe
        N,C,H,W=x.shape
        out_h=int(1+(H+2*sel.pad-FH)/self.stride)
        out_w=int(1+(W+2*sel.pad-FW)/self.stride)
        
        col=im2col(x,FH,FW,self.stride,self.pad)
        col_w=self.W.reshape(FN,-1).T
        #这里其实可以直接处理成下面的式子，不需要转置
        #col_w=self.W.reshape(-1,FN)
        out=np.dot(col,col.W)+self.b
        
        out=out.reshape(N,out_h,out_w,-1).transpose(0,3,1,2)
        
        return out

7.2池化层

池化是缩小空间的运算，可以把大的空间变成小的。

池化层的特征：

没有要学习的参数
通道数不发生改变
对于微小的改变不发生变动，也就是鲁棒性健壮。

代码实现：

你可能感兴趣的:(python,深度学习,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

【cooper】深度学习入门：基于Python的理论与实现(鱼书)_个人读书笔记

深度学习入门：基于Python的理论与实现(鱼书)

第三章神经网络

3.2激活函数

3.2.1阶跃函数(step)

3.2.2sigmoid函数

3.2.3ReLU函数

3.3多维数组

3.3.1多维数组的维度和形状

3.3.2多维数组的点乘

3.4 三层神经网络的实现

3.4.1单层步骤

3.4.2整合设计

3.5输出层的设计

3.5.1归一化函数(softmax函数)

第四章 神经网络的学习

4.2损失函数(loss function)

4.2.1均方误差MSE( mean squared error)

4.2.2交叉熵误差CEE(cross entropy error)

4.2.3mini-batch上的交叉熵

4.3数值微分

4.3.1导数

4.3.2偏导数

4.4梯度

4.4.1梯度法

4.4.2神经网络的梯度

4.5学习算法的实现

4.5.1双层神经网络

4.5.2对于测试数据的评价

第五章 误差反向传播算法(BP)

5.4简单层的实现

5.4.1乘法层的实现

5.4.2加法层的实现

5.5激活层函数

5.5.1ReLU层

5.5.2sigmoid层

5.6Affine/Softmax层的实现

5.6.1 Affine层

5.6.3 Softmax-with-Loss层

第六章 与学习相关的技巧

6.1参数的更新

6.1.1 SGD

6.1.2 Momentum

6.1.3 AdaGrad

6.1.4 Adam

6.2 权重的初始值

6.2.1 可以将权重初始值设置为0吗？

6.2.2 隐藏层的激活值分布

6.2.3 ReLU的初始权值

6.3 Batch Normalization

6.4 过拟合与抑制方法

6.4.1 过拟合

6.4.2 权值衰减

6.4.3 Dropout

6.5超参数的验证

6.5.1验证数据

6.5.2超参数的最优化

第七章 卷积神经网络

7.1卷积层

7.1.1卷积运算

7.1.2填充

7.1.3步幅

7.1.4三维数据的卷积运算

7.1.5多维数组(结合方块)

7.1.6批处理

7.1.7im2col函数的处理过程

7.1.8卷积层的代码实现

7.2池化层

你可能感兴趣的:(python,深度学习,机器学习)

第四章神经网络的学习

第五章误差反向传播算法(BP)

第六章与学习相关的技巧

第七章卷积神经网络