duanyajun987

一文搞定BP神经网络——从原理到应用（原理篇）

文章目录

- - 0. 什么是人工神经网络？
  - 1. 神经网络初探
    - 1.1 神经元模型
    - 1.2 神经元激活函数
    - 1.3 神经网络结构
  - 2. 损失函数和代价函数
  - 3. 反向传播
    - 3.1 矩阵补充知识
      - **3.1.1 求梯度矩阵**
      - **3.1.2 海塞矩阵**
      - **3.1.3 总结**
    - 3.3 梯度下降法原理
    - 3.4 反向传播原理（四个基础等式）
    - 3.5 反向传播总结
      - **3.5.1 单样本输入公式表**
      - **3.5.2 多样本输入公式表**
      - **3.5.3 关于超参数**
  - 4. 是不是猫？
    - 4.1 辅助函数
    - 4.2 前向传播过程
    - 4.3 反向传播过程
    - 4.4 测试结果
  - 5. 本文小结
订正与答疑：
- 1. 具体解释一下公式1里面的“堆砌”是什么意思？
- 2. 公式2写成矩阵形式为什么系数矩阵会有转置？自己没搞懂。
- 3. 公式3能具体讲一下矩阵形式是怎么来的吗？
- 4. 为什么会损失函数不用最小二乘法？
- 5. 能不能顺便介绍一下Python环境的管理？
- 6. 为什么w的初始化使用随机初始化，而b参数的初始化全部初始化为0？

本文着重讲述经典BP神经网络的数学推导过程，并辅助一个小例子。本文不会介绍机器学习库(比如sklearn, TensorFlow等)的使用。

本文难免会有叙述不合理的地方，希望读者可以在评论区反馈。我会及时吸纳大家的意见，并在之后的chat里进行说明。

本文参考了一些资料，在此一并列出。

http://neuralnetworksanddeeplearning.com/chap2.html

https://www.deeplearning.ai/ coursera对应课程视频讲义

coursera华盛顿大学机器学习专项

周志华《机器学习》

李航《统计学习方法》

张明淳《工程矩阵理论》

0. 什么是人工神经网络？

首先给出一个经典的定义：“神经网络是由具有适应性的简单单元组成的广泛并行互连网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应”[Kohonen, 1988]。

这种说法虽然很经典，但是对于初学者并不是很友好。比如我在刚开始学习的时候就把人工神经网络想象地很高端，以至于很长一段时间都不能理解为什么神经网络能够起作用。类比最小二乘法线性回归问题，在求解数据拟合直线的时候，我们是采用某种方法让预测值和实际值的“偏差”尽可能小。同理，BP神经网络也做了类似的事情——即通过让“偏差”尽可能小，使得神经网络模型尽可能好地拟合数据集。

1. 神经网络初探

1.1 神经元模型

神经元模型是模拟生物神经元结构而被设计出来的。典型的神经元结构如下图1所示：

【图1 典型神经元结构（图片来自维基百科）】

神经元大致可以分为树突、突触、细胞体和轴突。树突为神经元的输入通道，其功能是将其它神经元的动作电位传递至细胞体。其它神经元的动作电位借由位于树突分支上的多个突触传递至树突上。神经细胞可以视为有两种状态的机器，激活时为“是”，不激活时为“否”。神经细胞的状态取决于从其他神经细胞接收到的信号量，以及突触的性质（抑制或加强）。当信号量超过某个阈值时，细胞体就会被激活，产生电脉冲。电脉冲沿着轴突并通过突触传递到其它神经元。（内容来自维基百科“感知机”）

同理，我们的神经元模型就是为了模拟上述过程，典型的神经元模型如下：

【图2 典型神经元模型结构（摘自周志华老师《机器学习》第97页）】

这个模型中，每个神经元都接受来自其它神经元的输入信号，每个信号都通过一个带有权重的连接传递，神经元把这些信号加起来得到一个总输入值，然后将总输入值与神经元的阈值进行对比（模拟阈值电位），然后通过一个“激活函数”处理得到最终的输出（模拟细胞的激活），这个输出又会作为之后神经元的输入一层一层传递下去。

1.2 神经元激活函数

本文主要介绍2种激活函数，分别是sigmoid

sigmoid和relurelu函数，函数公式如下：
sigmoid(z)=11+e−zsigmoid(z)=1+e−z1
relu(z)={z0z>0z≤0

relu(z)={z0z>0z≤0
做函数图如下：

sigmoid(z)

sigmoid(z)

relu(z)

relu(z)
【图3 激活函数】

补充说明
【补充说明的内容建议在看完后文的反向传播部分之后再回来阅读，我只是为了文章结构的统一把这部分内容添加在了这里】

引入激活函数的目的是在模型中引入非线性。如果没有激活函数，那么无论你的神经网络有多少层，最终都是一个线性映射，单纯的线性映射无法解决线性不可分问题。引入非线性可以让模型解决线性不可分问题。

一般来说，在神经网络的中间层更加建议使用relu

relu函数，两个原因：

relu

relu函数计算简单，可以加快模型速度；
由于反向传播过程中需要计算偏导数，通过求导可以得到sigmoid

sigmoid函数导数的最大值为0.25，如果使用sigmoid

sigmoid函数的话，每一层的反向传播都会使梯度最少变为原来的四分之一，当层数比较多的时候可能会造成梯度消失，从而模型无法收敛。

1.3 神经网络结构

我们使用如下神经网络结构来进行介绍，第0层是输入层（3个神经元），第1层是隐含层（2个神经元），第2层是输出层：

【图4 神经网络结构（手绘）】

我们使用以下符号约定，w[l]jk

wjk[l]表示从网络第(l−1)th(l−1)th中kthkth个神经元指向第lthlth中第jthjth个神经元的连接权重，比如上图中w[1]21w21[1]即从第0层第1个神经元指向第1层第2个神经元的权重。同理，我们使用b[l]jbj[l]来表示第lthlth层中第jthjth神经元的偏差，用z[l]jzj[l]来表示第lthlth层中第jthjth神经元的线性结果,用a[l]jaj[l]来表示第lthlth层中第jth

jth神经元的激活函数输出。

激活函数使用符号σ

σ表示，因此，第lthlth层中第jthjth神经元的激活为：
a[l]j=σ(∑kw[l]jka[l−1]k+b[l]j)

aj[l]=σ(k∑wjk[l]ak[l−1]+bj[l])

现在，我们使用矩阵形式重写这个公式：

定义w[l]

w[l]表示权重矩阵，它的每一个元素表示一个权重，即每一行都是连接第l

l层的权重，用上图举个例子就是：

w[1]=[w[1]11w[1]21w[1]12w[1]22w[1]13w[1]23]

w[1]=[w11[1]w21[1]w12[1]w22[1]w13[1]w23[1]]
同理，
b[1]=[b[1]1b[1]2]b[1]=[b1[1]b2[1]]
z[1]=[w[1]11w[1]21w[1]12w[1]22w[1]13w[1]23]⋅⎡⎣⎢⎢⎢a[0]1a[0]2a[0]3⎤⎦⎥⎥⎥+[b[1]1b[1]2]=[w[1]11a[0]1+w[1]12a[0]2+w[1]13a[0]3+b[1]1w[1]21a[0]1+w[1]22a[0]2+w[1]23a[0]3+b[1]2]

z[1]=[w11[1]w21[1]w12[1]w22[1]w13[1]w23[1]]⋅⎣⎢⎡a1[0]a2[0]a3[0]⎦⎥⎤+[b1[1]b2[1]]=[w11[1]a1[0]+w12[1]a2[0]+w13[1]a3[0]+b1[1]w21[1]a1[0]+w22[1]a2[0]+w23[1]a3[0]+b2[1]]

更一般地，我们可以把前向传播过程表示：
a[l]=σ(w[l]a[l−1]+b[l])

a[l]=σ(w[l]a[l−1]+b[l])

到这里，我们已经讲完了前向传播的过程，值得注意的是，这里我们只有一个输入样本，对于多个样本同时输入的情况是一样的，只不过我们的输入向量不再是一列，而是m列，每一个都表示一个输入样本。

多样本输入情况下的表示为：
Z[l]=w[l]⋅A[l−1]+b[l]

Z[l]=w[l]⋅A[l−1]+b[l]
A[l]=σ(Z[l])A[l]=σ(Z[l])
其中，此时A[l−1]=⎡⎣⎢∣a[l−1](1)∣∣a[l−1](2)∣………∣a[l−1](m)∣⎤⎦⎥

A[l−1]=⎣⎡∣a[l−1](1)∣∣a[l−1](2)∣………∣a[l−1](m)∣⎦⎤
每一列都表示一个样本，从样本1到m

w[l]

w[l]的含义和原来完全一样，Z[l]

Z[l]也会变成m列，每一列表示一个样本的计算结果。

之后我们的叙述都是先讨论单个样本的情况，再扩展到多个样本同时计算。

2. 损失函数和代价函数

说实话，**损失函数（Loss Function）和代价函数（Cost Function）**并没有一个公认的区分标准，很多论文和教材似乎把二者当成了差不多的东西。

为了后面描述的方便，我们把二者稍微做一下区分（这里的区分仅仅对本文适用，对于其它的文章或教程需要根据上下文自行判断含义）：

损失函数主要指的是对于单个样本的损失或误差；代价函数表示多样本同时输入模型的时候总体的误差——每个样本误差的和然后取平均值。

举个例子，如果我们把单个样本的损失函数定义为：
L(a,y)=−[y⋅log(a)+(1−y)⋅log(1−a)]

L(a,y)=−[y⋅log(a)+(1−y)⋅log(1−a)]
那么对于m个样本，代价函数则是：
C=−1m∑mi=0(y(i)⋅log(a(i))+(1−y(i))⋅log(1−a(i)))

C=−m1i=0∑m(y(i)⋅log(a(i))+(1−y(i))⋅log(1−a(i)))

3. 反向传播

反向传播的基本思想就是通过计算输出层与期望值之间的误差来调整网络参数，从而使得误差变小。

反向传播的思想很简单，然而人们认识到它的重要作用却经过了很长的时间。后向传播算法产生于1970年，但它的重要性一直到David Rumelhart，Geoffrey Hinton和Ronald Williams于1986年合著的论文发表才被重视。

事实上，人工神经网络的强大力量几乎就是建立在反向传播算法基础之上的。反向传播基于四个基础等式，数学是优美的，仅仅四个等式就可以概括神经网络的反向传播过程，然而理解这种优美可能需要付出一些脑力。事实上，反向传播如此之难，以至于相当一部分初学者很难进行独立推导。所以如果读者是初学者，希望读者可以耐心地研读本节。对于初学者，我觉得拿出1-3个小时来学习本小节是比较合适的，当然，对于熟练掌握反向传播原理的读者，你可以在十几分钟甚至几分钟之内快速浏览本节的内容。

3.1 矩阵补充知识

对于大部分理工科的研究生，以及学习过矩阵论或者工程矩阵理论相关课程的读者来说，可以跳过本节。

本节主要面向只学习过本科线性代数课程或者已经忘记矩阵论有关知识的读者。

总之，具备了本科线性代数知识的读者阅读这一小节应该不会有太大问题。本节主要在线性代数的基础上做一些扩展。（不排除少数本科线性代数课程也涉及到这些内容，如果感觉讲的简单的话，勿喷）

3.1.1 求梯度矩阵

假设函数 f:Rm×n→R

f:Rm×n→R可以把输入矩阵（shape: m×nm×n）映射为一个实数。那么，函数f

f的梯度定义为：

∇Af⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜A⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢∂f(A)∂A11∂f(A)∂A21⋮∂f(A)∂Am1∂f(A)∂A12∂f(A)∂A22⋮∂f(A)∂Am2……⋱…∂f(A)∂A1n∂f(A)∂A2n⋮∂f(A)∂Amn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥

∇Af(A)=⎣⎢⎢⎢⎢⎡∂A11∂f(A)∂A21∂f(A)⋮∂Am1∂f(A)∂A12∂f(A)∂A22∂f(A)⋮∂Am2∂f(A)……⋱…∂A1n∂f(A)∂A2n∂f(A)⋮∂Amn∂f(A)⎦⎥⎥⎥⎥⎤
即(∇Af(A))ij=∂f(A)∂Aij

(∇Af(A))ij=∂Aij∂f(A)

同理，一个输入是向量（向量一般指列向量，本文在没有特殊声明的情况下默认指的是列向量）的函数f:Rn×1→R

f:Rn×1→R，则有：

∇xf⎛⎝⎜⎜⎜⎜⎜⎜⎜x⎞⎠⎟⎟⎟⎟⎟⎟⎟=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢∂f(x)∂x1∂f(x)∂x2⋮∂f(x)∂xn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥

∇xf(x)=⎣⎢⎢⎢⎢⎡∂x1∂f(x)∂x2∂f(x)⋮∂xn∂f(x)⎦⎥⎥⎥⎥⎤

注意：这里涉及到的梯度求解的前提是函数f

f 返回的是一个实数，如果函数返回的是一个矩阵或者向量，那么我们是没有办法求梯度的。比如，对函数f(A)=∑mi=0∑nj=0A2ijf(A)=∑i=0m∑j=0nAij2，由于返回一个实数,我们可以求解梯度矩阵。如果f(x)=Ax(A∈Rm×n,x∈Rn×1)f(x)=Ax(A∈Rm×n,x∈Rn×1)，由于函数返回一个mm行1列的向量，因此不能对f

f求梯度矩阵。

根据定义，很容易得到以下性质：

∇x(f(x)+g(x))=∇xf(x)+∇xg(x)

∇x(f(x)+g(x))=∇xf(x)+∇xg(x)
∇(tf(x))=t∇f(x),t∈R

∇(tf(x))=t∇f(x),t∈R

有了上述知识，我们来举个例子：

定义函数f:Rm→R,f(z)=zTz

f:Rm→R,f(z)=zTz,那么很容易得到∇zf(z)=2z

∇zf(z)=2z，具体请读者自己证明。

3.1.2 海塞矩阵

定义一个输入为n

n维向量，输出为实数的函数f:Rn→Rf:Rn→R，那么海塞矩阵（Hessian Matrix）定义为多元函数f

f的二阶偏导数构成的方阵：

∇2xf⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜x⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢∂2f(x)∂x21∂2f(x)∂x2∂x1⋮∂2f(x)∂xn∂x1∂2f(x)∂x1∂x2∂2f(x)∂x22⋮∂2f(x)∂xn∂x2……⋱…∂2f(x)∂x1∂xn∂2f(x)∂x2∂xn⋮∂2f(x)∂x2n⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

∇x2f(x)=⎣⎢⎢⎢⎢⎢⎡∂x12∂2f(x)∂x2∂x1∂2f(x)⋮∂xn∂x1∂2f(x)∂x1∂x2∂2f(x)∂x22∂2f(x)⋮∂xn∂x2∂2f(x)……⋱…∂x1∂xn∂2f(x)∂x2∂xn∂2f(x)⋮∂xn2∂2f(x)⎦⎥⎥⎥⎥⎥⎤

由上式可以看出，海塞矩阵总是对称阵。

注意：很多人把海塞矩阵看成∇xf(x)

∇xf(x)的导数，这是不对的。只能说，海塞矩阵的每个元素都是函数f

f二阶偏导数。那么，有什么区别呢？

首先，来看正确的解释。**海塞矩阵的每个元素是函数f

f的二阶偏导数。**拿∂2f(x)∂x1∂x2∂x1∂x2∂2f(x)举个例子，函数ff对x1x1求偏导得到的是一个实数，比如∂2f(x)∂x1=x32x1∂x1∂2f(x)=x23x1，因此继续求偏导是有意义的,继续对x2x2求偏导可以得到3x1x22

3x1x22。

然后,来看一下错误的理解。把海塞矩阵看成∇xf(x)

∇xf(x)的导数，也就是说错误地以为∇2xf(x)=∇x(∇xf(x))∇x2f(x)=∇x(∇xf(x))，要知道，∇xf(x)

∇xf(x)是一个向量，而在上一小节我们已经重点强调过，在我们的定义里对向量求偏导是没有定义的。

但是∇x∂f(x)∂xi

∇x∂xi∂f(x)是有意义的，因为∂f(x)∂xi

∂xi∂f(x)是一个实数，具体地：

∇x∂f(x)∂xi=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢∂2f(x)∂xi∂x1∂2f(x)∂xi∂x2⋮∂2f(x)∂xi∂xn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥

∇x∂xi∂f(x)=⎣⎢⎢⎢⎢⎢⎡∂xi∂x1∂2f(x)∂xi∂x2∂2f(x)⋮∂xi∂xn∂2f(x)⎦⎥⎥⎥⎥⎥⎤

即海塞矩阵的第i行（或列）。

希望读者可以好好区分。

3.1.3 总结

根据3.1.1和3.1.2小节的内容很容易得到以下等式：

b∈Rn,x∈Rn,A∈Rn×n并且A是对称矩阵

b∈Rn,x∈Rn,A∈Rn×n并且A是对称矩阵
b,xb,x均为列向量
那么，
∇xbTx=b∇xbTx=b
∇xxTAx=2Ax(A是对称阵)∇xxTAx=2Ax(A是对称阵)
∇2xxTAx=2A(A是对称阵)

∇x2xTAx=2A(A是对称阵)

这些公式可以根据前述定义自行推导，有兴趣的读者可以自己推导一下。
####3.2 矩阵乘积和对应元素相乘
在下一节讲解反向传播原理的时候，尤其是把公式以矩阵形式表示的时候，需要大家时刻区分什么时候需要矩阵相乘，什么时候需要对应元素相乘。

比如对于矩阵A=[1324]，矩阵B=[−1−3−2−4]

A=[1324]，矩阵B=[−1−3−2−4]
矩阵相乘

AB=[1×−1+2×−33×−1+4×−31×−2+2×−43×−2+4×−4]=[−7−15−10−22]

对应元素相乘使用符号⊙

⊙表示：

A⊙B=[1×−13×−32×−24×−4]=[−1−9−4−16]

3.3 梯度下降法原理

通过之前的介绍，相信大家都可以自己求解梯度矩阵（向量）了。

那么梯度矩阵（向量）求出来的意义是什么？从几何意义讲，梯度矩阵代表了函数增加最快的方向，因此，沿着与之相反的方向就可以更快找到最小值。如图5所示：

【图5 梯度下降法图片来自百度】

反向传播的过程就是利用梯度下降法原理，慢慢的找到代价函数的最小值，从而得到最终的模型参数。梯度下降法在反向传播中的具体应用见下一小节。

3.4 反向传播原理（四个基础等式）

反向传播能够知道如何更改网络中的权重w

w 和偏差bb 来改变代价函数值。最终这意味着它能够计算偏导数∂L(a[l],y)∂w[l]jk∂wjk[l]∂L(a[l],y) 和∂L(a[l],y)∂b[l]j∂bj[l]∂L(a[l],y)
为了计算这些偏导数，我们首先引入一个中间变量δ[l]jδj[l]，我们把它叫做网络中第lthlth层第jthjth个神经元的误差。后向传播能够计算出误差δ[l]jδj[l]，然后再将其对应回∂L(a[l],y)∂w[l]jk∂wjk[l]∂L(a[l],y)和∂L(a[l],y)∂b[l]j

∂bj[l]∂L(a[l],y) 。

那么，如何定义每一层的误差呢？如果为第l

l 层第jj 个神经元添加一个扰动Δz[l]jΔzj[l]，使得损失函数或者代价函数变小，那么这就是一个好的扰动。通过选择 Δz[l]jΔzj[l]与∂L(a[l],y)∂z[l]j

∂zj[l]∂L(a[l],y)符号相反（梯度下降法原理），就可以每次都添加一个好的扰动最终达到最优。

受此启发，我们定义网络层第l

l 层中第jj 个神经元的误差为δ[l]j

δj[l]:

δ[l]j=∂L(a[L],y)∂z[l]j

δj[l]=∂zj[l]∂L(a[L],y)

于是，每一层的误差向量可以表示为：

δ[l]=⎡⎣⎢⎢⎢⎢⎢⎢δ[l]1δ[l]2⋮δ[l]n⎤⎦⎥⎥⎥⎥⎥⎥

δ[l]=⎣⎢⎢⎢⎢⎡δ1[l]δ2[l]⋮δn[l]⎦⎥⎥⎥⎥⎤

下面开始正式介绍四个基础等式【确切的说是四组等式】

**注意：**这里我们的输入为单个样本(所以我们在下面的公式中使用的是损失函数而不是代价函数)。多个样本输入的公式会在介绍完单个样本后再介绍。

等式1 ：输出层误差

δ[L]j=∂L∂a[L]jσ′(z[L]j)

δj[L]=∂aj[L]∂Lσ′(zj[L])
其中，LL表示输出层层数。以下用∂L∂L 表示 ∂L(a[L],y)

∂L(a[L],y)

写成矩阵形式是：

δ[L]=∇aL⊙σ′(z[L])

δ[L]=∇aL⊙σ′(z[L])
【注意是对应元素相乘，想想为什么？】

说明

根据本小节开始时的叙述，我们期望找到∂L /∂z[l]j

∂L /∂zj[l]，然后朝着方向相反的方向更新网络参数，并定义误差为：

δ[L]j=∂L∂z[L]j

δj[L]=∂zj[L]∂L

根据链式法则，
δ[L]j=∑k∂L∂a[L]k∂a[L]k∂z[L]j

δj[L]=k∑∂ak[L]∂L∂zj[L]∂ak[L]
当k≠jk̸=j时，∂a[L]k/∂z[L]j∂ak[L]/∂zj[L]就为零。结果我们可以简化之前的等式为
δ[L]j=∂L∂a[L]j∂a[L]j∂z[L]jδj[L]=∂aj[L]∂L∂zj[L]∂aj[L]
重新拿出定义：a[L]j=σ(z[L]j)aj[L]=σ(zj[L])，就可以得到：
δ[L]j=∂L∂a[L]jσ′(z[L]j)

δj[L]=∂aj[L]∂Lσ′(zj[L])
再"堆砌"成向量形式就得到了我们的矩阵表示式（这也是为什么使用矩阵形式表示需要 对应元素相乘 的原因）。

等式2：隐含层误差
δ[l]j=∑kw[l+1]kjδ[l+1]kσ′(z[l]j)

δj[l]=k∑wkj[l+1]δk[l+1]σ′(zj[l])

写成矩阵形式：

δ[l]=[w[l+1]Tδ[l+1]]⊙σ′(z[l])

说明：

z[l+1]k=∑jw[l+1]kja[l]j+b[l+1]k=∑jw[l+1]kjσ(z[l]j)+b[l+1]k

zk[l+1]=j∑wkj[l+1]aj[l]+bk[l+1]=j∑wkj[l+1]σ(zj[l])+bk[l+1]
进行偏导可以获得：
∂z[l+1]k∂z[l]j=w[l+1]kjσ′(z[l]j)∂zj[l]∂zk[l+1]=wkj[l+1]σ′(zj[l])
代入得到：
δ[l]j=∑kw[l+1]kjδ[l+1]kσ′(z[l]j)

δj[l]=k∑wkj[l+1]δk[l+1]σ′(zj[l])

等式3：参数变化率

∂L∂b[l]j=δ[l]j

∂bj[l]∂L=δj[l]

∂L∂w[l]jk=a[l−1]kδ[l]j

∂wjk[l]∂L=ak[l−1]δj[l]

写成矩阵形式：
∂L∂b[l]=δ[l]

∂b[l]∂L=δ[l]∂L∂w[l]=δ[l]a[l−1]T

∂w[l]∂L=δ[l]a[l−1]T

说明：

根据链式法则推导。
由于
z[l]j=∑kw[l]jka[l]k+b[l]k

zj[l]=k∑wjk[l]ak[l]+bk[l]
对b[l]jbj[l]求偏导得到：
∂L∂b[l]j=∂L∂z[l]j∂z[l]jb[l]j=δ[l]j∂bj[l]∂L=∂zj[l]∂Lbj[l]∂zj[l]=δj[l]
对w[l]jkwjk[l]求偏导得到：
∂L∂w[l]jk=∂L∂z[l]j∂z[l]jw[l]jk=a[l−1]kδ[l]j

∂wjk[l]∂L=∂zj[l]∂Lwjk[l]∂zj[l]=ak[l−1]δj[l]
最后再变成矩阵形式就好了。

对矩阵形式来说，需要特别注意维度的匹配。强烈建议读者在自己编写程序之前，先列出这些等式，然后仔细检查维度是否匹配。

很容易看出∂L∂w[l]

∂w[l]∂L是一个dim(δ[l])dim(δ[l])行dim(a[l−1])dim(a[l−1])列的矩阵，和w[l]w[l]的维度一致；∂L∂b[l]∂b[l]∂L是一个维度为dim(δ[l])

dim(δ[l])的列向量

等式4：参数更新规则

这应该是这四组公式里最简单的一组了，根据梯度下降法原理，朝着梯度的反方向更新参数：

b[l]j←b[l]j−α∂L∂b[l]j

bj[l]←bj[l]−α∂bj[l]∂L
w[l]jk←w[l]jk−α∂L∂w[l]jk

wjk[l]←wjk[l]−α∂wjk[l]∂L
写成矩阵形式：

b[l]←b[l]−α∂L∂b[l]

b[l]←b[l]−α∂b[l]∂L

w[l]←w[l]−α∂L∂w[l]

w[l]←w[l]−α∂w[l]∂L

这里的α

α指的是学习率。学习率指定了反向传播过程中梯度下降的步长。

3.5 反向传播总结

我们可以得到如下最终公式：

3.5.1 单样本输入公式表

说明	公式	备注
输出层误差	δ[L]=∇aL⊙σ′(z[L])

δ[L]=∇aL⊙σ′(z[L])
隐含层误差	δ[l]=[w[l+1]Tδ[l+1]]⊙σ′(z[l])

δ[l]=[w[l+1]Tδ[l+1]]⊙σ′(z[l])
参数变化率	∂L∂b[l]=δ[l]

∂b[l]∂L=δ[l]∂L∂w[l]=δ[l]a[l−1]T

∂w[l]∂L=δ[l]a[l−1]T	注意维度匹配
参数更新	b[l]←b[l]−α∂L∂b[l]

b[l]←b[l]−α∂b[l]∂Lw[l]←w[l]−α∂L∂w[l]

w[l]←w[l]−α∂w[l]∂L

α是学习率

3.5.2 多样本输入公式表

多样本：需要使用代价函数，如果有m个样本，那么由于代价函数有一个1m

m1的常数项，因此所有的参数更新规则都需要有一个1m

m1的前缀。

多样本同时输入的时候需要格外注意维度匹配，一开始可能觉得有点混乱，但是不断加深理解就会豁然开朗。

说明	公式	备注
输出层误差	dZ[L]=∇AC⊙σ′(Z[L])

dZ[L]=∇AC⊙σ′(Z[L])

此时dZ[l]

dZ[l]不再是一个列向量，变成了一个m

m列的矩阵，每一列都对应一个样本的向量
隐含层误差	dZ[l]=[w[l+1]TdZ[l+1]]⊙σ′(Z[l])

dZ[l]=[w[l+1]TdZ[l+1]]⊙σ′(Z[l])

此时dZ[l]

dZ[l]的维度是n×mn×m，n

n表示第l层神经元的个数，m表示样本数
参数变化率	db[l]=∂C∂b[l]=1mmeanOfEachRow(dZ[l])dw[l]=∂C∂w[l]=1mdZ[l]A[l−1]T

db[l]=∂b[l]∂C=m1meanOfEachRow(dZ[l])dw[l]=∂w[l]∂C=m1dZ[l]A[l−1]T

更新b[l]

b[l]的时候需要对每行求均值；注意维度匹配; m

m是样本个数
参数更新	b[l]←b[l]−α∂C∂b[l]

b[l]←b[l]−α∂b[l]∂Cw[l]←w[l]−α∂C∂w[l]

w[l]←w[l]−α∂w[l]∂C

α是学习率

3.5.3 关于超参数

通过前面的介绍，相信读者可以发现BP神经网络模型有一些参数是需要设计者给出的，也有一些参数是模型自己求解的。

那么，哪些参数是需要模型设计者确定的呢？

比如，学习率α

α，隐含层的层数，每个隐含层的神经元个数，激活函数的选取，损失函数（代价函数）的选取等等，这些参数被称之为超参数。

其它的参数，比如权重矩阵w

w和偏置系数b

b在确定了超参数之后是可以通过模型的计算来得到的，这些参数称之为普通参数，简称参数。

超参数的确定其实是很困难的。因为你很难知道什么样的超参数会让模型表现得更好。比如，学习率太小可能造成模型收敛速度过慢，学习率太大又可能造成模型不收敛；再比如，损失函数的设计，如果损失函数设计不好的话，可能会造成模型无法收敛；再比如，层数过多的时候，如何设计网络结构以避免梯度消失和梯度爆炸……

神经网络的程序比一般程序的调试难度大得多，因为它并不会显式报错，它只是无法得到你期望的结果，作为新手也很难确定到底哪里出了问题（对于自己设计的网络，这种现象尤甚，我目前也基本是新手，所以这些问题也在困扰着我）。当然，使用别人训练好的模型来微调看起来是一个捷径……

总之，神经网络至少在目前来看感觉还是黑箱的成分居多，希望通过大家的努力慢慢探索吧。

4. 是不是猫？

本小节主要使用上述公式来完成一个小例子，这个小小的神经网络可以告诉我们一张图片是不是猫。本例程参考了coursera的作业，有改动。

在实现代码之前，先把用到的公式列一个表格吧，这样对照着看大家更清晰一点(如果你没有2个显示器建议先把这些公式抄写到纸上，以便和代码对照)：

编号	公式	备注
1	Z[l]=w[l]A[l−1]+b[l]

Z[l]=w[l]A[l−1]+b[l]
2	A[l]=σ(Z[l])

A[l]=σ(Z[l])
3	dZ[L]=∇AC⊙σ′(Z[L])

dZ[L]=∇AC⊙σ′(Z[L])
4	dZ[l]=[w[l+1]TdZ[l+1]]⊙σ′(Z[l])

dZ[l]=[w[l+1]TdZ[l+1]]⊙σ′(Z[l])
5	db[l]=∂C∂b[l]=1mmeanOfEachRow(dZ[l])

db[l]=∂b[l]∂C=m1meanOfEachRow(dZ[l])
6	dw[l]=∂C∂w[l]=1mdZ[l]A[l−1]T

dw[l]=∂w[l]∂C=m1dZ[l]A[l−1]T
7	b[l]←b[l]−α⋅db[l]

b[l]←b[l]−α⋅db[l]
8	w[l]←w[l]−α⋅dw[l]

w[l]←w[l]−α⋅dw[l]
9	dA[l]=w[l]T⊙dZ[l]

dA[l]=w[l]T⊙dZ[l]

准备工作做的差不多了，让我们开始吧？等等，好像我们还没有定义代价函数是什么？OMG！好吧，看来我们得先把这个做好再继续了。

那先看结果吧，我们的代价函数是：
C=−1m∑mi=1(y(i)log(a[L](i))+(1−y(i))log(1−a[L](i)))

C=−m1i=1∑m(y(i)log(a[L](i))+(1−y(i))log(1−a[L](i)))
其中，m

m是样本数量；

下面简单介绍一下这个代价函数是怎么来的（作者非数学专业，不严谨的地方望海涵）。
.
代价函数的确定用到了统计学中的**“极大似然法”**，既然这样，那就不可避免地要介绍一下“极大似然法”了。极大似然法简单来说就是“在模型已定，参数未知的情况下，根据结果估计模型中参数的一种方法"，换句话说，极大似然法提供了一种给定观察数据来评估模型参数的方法。

举个例子（本例参考了知乎相关回答），一个不透明的罐子里有黑白两种球（球仅仅颜色不同，大小重量等参数都一样）。有放回地随机拿出一个小球，记录颜色。重复10次之后发现7次是黑球，3次是白球。问你罐子里白球的比例？

相信很多人可以一口回答“30%”，那么，为什么呢？背后的原理是什么呢？

这里我们把每次取出一个球叫做一次抽样，把“抽样10次，7次黑球，3次白球”这个事件发生的概率记为P(事件结果∣Model)

P(事件结果∣Model)，我们的Model需要一个参数pp表示白球的比例。那么P(事件结果∣Model)=p3(1−p)7

P(事件结果∣Model)=p3(1−p)7。

好了，现在我们已经有事件结果的概率公式了，接下来求解模型参数p

p，根据极大似然法的思想，既然这个事件发生了，那么为什么不让这个事件（抽样10次，7次黑球，3次白球）发生的概率最大呢？因为显然概率大的事件发生才是合理的。于是就变成了求解p3(1−p)7p3(1−p)7取最大值的pp，即导数为0，经过求导：
d(p3(1−p)7)=3p2(1−p)7−7p3(1−p)6=p2(1−p)6(3−10p)=0d(p3(1−p)7)=3p2(1−p)7−7p3(1−p)6=p2(1−p)6(3−10p)=0
求解可得p=0.3

p=0.3

极大似然法有一个重要的假设：

假设所有样本独立同分布！！！

好了，现在来看看我们的神经网络模型。

最后一层我们用sigmoid函数求出一个激活输出a，如果a大于0.5，就表示这个图片是猫（y=1

y=1），否则就不是猫（y=0y=0）。因此:
P(y=1∣x;θ)=aP(y=1∣x;θ)=a
P(y=0∣x;θ)=1−a

P(y=0∣x;θ)=1−a

公式解释：
上述第一个公式表示，给定模型参数θ

θ和输入xx，是猫的概率是P(y=1∣x;θ)=a

P(y=1∣x;θ)=a

把两个公式合并成一个公式，即
p(y∣x;θ)=ay(1−a)(1−y)

p(y∣x;θ)=ay(1−a)(1−y)

这里的θ

θ指的就是我们神经网络的权值参数和偏置参数。

那么似然函数
L(θ)=p(Y∣X;θ)=∏mi=1p(y(i)∣x(i);θ)=∏mi=1(a[L](i))y(i)(1−a[L](i))(1−y(i))

L(θ)=p(Y∣X;θ)=i=1∏mp(y(i)∣x(i);θ)=i=1∏m(a[L](i))y(i)(1−a[L](i))(1−y(i))
变成对数形式：
log(L(θ))=∑mi=1(y(i)log(a[L](i))+(1−y(i))log(1−a[L](i)))log(L(θ))=i=1∑m(y(i)log(a[L](i))+(1−y(i))log(1−a[L](i)))
所以我们的目标就是最大化这个对数似然函数，也就是最小化我们的代价函数：
C=−1m∑mi=1(y(i)log(a[L](i))+(1−y(i))log(1−a[L](i)))C=−m1i=1∑m(y(i)log(a[L](i))+(1−y(i))log(1−a[L](i)))
其中，m

m是样本数量；

好了，终于可以开始写代码了，码字手都有点酸了，不得不说公式真的好难打。

由于代码比较简单就没有上传github。本文代码和数据文件可以在这里下载https://pan.baidu.com/s/1qYNYA8O，密码：zxrb

其他下载源：
https://drive.google.com/file/d/0B6exrzrSxlh3TmhSV0ZNeHhYUmM/view?usp=sharing

4.1 辅助函数

辅助函数主要包括激活函数以及激活函数的反向传播过程函数：
其中，激活函数反向传播代码对应公式4和9.

def sigmoid(z):
    """
    使用numpy实现sigmoid函数
    
    参数：
    Z numpy array
    输出：
    A 激活值（维数和Z完全相同）
    """
    return 1/(1 + np.exp(-z))

def relu(z):
    """
    线性修正函数relu
    
    参数：
    z numpy array
    输出：
    A 激活值（维数和Z完全相同）
    
    """
    return np.array(z>0)*z

def sigmoidBackward(dA, cacheA):
    """
    sigmoid的反向传播
    
    参数：
    dA 同层激活值
    cacheA 同层线性输出
    输出：
    dZ 梯度
    
    """
    s = sigmoid(cacheA)
    diff = s*(1 - s)
    dZ = dA * diff
    return dZ

def reluBackward(dA, cacheA):
    """
    relu的反向传播
    
    参数：
    dA 同层激活值
    cacheA 同层线性输出
    输出：
    dZ 梯度
    
    """
    Z = cacheA
    dZ = np.array(dA, copy=True) 
    dZ[Z <= 0] = 0
    return dZ

另外一个重要的辅助函数是数据读取函数和参数初始化函数：

def loadData(dataDir):
    """
    导入数据
    
    参数：
    dataDir 数据集路径
    输出：
    训练集，测试集以及标签
    """
    train_dataset = h5py.File(dataDir+'/train.h5', "r")
    train_set_x_orig = np.array(train_dataset["train_set_x"][:]) # your train set features
    train_set_y_orig = np.array(train_dataset["train_set_y"][:]) # your train set labels

    test_dataset = h5py.File(dataDir+'/test.h5', "r")
    test_set_x_orig = np.array(test_dataset["test_set_x"][:]) # your test set features
    test_set_y_orig = np.array(test_dataset["test_set_y"][:]) # your test set labels

    classes = np.array(test_dataset["list_classes"][:]) # the list of classes
    
    train_set_y_orig = train_set_y_orig.reshape((1, train_set_y_orig.shape[0]))
    test_set_y_orig = test_set_y_orig.reshape((1, test_set_y_orig.shape[0]))
    
    return train_set_x_orig, train_set_y_orig, test_set_x_orig, test_set_y_orig, classes

def iniPara(laydims):
    """
    随机初始化网络参数
    
    参数：
    laydims 一个python list
    输出：
    parameters 随机初始化的参数字典（”W1“，”b1“，”W2“，”b2“, ...）
    """
    np.random.seed(1)
    parameters = {}
    for i in range(1, len(laydims)):
        parameters['W'+str(i)] = np.random.randn(laydims[i], laydims[i-1])/ np.sqrt(laydims[i-1])
        parameters['b'+str(i)] = np.zeros((laydims[i], 1))
    return parameters

4.2 前向传播过程

对应公式1和2.

def forwardLinear(W, b, A_prev):
    """
    前向传播
    """
    Z = np.dot(W, A_prev) + b
    cache = (W, A_prev, b)
    return Z, cache

def forwardLinearActivation(W, b, A_prev, activation):
    """
    带激活函数的前向传播
    """
    Z, cacheL = forwardLinear(W, b, A_prev)
    cacheA = Z
    if activation == 'sigmoid':
        A = sigmoid(Z)
    if activation == 'relu':
        A = relu(Z)
    cache = (cacheL, cacheA)
    return A, cache

def forwardModel(X, parameters):
    """
    完整的前向传播过程
    """
    layerdim = len(parameters)//2
    caches = []
    A_prev = X
    for i in range(1, layerdim):
        A_prev, cache = forwardLinearActivation(parameters['W'+str(i)], parameters['b'+str(i)], A_prev, 'relu')
        caches.append(cache)
        
    AL, cache = forwardLinearActivation(parameters['W'+str(layerdim)], parameters['b'+str(layerdim)], A_prev, 'sigmoid')
    caches.append(cache)
    
    return AL, caches

4.3 反向传播过程

线性部分反向传播对应公式5和6。

def linearBackward(dZ, cache):
    """
    线性部分的反向传播
    
    参数：
    dZ 当前层误差
    cache （W, A_prev, b）元组
    输出：
    dA_prev 上一层激活的梯度
    dW 当前层W的梯度
    db 当前层b的梯度
    """
    W, A_prev, b = cache
    m = A_prev.shape[1]
    
    dW = 1/m*np.dot(dZ, A_prev.T)
    db = 1/m*np.sum(dZ, axis = 1, keepdims=True)
    dA_prev = np.dot(W.T, dZ)
    
    return dA_prev, dW, db

非线性部分对应公式3、4、5和6 。

def linearActivationBackward(dA, cache, activation):
    """
    非线性部分的反向传播
    
    参数：
    dA 当前层激活输出的梯度
    cache （W, A_prev, b）元组
    activation 激活函数类型
    输出：
    dA_prev 上一层激活的梯度
    dW 当前层W的梯度
    db 当前层b的梯度
    """
    cacheL, cacheA = cache
    
    if activation == 'relu':
        dZ = reluBackward(dA, cacheA)
        dA_prev, dW, db = linearBackward(dZ, cacheL)
    elif activation == 'sigmoid':
        dZ = sigmoidBackward(dA, cacheA)
        dA_prev, dW, db = linearBackward(dZ, cacheL)
    
    return dA_prev, dW, db

完整反向传播模型：

def backwardModel(AL, Y, caches):
    """
    完整的反向传播过程
    
    参数：
    AL 输出层结果
    Y 标签值
    caches 【cacheL, cacheA】
    输出：
    diffs 梯度字典
    """
    layerdim = len(caches)
    Y = Y.reshape(AL.shape)
    L = layerdim
    
    diffs = {}
    
    dAL = - (np.divide(Y, AL) - np.divide(1 - Y, 1 - AL))
    
    currentCache = caches[L-1]
    dA_prev, dW, db =  linearActivationBackward(dAL, currentCache, 'sigmoid')
    diffs['dA' + str(L)], diffs['dW'+str(L)], diffs['db'+str(L)] = dA_prev, dW, db
    
    for l in reversed(range(L-1)):
        currentCache = caches[l]
        dA_prev, dW, db =  linearActivationBackward(dA_prev, currentCache, 'relu')
        diffs['dA' + str(l+1)], diffs['dW'+str(l+1)], diffs['db'+str(l+1)] = dA_prev, dW, db
        
    return diffs

4.4 测试结果

打开你的jupyter notebook，运行我们的BP.ipynb文件，首先导入依赖库和数据集，然后使用一个循环来确定最佳的迭代次数大约为2000：

【图6】

最后用一个例子来看一下模型的效果——判断一张图片是不是猫：

【图7】

好了，测试到此结束。你也可以自己尝试其它的神经网络结构和测试其它图片。

5. 本文小结

本文主要叙述了经典的全连接神经网络结构以及前向传播和反向传播的过程。通过本文的学习，读者应该可以独立推导全连接神经网络的传播过程，对算法的细节烂熟于心。另外，由于本文里的公式大部分是我自己推导的，瑕疵之处，希望读者不吝赐教。

虽然这篇文章实现的例子并没有什么实际应用场景，但是自己推导一下这些数学公式并用代码实现对理解神经网络内部的原理很有帮助，继这篇博客之后，我还计划写一个如何自己推导并实现卷积神经网络的教程，如果有人感兴趣，请继续关注我！

本次内容就到这里，谢谢大家。

订正与答疑：

前向传播过程比较简单，我就不再赘述了。

这里主要针对反向传播过程中可能会出现的问题做一个总结：

1. 具体解释一下公式1里面的“堆砌”是什么意思？

δ[L]j=∑k∂L∂a[L]k∂a[L]k∂z[L]j

δj[L]=k∑∂ak[L]∂L∂zj[L]∂ak[L]

有读者对这里不太理解，这其实是因为，我们的输出层不一定是只有一个神经元，可能有好多个神经元，因此损失函数是每个输出神经元“误差”之和，因此才会出现这种∑

∑的形式，然后每个输出神经元的误差函数与其它神经元没有关系，所以只有k=j

k=j的时候值不是0.

另外，这里说的“堆砌”指的就是：

δ[l]=⎡⎣⎢⎢⎢⎢⎢∂L∂a[L]1∂L∂a[L]2⋮⎤⎦⎥⎥⎥⎥⎥⊙⎡⎣⎢⎢⎢⎢⎢σ′(z[L]1)σ′(z[L]2)⋮⎤⎦⎥⎥⎥⎥⎥

δ[l]=⎣⎢⎢⎡∂a1[L]∂L∂a2[L]∂L⋮⎦⎥⎥⎤⊙⎣⎢⎢⎡σ′(z1[L])σ′(z2[L])⋮⎦⎥⎥⎤

2. 公式2写成矩阵形式为什么系数矩阵会有转置？自己没搞懂。

这里可能有一点绕，有的读者感觉我的推导不是很明白，所以有必要详细说明一下。

很多读者不明白，写成矩阵形式的时候

δ[l]=[w[l+1]Tδ[l+1]]⊙σ′(z[l])

里面的“系数矩阵转置”是怎么来的。这里就主要说明一下：

相信大家都已经理解了下面这个前向传播公式：

z[l+1]k=∑jw[l+1]kja[l]j+b[l+1]k=∑jw[l+1]kjσ(z[l]j)+b[l+1]k

zk[l+1]=j∑wkj[l+1]aj[l]+bk[l+1]=j∑wkj[l+1]σ(zj[l])+bk[l+1]

求偏导这里在原文中有一点错误，应该是：

∂z[l+1]k∂z[l]j=∑kw[l+1]kjσ′(z[l]j)

∂zj[l]∂zk[l+1]=k∑wkj[l+1]σ′(zj[l])

为了大家有一个直观的感受，来一个具体的例子：

第 1 层的系数矩阵比方是：

w[2=[w[2]11w[2]21w[2]12w[2]22w[2]13w[2]23]

w[2=[w11[2]w21[2]w12[2]w22[2]w13[2]w23[2]]

b[2]=[b[2]1b[22]

b[2]=[b1[2]b2[2]

z[2]=[w[2]11w[2]21w[2]12w[2]22w[2]13w[2]23]⋅⎡⎣⎢⎢⎢a[1]1a[1]2a[1]3⎤⎦⎥⎥⎥+[b[2]1b[2]2]=[w[2]11a[1]1+w[2]12a[1]2+w[2]13a[1]3+b[2]1w[2]21a[1]1+w[2]22a[1]2+w[2]23a[1]3+b[2]2]

z[2]=[w11[2]w21[2]w12[2]w22[2]w13[2]w23[2]]⋅⎣⎢⎡a1[1]a2[1]a3[1]⎦⎥⎤+[b1[2]b2[2]]=[w11[2]a1[1]+w12[2]a2[1]+w13[2]a3[1]+b1[2]w21[2]a1[1]+w22[2]a2[1]+w23[2]a3[1]+b2[2]]

那么，

∂z[2]1∂a[1]1=∂(w[2]11a[1]1+w[2]12a[1]2+w[2]13a[1]3+b[2]1)∂a[1]1=w[2]11

∂a1[1]∂z1[2]=∂a1[1]∂(w11[2]a1[1]+w12[2]a2[1]+w13[2]a3[1]+b1[2])=w11[2]

那么，根据之前介绍的求解梯度向量的定义：

∂z[2]1∂a[1]=⎡⎣⎢⎢⎢⎢⎢⎢⎢∂z[2]1∂a[1]1∂z[2]1∂a[1]2∂z[2]1∂a[1]3⎤⎦⎥⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢w[2]11w[2]12w[2]13⎤⎦⎥⎥⎥

∂a[1]∂z1[2]=⎣⎢⎢⎢⎢⎡∂a1[1]∂z1[2]∂a2[1]∂z1[2]∂a3[1]∂z1[2]⎦⎥⎥⎥⎥⎤=⎣⎢⎡w11[2]w12[2]w13[2]⎦⎥⎤

∂z[2]2∂a[1]=⎡⎣⎢⎢⎢⎢⎢⎢⎢∂z[2]2∂a[1]1∂z[2]2∂a[1]2∂z[2]2∂a[1]3⎤⎦⎥⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢w[2]21w[2]22w[2]23⎤⎦⎥⎥⎥

∂a[1]∂z2[2]=⎣⎢⎢⎢⎢⎡∂a1[1]∂z2[2]∂a2[1]∂z2[2]∂a3[1]∂z2[2]⎦⎥⎥⎥⎥⎤=⎣⎢⎡w21[2]w22[2]w23[2]⎦⎥⎤

这就解释了，为什么会出现转置了。

然后排布成矩阵形式：

⎡⎣⎢⎢⎢w[2]11w[2]12w[2]13w[2]21w[2]22w[2]23⎤⎦⎥⎥⎥

⎣⎢⎡w11[2]w12[2]w13[2]w21[2]w22[2]w23[2]⎦⎥⎤

或者，根据推到得到的公式：δ[l]j=∑kw[l+1]kjδ[l+1]kσ′(z[l]j)

δj[l]=∑kwkj[l+1]δk[l+1]σ′(zj[l]) 写成矩阵形式：

⎡⎣⎢⎢⎢δ[1]1δ[1]2δ[1]3⎤⎦⎥⎥⎥=⎡⎣⎢⎢⎢w[2]11w[2]12w[2]13w[2]21w[2]22w[2]23⎤⎦⎥⎥⎥[δ[2]1δ[2]2]⊙⎡⎣⎢⎢⎢⎢⎢σ′(z[1]1)σ′(z[1]2)σ′(z[1]3)⎤⎦⎥⎥⎥⎥⎥

⎣⎢⎡δ1[1]δ2[1]δ3[1]⎦⎥⎤=⎣⎢⎡w11[2]w12[2]w13[2]w21[2]w22[2]w23[2]⎦⎥⎤[δ1[2]δ2[2]]⊙⎣⎢⎡σ′(z1[1])σ′(z2[1])σ′(z3[1])⎦⎥⎤

也可以解释为什那么会变成转置。

写成矩阵形式，注意检查一下维度匹配的问题。

3. 公式3能具体讲一下矩阵形式是怎么来的吗？

这里有一点小错误，说明部分的第一个公式应该是：

z[l]j=∑kw[l]jka[l−1]k+b[l]k

zj[l]=k∑wjk[l]ak[l−1]+bk[l]

对b

b求偏导的过程比较简单，这里就不再赘述。

主要详细解释一下对 w

w 的求导过程：

对系数矩阵单个系数元素的推导原文已经说得比较明白了∂L∂w[l]jk=∂L∂z[l]j∂z[l]jw[l]jk=a[l−1]kδ[l]j

∂wjk[l]∂L=∂zj[l]∂Lwjk[l]∂zj[l]=ak[l−1]δj[l]，有些读者可能还是不清楚如何把单个元素的公式对应为矩阵形式的公式：

单个元素公式∂L∂w[l]jk=∂L∂z[l]j∂z[l]jw[l]jk=a[l−1]kδ[l]j

∂wjk[l]∂L=∂zj[l]∂Lwjk[l]∂zj[l]=ak[l−1]δj[l]说明系数矩阵w[l]w[l]的第jthjth行kthkth列的值为a[l−1]kδ[l]jak[l−1]δj[l]，所以δ[l]jδj[l]对应行，a[l−1]k

ak[l−1]对应列，就得到了我们的矩阵形式。这也解释了为什么会出现转置。

4. 为什么会损失函数不用最小二乘法？

有的读者问，为什么使用极大似然估计，而不用最小二乘法？

其实在线性回归模型中，损失函数也是使用极大似然法来估计的，http://www.jianshu.com/p/0d25be8901c9，只不过线性回归模型中，我们假设残差是高斯分布，因此最终使用极大似然法和最小二乘法的结果是一样的。

如果你直接使用误差平方和最小的话，也不是不可以，但是效果可能会比较差。因为他是非凸的，可能会收敛到局部最优解。

而使用对数似然函数作为损失函数，是凸函数。

5. 能不能顺便介绍一下Python环境的管理？

一般我用anaconda管理Python环境，另外IDE推荐spyder，因为你可以像使用MATLAB的workspace一样直接观察中间变量，对初学者检查自己的程序的正确性很有帮助。

6. 为什么w的初始化使用随机初始化，而b参数的初始化全部初始化为0？

首先，b参数也可以用随机初始化。

为什么不把w全部初始化为0呢？因为这样的话，每次学习所有的隐含神经元学到的东西都一样，最终会导致，和层一个神经元没有区别，所以我们需要随机初始化开打破这种局面，让每个神经元都更好地“学习“。

你可能感兴趣的:(神经网络)

UNet 改进：添加Transformer注意力机制增强捕捉长距离依赖关系的能力听风吹等浪起 AI 改进系列 transformer 深度学习人工智能
目录1.Transformer注意力机制2.Unet改进3.代码1.Transformer注意力机制TransformerBlock是Transformer模型架构的基本组件，广泛应用于机器翻译、文本摘要和情感分析等自然语言处理任务。TransformerBlock是一个由两个子组件组成的构建块：多头注意力机制和前馈神经网络。这两个组件协同工作，处理和转换输入序列。多头注意力机制负责从输入序列中捕
神经网络完成训练的详细过程每天五分钟玩转人工智能神经网络人工智能深度学习 pytorch 机器学习优化算法包括梯度下降法
神经网络完成训练的详细过程一、神经网络的基本概念神经网络是一种模拟人脑神经系统的计算模型，由大量的神经元（节点）和它们之间的连接（权重）组成。神经元接收输入信号，通过加权求和和激活函数的处理，产生输出信号。这些输出信号又可以作为其他神经元的输入，从而形成一个复杂的网络结构。神经网络的训练过程就是调整这些权重和偏置（每个神经元除了有权重外，还有一个偏置项，用于调整输出的阈值），使得网络的输出能够尽可
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
PINN物理信息网络 | 基于物理信息神经网络PINN求解Burger方程算法如诗物理信息网络（PINN）神经网络人工智能深度学习物理信息网络
基于物理信息神经网络（PINN）求解Burger方程的研究背景源于对非线性偏微分方程（PDE）求解方法的不断探索和改进。传统的数值方法，如有限差分法和有限元法，通常需要进行网格离散化和迭代求解，对于复杂的非线性问题计算成本较高。因此，研究人员开始探索基于机器学习和神经网络的新方法来求解PDEs。神经网络在近年来取得了显著的发展，能够通过学习大量数据来建立输入和输出之间的复杂映射关系。然而，将神经网
PINN物理信息网络 | 利用物理信息神经网络进行流体动力学建模算法如诗物理信息网络（PINN）神经网络机器学习人工智能流体动力学建模 PINN物理信息网络
背景物理信息神经网络（Physics-InformedNeuralNetworks，PINN）是一种结合了神经网络和物理方程的方法，用于建模和求解物理问题。传统的基于物理方程的数值方法在处理复杂的非线性偏微分方程时可能面临数值稳定性、高计算复杂度和网格依赖性等问题。而PINN作为一种数据驱动的方法，通过使用神经网络来近似物理方程，能够有效地解决这些问题。在流体动力学建模中，PINN可以应用于求解N
图神经网络学习笔记—高级小批量处理（专题十四） AI专题精讲图神经网络入门到精通人工智能
小批量（mini-batch）的创建对于让深度学习模型的训练扩展到海量数据至关重要。与逐条处理样本不同，小批量将一组样本组合成一个统一的表示形式，从而可以高效地并行处理。在图像或语言领域，这一过程通常通过将每个样本缩放或填充为相同大小的形状来实现，然后将样本在一个额外的维度中分组。该维度的长度等于小批量中分组的样本数量，通常称为batch_size。由于图是能够容纳任意数量节点或边的最通用的数据结
Deepseek:物理神经网络PINN入门教程天一生水water 神经网络人工智能深度学习
一、物理信息网络（PINN）的概念与原理1.定义与来源物理信息网络（Physics-InformedNeuralNetworks,PINN）是一种将物理定律（如偏微分方程、守恒定律等）嵌入神经网络训练过程的深度学习方法。其核心思想是通过神经网络同时拟合观测数据并满足物理约束，从而解决传统数值方法难以处理的高维、噪声数据或复杂边界条件问题。来源：PINN起源于对传统数值方法局限性的改进需求（如网格生
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
神经网络中常用语言特性（python）（待完善）邪恶的贝利亚 python 开发语言
1.元类在Python中，abc模块（AbstractBaseClasses，抽象基类）提供了创建抽象基类的机制，这些抽象基类可以用来定义接口，强制子类实现特定的方法，有助于实现多态性和代码的可维护性。下面从多个方面详细介绍abc元类相关内容。ABCMeta是abc模块中的元类，ABC类实际上就是使用ABCMeta作为元类创建的。你也可以直接使用ABCMeta来创建抽象基类。classShape(
卷积神经网络可视化天行者@ cnn 人工智能神经网络
卷积神经网络（CNN）的可视化是理解模型行为、调试性能和解释预测结果的重要工具。以下从技术原理、实现方法和应用场景三个维度，系统梳理CNN可视化的核心技术，并提供代码示例和前沿方向分析：一、CNN可视化的核心维度1.卷积核可视化原理：提取卷积层的权重，将其转换为图像形式，观察滤波器学习到的模式。实现步骤：提取卷积层权重（形状为[out_channels,in_channels,kernel_siz
AI的发展历程，你知道是从什么时候开始的吗？ A达峰绮人工智能 ai 经验分享
AI的发展历程是一段充满探索、突破与起伏的历史，以下是其主要阶段的介绍：诞生与早期探索阶段（20世纪50年代-60年代）基础理论奠基：1943年，美国神经生理学家沃伦·麦卡洛克和数学家沃尔特·皮茨发表了《Alogicalcalculusofideasimmanentinnervousactivity》论文，提出M-P模型，为神经网络的研究奠定了基础。1950年，阿兰·图灵发表《ComputingM
大模型开发教程：从零开始的入门指南！程序员二飞人工智能 java 数据库职场和发展深度学习
概述大模型开发教程引领人工智能领域前沿，从基础概念至实战项目，全面覆盖Python与深度学习框架使用，指导初学者构建线性回归、逻辑回归、神经网络等模型，深入探索图像分类、情感分析等复杂应用，为探索未来智能世界提供坚实基石。前排提示，文末有大模型AGI-CSDN独家资料包哦！二、基础知识2.1人工智能与深度学习的概念人工智能(AI)是计算机科学的一个分支，旨在使计算机能够执行通常需要人类智能的任务。
深度学习中常用的优化器无能者狂怒深度学习计算机视觉人工智能深度学习算法
梯度下降是优化神经网络的首选方法。本文将介绍各种基于梯度下降的优化器，如Momentum，Adagrad以及Adam等等StochasticGradientDescent（SGD）MomentumAdagradRMSpropAdamAdaMax1：梯度下降假设梯度下降法是一个下山的过程。假设这样一个场景：一个人被困在山上，需要从山上下来(找到山的最低点，也就是山谷)。但此时山上的浓雾很大，导致可视
python和pytorch关系_PyTorch：Python优先的深度学习框架 weixin_39877182
最近，Torch7团队开源了PyTorch。据该项目官网介绍，PyTorch是一个Python优先的深度学习框架，能够在强大的GPU加速基础上实现张量和动态神经网络。PyTorch是一个Python软件包，其提供了两种高层面的功能：使用强大的GPU加速的Tensor计算（类似numpy）构建于基于tape的autograd系统的深度神经网络如有需要，你也可以复用你最喜欢的Python软件包（如nu
基于YOLOv5的车牌识别系统：从数据集到UI界面的实现深度学习&目标检测实战项目 YOLOv5实战项目 YOLO ui 分类数据挖掘目标跟踪
1.引言随着智能交通系统的发展，车牌识别技术已成为交通管理、停车场自动化、路面监控等应用中的关键技术之一。车牌识别系统（LicensePlateRecognition,LPR）主要用于识别车辆的车牌号码，并将其转化为可以进一步处理的数据。车牌识别系统通常由图像处理、字符识别、目标检测等多种技术组成。近年来，随着深度学习技术的飞速发展，基于卷积神经网络（CNN）的目标检测算法，如YOLO（YouOn
点云空洞的边界识别提取 pso-bp 神经网络的模型来修复点云空洞附python代码点云-激光雷达-Slam-三维牙齿激光雷达点云 c++为主神经网络人工智能深度学习点云 python
代码是一个Python程序，用于处理3D点云数据，特别是检测和修复点云中的孔洞区域。1.**导入库**：-`numpy`：用于数学运算。-`open3d`：用于处理3D数据和可视化。-`torch`：PyTorch库，用于深度学习。-`torch.nn`和`torch.optim`：PyTorch的神经网络和优化器模块。-`mpl_toolkits.mplot3d`和`matplotlib.pyp
基于多模态大模型的不完整多组学数据特征选择策略 m0_65156252 人工智能
基于多模态大模型的不完整多组学数据特征选择策略是当前生物信息学和精准医学领域的一个前沿问题。在多组学数据中，通常包括不同层次的生物信息（如基因组、转录组、蛋白质组、代谢组等），这些数据通常存在缺失、噪声或不一致的情况。因此，如何有效地在这些不完整的数据中进行特征选择，是实现精确疾病预测和个性化治疗的关键。结合多模态大模型（如自监督学习、图神经网络、Transformer等）可以有效解决这一问题。以
颠覆认知的AI黑科技：这3项突破正在改写人类生存法则小筱在线人工智能人工智能科技
当硅基生命按下快进键：三大AI黑科技重构人类文明底层逻辑在青藏高原海拔5000米的冰川实验室里，AI系统正以每秒数百万次的频率模拟全球冰川消融轨迹；纽约证券交易所的地下机房中，量子神经网络以人类无法理解的维度重构全球经济模型；东京某生物实验室的恒温箱内，由AI设计的全新蛋白质结构正在自我复制。这些看似科幻的场景，正在成为我们这个时代的日常图景。当AI技术突破奇点临界值，人类文明正在经历一场静默而彻
深度学习/机器学习入门基础数学知识整理（一）：线性代数基础，矩阵，范数等 chljerry_mouse 线性代数深度学习机器学习
前面大概有2年时间，利用业余时间断断续续写了一个机器学习方法系列，和深度学习方法系列，还有一个三十分钟理解系列（一些趣味知识）；新的一年开始了，今年给自己定的学习目标——以补齐基础理论为重点，研究一些基础课题；同时逐步继续写上述三个系列的文章。最近越来越多的研究工作聚焦研究多层神经网络的原理，本质，我相信深度学习并不是无法掌控的“炼金术”，而是真真实实有理论保证的理论体系；本篇打算摘录整理一些最最
python学智能算法（七）|KNN邻近算法西猫雷婶人工智能 python学习笔记算法
【1】引言前述学习进程中，已经了解了一些非常经典的智能算法，相关文章包括且不限于：python学智能算法（三）|模拟退火算法：深层分析_模拟退火动画演示-CSDN博客python学智能算法（四）|遗传算法：原理认识和极大值分析_遗传算法和模拟退火时间复杂度-CSDN博客python学智能算法（五）|差分进化算法：原理认识和极小值分析-CSDN博客python学智能算法（六）|神经网络算法：BP神经
从一个神经元的角度来让你彻底理解神经网络NN 非知名人士让你彻底搞懂AI 人工智能
我是一个神经元，生活在一片看不见摸不着的宇宙中。我的世界里，什么都可以发生，只要你能理解。你也许会觉得，我是在胡扯，像我这样的小小神经元，怎么可能有故事？可是你看，虽然我只是一点微不足道的存在，却能让我周围的环境沸腾、轰鸣，每一次信号的传递，都能带来一场盛大的反应。而我的使命就是——理解这些反应，形成一个完整的神经网络，把一切的知识和经验变得可用、可理解。至于我怎么做到的，那就得从我的一天开始讲起
卷积神经网络中的卷积操作 m0_61360701 深度学习 cnn 深度学习人工智能
1.什么是卷积操作？在卷积神经网络（CNN）中，卷积操作是一种数学运算，它的目的是从图像（或其他数据）中提取局部特征。简单来说，卷积就像是用一个小的“扫描仪”在图像上滑动，每次扫描一小块区域，并从中提取有用的信息。2.卷积操作的类比：印章想象你有一张纸和一个印章。印章是一个小的图案，比如一个简单的形状（圆形、方形等）。当你把印章按在纸上时，印章会与纸上的内容接触，并留下一个印记。然后你移动印章，重
点云从入门到精通技术详解100篇-基于激光雷达点云的三维目标检测格图素书目标检测人工智能计算机视觉
目录前言图像目标检测算法研究现状点云目标检测算法研究现状基于投影图的方法基于体素的方法基于点云的多模态融合方法2地面点云滤波及神经网络2.1目标检测数据集及采集设备2.1.1KITTI数据集2.1.2车载激光雷达2.2地面点云滤波算法2.2.1RANSAC算法2.2.2CSF算法本文篇幅较长，分为上下两篇，下篇详见基于激光雷达点云的三维目标检测（续）前言近几年来，在计算机视觉领域，利用深度学习卷积
Epoch 和 Batch Size的设计 + 模型的早停策略（基于上篇）一只小铁柱 batch 开发语言
一.epoch和batchsize的设计epoch和batchsize是训练神经网络时的两个关键超参数，它们的设计会直接影响模型的训练速度、收敛性和最终性能。1.Epoch的设计epoch表示整个数据集被模型完整遍历一次。设计epoch时需要考虑以下因素：1.1数据集大小小数据集（例如几MB的文本数据）：模型容易过拟合，因此epoch不宜过大（例如10-30）。可以使用早停（earlystoppi
卷积神经网络（CNN）详解：从原理到应用的全景解析彩旗工作室人工智能 cnn 人工智能神经网络卷积神经网络
一、定义与核心特征卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专为处理网格状数据（如图像、视频）设计的深度前馈神经网络，其核心特征包括：局部连接：卷积层神经元仅与输入数据的局部区域连接，减少参数数量；权重共享：同一卷积核在整个输入数据上滑动，增强平移不变性；层级特征提取：从低级特征（边缘、纹理）到高级特征（物体部件）的逐层抽象。二、历史演进与关键突破1960年
backbone和head分开转onnx的优势 yuweififi 人工智能深度学习机器学习
模型转换为ONNX格式时，将其分成backbone和head两个部分，通常是出于以下原因：1.模块化设计backbone通常是模型的特征提取部分（例如卷积神经网络的主干部分），负责从输入数据中提取高级特征。head是模型的输出部分，负责根据backbone提取的特征生成最终的预测结果（例如分类、检测、分割等）。将模型分成两部分可以实现模块化设计，便于在不同任务中复用backbone或head。例如
AI概率学预测足球大小球让球数据分析 sanx18 人工智能数据分析数据挖掘
在足球数据分析中，AI概率学预测主要涉及大小球和让球盘口的分析。以下是关键点：1.大小球分析大小球指机构设定的进球数预期，投注者预测实际进球数是否超过或低于该值。AI应用：历史数据：AI通过分析球队的历史进球、失球等数据，预测未来比赛进球数。机器学习：使用回归模型、神经网络等预测进球数，考虑球队实力、比赛风格、天气等因素。实时数据：结合实时比赛数据动态调整预测。2.让球分析让球是机构为平衡双方实力
神经网络机器学习中说的过拟合是什么意思 yuanpan 机器学习神经网络人工智能
在神经网络和机器学习中，过拟合（Overfitting）是指模型在训练数据上表现非常好，但在未见过的测试数据上表现较差的现象。换句话说，模型过度学习了训练数据中的细节和噪声，导致其泛化能力（Generalization）下降，无法很好地适应新数据。过拟合的表现训练误差很低，但测试误差很高：模型在训练集上的准确率非常高，但在测试集上的准确率却显著下降。模型过于复杂：模型学习了训练数据中的噪声或不相关
Chebykan wx 文章阅读やっはろ深度学习
文献筛选[1]神经网络：全面基础[2]通过sigmoid函数的超层叠近似[3]多层前馈网络是通用近似器[5]注意力是你所需要的[6]深度残差学习用于图像识别[7]视觉化神经网络的损失景观[8]牙齿模具点云补全通过数据增强和混合RL-GAN[9]强化学习：一项调查[10]使用PySR和SymbolicRegression.jl的科学可解释机器学习[11]Z.Liu,Y.Wang,S.Vaidya,F
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发