玉一

01.吴恩达神经网络与深度学习笔记（详细+不断更新）

人工智能交流群~小白零基础学习群Q711703402

第一周：深度学习概论

1.1 深度学习与机器学习的关系

1.2什么是神经网络？

1.3用神经网络进行监督学习

1.神经网络创造应用案例

2.机器学习对结构化与非结构化数据的应用

1.4为什么神经网络会兴起？（1遍过）

1.5关于这门课可以学到什么？深度学习最重要的基础

第二周：神经网络的编程基础

2.1二分类

1.什么是二分类

2.补充：图片在计算机中如何表示

3.本文的一些符号表示

4.训练样本=特征矩阵X=输出lableY的构造

5.补充向量知识

6.补充矩阵知识

7.补充计算知识

2.2逻辑回归 logistic 二元分类问题

1.本节内容

2.函数构建过程

3.sigmoid原理

2.3 logistic 回归损失函数 (Logistic Regression Cost Function)

1.内容

2.为什么需要代价函数

3.逻辑回归的函数运算过程

4.损失函数

5.代价函数

2.4梯度下降法（Gradient Descent）

1.梯度下降法的作用

2.什么是梯度

3.梯度下降的过程

4.梯度下降法的细节化说明（仅有一个参数时）

5.梯度下降法的细节化说明（两个参数）

6.梯度下降下山法理解

2.5导数知识（Derivatives）（略）

1.内容

2.6 更多导数知识（略）

2.7 计算图（Computation Graph）（略看）

1.内容

2.前向传播与反向传播的计算过程

3.数学求导-求偏导数-梯度

2.9 logistic回归中的梯度下降

1.单个样本的梯度下降算法

2.举例

2.单样本时的计算过程

2.10 非向量化版本m个样本的梯度下降

1.内容

2.原理

3.利用具体算法来展示m样本梯度下降过程（非向量化版本）

4.缺点

2.11向量化版本的梯度下降法

1.为什么使用向量化

2.什么是向量化计算

3.实例对比

4.GPU与CPU计算的区别

2.12部分的向量化（略看）

2.13 向量化logistic回归(Vectorizing Logistic Regression）

1.内容

2.回顾一下逻辑回归的前向传播步骤

2.14 向量化logistic回归的梯度输出（重点）

1.内容

2.实现过程

3.非向量化与向量化对比

2.15 python中的广播机制

1.内容

2.举例

2.16 关于python/numpy 向量说明

2.17 jupyter/Ipython 笔记本快速指南

2.18 证明logistic回归成本函数为什么是这种形式

第三周浅层神经网络

3.1神经网络概览（Neural Network Overview）

1.内容

2.神经网络计算原理

3.大致计算过程

3.2神经网络的表示

1.内容

2.什么是输入层、隐藏层、输出层

3.3 计算神经网络的输出

1.内容

2.神经网络的计算

3.向量化计算（一个样本的神经网络的输出计算）

4.手写详细单个样本向量化正向传播计算过程

5.总结

3.4 多个样本中的向量化（Vectorizing across multiple examples）：需要反复理解

1.内容

2.原理

3.过程

4.非向量化的实现

5.向量化的实现

6.手写m个样本横向堆砌向量化计算

3.5向量化实现的解释（视频）这里讲解的更清楚***

1.内容

2.实现原理（过程）

3.6激活函数 Activation functions

1.内容

2. 激活函数的作用

3.几种常见的激活函数

3.7 为什么神经网络需要非线性激活函数呢？

1.内容

2.原因

3.什么地方用线性激活函数

3.8 激活函数的导数（梯度下降的基础）

1.几种常见激活函数的导数

3.9 神经网络的梯度下降法

1.内容

2.参数维度

3.梯度下降

4.总结

3.10 选修：直观理解反向传播：

3.11 随机初始化Random+Initialization

1.为什么要随机初始化

2.如何随机初始化

3.随机化时常数的选择

第四周：

4.1深层神经网络

1.内容

2.选择模型层数的流程

3.深度学习的符号定义

4.2 深层网络的中都前向传播

1.内容

2.正向传播

3.反向传播参考3.9节（单隐藏层上的梯度下降）

4.3 深层网络中的前向传播和反向传播（Forward propagation in a Deep Network）

1.内容

2.一个样本前向传播过程

3.深度网络中的反向传播

4.神经网络的前向和反向传播的计算过程（详细）

4.3 核对矩阵的维数

1.内容

4.4 为什么使用深层网络（略看）

4.6 一些参数和超参数

4.8 这和大脑有什么关系？

第一周：深度学习概论

1.1 深度学习与机器学习的关系

传统的机器学习算法中的神经网络包含现在主流的深度学习算法，都是深度神经网络。准确率都要比传统的机器学习算法要高。

1.2什么是神经网络？

1.什么是深度学习

①传统的机器学习：

主要目的是得到一个预测模型，依靠人工经验或特征转换的方法来抽取将数据表示成一组特征，然后将特征输入到预测模型，并输出预测结果。是一种浅层学习。不存在特征学习。模型的准确率主要依靠人为的特征处理。因此机器学习问题变成了特征工程问题，工作量用在了预处理、特征提取与转换上。（一次性学习）

传统机器学习的数据处理流程：

②基于深度的机器学习（神经网络）：

是机器学习的一个子问题，也是基于深度学习的机器学习（含有特征学习），主要目的是搭建并训练一个深层的大规模的神经网络，通过多层的特征转换把原始数据特征变成更高层次、更抽象的表示，让模型从数据中自动学习到更有效的特征表示（更能准确表示猫狗），代替人工设计特征。避免特征工程。

2.什么是神经网络

模拟人脑神经网络的一种计算模型，由多个节点（神经元）互相链接而成，对数据间的复杂关系进行建模，不同节点之间的链接赋予了不同的权重，每个权重代表一个节点对另一个节点的影响，每个节点代表一种特定函数，对来自其他节点的权重进行综合计算（权重分配），最后输入到一个激活函数中得到一个新的活性值，是一个非线性结构系统预测模型。早期的神经网络是一个传统的机器学习，不具备特征学习，导入人工特征进行计算预测，直到反向传播算法有效的解决了网络特征学习的问题，自动学习有效特征提高模型准确率(特征学习)。这样就能更好的做预测（深度学习，多层次、多次学习）

单个神经元的内部构造：一方面进行权重分配，一方面通过激活函数，将多个特征权重分配后生成一个新的活性特征。

（图1 一个神经元的内部结构）

举个例子：假设有一个六间房屋的数据集，已知房屋面积、价格，想要根据面积预测房屋价格。就要找到一个函数根据房屋面积预测房价的函数作为神经元，我们可能用线性回归拟合一条直线，但是价格是不会为负的，所以利用下面的图像代替为负的图像。我们可以将这个利用房屋面积数据预测价格的函数模型，看成一个非常简单的神经网络。

将房屋的面积作为神经网络的输入值x：通过了一个神经元（neuron）节点输出了y,这个网络就实现了上面的函数的功能，神经元所做的就是输入面积完成线性运算，取不小于0的值，最后得到输出预测价格。

这个函数就是ReLU(修正性单元)修正是指取不小于0的值。包含在神经元中

图 一个简单的神经元网络结构图

稍微大一点的神经网络是把这些单个的神经元堆叠形成，如下图：

不只用面积来预测价格，还有一些房屋的其他特征，可以知道别的信息，卧室的数量和面积这两特征可能会得到一个影响价格的特征（隐藏的特征模型自动推出）：家庭人口信息。邮编可以得到步行化程度，邮编和富裕度可以得到学校的质量，每一个节点都可能是一个ReLU或其他非线性函数，得到的这些信息都能帮助我们预测房屋价格。x是所有的输入。y是预测价格，把神经元叠加起来就有了一个稍微大点的神经网络。网络成型后我们要做的只是输入x就能得到输出y，不管训练集有多大，所有的中间过程他会自己完成（黑盒）

图1：在图上每一个画的小圆圈都可以是 ReLU 的一部分，也就是指修正线性单元，或者其它稍微非线性的函数。类似与将一些相关性特征通过权重分配给不同的神经元后计算生成多个或少个的新特征

如图2：这有四个输入特征x的神经网络，第二层为隐藏单元，包含三个神经元，每个的输入都同时来自四个特征（全连接），我们不会具体说第一个节点（神经元）隐藏输出特征表示家庭人口，特征仅取决于x1、x2，让神经网络自己决定这个节点是什么，我们是无法看到的。我们只给四个输入特征，这输入的特征可能是房屋的大小、卧室的数量、邮政编码和区域的富裕程度。给出这些输入的特征之后，神经网络的工作就是预测对应的价格。随便神经网络怎么计算，输入层-隐藏层连接数是很高的。另外需注意神经网络只有你喂给她足够多的关于x、y的数据训练样本，神经网络非常擅长计算从x到y的精准映射函数（监督学习），因为给定了分类的结果，会进行特征学习，再带入新样本的时候，会按照特征的占比给出合理的分类结果）

图2：

1.3用神经网络进行监督学习

一般做的都是监督学习。

1.神经网络创造应用案例

房地产、广告、用的相对标准的神经网络，图像领域：卷积神经网络，序列数据（音频）RNN循环神经网络，语言、英语、字母或单词语言也是序列数据更复杂的RNN, 无人驾驶更复杂的混合神经网络结构。

2.机器学习对结构化与非结构化数据的应用

①结构化数据：

结构化数据意味着数据的基本数据库。例如在房价预测中，你可能有一个数据库，有专门的几列数据告诉你卧室的大小和数量，这就是结构化数据。或预测用户是否会点击广告，你可能会得到关于用户的信息，比如年龄以及关于广告的一些信息，然后对你的预测分类标注，这就是结构化数据，意思是每个特征，比如说房屋大小卧室数量，或者是一个用户的年龄，都有一个很好的定义。

②非结构化数据：

非结构化数据是指比如音频，原始音频或者你想要识别的图像或文本中的内容。这里的特征可能是图像中的像素值或文本中的单个单词。

常见领域：语音识别、图像识别、自然语言文字处理

总之：神经网络算法对于结构化和非结构化数据都有用处。

1.4为什么神经网络会兴起？（1遍过）

在数据量较大的情况下，神经网络的准确率要比其他的准确率高很多

1.5关于这门课可以学到什么？深度学习最重要的基础

第一周：深度学习入门介绍

第二周：神经网络的编程基础、了解神经网络的正向传播与反向传播结构，算法的过程以及如何高效实现神经网络。编程练习

第三周：编写单隐层神经网络，和关键的概念

第四周：建立一个多层的深层神经网络，

学习目标：当学习到第一门课末尾，你将学到如何建立一个深度神经网络并且使之奏效。

第二周：神经网络的编程基础

2.1二分类

1.什么是二分类

逻辑回归是一个用于二分类(binary classification)的算法，这里有一个二分类问题的例子.

假如你有一张图片作为输入，比如这只猫，如果识别这张图片为猫，则输出标签 1 作为结果；如果识别出不是猫，那么输出标签 0 作为结果。现在我们可以用字母来表示输出的结果标签，如下图所示：

2.补充：图片在计算机中如何表示

彩图保存在三个独立矩阵分别对应红、绿、蓝、三通道的灰度值，如果你的图片大小为 64x64 像素，那么你就有三个规模为 64x64 的矩阵，分别对应图片中红、绿、蓝三种像素的灰度值。

如下图所示

为了把这些像素值放到一个特征向量中，我们需要把这些像素值提取出来，然后放入一个特征向量x如下：依次列出，如果图片的大小为 64x64 像素，那么向量的总维度，将是 64 乘以 64 乘以 3，这是三个像素矩阵中像素的总量。在这个例子中结果为 12288。现在我们用 = 12,288来表示输入特征向量的维度，所以在二分类问题中，我们的目标就是构建一个分类器，它以图片的特征向量作为输入，然后预测输出结果为 1 还是 0，也就是预测图片中是否有猫。

（每个像素点都是一个特征，图片数据也是转化成特征向量的形式）

在二分类问题中 目标是训练出一个分类器，输入x 输出预测标签

3.本文的一些符号表示

：表示一个维数据，为输入数据，维度为(, 1)

：表示输出结果，取值为(0,1)；

( () , () )：表示第组数据，可能是训练数据，也可能是测试数据，此处默认为训练数据；

= [ (1) , (2) , . . . , () ]：表示所有的训练数据集的输入值，放在一个 × 的矩阵中，其中表示样本数目;

= [ (1) , (2) , . . . , () ]：对应表示所有训练数据集的输出值，维度为1 × 。

4.训练样本=特征矩阵X=输出lableY的构造

最后为了能把训练集表示得更紧凑一点，我们会定义一个矩阵用大写的表示，它由输入向量 (1)、 (2)等组成，如下图放在矩阵的列中，所以现在我们把 (1)作为第一列放在矩阵中， (2)作为第二列， ()放到第列，然后我们就得到了训练集矩阵。所以这个矩阵有列，是训练集的样本数量，然后这个矩阵的高度记为，注意有时候可能因为其他某些原因，矩阵会由训练样本按照行堆叠起来而不是列，如下图所示： (1)的转置直到 ()的转置，但是在实现神经网络的时候，使用左边的这种形式，会让整个实现的过程变得更加简单：

m个样本每个样本nx个特征数。不然计算的时候还要转置，现在的结构化框架已经不需要手动转置了，带入xy样本计算即可。 有的特征矩阵X每一行是样本，每一列是特征（常用），ng这里和李沐的对比下，ng这里还要转置。一般用样本按行堆砌。

为什么这里一个是y=wTx+b，一个是y=Xw+b（样本按行排列）或（y=wTX+b 样本按照列排列的时候）

因为一个是单个样本的向量积，wTx  x是一个样本的特征向量
一个是矩阵化后的，矩阵-向量积   Xw   X是一个m个样本的特征矩阵

李沐的构建以及运算过程：

吴恩达的构建与运算过程：

输出矩阵：

5.补充向量知识

我们可以使用下标来引用向量的任一元素。例如，我们可以通过xi来引用第i个元素。注意，元素xi是一个标量，所以我们在引用它时不会加粗。 大量文献认为列向量是向量的默认方向，在本书中也是如此。在数学中，向量x可以写为：

6.补充矩阵知识

正如向量将标量从零阶推广到一阶，矩阵将向量从一阶推广到二阶。矩阵，我们通常用粗体、大写字母来表示（例如，X、Y和Z）。在数学表示法中，我们使用A∈Rm×n来表示矩阵A，其由m行和nn列的实值标量组成。我们可以将任意矩阵A∈Rm×n视为一个表格，其中每个元素aijaij属于第i行第j列：

7.补充计算知识

①点积（Dot Product）

给定两个向量x,y∈Rdx,y∈Rd，它们的点积（dot product）x⊤y（或〈x,y〉） 是相同位置的按元素乘积的和：x⊤y=∑di=xiyi。因此,是一个样本向量和权重向量进行的点积操作。

两个向量a = [a1, a2,…, an]和b = [b1, b2,…, bn]的点积定义为： 默认为列向量
a·b=a1b1+a2b2+……+anbn。
使用矩阵乘法并把（列）向量当作nx1 矩阵，点积还可以写为：
a·b=（a^T）*b，这里的a^T指示矩阵a的转置

②矩阵-向量积（matrix-vector product）

回顾分别在 (2.3.2)和 (2.3.1)中定义的矩阵A∈Rm×n和向量x∈Rn。让我们将矩阵A用它的行向量表示：因为向量默认是列向量，所以要转置。

其中每个a⊤i∈Rn都是行向量，表示矩阵的第i行，矩阵向量积Ax（Xw）是一个长度为m的列向量()，其第i个元素是点积,我们可以把一个矩阵A∈Rm×n乘法看作是一个从Rn到Rm向量的转换。这些转换是非常有用的。例如，我们可以用方阵的乘法来表示旋转。我们将在后续章节中讲到，我们也可以使用矩阵-向量积来描述在给定前一层的值时，求解神经网络每一层所需的复杂计算。

2.2逻辑回归 logistic 二元分类问题

1.本节内容

重温逻辑回归学习算法，该算法适用于二分类问题，本节将主要介绍逻辑回归的 Hypothesis Function（假设函数）

这是一个学习算法用在监督学习问题中，输出标签为0、1时，这是一个二元分类问题。

2.函数构建过程

对于二元分类问题来讲，给定一个输入特征向量，它可能对应一张图片，想识别这张图片识别看它是否是一只猫图。已知输入特征向量x可能是一张图判断是不是猫，你想要一个算法能够输出预测，你只能称之为^，也就是你对实际值的估计。当输入特征满足条件时y就是1，也是一个y=1概率问题。

已知参数w（实际上是特征权重，维度与特征向量相同）是一个n维向量，b是一个实数（表示偏差），w已知输入x和参数，b，我们如何计算输出预测y？

我们可以用一个线性函数，若做线性回归确实是这样算，但是这不是一个很好的二元分类算法。因为我们希望是y=1的概率，因此应该介于0-1之间。但是这个线性函数很难实现，因为函数的值可能要比1大的多或者为负值，这样的概率没有意义，因此在逻辑回归中，我们的输出应该是^等于由上面得到的线性函数式子作为自变量的 sigmoid 函数中，将线性函数转换为非线性函数。函数图形与公式如下图：那么当z很大的时候sigmoid(z)就很接近1.相反很小的时候就会接近于0，所以当我们实现logictic回归时，我们要做的就是学习参数w和b。

z应该是表示感知机中的一个超平面，本来是一个线性的超平面，所以要加上一个非线性激活函数，就可以处理非线性数据了。详情再看看神经网络的前身，感知机、支持向量机svm前身。

3.sigmoid原理

（比较适合0-1的二分类问题）

一些符号的约定：不再用之前课程里讲的一些符号规定，之前w和b是写在一起的，现在分开。

现在我们已经了解了logictic回归模型的模样，下一步要做的是训练参数和参数，你需要定义一个代价函数，让我们在下节课里对其进行解释

2.3 logistic 回归损失函数 (Logistic Regression Cost Function)

1.内容

讲逻辑回归的代价函数（也翻译作成本函数）

2.为什么需要代价函数

为了训练logistic回归模型的参数w和b，通过训练代价函数来得到参数和参数b的最优参数，需要定义一个代价函数（成本函数）。

补充：代价函数、成本函数、损失函数三个概念

损失函数(Loss function)是定义在单个训练样本上的，也就是就算一个样本的误差，比如我们想要分类，就是预测的类别和实际类别的区别，是一个样本的哦，用L表示

代价函数(Cost function)是定义在整个训练集上面的，也就是所有样本的误差的总和的平均，也就是损失函数的总和的平均，有没有这个平均其实不会影响最后的参数的求解结果。代价函数和成本函数同一个概念。（注意是平均值而非总的损失值）

深度学习-Loss函数 - 知乎 (zhihu.com)

待补充：什么是逻辑回归。

3.逻辑回归的函数运算过程

若想要训练参数就要给一个m个样本的训练集，这会让你在训练集上找到参数和参数,然后来得到想要的输出（预测值接近实际值的输出），对训练集的预测值，我们将它写成^，我们更希望它会接近于训练集中的值（实际值）。训练样本所对应的预测值是 () ,是用训练样本的 () + （）然后通过激活函数sigmoid（）来得到，也可以把定义为 () = () + ,我们将使用这个符号()注解，上标()来指明数据表示或者或者或者其他数据的第个训练样本，这就是上标()的含义。

4.损失函数

（1）作用：损失函数也叫误差函数，可以衡量算法的运行情况，衡量预测值与实际值有多接近。不同的算法对应不同的损失函数，凸优化问题。Loss function:(^ , ).一般我们用预测值和实际值的平方差或者它们平方差的一半，但是通常在逻辑回归中我们不这么做，因为当我们在学习逻辑回归参数的时候，会发现我们的优化目标不是凸优化，只能找到多个局部最优值，梯度下降法很可能找不到全局最优值，虽然平方差是一个不错的损失函数，但是我们在逻辑回归模型中会定义另外一个损失函数。

①常用损失函数

误差平方越小越好。

②logistics回归的损失函数

(^ , ) = −log(^) − (1 − )log(1 − ^) 损失函数值越小越好

（2）原理：

①当 = 1时损失函数 = −log(^)，如果想要损失函数尽可能得小，那么^就要尽可能大（更新求^公式中的参数），因为 sigmoid 函数取值[0,1]，所以^会无限接近于 1。

②当 = 0时损失函数 = −log(1 − ^)，如果想要损失函数尽可能得小，那么^就要尽可能小（更新求^公式中的参数），因为 sigmoid函数取值[0,1]，所以^会无限接近于 0。

这块损失函数公式写错了，应该是减

5.代价函数

（1）定义：损失函数是在单个训练样本中定义的，它衡量的是算法在单个训练样本中表现如何，为了衡量算法在全部训练样本上的表现如何，我们需要定义一个算法的代价函数，算法的代价函数是对个样本的损失函数求和然后除以，实际上是 1 到项各个损失的平均。它衡量的是在全体训练样本上w和b的表现效果。基于参数的总成本。

（2）目的：损失函数只适用于像这样的单个训练样本，而代价函数是参数的总代价，所以在训练逻辑回归模型时候，我们需要找到合适的和，来让代价函数的总代价降到最低。

2.4梯度下降法（Gradient Descent）

1.梯度下降法的作用

使用梯度下降法来训练或学习训练集上的参数w和b，找到使得成本函数J(w，b)尽可能小的参数w和b。

代价函数是一个凸函数如下：

为了找到更好的参数值，我们要做的的就是用某初始值初始化w和b，对于logistic来说，任意初始化方法都有效。通常用0进行初始化。但这里

2.什么是梯度

【深度学习之美18】到底什么是梯度？ - 知乎很详细！！！！就是多维变量函数求导

3.梯度下降的过程

目标：横轴表示你的空间参数和，在实践中，可以是更高的维度，但是为了更好地绘图，我们定义和，都是单一实数，代价函数（成本函数）(, )是在水平轴和上的曲面，因此曲面的高度就是(, )在某一点的函数值。我们所做的就是找到使得代价函数（成本函数）(, )函数值是最小值，对应的参数和。

①初始化参数：由于逻辑回归的代价函数（成本函数）(, )特性，我们必须定义代价函数（成本函数）(, ) 为凸函数。初始化和，可以用如图那个小红点来初始化参数和，也可以采用随机初始化的方法，对于逻辑回归几乎所有的初始化方法都有效，因为函数是凸函数，无论在哪里初始化，应该达到同一点或大致相同的点。

②朝最陡的下坡方向走一步，不断地迭代，如图，经过两次迭代走到第三个小红点处。

③直到直到走到全局最优解或者接近全局最优解的地方，通过以上的三个步骤我们可以找到全局最优解，也就是代价函数（成本函数）(, )这个凸函数的最小值点。

4.梯度下降法的细节化说明（仅有一个参数时）

假定代价函数（成本函数）() 只有一个参数，即用一维曲线代替多维曲线，这样可以更好画出图像

5.梯度下降法的细节化说明（两个参数）

6.梯度下降下山法理解

样表示函数变化的方向，从几何意义来讲，梯度的方向表示的是函数增加最快的方向，这正是我们下山要找的“最陡峭的方向”的反方向！因此后面要讲到的迭代公式中，梯度前面的符号为“-”，代表梯度方向的反方向，山代表了需要优化的函数表达式；山的最低点就是该函数的最优值，也就是我们的目标；每次下山的距离代表后面要解释的学习率,因此需要我们找到最佳的学习率，在不偏离方向的同时耗时最短。

机器学习算法：梯度下降法——原理篇 - 简书 dj/dw貌似就是梯度的值。参数下降的方向？

2.5导数知识（Derivatives）（略）

1.内容

帮你获得对微积分和导数直观的理解。或许你认为自从大学毕以后你再也没有接触微积分。为了高效应用神经网络和深度学习，你并不需要非常深入理解微积分。你只需要直观地认识微积分，用来构建和成功的应用这些算法

导数的理解：斜率、变化量（略）

2.6 更多导数知识（略）

导数就是斜率、各类函数求导公式

2.7 计算图（Computation Graph）（略看）

1.内容

流程图解释了为什么一个神经网络的计算都是按照前向或反向传播的过程实现的，首先计算出神经网络的输出紧接着进行一个反向传播的过程计算出对应的梯度或者导数

2.前向传播与反向传播的计算过程

尝试计算函数，是由三个变量, , 组成的函数3(a + bc) 。例如本例中的就是逻辑回归中你想优化的代价函数，因此计算图用来处理这些计算会很方便，通过一个从左向右的过程，你可以计算出的值，从右到左的导数计算目的就是为了参数优化。

利用流程图，从右向左的导数计算，反向传播就是链式求导法反向求代价函数的参数的导，各个参数的导数，然后根据梯度下降公式更新参数？再利用更新后的参数带入计算，重复过程，直到到达代价函数值最小时候停止参数更新。

一个流程图就是从左到右计算成本函数J，为了优化函数达到最小，然后从右向左计算导数

3.数学求导-求偏导数-梯度

①复合函数求导：

②求偏导：

梯度就是多维变量的函数中每个变量的局部导数，在一个三维直角坐标系，该函数的梯度就可以表示为公式（9-2）：

2.9 logistic回归中的梯度下降

1.单个样本的梯度下降算法

学会怎样通过计算偏导数来实现逻辑回归的梯度下降算法

使用导数流程图计算梯度 w是参数，一个特征对应一个参数，偏差b是一个数

2.举例

z应该是一种权重分配后的特征映射（）。

①多样本时的计算公式：

2.单样本时的计算过程

假设现在只考虑单个样本的情况，单个样本的代价函数定义如下：其中是逻辑回归的输出（预测值），是样本的标签值。

(, ) = −(log() + (1 − )log(1 − ))

假设样本只有两个特征1和2，为了计算，我们需要输入参数1、2 和，除此之外还有特征值1和2。因此的计算公式为： = 11 + 22 + b（每个样本特征前都有权重）。偏导数计算图如下（可以直观的展示函数的包含关系，便于求偏导）：

先复习下梯度下降法，和的修正量可以表达如下：

目标：我们想要计算出的代价函数(, )对参数w1、w2、b的导数（基础变量）

过程：

①先向前反向计算出代价函数(, )关于（函数输出值，在最后一层表示的是预测值）的导数（复合函数求偏导）（因为a是包含z、z是包含各种参数的函数），用 来表示(,) /,由微积分计算得=dl/da

的导数为 $gif.latex?%5Cfrac%7B%5Cmathrm%7B1%7D%20%7D%7B%5Cmathrm%7Bxln%7D%20a%7D$ ，所以对求导得-y/a,同理对求导得（1-y）/（1-a）

得da如下：

②再求dz= $gif.latex?%5Cfrac%7BdL%7D%7Bda%7D$ $gif.latex?%5Ccdot%20%5Cfrac%7Bda%7D%7Bdz%7D$ ,因为 $gif.latex?a%3D%5Csigma%20%28z%29%3D%5Cfrac%7B1%7D%7B1+e%5E%7B-z%7D%7D$ ,所以 $gif.latex?%5Ccdot%20%5Cfrac%7Bda%7D%7Bdz%7D$ = $gif.latex?%5Cfrac%7Be%5E%7B-z%7D%7D%7B1+e%5E%7B%5E%7B%5E%7B-z%7D%7D%7D%7D$ = $gif.latex?%5Cfrac%7B1%7D%7B1+e%5E%7B-z%7D%7D*e%5E%7B-z%7D%3D%5Cfrac%7B1%7D%7B1+e%5E%7B-z%7D%7D*%28%5Cfrac%7B1+e%5E%7B-z%7D%7D%7B1+e%5E%7B-z%7D%7D-%5Cfrac%7B1%7D%7B1+e%5E%7B-z%7D%7D%29%3Da%28a-1%29$

③最后一步反向推导，也就是计算和变化对代价函数的影响

过程： $gif.latex?%5Cfrac%7Bd%28l%28L%28a%2Cy%29%29%7D%7Bdw%7D%3D%5Cfrac%7BdL%7D%7Bda%7D%5Ccdot%20%5Cfrac%7Bda%7D%7Bdz%7D%5Ccdot%20%5Cfrac%7Bdz%7D%7Bdw%7D%3D%28a-y%29%5Ccdot%20x$ (链式求导法则)

则每个样本参数反向求导如下：

视频中 1 表示 $gif.latex?%5Cfrac%7B%5Cpartial%20L%7D%7B%5Cpartial%20w1%7D%3Dx1%5Ccdot%20dz$ ， 2 表示 $gif.latex?%5Cfrac%7B%5Cpartial%20L%7D%7B%5Cpartial%20w2%7D%3Dx2%5Ccdot%20dz$ ，。

因此，关于单个样本的梯度下降算法，你所需要做的就是如下的事情：

使用公式 = ( − )计算（函数输出值-实际值），使用1 = 1 ⋅ 计算1， 2 = 2 ⋅ 计算2， = 来计算

最后: 更新参数1 = 1 − 1，更新2 = 2 − 2，更新 = − 。

这就是关于单个样本实例的梯度下降算法中参数更新一次的步骤

2.10 非向量化版本m个样本的梯度下降

1.内容

训练逻辑回归模型不仅仅只有一个训练样本，而是有个训练样本的整个训练集。因此在下一节视频中，我们将这些思想应用到整个训练样本集中，而不仅仅只是单个样本上。

2.原理

①时刻记住（全局）成本函数J的定义：

由1个样本到m个样本损失函数和的平均。一个样本计算一次损失函数，最后求和求平均

当你的算法输出关于样本的，是训练样本的预测值，即：=( () ) = ( () + ) ，这些是已知的可求条件

②反向传播参数求导：

是由1个样本到m个样本损失函数对参数求导后求和的平均

2.19展示的是对于任意单个训练样本，只使用了一个训练样本(, )，如何计算微分，因此1，2和添上上标表示具体某个样本求得的相应的值（）

因此：全局成本函数对w1的导数，是各项样本损失函数对w1导数和的平均（dwi）。（还有w2..3...4...n）个等等

$gif.latex?%5Cfrac%7B%5Cpartial%20J%28w%2Cb%29%7D%7B%5Cpartial%20w1%7D%3D%5Cfrac%7B1%7D%7Bm%7D%5Csum_%7B1%7D%5E%7Bm%7D%5Cfrac%7B%5Cpartial%20L%28a%5E%7Bi%7D%2Cy%5E%7Bi%7D%29%29%7D%7B%5Cpartial%20w1%7D$ （m个代价函数的求导，再求平均）

m个样本时参数求梯度（导数）如下：

3.利用具体算法来展示m样本梯度下降过程（非向量化版本）

①初始化 = 0, 1 = 0, 2 = 0, = 0

②for循环遍历训练集同时计算每个训练样本的导数、求和、和的均值运用了累加器求m个样本导数的和，m个代价函数的求导

③非向量化梯度下降

①初始化
J=0;dw1=0;dw2=0;db=0;
②循环遍历求m个样本的梯度
for i = 1 to m
 z(i) = wx(i)+b;（计算z）
 a(i) = sigmoid(z(i));（计算预测值a）
 J += -[y(i)log(a(i))+(1-y(i)）log(1-a(i));（计算每个样本的代价函数）
 dz(i) = a(i)-y(i);  （分别求导求和，公式已在前面推出）
 dw1 += x1(i)dz(i);
 dw2 += x2(i)dz(i);（这里只是假设两个特征，多少个特征就有多少个参数）
 db += dz(i);
（计算各个和的平均值，就代表了最后的参数的梯度值）
J/= m;   （最终成本函数的正确值）
dw1/= m;  
dw2/= m;
db/= m;

③梯度下降法：跟新参数
w1=w1-alpha*dw1
w2=w2-alpha*dw2
b=b-alpha*db
这里只应用了一次梯度下降，因此需要做很多次循环和梯度下降，才能更好的学习

4.缺点

显示的for循环过程过于复杂，浪费时间。下一节学习如何利用向量化来摆脱显示for寻欢，从而进行加速运算。

学会了如何使用逻辑回归以及梯度下降法。

2.11向量化版本的梯度下降法

1.为什么使用向量化

在深度学习安全领域、深度学习实践中，你会经常发现自己训练大数据集，因为深度学习算法处理大数据集效果很棒，所以你的 代码运行速度非常重要，否则如果在大数据集上，你的代码可能花费很长时间去运行，你将要等待非常长的时间去得到结果。所以在深度学习领域，运行向量化是一个关键的技巧。（效果更好，速度更快）

2.什么是向量化计算

在逻辑回归中你需要去计算 = + ，、都是列向量。如果你有很多的特征那么就会有一个非常大的向量，所以 ∈ ℝ , ∈ ℝ，都是nx维的向量。

什么是向量化计算vectorization？|simd|寄存器_网易订阅，什么是向量化计算？（备忘） - QZ-CMD - 博客园

所以如果你想使用非向量化方法去计算，你需要用如下方式（python）

①非向量化版本：

z=0
for i in range(n_x)
 z+=w[i]*x[i]   （循环计算每个特征的权重分配）
z+=b

②向量化版本计算：

z=np.dot(w,x)+b   （同时计算多条数据）

3.实例对比

运行向量化版本将比非向量化版本快300倍，只要有可能就不要使用显性的，总之能用内置函数或者其他办法去计算循环

4.GPU与CPU计算的区别

大规模的深度学习使用了 GPU 或者图像处理单元实现”，但是我做的所有的案例都是在 jupyter notebook 上面实现，这里只有 CPU，CPU 和 GPU 都有并行化的指令，他们有时候会叫做 SIMD 指令，这个代表了一个单独指令多维数据，这个的基础意义是，如果你使用了 built-in 函数,像 np.function 或者并不要求你实现循环的函数，它可以让 python 的充分利用并行化计算，这是事实在 GPU 和 CPU 上面计算，GPU 更加擅长 SIMD 计算，但是 CPU 事实上也不是太差，可能没有 GPU 那么擅长吧。

①在数据量较小的情况下，cpu的计算速度和gpu相差不大

②随着计算量的增加，cpu的计算时间逐步增加，而gpu的计算时间相对平缓，在计算量达到一定程度之后，gpu的优势就出来了。

2.12部分的向量化（略看）

运用到logistic回归中：这是用来计算回归导数的程序。有两个for循环

我们不会显示的将dw1，dw2等初始化为0，我们要去掉这个循环把dw变成一个向量，dw=np.zeros((n_x,1))，向量化初始化

2.13 向量化logistic回归(Vectorizing Logistic Regression）

1.内容

在本次视频中我们将讨论如何实现逻辑回归的向量化计算

2.回顾一下逻辑回归的前向传播步骤

（1）条件： 个训练样本

（2）目标： 计算， = + ，计算激活函数 (1) = ( (1) )样本的预测值

（3）过程：对第一个样本进行预测，则需要计算， (1) = (1) + 。然后计算激活函数 (1) = ( (1) ) ，计算第一个样本的预测值。

对第二个样本进行预测，你需要计算 (2) = (2) + ， (2) = ( (2) ) 。

对第三个样本进行预测，你需要计算 (3) = (3) + ， (3) = ( (3) )。

依次类推。个训练样本，你可能需要这样做次，可以看出为了完成前向传播步骤， 即对我们的个样本都计算出预测值a。

但是我们可以利用向量化的方式一起计算而不用显示的循环。有一个办法可以并且不需要任何一个明确的 for 循环。让我们来看一下你该怎样做。

（1）向量化计算z

回忆一下我们曾经定义了一个矩阵作为你的训练输入

训练集可以堆叠一起用一个矩阵表示：(李沐是按行堆叠的mxnx矩阵)

nump指令（不同框架运算规则不同）：这里是一个实数，或者你可以说是一个 1 × 1 矩阵，只是一个普通的实数。但是当你将这个向量加上这个实数时，Python 自动把这个实数扩展成一个 1 × 的行向量（对应前面）。这个操作在pyhon中就叫广播（broadcasting）

= . (. ,) + b

（2）向量化计算a

预测结果a的表示：对一个向量Z进行sigmoid函数操作。用小写的sigma同时计算所有小写a

= [ (1) (2) . . . () ] = ()

这就是正向传播一步迭代的向量化实现。同时处理所有m个训练样本。利用向量化在同一时间内高效地计算所有的激活函数的所有值。接下来你也可以利用向量化高效地计算反向传播并以此来计算梯度。

2.14 向量化logistic回归的梯度输出（重点）

1.内容

将学习如何向量化地计算个训练数据的梯度，本次视频的重点是如何同时计算个数据的梯度，并且实现一个非常高效的逻辑回归算法(Logistic Regression)。

2.实现过程

①单个样本的梯度计算：之前我们在讲梯度计算的时候，列举过几个例子， (1) = (1) − (1)， (2) = (2) − (2) ……等等一系列类似公式。

②m个样本的向量化计算：现在，对个训练数据做同样的运算，我们可以定义一个新的变量 = [ (1) , (2) . . . () ] ，所有的变量横向排列，因此，是一个 1 × 的矩阵，或者说，一个维行向量。

我们已经知道如何计算，即 [ (1) , (2) . . . () ],我们需要找到这样的一个行向量 = [ (1) (2) . . . () ]

由此，我们可以这样计算向量化z：第一个元素就是 (1)，第二个元素就是 (2) ……所以我们现在仅需一行代码，就可以同时完成这所有对dz的计算。

 =  −  = [ (1) −  (1) (2) −  (2) . . .  () −  () ]

在之前的实现中（2.12），我们已经去掉了一个 for 循环，但计算仍然需要一个循环遍历训练集，我们现在要做的就是将其向量化！

首先我们来看，不难发现，之前的讲解中，我们知道所有的dz（i）已经组成一个行向量了，所以在 Python 中，我们很容易地想到；接下来看，我们先写出它的公式其中，是一个行向量。因此展开后。因此我们可以仅用两行代码进行计算： = 1 ∗ . ()， = 1 ∗ ∗ 。这样，变成了矩阵向量乘法、我们就避免了在训练集上使用 for 循环。

3.非向量化与向量化对比

来看看如何实现向量化逻辑回归：正向传播-》L代价值反向传播求导-》更新权值

①非向量化版本

②向量化版本

如上：我们利用前五个公式完成了前向和后向传播，也实现了对所有训练样本进行预测和求导，再利用后两个公式，梯度下降更新参数。我们就实现了logistic回归的梯度下降一次迭代。我们的目的是不使用 for 循环，所以我们就通过一次迭代实现一次梯度下降，但如果你希望多次迭代进行梯度下降，那么仍然需要 for循环，放在最外层。不过我们还是觉得一次迭代就进行一次梯度下降，避免使用任何循环比较舒服一些。

2.15 python中的广播机制

1.内容

广播是一种手段可以让你的代码进行的更快，研究下python中的广播是如何运作的。

2.举例

在这个例子中我们列出了来自100克碳水化合物蛋白质和脂肪的卡路里数量

目标：计算四种食物中卡路里有多少百分比来自碳水化合物、蛋白质、脂肪

要做的是对矩阵的四列求和得到卡路里的总量，然后让整个矩阵各列元素除以总量得到四种食物中来自碳水化合物蛋白质和脂肪热量的卡路里占的百分比，

假设上图的表格是一个 3 行 4 列的矩阵，记为 3×4，接下来我们要使用 Python 的 numpy 库完成这样的计算。我们打算使用两行代码完成，第一行代码对每一列进行求和，第二行代码分别计算每种食物每种营养成分的百分比。

1.矩阵化

2.竖直相加求和，可以看到输出是每种食物(100g)的卡路里总和（这既不是行向量也不是列向量）

3.分别处以总和的到百分比矩阵：reshape（1，4）表示1x4的矩阵（重塑）这条指令将 3 × 4的矩阵除以一个1 × 4的矩阵，得到了一个 3 × 4的结果矩阵，这个结果矩阵就是我们要求的百分比含量。

下面再来解释一下 A.sum(axis = 0)中的参数 axis。axis 用来指明将要进行的运算是沿着哪个轴执行，在 numpy 中，0 轴是垂直的，也就是列，而 1 轴是水平的，也就是行。

而第二个 A/cal.reshape(1,4)指令则调用了 numpy 中的广播机制。这里使用 3 × 4 的矩阵除以 1 × 4的矩阵。技术上来讲，其实并不需要再将矩阵 reshape(重塑)成 1 × 4，因为矩阵本身已经是 1 × 4了。但是当我们写代码时不确定矩阵维度的时候，通常会对矩阵进行重塑来确保得到我们想要的列向量或行向量。重塑操作 reshape 是一个常量时间的操作，时间复杂度是(1)，它的调用代价极低。

这里3x4与1x4的矩阵怎么运算的呢？无论是加列向量还是行向量都一样。原理如下复制m（n）次变成mxn 这是神经网络里主要的广播。

2.16 关于python/numpy 向量说明

python让你使用广播运算 python numpy给程序提供了很大的灵活性，一些技巧更容易写没有bug的代码。

1.不要使用秩为1的数组，而是使用矩阵

首先设置 = . . (5)，这样会生成存储在数组中的 5 个高斯随机数变量。之后输出，从屏幕上可以得知，此时的 shape（形状）是一个(5, )的结构。这在 Python 中被称作一个一维数组。它既不是一个行向量也不是一个列向量，这也导致它有一些不是很直观的效果。举个例子，如果我输出一个转置阵，最终结果它会和看起来一样，所以和的转置阵最终结果看起来一样。而如果我输出和的转置阵的内积，你可能会想：乘以的转置返回给你的可能会是一个矩阵。但是如果我这样做，你只会得到一个数。

注意一维数组和向量（矩阵）的区别。（5，）与（5，1）

2.不确定维度的时候，可以加一个判断声明，你也能够重新改变数组维数 = ℎ，表明一个(5,1)数组或者一个(1,5) 数组，以致于它表现更像列向量或行向量

我从来不使用一维数组。因此，要去简化你的代码，而且不要使用一维数组。总是使用 × 1 维矩阵（基本上是列向量），或者 1 × 维矩阵（基本上是行向量），这样你可以减少很多 assert 语句来节省核矩阵和数组的维数的时间。另外，为了确保你的矩阵或向量所需要的维数时，不要羞于 reshape 操作。总之，我希望这些建议能帮助你解决一个 Python 中的 bug，从而使你更容易地完成练

2.17 jupyter/Ipython 笔记本快速指南

2.18 证明logistic回归成本函数为什么是这种形式

(待完善)

第三周浅层神经网络

3.1神经网络概览（Neural Network Overview）

1.内容

将学会实现如何实现一个神经网络，现在我们开始快速浏览一下如何实现神经网络。

2.神经网络计算原理

如上所示，首先你需要输入特征，参数和，通过这些你就可以计算出，接下来使用就可以计算出。我们将的符号换为表示输出^ ⟹ = (),然后可以计算出 loss function (, )

神经网络看起来是如下这个样子，你可以把许多 sigmoid 单元堆叠起来形成一个神经网络。对于图中的节点，它包含了之前讲的计算的两个步骤：首先通过公式 计算出值，然后通过()计算值。

3.大致计算过程

符号说明：我们会使用符号 []表示第层网络中节点相关的数，这些节点的集合被称为第层网络。不会和我们之前用来表示单个的训练样本的 () (即我们使用表示第 i 个训练样本)混淆

①首先计算第一层layer1网络（3 个节点）中的各个节点的相关的数 [1]，接着计算 [1]，

②计算第二层layer2网络（1个节点）中的各个节点的相关的数 $z^{[2]}$ , $a^{[2]}$ ，

③然后输出^ ⟹ = (),然可以计算出 loss function (, )

④反向传播梯度下降优化参数，计算 [2] 、 [2]，计算出来之后，然后计算计算[2]、 [2].....

公式1:前向传播

公式2 ：后向传播

公式3：

计算图如下：

上括号表示不同的层[i] 下面是一个双层的神经网络

下节：来的视频中我们会仔细讨论具体细节，下一个视频讲述神经网络的具体表示

3.2神经网络的表示

1.内容

在这次课中我们将讨论上节课图片的具体含义，也就是我们画的这些神经网络到底代表什么。

2.什么是输入层、隐藏层、输出层

如下本例中的神经网络只包含一个隐藏层

①输入层：我们有输入特征1、2、3，它们被竖直地堆叠起来，这叫做神经网络的输入层。它包含了神经网络的输入的特征向量x,向量表示输入特征。这里有个可代替的记号 $a^{[0]}$ 可以用来表示输入特征,表示激活的意思，它意味着网络中不同层的值会传递到它们后面的层中，输入层将传递给隐藏层，所以我们将输入层的激活值称为 $a^{[0]}$ ；下一层即隐藏层也同样会产生一些激活值，那么我将其记作 $a^{[1]}$ ，所以具体地，这里的第一个单元或结点 我们将其表示为 $a_{1}^{[1]}$ ，第二个结点的值我们记为 $a_{2}^{[2]}$ 以此类推...如果写成 Python 代码，那么它是一个规模为 4x1 的矩阵或一个大小为 4 的列向量，如下公式，它是四维的，因为在本例中，我们有四个结点或者单元，或者称为四个隐藏层单元；

公式：

②隐藏层：本例由四个神经元节点，堆叠而成。"隐藏"的意义，如下有四个隐藏层单元。

在一个神经网络中，当你使用监督学习训练它的时候，训练集包含了输入也包含了目标输出，所以术语隐藏层的含义是在训练集中，这些中间结点的准确值我们是不知道到的，也就是说你看不见它们在训练集中应具有的值。你能看见输入的值，你也能看见输出的值，但是隐藏层中的东西，在训练集中你是无法看到的。所以这也解释了词语隐藏层，只是表示你无法在训练集中看到他们。

注意：这里的隐藏层将拥有两个参数和，我将给它们加上上标 [1] ([1] , [1] )，表示这些参数是和第一层这个隐藏层有关系的。之后在这个例子中我们会看到是一个 4x3 的矩阵，而是一个 4x1 的向量（广播机制），第一个数字 4 源自于我们有四个结点或隐藏层单元，然后数字 3 源自于这里有三个输入特征（权重数对应）。我们之后会更加详细地讨论这些矩阵的维数，到那时你可能就更加清楚了。相似的输出层也有一些与之关联的参数[2]以及 [2]。从维数上来看，它们的规模分别是 1x4 以及 1x1。1x4 是因为隐藏层有四个隐藏层单元（输入特征数）而输出层（函数计算）只有一个单元（只需要计算一次WX+b）。

公式：

③输出层：本例中最后一层只由一个结点构成，而这个只有一个结点的层被称为输出层，它负责产生预测值。最后输出层将产生某个数值，它只是一个单独的实数，所以的^值将取为 $a^{[2]}$ ,在逻辑回归中，我们有^直接等于，在逻辑回归中我们只有一个输出层(无隐藏层)，所以我们没有用带方括号的上标。但是在神经网络中，我们将使用这种带上标的形式来明确地指出这些值来自于哪一层。

一个两层的神经网络（输入层是不算入总层数内）

④层数计算：计算网络的层数时，输入层是不算入总层数内，所以隐藏层是第一层，输出层是第二层。第二个惯例是我们将输入层称为第零层。

一个隐藏层的神经网络的结构与符号表示

总结：所以现在你已经知道一个两层的神经网络什么样的了，即它是一个只有一个隐藏层的神经网络。在下一个视频中。我们将更深入地了解这个神经网络是如何进行计算的，也就是这个神经网络是怎么输入，然后又是怎么得到^。

3.3 计算神经网络的输出

1.内容

了解神经网络到底在计算什么，一个详细的计算过程，神经网络怎么输入x，又是怎么一直计算下去的到y^的

首先，回顾下只有一个隐藏层的简单两层神经网络结构：其中，表示输入特征，表示每个神经元的输出，表示特征的权重，上标表示神经网络的层数（隐藏层为 1），下标表示该层的第几个神经元。这是神经网络的符号惯例，下同

2.神经网络的计算

①.每个节点（神经元）的计算内容：逻辑回归的计算有两个步骤，首先你按步骤计算出，然后在第二步中你以 sigmoid 函数为激活函数计算（得出），一个神经网络只是这样子做了好多次重复计算。

②多个节点的计算

从隐藏层的第一个神经元开始计算第一步，计算1 [1] , 1 [1] = 1 [1] + 1 [1]。第二步，通过激活函数计算1 [1] , 1 [1] = (1 [1] )。第二个以及后面两个神经元的计算过程一样，只是注意符号表示不同，最终分别得到2 [1]、3 [1]、4 [1]，详细结果见下图（x特征映射到了a）:

3.向量化计算（一个样本的神经网络的输出计算）

用 for 循环来做这些看起来真的很低效。所以接下来我们要做的就是把这四个等式向量化。向量化的过程是将神经网络中的一层神经元参数纵向堆积起来，例如隐藏层中的纵向堆积起来变成一个(4,3)的矩阵，用符号[1]表示。

另一个看待这个的方法是我们有四个逻辑回归单元，且每一个逻辑回归单元都有相对应的参数——向量，把这四个向量堆积在一起，你会得出这 4×3 的矩阵。因此，公式 3.8： [] = [] + [] 公式 3.9： [] = ( [] )， [] = ( [] )

如下图左半部分所示为神经网络，把网络左边部分盖住先忽略，那么最后的输出单元就相当于一个逻辑回归的计算单元。当你有一个包含一层隐藏层的神经网络，你需要去实现以计算得到输出的是右边的四个等式，并且可以看成是一个向量化的计算过程，计算出隐藏层的四个逻辑回归单元和整个隐藏层的输出结果，如果编程实现需要的也只是这四行代码。

4.手写详细单个样本向量化正向传播计算过程

待补充：一个样本的反向传播向量化过程

5.总结

通过本视频，你能够根据给出的一个单独的输入特征向量，运用四行代码计算出一个简单神经网络的输出。接下来你将了解的是如何一次能够计算出不止一个样本的神经网络输出，而是能一次性计算整个训练集的输出。

注意：每层节点都对应一个不同的权重向量w，共同构成这一层的权重W.若是权值相同且激活函数一样那么网络的堆砌就是在进行同样的计算，没有意义。

3.4 多个样本中的向量化（Vectorizing across multiple examples）：需要反复理解

1.内容

在上节，了解到如何针对于单一的训练样本，在神经网络上计算出预测值。本节将会了解到如何向量化多个训练样本，并计算出结果。该过程与你在逻辑回归中所做类似。

2.原理

逻辑回归是将各个训练样本组合成矩阵，对矩阵的各列进行计算。神经网络是通过对逻辑回归中的等式简单的变形，让神经网络计算出输出值。这种计算是所有的训练样本同时进行的，以下是实现它具体的步骤：

3.过程

①上一节视频中得到的四个等式。它们给出如何计算出 [1]， [1]， [2]， [2]。①

②对于一个给定的输入特征向量，这四个等式可以计算出[2]等于^。这是针对于单一的训练样本。如果有个训练样本,那么就需要重复这个过程

用第一个训练样本 [1]来计算出预测值^ [1]，，用 [2]来计算出预测值^ [2]，循环往复，直至用 []计算出^ []。用激活函数表示法，如上图左下所示，它写成 [2](1)、 [2](2)和 [2]()。【注】： [2]()，()是指第个训练样本而[2]是指第二层。

4.非向量化的实现

对于所有训练样本，需要让从 1 到实现这四个等式（因为是两层）

for i = 1 to m:

[1]() = [1]() () + [1]()

[1]() = ( [1]() )

[2]() = [2]() [1]() + [2]()

[2]() = ( [2]() )

对于上面的这个方程中的 ()，是所有依赖于训练样本的变量，即将()添加到，和。如果想计算个训练样本上的所有输出，就应该向量化整个计算，以简化这列。

5.向量化的实现

这里一些样本什么都是按列堆砌的，自己按行再整理一下过程。

6.手写m个样本横向堆砌向量化计算

符号表示：网络层数 i表示第i个训练样本

非向量化计算m个训练样本的输出，一个for循环遍历所有的m训练样本：

如何向量化上面的计算：m个训练样本的矩阵化

下一集给出理由说明这为什么是向量化的正确实现。

3.5向量化实现的解释（视频）这里讲解的更清楚***

1.内容

在上一个视频中，我们学习到如何将多个训练样本按列堆叠成一个矩阵（具体的看模型需要怎么样输入，转置后都一样），然后就可以推导出神经网络中前向传播（forward propagation）部分的向量化实现。在这个视频中，我们将会继续了解到，为什么上一节中写下的公式就是将多个样本向量化的正确实现。

2.实现原理（过程）

1.先对几个样本算算正向传播

这里，为了描述的简便，我们先忽略掉 [1]后面你将会看到利用 Python 的广播机制，可以很容易的将 [1] 加进来。

现在 [1] 是一个矩阵，里面有一定数目的行（每一行代表一个节点的权重分配）， (1) , (2) , (3)都是列向量，矩阵乘以列向量w得到一个列向量z[1](1),然后将所有的样本堆叠成矩阵，进行矩阵运算。

随着神经网络层数的加深，不过是重复这两个过程罢了

到目前为止，我们仅使用 sigmoid 函数作为激活函数，事实上这并非最好的选择，在下一个视频中，将会继续深入的讲解如何使用更多不同种类的激活函数。后面再学习反向传播梯度下降的向量化过程（多层多样本）

3.6激活函数 Activation functions

1.内容

使用一个神经网络时，需要决定使用哪种激活函数用隐藏层上，哪种用在输出节点上。到目前为止，之前的视频只用过 sigmoid 激活函数，但是，有时其他的激活函数效果会更好。

2. 激活函数的作用

激活函数是用来加入非线性因素的，提高神经网络对模型的表达能力，解决线性模型所不能解决的问题

为什么要使用激活函数,激活函数的作用_贾世林jiashilin的博客-CSDN博客_激活函数的作用

3.几种常见的激活函数

搭建神经网络，你可以选择隐藏层里用那一个激活函数，还有神经网络输出单元用什么激活函数

几种常见的激活函数 - 简书

神经网络中常用的几种激活函数的理解 - EEEEEcho - 博客园

tanh函数：介于-1-1是s函数的平移版本，效果总比s函数要好，函数的输出介于-1-1之间，激活函数的平均值就更接近0，而不是0.5，让下一层的学习更方便。

在这里记住一点，几乎不用sigmoid激活函数了，tanh函数在所有的场合都更优越，

注意：一个例外就是在做二分类的时候，只有0与1，那么可以在隐藏层用tanh函数，用sigmoid函数作为输出层，不同层的激活函数可以不一样。用上标来表示激活层的不一样

这两个都有一个问题就是：若z的值非常大，那么导数的梯度（就是da）或者说这个函数的斜率可能就很小。所以z很大或者很小的时候，函数的斜率很接近0，这样会拖慢梯度下降算法。

在机器学习里最受欢迎的一个就是：

线性修正单元（ReLU）：，z为正的时候斜率为1.z为负的时候斜率为0，z为 0的时候是没有意义的，但z为0的概率很低，所以不用担心这一点。可以在z=0时候给导数赋值为0/1

如果在做二分类s函数很适合作为输出层的激活函数。然后其他所有单元都用RELU .如果不确定隐藏层单元要用哪个就选relu作为激活函数这也是今天大多数人都在用的。

他的缺点就是当z为负的时候导数等于0，没啥问题。

一个进阶：带泄露的ReLU：

选一个的话通常只用ReLU 好处就是激活函数的斜率（梯度）和0差的很远，可以大大提高学习的速度，没有函数斜率接近0时减慢学习效率的效应。

总结利弊：

sigmoid：除非用在二分类的输出层否则不要用

接下来将各种参数的选择神经网络为什么需要激活函数呢

3.7 为什么神经网络需要非线性激活函数呢？

1.内容

为什么神经网络需要非线性激活函数？事实证明：要让你的神经网络能够计算出有趣的函数，你必须使用非线性激活函数，证明如下：

2.原因

事实证明，如果你使用线性激活函数或者没有使用一个激活函数，那么无论你的神经网络有多少层一直在做的只是计算线性函数，所以不如直接去掉全部隐藏层。

证明：这是神经网络正向传播的方程，现在我们去掉函数，然后令 [1] = [1]，或者我们也可以令() = ，这个有时被叫做线性激活函数（更学术点的名字是恒等激励函数，因为它们就是把输入值输出）。为了说明问题我们把 [2] = [2]，那么这个模型的输出或仅仅只是输入特征的线性组合。

如果你是用线性激活函数或者叫恒等激励函数，那么神经网络只是把输入线性组合再输出，相当于什么也没有做。在这里线性隐层一点用也没有，因为这两个线性函数的组合本身就是线性函数，所以除非你引入非线性，否则你无法计算更有趣的函数，永远拟合的是一个线性分类器函数。不能更好的适应样本数据，即使你的网络层数再多也不行；

3.什么地方用线性激活函数

只有一个地方（唯一可以用线性激活函数的通常就是输出层，隐藏层永远不要用）可以使用线性激活函数------() = ，就是你在做机器学习中的回归问题。 是一个实数，举个例子，比如你想预测房地产价格，就不是二分类任务 0 或 1，而是一个实数，从 0 到正无穷。如果是个实数，那么在输出层用线性激活函数也许可行，你的输出也是一个实数，从负无穷到正无穷。因为房价都是非负数，所以我们也可以在输出层使用 ReLU 函数这样你的^都大于等于 0。

下节内容：理解为什么使用非线性激活函数对于神经网络十分关键，接下来我们讨论梯度下降，并在下一个视频中开始讨论梯度下降的基础——激活函数的导数

3.8 激活函数的导数（梯度下降的基础）

当你对你的神经网络使用反向传播的时候你真的需要计算激活函数的斜率或者导数，来看看激活函数的选择以及如何及计算这些函数的斜率

1.几种常见激活函数的导数

①sigmoid函数：

求导过程：

②.tanh函数

在神经网络中， a=g(Z), $g{}'(z)=1-a^{2}$

③.ReLU函数

④Leaky linear unit (Leaky ReLU)

3.9 神经网络的梯度下降法

1.内容

实现反向传播或者说梯度下降算法的方程组，梯度下降算法的具体实现、如何处理单隐层神经网络、所需的方程来实现反向传播（梯度下降算法）

2.参数维度

在单隐层神经网络中有[1]， [1]，[2]， [2]这些参数，还有个表示输入特征的个数，n[0]表示样本输入特征数， [1]表示隐藏单元个数， [2]表示输出单元个数。

矩阵[1]的维度就是( [1] , [0] )， [1]就是 [1]维向量，可以写成( [1] , 1)，就是一个的列向量。矩阵[2]的维度就是( [2] , [1] )， [2]的维度就是( [2] , 1)维度。

3.梯度下降

要训练参数，你的算法就需要做梯度下降，在训练神经网络的时候随机初始化参数很重要，而不是初始化为0，初始化参数后每个梯度下降循环都会计算预测值。然后需要计算导数dw、db，然后梯度下降会更新参数w、b...

假设是做二分类任务，那么你的成本函数等于：

①每次梯度下降计算的内容：

当你参数初始化成某些值后，每次梯度下降都会循环计算以下预测值：

w1和w2是同时更新的？还是先更新的w2再更新w1？应该是求出dw1、dw2之后再同时进行梯度下降更新参数。

①正向传播过程方程

②反向传播过程方程

再总结一下正向传播的方程：

4.总结

以上就是正向传播的 4 个方程和反向传播的 6 个方程，这里我是直接给出的，在下个视频中，我会讲如何导出反向传播的这 6 个式子的。如果你要实现这些算法，你必须正确执行正向和反向传播运算，你必须能计算所有需要的导数，用梯度下降来学习神经网络的参数；你也可以许多成功的深度学习从业者一样直接实现这个算法，不去了解其中的知识。

3.10 选修：直观理解反向传播：

这个视频主要是公式推导反向传播。

3.11 随机初始化Random+Initialization

1.为什么要随机初始化

当你训练神经网络时，权重随机初始化是很重要的。对于逻辑回归，把权重初始化为 0 当然也是可以的。但是对于一个神经网络，如果你把权重或者参数都初始化为 0，那么梯度下降将不会起作用。由于所有的隐含单元都是对称的，无论你运行梯度下降多久，他们一直计算同样的函数。这没有任何帮助，因为你想要两个不同的隐含单元计算不同的函数，

举例说明：

假设有两个输入特征：x1、x2，所以n^[0]=2,然后有两个隐藏单元n^[1]=2，所以和隐藏层相关的矩阵 W^[1]是2x2的。假设w全部初始化为0（不可行），b也初始化为0（是可行的）。

就会导致你给网络输入的任何样本，a^[1]_1和a^[1]_2的值是一样的，两个激活函数一样，就导致两个隐藏单元都在做完全一样的计算，在进行反向传播的时候处于对称性，dz^[1]_1和dz^[1]_2也是相同的，归纳法证明每次训练迭代之后两个隐藏单元仍然在计算完全相同的函数，

解决方案就是随机初始化所有参数：

2.如何随机初始化

你应该这么做： 把 [1] 设为 np.random.randn(2,2)(生成高斯分布)，通常再乘上一个小的数，比如 0.01，这样把它初始化为很小的随机数。然后没有这个对称的问题（叫做 symmetry breaking problem），所以可以把初始化为 0，因为只要随机初始化你就有不同的隐含单元计算不同的东西，因此不会有 symmetry breaking 问题了。相似的，对于[2]你可以随机初始化， [2]可以初始化为 0。

3.随机化时常数的选择

事实上有时有比 0.01 更好的常数，当你训练一个只有一层隐藏层的网络时（这是相对浅的神经网络，没有太多的隐藏层），设为 0.01 可能也可以。但当你训练一个非常非常深的神经网络，你可能会选择一个不同于的常数而不是 0.01。下一节课我们会讨论怎么并且何时去选择一个不同于 0.01 的常数，但是无论如何它通常都会是个相对小的数。

总结：你现在已经知道如何建立一个一层的神经网络了，初始化参数，用前向传播预测，还有计算导数，结合反向传播用在梯度下降中

第四周：

4.1深层神经网络

1.内容

目前为止我们学习了只有一个单独隐藏层的神经网络的正向传播和反向传播，还有逻辑回归，并且你还学到了向量化，这在随机初始化权重时是很重要。本周所要做的是把这些理念集合起来，就可以执行你自己的深度神经网络。

2.神经网络结构图

神经网络的隐藏层数的定义：从左到右，由 0 开始定义，比如上边右图，1、 2、3,这层是第 0 层，这层左边的隐藏层是第 1 层，由此类推。如下图，记住以下要点：有一个隐藏层的神经网络，就是一个两层神经网络。记住当我们算神经网络的层数时，我们不算输入层，我们只算隐藏层和输出层。

2层神经网络 5层神经网络

2.选择模型层数的流程

有一些函数，只有非常深的神经网络能学会，而更浅的模型则办不到。尽管对于任何给定的问题很难去提前预测到底需要多深的神经网络，所以先去尝试逻辑回归，尝试一层然后两层隐含层， 然后把隐含层的数量看做是另一个可以自由选择大小的超参数（网格搜索最优参数？），然后再保留交叉验证数据上评估，或者用你的开发集来评估。

3.深度学习的符号定义

我们用 L 表示层数：下图： = 4

第一个隐藏层 [1] = 5,表示有 5 个隐藏神经元，同理 [2] = 5， [3] = 3， [4]= [] = 1（输出单元为 1）而输入层， [0] = = 3。

对于每层 l 都用 []来记作 l 层激活后(输出值)结果。通过用激活函数计算 []，激活函数也被索引为层数，然后我们用[]来记作在 l 层计算 []值的权重。类似的， []里的方程 []也一样。

输入的特征记作，但是同样也是 0 层的激活函数，所以 = [0]。最后一层的激活函数，所以 []是等于这个神经网络所预测的输出结果。

4.2 深层网络的中都前向传播

思考：每一层的权重是相同的吗？

每一层都有一个权重矩阵，在求出预测值y猫后，才根据对代价函数反向求导，反向推每一层的，在同时更新每一层里更新参数。

1.内容

之前我们学习了构成深度神经网络的基本模块，比如每一层都有前向传播步骤以及一个相反的反向传播步骤，这次视频我们讲讲如何实现这些步骤。

2.正向传播

公式

[] = [] ⋅ [−1] + []

[] = [] ( [] )

向量化代码实现：

[] = [] ⋅ [−1] + [ ]

A[] = [] ( [] )

过程：前向传播需要喂入 [0]也就是(特征矩阵)，来初始化。初始化的是第一层的输入值。 [0]对应于一个训练样本的输入特征，而 [0]对应于一整个训练样本的输入特征，所以这就是这条链的第一个前向函数的输入，重复这个步骤就可以从左到右计算前向传播。

原理是一个样本一个样本的计算，只不过向量化实现了并行计算。

视频讲解：深层神经网络正向传播过程（一次讲清楚！）_哔哩哔哩_bilibili

深层神经网络正向传播过程（一次讲清楚！）

3.反向传播参考3.9节（单隐藏层上的梯度下降）

原理：输入为[]，输出为[−1]，[] , []

步骤：

（1） [] = [] ∗ [] ′( [] )

（2）[] = [] ⋅ [−1]

（3） [] = []

（4） [−1] = [] ⋅ []

（5） [] = [+1] [+1] ⋅ [] ′( [] )

向量化实现过程可以写成：

然后进行梯度下降：更新w[1]w[2]w[3]w[4]和b

视频讲解：神经网络前向传播和反向传播的过程_哔哩哔哩_bilibili

神经网络前向传播和反向传播的过程

4.3 深层网络中的前向传播和反向传播（Forward propagation in a Deep Network）

这块视频没讲，在4.6节讲的。

1.内容

先来看对其中一个训练样本 x 如何应用前向传播，之后讨论向量化的版本。

2.一个样本前向传播过程

①第一层：需要计算 [1] = [1] + [1]， [1] = [1] ( [1] )（可以看做 [0]）

②第二层：需要计算 [2] = [2] [1] + [2]， [2] = [2] ( [2] )

..........

④第四层：第四层为 [4] = [4] [3] + [4]， [4] = [4] ( [4] )=Y

前向传播可以归纳为多次迭代 [] = [] [−1] + []， [] = [] ( [] )。

向量化m样本实现代码：这里只能用一个显式 for 循环，从 1 到，然后一层接着一层去计算。

3.深度网络中的反向传播

对反向传播的步骤而言，我们需要算一系列的反向迭代，就是这样反向计算梯度，你需要把 []的值放在这里，然后这个方块会给我们[−1]的值，以此类推，直到我们得到[2] 和[1]，你还可以计算多一个输出值，就是[0]，但这其实是你的输入特征的导数，并不重要，起码对于训练监督学习的权重不算重要，你可以止步于此。反向传播步骤中也会输出 []和 []，这会输出[3]和 [3]等等。

4.神经网络的前向和反向传播的计算过程（详细）

神经网络的一步训练包含了，从 [0]开始，也就是然后经过一系列正向传播计算得到 ^，之后再用输出值计算这个（第二行最后方块），再实现反向传播。现在你就有所有的导数项了，也会在每一层被更新为 = − ，也一样， = − ，反向传播就都计算完毕，我们有所有的导数值，那么这是神经网络一个梯度下降循环。

视频：

4.3 核对矩阵的维数

1.内容

当实现深度神经网络的时候，其中一个我常用的检查代码是否有错的方法就是拿出一张纸过一遍算法中矩阵的维数。

的维度是（下一层的维数，前一层的维数），即[] : ( [] , [−1] )；

的维度是（下一层的维数，1），即: [] : ( [] , 1)；

[] , [] : ( [] , 1);

[]和[]维度相同，

[]和 []维度相同，且和向量化维度不变，但,以及的维度会向量化后发生变化。

向量化后： []可以看成由每一个单独的 []叠加而得到， [] = ( [][1]， [][2]， [][3]，…， [][] )，为训练集大小，所以 []的维度不再是( [] , 1)，而是( [] , )。 []：( [] , )， [0] = = ( [] , )

注意：前后矩阵维数的一致

next：解释为何深层要比浅层的神经网络要好

4.4 为什么使用深层网络（略看）

1.内容：我们都知道深度神经网络能解决好多问题，其实并不需要很大的神经网络，但是得有深度，得有比较多的隐藏层，这是为什么呢？

明白深度神经网络在计算什么：

举个例子：

人脸识别，第一层的隐藏单元去提取图片的某些特征如：边缘、眼睛、鼻子等。然后把这些检测到的特征放在一起，就可以开始检测人脸的不同部分。最后再把这些部分放在一起就可以识别或探测不同的人脸，可以把每一层看做时探测函数，从小区域到大区域的检测

2.语音识别（语音数据声波？应用到光谱？）：第一层识别低层次音频波形的一些特征、组合在一起就可以探测音位，有了基本的声音单元之后组合起来就可以识别音频中的词。单词再组合起来就能识别词组，最后到完整的句子。

前几层学习基本的特征，后面去探测更复杂的特征

3.关于神经网络为何有效的理论来源于电路理论（没看懂）

深层网络还可以计算复杂的函数。

深度学习就是有很多隐层的神经网络~~~ 的一个包装没必要设置很多层 ng通常会从logistic回归开始、再试试一到两个隐藏层，把隐藏层当作参数、超参数一样去调试，找一个比较合适的深度。某些特定的问题可以需要某种模型才能达到更好的效果

4.6 一些参数和超参数

想要你的神经网络模型起到很好的效果，你还需要规划好你的参数，以及超参数

如：学习率：来决定参数的进化

iteration：梯度下降法循环的数量

hidden layers：隐藏层数L

hidden units 隐藏单元数

选择隐藏层的激活函数

这些参数控制了最后参数w和b的值，所以他们被称为超参数（控制参数的参）

还有其他的一些超参数：momentum mini batch size，几种不同的正则化参数。。。

最开始可能无法确定最合适的超参数所以通常选择不同的值，来观察模型

深度学习领域的应用：图像识别、语言识别、自然语言处理、再到结构化的应用网页搜索、产品推荐等

下一节：用系统性的尝式各种超参数的取值

一个经验规律：如果你所要解决的问题需要很多年时间、只要经常尝试不同的超参数勤于检验结果看看有没有更好的超参值，会慢慢找到设置最好参数的感觉。

尝试保留交叉检验或者类似的检验方法，然后挑一个对你问题效果比较好的数值

课程2更多的建议关于如何系统化的探索超参数的可能空间

4.8 这和大脑有什么关系？

你可能感兴趣的:(机器学习,笔记,深度学习,神经网络,pytorch)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
为什么你总是对下属不满意? ZhaoWu1050
【ZhaoWu的听课笔记】大多数公司，都存在两种问题。我创业四年，更是体会深切。这两种问题就是：老板经常不满意下属的表现；下属总是不知道老板想要什么；虽然这两种问题普遍存在，其实解决方法并不复杂。这节课，我们再聊聊第一个问题：为什么老板经常不满意下属表现?其实，这背后也是一条管理常识。管理学家德鲁克先生早就说过：管理者的任务，不是去改变人。*来自《卓有成效的管理者》只是大多数老板和我一样，都是一边
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
阅读笔记：阅读方法中的逻辑和转念施吉涛
聊聊一些阅读的方法论吧，别人家的读书方法刚开始想写，然后就不知道写什么了，因为作者写的非常的“精致”我有一种乡巴佬进城的感觉，看到精美的摆盘，精致的食材不知道该如何下口也就是《阅读的方法》，我们姑且来试一下强劲的大脑篇，第一节：逻辑通俗的来讲，也就是表达的排列和顺序，再进一步就是因果关系和关联实际上书已经看了大概一遍，但直到打算写一下笔记的时候，才发现作者讲的推理更多的是阅读的对象中呈现出的逻辑也
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

01.吴恩达神经网络与深度学习笔记（详细+不断更新）

第一周：深度学习概论

1.1 深度学习与机器学习的关系

1.2什么是神经网络？

1.3用神经网络进行监督学习

1.神经网络创造应用案例

2.机器学习对结构化与非结构化数据的应用

1.4为什么神经网络会兴起？（1遍过）

1.5关于这门课可以学到什么？深度学习最重要的基础

第二周：神经网络的编程基础

2.1二分类

1.什么是二分类

2.补充：图片在计算机中如何表示

3.本文的一些符号表示

4.训练样本=特征矩阵X=输出lableY的构造

5.补充向量知识

6.补充矩阵知识

7.补充计算知识

2.2逻辑回归 logistic 二元分类问题

1.本节内容

2.函数构建过程

3.sigmoid原理

2.3 logistic 回归损失函数 (Logistic Regression Cost Function)

1.内容

2.为什么需要代价函数

3.逻辑回归的函数运算过程

4.损失函数

5.代价函数

2.4梯度下降法（Gradient Descent）

1.梯度下降法的作用

2.什么是梯度

3.梯度下降的过程

4.梯度下降法的细节化说明（仅有一个参数时）

5.梯度下降法的细节化说明（两个参数）

6.梯度下降下山法理解

2.5导数知识（Derivatives）（略）

1.内容

2.6 更多导数知识（略）

2.7 计算图（Computation Graph）（略看）

1.内容

2.前向传播与反向传播的计算过程

3.数学求导-求偏导数-梯度

2.9 logistic回归中的梯度下降

1.单个样本的梯度下降算法

2.举例

2.单样本时的计算过程

2.10 非向量化版本m个样本的梯度下降

1.内容

2.原理

3.利用具体算法来展示m样本梯度下降过程（非向量化版本）

4.缺点

2.11向量化版本的梯度下降法

1.为什么使用向量化

2.什么是向量化计算

3.实例对比

4.GPU与CPU计算的区别

2.12部分的向量化（略看）

2.13 向量化logistic回归(Vectorizing Logistic Regression）

1.内容

2.回顾一下逻辑回归的前向传播步骤

2.14 向量化logistic回归的梯度输出（重点）

1.内容

2.实现过程

3.非向量化与向量化对比

2.15 python中的广播机制

1.内容

2.举例

2.16 关于python/numpy 向量说明

2.17 jupyter/Ipython 笔记本快速指南

2.18 证明logistic回归成本函数为什么是这种形式

第三周 浅层神经网络

3.1神经网络概览 （Neural Network Overview）

1.内容

2.神经网络计算原理

3.大致计算过程

3.2神经网络的表示

1.内容

2.什么是输入层、隐藏层、输出层

3.3 计算神经网络的输出

1.内容

第三周浅层神经网络

3.1神经网络概览（Neural Network Overview）

3.4 多个样本中的向量化（Vectorizing across multiple examples）：需要反复理解

3.5向量化实现的解释（视频）这里讲解的更清楚***

3.反向传播参考3.9节（单隐藏层上的梯度下降）