我是管小亮

深度学习入门笔记（十四）：Softmax

欢迎关注WX公众号：【程序员管小亮】

专栏——深度学习入门笔记

声明

1）该文章整理自网上的大牛和机器学习专家无私奉献的资料，具体引用的资料请看参考文献。
2）本文仅供学术交流，非商用。所以每一部分具体的参考资料并没有详细对应。如果某部分不小心侵犯了大家的利益，还望海涵，并联系博主删除。
3）博主才疏学浅，文中如有不当之处，请各位指出，共同进步，谢谢。
4）此属于第一版本，若有错误，还需继续修正与增删。还望大家多多指点。大家都共享一点点，一起为祖国科研的推进添砖加瓦。

文章目录

欢迎关注WX公众号：【程序员管小亮】

专栏——深度学习入门笔记
声明
深度学习入门笔记（十四）：Softmax

1、Softmax 回归
2、训练一个 Softmax 分类器

推荐阅读
参考文章

深度学习入门笔记（十四）：Softmax

1、Softmax 回归

如果是二分分类的话，只有两种可能的标记——0或1，如果是猫咪识别例子，答案就是：这是一只猫或者不是一只猫；
如果有多种可能的类型的话呢？有一种 logistic 回归的一般形式，叫做 Softmax 回归，能在试图识别某一分类时做出预测，或者说是多种分类中的一个，不只是识别两个分类，一起看一下。

假设不单单需要识别猫，而是想识别猫，狗和小鸡，其中把猫称为类1，狗为类2，小鸡是类3，如果不属于以上任何一类，就分到“其它”或者说“以上均不符合”这一类，把它称为类0。

这里显示的图片及其对应的分类就是一个例子，这幅图片上是一只小鸡，所以是类3，猫是类1，狗是类2，如果猜测是一只考拉，那就是类0，下一个小鸡，类3，以此类推。假设用符号大写的 $C$ 来表示输入会被分的类别总个数，那么在这个例子中，共有4种可能的类别，包括猫、狗、小鸡，还有“其它”或“以上均不符合”这一类。当有这4个分类时，指示类别的数字就是从0到 $C - 1$ ，换句话说就是0、1、2、3。

如果在这个例子中想要建立一个神经网络，那么其输出层需要有4个，或者说 $C$ 个输出单元，如图：

我们想要输出层单元通过数字的方式，告诉我们这4种类型中判别为每个类别的概率有多大，所以这里的：

第一个节点输出的应该是或者说希望它输出“其它”类的概率；
第二个节点输出的应该是或者说希望它输出猫的概率；
第三个节点输出的应该是或者说希望它输出狗的概率；
第四个节点输出的应该是或者说希望它输出小鸡的概率；

因此这里的输出 $\hat y$ 将是一个 $4 \times 1$ 维向量，它必须输出四个数字，代表四种概率，并且输出中的四个数字加起来应该等于1才对。如果想让网络做到这一点，那么需要用到的标准模型是 Softmax 层，以及输出层来生成输出。

在神经网络的最后一层， $z^{[l]}$ 是最后一层的 $z$ 变量，计算方法是：

$z^{[l]} = W^{[l]}a^{[L-1]} + b^{[l]}$

算出了 $z$ 之后就需要应用 Softmax 激活函数了，这个激活函数对于 Softmax 层而言是有些不同，它的作用是这样的：

首先，计算一个临时变量 $t=e^{z^{[l]}}$ ，这适用于每个元素，而这里的 $z^{[l]}$ ，在我们的例子中， $z^{[l]}$ 是4×1的，四维向量 $t=e^{z^{[l]}}$ ，这是对所有元素求幂；
然后计算输出的 $a^{[l]}$ ，基本上就是向量 $t$ ，但是要做归一化，使和为1，计算公式 $a^{[l]} = \frac{t_{i}}{\sum_{j =1}^{4}t_{i}} = \frac{e^{z^{[l]}}}{\sum_{j =1}^{4}t_{i}}$ 。

你可能不是很懂这个意思，别担心，来看一个例子，详细解释一下上面的公式。

假设算出了 $z^{[l]}$ ， $z^{[l]} = \begin{bmatrix} 5 \\ 2 \\ - 1 \\ 3 \\ \end{bmatrix}$ ，我们要做的就是用上面的方法来计算 $t$ ，所以 $=\begin{bmatrix} e^{5} \\ e^{2} \\ e^{- 1} \\ e^{3} \\ \end{bmatrix}$ ，当然如果按一下计算器的话，就会得到以下值 $\begin{bmatrix} 148.4 \\ 7.4 \\ 0.4 \\ 20.1 \\ \end{bmatrix}$ 。对向量 $t$ 归一化就能得到向量 $a^{[l]}$ ，方法是把 $t$ 的元素都加起来，得到176.3，计算公式是 $a^{[l]} = \frac{t} {176.3}$ ，即可得：

第一个节点，输出 $\frac{e^{5}}{176.3} =0.842$ ，这意味着，这张图片是类0的概率就是84.2%。
第二个节点，输出 $\frac{e^{2}}{176.3} =0.042$ ，这意味着，这张图片是类1的概率就是4.2%。
第三个节点，输出 $\frac{e^{- 1}}{176.3} =0.002$ ，这意味着，这张图片是类2的概率就是0.2%。
最后一个节点，输出 $\frac{e^{3}}{176.3} =0.114$ ，也就是这张图片是类3的概率就是11.4%，也就是小鸡组，对吧？

这就是它属于类0，类1，类2，类3的可能性。

神经网络的输出 $a^{[l]}$ ，也就是 $\hat y$ ，是一个4×1维向量，就是算出来的这四个数字( $\begin{bmatrix} 0.842 \\ 0.042 \\ 0.002 \\ 0.114 \\ \end{bmatrix}$ )，所以这种算法通过向量 $z^{[l]}$ 计算出总和为1的四个概率。

Softmax 分类器还可以代表其它的什么东西么？

举几个例子，假设有两个输入 $x_{1}$ ， $x_{2}$ ，它们直接输入到 Softmax 层，有三四个或者更多的输出节点，输出 $\hat y$ 。如果是一个没有隐藏层的神经网络，就是计算 $z^{[1]} = W^{[1]}x + b^{[1]}$ ，而输出的 $a^{[l]}$ ，或者说 $\hat y$ ， $a^{[l]} = y = g(z^{[1]})$ ，就是 $z^{[1]}$ 的 Softmax 激活函数。

这个例子中（左边图），原始输入只有 $x_{1}$ 和 $x_{2}$ ，一个 $C = 3$ 个输出分类的 Softmax 层能够代表这种类型的决策边界，请注意这是几条线性决策边界，但这使得它能够将数据分到3个类别中。在这张图表中，我们所做的是选择这张图中显示的训练集，用数据的3种输出标签来训练 Softmax 分类器，图中的颜色显示了 Softmax 分类器的输出阈值，输入的着色是基于三种输出中概率最高的那种。因此可以看到这是 logistic 回归的一般形式，有类似线性的决策边界，但有超过两个分类，分类不只有0和1，而是可以是0，1或2。中间图是另一个 Softmax 分类器可以代表的决策边界的例子，用有三个分类的数据集来训练，还有右边图也是。

但是直觉告诉我们，任何两个分类之间的决策边界都是线性的，这就是为什么可以看到，比如黄色和红色分类之间的决策边界是线性边界，紫色和红色之间的也是线性边界，紫色和黄色之间的也是线性决策边界，但它能用这些不同的线性函数来把空间分成三类。

我们来看一下更多分类的例子：

这个例子中（左边图） $C = 4$ ，因此这个绿色分类和 Softmax 仍旧可以代表多种分类之间的这些类型的线性决策边界。另一个例子（中间图）是 $C = 5$ 类，最后一个例子（右边图）是 $C = 6$ ，这显示了 Softmax 分类器在没有隐藏层的情况下能够做到的事情，当然更深的神经网络会有 $x$ ，然后是一些隐藏单元，以及更多隐藏单元等等，因此可以学习更复杂的非线性决策边界，来区分多种不同分类。

2、训练一个 Softmax 分类器

如何学习训练一个使用了 Softmax 层的模型？

回忆之前举的的例子，输出层计算出的 $z^{[l]}$ 如下， $z^{[l]} = \begin{bmatrix} 5 \\ 2 \\ - 1 \\ 3 \\ \end{bmatrix}$ ，输出层的激活函数 $g^{[L]}()$ 是 Softmax 激活函数，那么输出就会是这样的：

简单来说就是归一化，使总和为1，注意到向量 $z$ 中，最大的元素是5，而最大的概率也就是第一种概率，为啥会这样？

这要从头讲起，Softmax 这个名称的来源是与所谓 hardmax 对比，hardmax 会把向量 $z$ 变成这个向量 $\begin{bmatrix} 1 \\ 0 \\ 0 \\ 0 \\ \end{bmatrix}$ ，hardmax 函数会观察 $z$ 的元素，然后在 $z$ 中最大元素的位置放上1，其它位置放上0。

与之相反，Softmax 所做的从 $z$ 到这些概率的映射更为温和，不知道这是不是一个好名字，但至少这就是 softmax 这一名称背后所包含的想法，与 hardmax 正好相反。

有一点没有细讲，但之前已经提到过的，就是 Softmax 回归或 Softmax 激活函数将 logistic 激活函数推广到 $C$ 类，而不仅仅是两类，如果 $C = 2$ ，那么 Softmax 变回了 logistic 回归。

接下来看怎样训练带有 Softmax 输出层的神经网络，具体而言，先定义训练神经网络使会用到的损失函数。举个例子，看看训练集中某个样本的目标输出，真实标签是 $\begin{bmatrix} 0 \\ 1 \\ 0 \\ 0 \\ \end{bmatrix}$ ，这表示这是一张猫的图片，因为它属于类1，现在假设神经网络输出的是 $\hat y$ ， $\hat y$ 是一个包括总和为1的概率的向量， $\begin{bmatrix} 0.3 \\ 0.2 \\ 0.1 \\ 0.4 \\ \end{bmatrix}$ ，总和为1，这就是 $a^{[l]}$ ， $a^{[l]} = y = \begin{bmatrix} 0.3 \\ 0.2 \\ 0.1 \\ 0.4 \\ \end{bmatrix}$ 。所以你可以明显看到对这个样本来说神经网络的表现不佳，这实际上是一只猫，但是猫的概率却只有20%。

那么用什么损失函数来训练这个神经网络？

在 Softmax 分类中，一般用到的损失函数是 $L(\hat y,y ) = - \sum_{j = 1}^{4}{y_{j}log\hat y_{j}}$ ，现在用上面的样本来验证一下，方便更好地理解整个过程。注意在这个样本中 $y_{1} =y_{3} = y_{4} = 0$ ，因为这些都是0，只有 $y_{2} =1$ ，所以如果看这个求和，所有含有值为0的 $y_{j}$ 的项都等于0，最后只剩下 $-y_{2}t{log}\hat y_{2}$ ，因为当按照下标 $j$ 全部加起来，所有的项都为0，除了 $j = 2$ 时，又因为 $y_{2}=1$ ，所以它就等于 $\ log\hat y_{2}$ 。即：

$L\left( \hat y,y \right) = - \sum_{j = 1}^{4}{y_{j}\log \hat y_{j}} = - y_{2}{\ log} \hat y_{2} = - {\ log} \hat y_{2}$

这就意味着，如果学习算法试图将损失函数变小，就是使 $-{\log}\hat y_{2}$ 变小，要想做到这一点，就需要使 $\hat y_{2}$ 尽可能大， $l o g$ 函数虽然是递增的，但是 $- l o g$ 函数是递减的，这就讲得通了。又因为在这个例子中 $x$ 是猫的图片，就需要猫这项输出的概率尽可能地大（ $\begin{bmatrix} 0.3 \\ 0.2 \\ 0.1 \\ 0.4 \\ \end{bmatrix}$ 中第二个元素）。

概括一下，损失函数所做的就是找到训练集中的真实类别，然后试图使该类别相应的概率尽可能地高，如果你熟悉统计学中最大似然估计，这其实就是最大似然估计的一种形式。但如果你不知道那是什么意思，也不用担心，用刚讲过的算法思维也足够理解了。

上面所讲的，是单个训练样本的损失，那么整个训练集的损失 $J$ 又如何呢？也就是设定参数的代价之类的，还有各种形式偏差的代价，还是和之前讲过的一样，你大致也能猜到，就是整个训练集损失的总和，把训练算法对所有训练样本的预测都加起来：

$w^{[1]},b^{[1]},\ldots\ldots) = \frac{1}{m}\sum_{i = 1}^{m}{L( \hat y^{(i)},y^{(i)})}$

因此用梯度下降法，使损失最小化。

最后还有一个实现细节，注意！因为 $C = 4$ ， $y$ 是一个4×1向量，如果向量化，矩阵大写 $Y$ 就是 $\lbrack y^{(1)}\text{}y^{(2)}\ldots\ldots\ y^{\left( m \right)}\rbrack$ ，举个例子，如果上面的样本是第一个训练样本，那么矩阵 $=\begin{bmatrix} 0 & 0 & 1 & \ldots \\ 1 & 0 & 0 & \ldots \\ 0 & 1 & 0 & \ldots \\ 0 & 0 & 0 & \ldots \\ \end{bmatrix}$ ，那么这个矩阵 $Y$ 最终就是一个 $4 \times m$ 维矩阵。

类似的， $\hat{Y} = \lbrack{\hat{y}}^{(1)}{\hat{y}}^{(2)} \ldots \ldots\ {\hat{y}}^{(m)}\rbrack$ ，其实就是 ${\hat{y}}^{(1)}$ （ $a^{[l](1)} = y^{(1)} = \begin{bmatrix} 0.3 \\ 0.2 \\ 0.1 \\ 0.4 \\ \end{bmatrix}$ ），那么 $\hat{Y} = \begin{bmatrix} 0.3 & \ldots \\ 0.2 & \ldots \\ 0.1 & \ldots \\ 0.4 & \ldots \\ \end{bmatrix}$ ， $\hat{Y}$ 本身也是一个 $4 \times m$ 维矩阵。

最后还是来看一下，在有 Softmax 输出层时，如何实现梯度下降法，这个输出层会计算 $z^{[l]}$ ，它是 $C \times 1$ 维的，在上面的例子中是4×1，然后用 Softmax 激活函数来得到 $a^{[l]}$ 或者说 $y$ ，然后又能由此计算出损失。具体操作还是和之前见过的反向传播一样，不懂或者忘记的同学可以去查阅一下前面的笔记。

关于具体如何实现这个函数，下次课会开始使用一种深度学习编程框架，对于这些编程框架，通常只需要专注于把前向传播做对即可，编程框架它自己会弄明白怎样反向传播，这也是为什么很多人被称为调包侠的原因，因为编程框架会帮你搞定导数计算。

给一个 Python 实现 softmax 的小例子，理解理解公式：

# softmax函数，将线性回归值转化为概率的激活函数。
# 输入s要是行向量
def softmax(s):
    return np.exp(s) / np.sum(np.exp(s), axis=1)

参考文章

吴恩达——《神经网络和深度学习》视频课程

深度学习入门笔记（九）自编码器 zhanghui_cuc 深度学习笔记深度学习笔记人工智能
自编码器是一个无监督的应用，它使用反向传播来更新参数，它最终的目标是让输出等于输入。数学上的表达为，f(x)=x，f为自编码器，x为输入数据。自编码器会先将输入数据压缩到一个较低维度的特征，然后利用这个较低维度的特征重现输入的数据，重现后的数据就是自编码器的输出。所以，从本质上来说，自编码器就是一个压缩算法。自编码器由3个部分组成：编码器（Encoder）：用于数据压缩。压缩特征向量（Compre
深度学习入门笔记（八）可以不断思考的模型：RNN与LSTM zhanghui_cuc 深度学习笔记深度学习 rnn 笔记
8.1循环神经网络RNN之前学到的CNN和全连接，模型的输入数据之间是没有关联的，比如图像分类，每次输入的图片与图片之间就没有任何关系，上一张图片的内容不会影响到下一张图片的结果。但在自然语言处理领域，这就成了一个短板。RNN因此出现，它是一类用于处理序列数据的神经网络。其基本单元结构如下自底向上的三个蓝色的节点分别是输入层、隐藏层和输出层。U和V分别是连接两个层的权重矩阵。如果不考虑右边的棕色环
深度学习入门笔记（五）前馈网络与反向传播 zhanghui_cuc 深度学习笔记深度学习笔记人工智能
接着上一节，本节讲解模型自我学习的数学计算过程究竟是怎么样的。5.1前馈网络一个最简单的前馈神经网络如图所示，对于每一个隐藏层，输入对应前一层每一个节点权重乘以节点输出值，输出则是经过激活函数（例如sigmoid函数）计算后的值。在这样的网络中，输入的数据x经过网络的各个节点之后，即可计算出最终的模型结果。这样就完成了一个最基本的前馈网络从输入到输出的计算过程。5.2反向传播在实际工作中这部分的内
深度学习入门笔记（1）——什么是深度学习？ ZRX_GIS 深度学习深度学习数据挖掘机器学习神经网络 pytorch
深度学习入门笔记（1）——什么是深度学习？在很多人眼里，深度学习（DeepLearning）是一个十分高大上的研究手段，它可以模拟人的判断，让数据处理和结果输出具有“人性”，在没接触过的人看来，深度学习简直是“玄学”范畴，网络一通，谁都不爱。但是，在所有人追捧深度学习的同时，对学习这一手段却是望而却步，更有甚者在网上买完“韭菜课”后，原理部分还没看完就不在继续学习。其实，说句实话，深度学习只是被过
深度学习入门笔记（6）—— Logistic Regression cnhwl 深度学习入门笔记深度学习机器学习逻辑回归人工智能 python
对比第三节中的Adaline和LogisticRegression，可以发现它们只有两点不同：1、激活函数，Adaline中的激活函数是恒等函数（线性），而LogisticRegression中的激活函数是Sigmoid函数（非线性）；2、损失函数，Adaline中的损失函数是均方误差，而LogisticRegression中的损失函数则是交叉熵。Sigmoid函数如图所示，其值域为0到1，输入为
深度学习入门笔记（三）常用AI术语 zhanghui_cuc 深度学习笔记人工智能深度学习笔记
本节我们介绍一些深度学习领域常用的术语。训练确定模型中的参数的过程，我们就称为“训练”。Epoch遍历一遍训练数据就叫作“一个Epoch”。训练模型的时候，我们要告诉模型预计训练多少个Epoch，但这个值并不是固定的，因为并没有一个准确的Epoch数能一定能得到一个比较好的模型。我们有一个标准：模型训练的Epoch数必须要让模型达到一个收敛的状态。并且为了模型有更多的选择，我们可以让模型收敛后，再
深度学习入门笔记4 深度神经网络深度学习从入门到放弃深度学习笔记神经网络深度学习人工智能机器学习算法
多层感知器在之前的课程中，我们了解到，感知器（指单层感知器）具有一定的局限——无法解决异或问题，即线性不可分的问题。将多个单层感知器进行组合，就可以得到一个多层感知器（MLP——Multi-LayerPerceptron）结构。多层感知器包含输入层，一个或多个隐藏层以及一个输出层。每层的神经元与下一层进行完全连接。如果网络中包含一个以上的隐层，则称其为深度人工神经网络。说明：通常我们说的神经网络的
深度学习入门笔记：第二章感知机维持好习惯深度学习深度学习笔记人工智能
深度学习入门笔记：第二章感知机笔记来源书籍：《深度学习入门：基于+Python+的理论与实现》文章目录深度学习入门笔记：第二章感知机前言为什么学习感知机2.1感知机是什么2.2简单逻辑电路2.2.1与门2.2.2与非门和或门2.3感知机实现2.3.1简单的实现2.3.2导入权重和偏置2.3.3使用权重和偏置的实现2.4感知机的局限性2.4.1异或门2.4.2线性和非线性2.5多层感知机2.5.1已
深度学习入门笔记（二）神经元激励函数神经网络花落雨微扬神经网络网络深度学习人工智能机器学习
声明：本文内容源自《白话深度学习与tensorflow》高扬卫峥编著一书读书笔记！！！神经网络：神经网络又称为人工神经网络（artificialneutralnetwork,ANN）。神经网络是一种人类由于受到生物神经细胞结构启发而研究出的一种算法体系神经元：如上图所示是一个最简单的神经元，有一个输入，一个输出。我们现在所使用的神经元通常有两个部分组成，一个是“线性模型”，另一个是“激励函数”。假
深度学习入门笔记（二）神经元的结构 zhanghui_cuc 深度学习笔记深度学习笔记人工智能
神经网络的基本单元是神经元，本节我们介绍神经元的结构。2.1神经元一个神经元是由下面5部分组成的：输入：x1,x2,…,xk。权重：w1,w2,…,wk。权重的个数与神经元输入的个数相同。偏移项：可省略。激活函数：一般都会有，根据实际问题也是可以省略的。输出。2.2激活函数激活函数有很多种，不同的激活函数适用于不同的问题。二分类问题我们一般采用Sigmoid函数，多分类问题我们采用Softmax函
深度学习入门笔记（七）卷积神经网络CNN zhanghui_cuc 深度学习笔记深度学习笔记 cnn
我们先来总结一下人类识别物体的方法：定位。这一步对于人眼来说是一个很自然的过程，因为当你去识别图标的时候，你就已经把你的目光放在了图标上。虽然这个行为不是很难，但是很重要。看线条。有没有文字，形状是方的圆的，还是长的短的等等。看细节。纹理、颜色、方向等。卷积神经网络就是对上述过程的程序实现。7.1卷积卷积在卷积神经网络中的主要作用是提取图片的特征，同时保留原来图片中各个像素的相对位置（空间）关系。
深度学习入门笔记（八）实战经验 zhanghui_cuc 深度学习笔记深度学习笔记性能优化
前面几节介绍了很多理论，难免会好奇：理论如何与实战结合呢？本节我们就穿插一点实战经验，来换换脑子~1.显卡warmup进行深度学习训练和推理时，往往第一次运行的耗时比较高，这是因为显卡需要warm-up，就是“热身”，才能发挥出显卡的性能。关于热身，个人理解，显卡开始工作时控制单元需要对资源进行调度，例如分配warp等。这些应该都是在第一次推理的时候进行。类似的，举个栗子，在F1比赛中，每场赛车的
深度学习入门笔记（六）线性回归模型 zhanghui_cuc 深度学习笔记深度学习笔记线性回归
本节，我们用线性回归为例子，回顾一些基本概念6.1相关性相关性的取值范围是-1到1，越接近1或者-1代表越相关，越接近0则越不相关。相关系数大于0称为正相关，小于0称为负相关。假如A与B正相关，则是说A（B）会随着B（A）的增大而增大，减小而减小。假如A与B负相关，则是说A（B）会随着B（A）的增大而减小，减小而增大。皮尔逊系数就是常用的相关性方法。6.2什么是线性回归顾名思义，就是用一种线性关系
深度学习入门笔记（四）函数与优化方法 zhanghui_cuc 深度学习笔记深度学习笔记人工智能
深度学习有三大部分模型表征（包括模型设计、网络表示等）模型评估（上一篇文章提到的准确召回和损失函数等）优化算法（模型如何学习或更新）本节我们就来介绍模型是如何学习或更新的。4.1损失函数模型的学习，实际上就是对参数的学习。参数学习的过程需要一系列的约束，这个约束就是损失函数。以函数曲线拟合为例，对于每一个样本点，真实值和拟合值之间就存在了一个误差，我们可以通过一个公式来表示这个误差：L(x)=(F
深度学习入门笔记（7）—— Multinomial Logistic Regression / Softmax Regression cnhwl 深度学习入门笔记深度学习机器学习人工智能 pytorch 算法
首先介绍一个非常著名的多分类数据集MNIST，也就是0到9的手写数字数据集。每个图像都是28*28，用于Pytorch数据读取的格式是NCHW，即Number、Channel、Height、Weight。读取图像之后，就能看到一个只有单通道的（灰度）图像，实际上就是一行行像素值的组合，用于SoftmaxRegression时输入得是一个向量，所以要将一行行的像素进行拼接，成为一个长的向量。同时，将
计算机视觉深度学习入门笔记-从理论到实战案例 HopES0 计算机视觉深度学习笔记
计算机视觉深度学习入门笔记-从理论到实战案例第一章深度学习概论1.1神经网络基础1.1.1为什么是神经网络？1.1.2为什么神经网络有效？1.1.3神经网络的运行1.2卷积神经网络1.2.1图像——矩阵1.2.2为什么是卷积？1.2.3卷积神经网络的传播1.3VGG模型——传统串行网路的大成之作1.3.1网络结构1.3.2运行过程1.3.3模型的优化第二章神经网络的训练2.1pytorch与面向对
深度学习入门笔记：第一章python入门维持好习惯深度学习 python 深度学习笔记
深度学习入门笔记：第一章python入门笔记来源书籍：《深度学习入门：基于+Python+的理论与实现》文章目录深度学习入门笔记：第一章python入门前言第一章python入门1.1深度学习为什么使用python？1.2python环境1.3python解释器1.3.1算术计算和数据类型1.3.2变量定义1.3.3列表1.3.4字典1.3.5布尔型1.3.6if语句1.3.7for语句1.3.8
TensorFlow深度学习入门笔记（四）一些基本函数长青_changqingqingge01 深度学习深度学习入门 TensorFlow
写在前面学习建议：以下学习过程中有不理解可以简单查找下资料，但不必纠结（比如非得深究某一个函数等），尽量快速的学一遍，不求甚解无妨。多实操代码，不能只复制代码，或者感觉懂了就只看。熟能生巧，我亦无他，唯手熟尔今天介绍一些基础函数及其用法，基本全是代码，一些解释都放在代码的注释里了。直接看代码吧，记得在你本地跑一下看哦代码1#tensor.get_shape()获取tensor的shape，就是维度
深度学习入门笔记（二）梯度下降法 _CyberAngel 深度学习笔记费曼笔记本逻辑回归算法机器学习
如愚见指月，观指不观月。目录上节回顾——logistic回归模型和成本函数梯度下降梯度下降法的执行过程计算图logistic模型中的梯度下降算法上节回顾——logistic回归模型和成本函数是在条件下，的概率。。如果想要让我们的模型更加精确的话，就要让尽可能的接近。所以，我们定义了损失函数和成本函数，用于评估与的接近程度，以及模型的准确率。损失函数是对单个样本来说的。成本函数是对整个数据集来说的。
PyTorch深度学习入门笔记（一）PyTorch环境配置及安装雪天鱼
@[Toc]OS：ubuntu20.04（虚拟机）一、工具安装1.1Anaconda安装首先安装Anaconda,我是去清华大学镜像站下载，版本为Anaconda3-5.2.0-Linux-x86_64.sh参考这篇CSDN博客安装好。安装成功测试：在这里插入图片描述首先创建一个虚拟环境：condacreate-npytorchpython=3.6在这里插入图片描述输入sourceactivate
深度学习入门笔记1--梯度下降之--为什么是负方向--为什么局部下降最快的是负梯度方向闪闪发亮的小星星深度学习入门机器学习人工智能 python
本节目标理解梯度下降的原理，主要围绕以下几个问题展开：梯度下降法的用途？什么是梯度？为什么是负的梯度为什么局部下降最快的方向就是梯度的负方向。需要的知识储备：一级泰勒展开公式向量内积计算公式1.梯度下降算法无论是在线性回归（LinearRegression）、逻辑回归（LogisticRegression）还是神经网络（NeuralNetwork）等等，都会用到梯度下降算法。梯度下降算法主要用于辅
深度学习入门笔记2-从零开始实现线性回归闪闪发亮的小星星深度学习入门深度学习笔记线性回归
该节内容主要摘自李沐大神的动手学AI。sec_linear_scratch在了解线性回归的关键思想之后，我们可以开始通过代码来动手实现线性回归了。在这一节中，(我们将从零开始实现整个方法，包括数据流水线、模型、损失函数和小批量随机梯度下降优化器)。虽然现代的深度学习框架几乎可以自动化地进行所有这些工作，但从零开始实现可以确保我们真正知道自己在做什么。同时，了解更细致的工作原理将方便我们自定义模型、
TensorFlow深度学习入门笔记（三）基本概念与代码2 长青大哥
写在前面学习建议：以下学习过程中有不理解可以简单查找下资料，但不必纠结（比如非得深究某一个函数等），尽量快速的学一遍，不求甚解无妨。多实操代码，不能只复制代码，或者感觉懂了就只看。熟能生巧，我亦无他，唯手熟尔今天突然有个想法，准备把部分英文也贴上。因后期是不可避免的要接触英文(论文之类)，现在就少量穿插在文章中，大家试着读下看。常量Constants与变量Variable前面已经使用过consta
PyTorch深度学习入门笔记（四）TensorBoard的使用雪天鱼深度学习 pytorch 深度学习 python
课程学习笔记，课程链接学习笔记同步发布在我的个人网站上，欢迎来访查看。文章目录一、TensorBoard1.1SummaryWriter1.2add_image()首先安装TensorBoard:pipinstalltensorboard一、TensorBoard1.1SummaryWriterfromtorch.utils.tensorboardimportSummaryWriter从函数介绍可
TensorFlow深度学习入门笔记（四）一些基本函数长青大哥
写在前面学习建议：以下学习过程中有不理解可以简单查找下资料，但不必纠结（比如非得深究某一个函数等），尽量快速的学一遍，不求甚解无妨。多实操代码，不能只复制代码，或者感觉懂了就只看。熟能生巧，我亦无他，唯手熟尔今天介绍一些基础函数及其用法，基本全是代码，一些解释都放在代码的注释里了。直接看代码吧，记得在你本地跑一下看哦代码1#tensor.get_shape()获取tensor的shape，就是维度
深度学习入门笔记 life情怀神经网络机器学习
前言博客内容均是对《深度学习入门—基于Python的理论与实现》一书2-6章的总结。以前也或多或少接触过一些相关知识，但都不成体系，故于此总结,大佬轻喷。文章目录前言感知机神经网络激活函数损失函数神经网络学习中的技巧参数更新方法权重的初始化抑制过拟合的方法超参数的选择感知机信号特征：感知机有多输入，而仅一输出。以两输入一输出为例，其数学模型如下：y={0(ω1x1+ω2x2)+b⩽01(ω1x1+
PyTorch深度学习入门笔记（十一）神经网络池化层雪天鱼深度学习 pytorch 深度学习神经网络
我是雪天鱼，一名FPGA爱好者，研究方向是FPGA架构探索和数字IC设计。关注公众号【集成电路设计教程】，获取更多学习资料，并拉你进“IC设计交流群”。QQIC设计&FPGA&DL交流群群号：866169462。课程学习笔记，课程链接文章目录一、MaxPool2d简介二、代码演示一、MaxPool2d简介这一节讲解池化层。还是通过Pytorch官方文档来进行学习：打开torch.nn的poolin
PyTorch深度学习入门笔记（九）卷积操作雪天鱼深度学习 pytorch 深度学习 python
课程学习笔记，课程链接学习笔记同步发布在我的个人网站上，欢迎来访查看。Pytorch的nn模块有ConvolutionLayers,有3种卷积操作，nn.Conv1d、nn.Conv2d、nn.Conv3d分别对应一维二维以及三维：注：在Pytorch官网文档左侧，有torch.nn和torch.nn.fuctional，torch.nn是对torch.nn.fuctional进行了一个封装，方便
深度学习入门笔记系列 ( 四 ) weixin_34015336 人工智能 python 数据结构与算法
基于tensorflow的回归代码实现本系列将分为8篇。今天是第四篇。总是理论有些枯燥，今天来动手基于TF框架实现两个简单的案例，以小搏大熟悉一下整个过程。整体来说，训练神经网络分为3个步骤：定义神经网络的结构和前向传播的输出结果定义损失函数以及选择反向传播优化的算法生成会话（tf.Session)并在训练数据上反复运行反向传播优化算法现以直线拟合和回归拟合两个简单案例来熟悉以上3个步骤。1.直线
PyTorch深度学习入门笔记（六）torchvision 中的数据集使用雪天鱼深度学习 pytorch 深度学习 python
课程学习笔记，课程链接学习笔记同步发布在我的个人网站上，欢迎来访查看。文章目录一、torchvision二、CIFAR数据集2.1下载数据集2.2数据集的使用2.3transforms的使用2.3其他数据集的使用目的：如何把数据集和Transforms结合在一起介绍科研中使用的一些标准数据集和下载、查看、使用方法一、torchvisionpytorch官网：https://pytorch.org/
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

深度学习入门笔记（十四）：Softmax

欢迎关注WX公众号：【程序员管小亮】

专栏——深度学习入门笔记

声明

文章目录

深度学习入门笔记（十四）：Softmax

1、Softmax 回归

2、训练一个 Softmax 分类器

推荐阅读

参考文章

你可能感兴趣的:(#,深度学习入门笔记❤️)