绝对是谨慎提交的昵称

深度学习1：神经网络基础&前馈神经网络Feedforward Neural Network（基于Python MXNet.Gluon框架）

神经网络背景

人工神经网络与生物神经元类似，由多个节点（人工神经元）互相连接而成，可以用来对数据之间的复杂关系进行建模。不同节点之间的连接被赋予了不同的权重，每个权重代表了一个节点对另一个节点的影响大小。每个节点代表一种特定函数，来自其他节点的信息经过其相应的权重综合计算，输入到一个激活函数中并得到一个新的活性值（兴奋或抑制）。
从系统观点看，人工神经元网络是由大量神经元通过极其丰富和完善的连接而构成的自适应非线性动态系统。
虽然我们可以比较容易地构造一个人工神经网络，但是如何让人工神经网络具有学习能力并不是一件容易的事情。早期的神经网络模型并不具备学习能力。

首个可学习的人工神经网络是赫布网络，采用一种基于赫布规则的无监督学习方法。
感知器是最早的具有机器学习思想的神经网络，但其学习方法无法扩展到多层的神经网络上。
直到 1980 年左右，反向传播算法才有效地解决了多层神经网络的学习问题，并成为最为流行的神经网络学习算法。

人工神经网络诞生之初并不是用来解决机器学习问题。由于人工神经网络可以看作是一个通用的函数逼近器，一个两层的神经网络可以逼近任意的函数，因此人工神经网络可以看作是一个可学习的函数，并应用到机器学习中。理论上，只要有足够的训练数据和神经元数量，人工神经网络就可以学到很多复杂的函数。我们可以把一个人工神经网络塑造复杂函数的能力称为网络容量(Net-work Capacity)，与可以被储存在网络中的信息的复杂度以及数量相关¹。

常用的深度学习框架

（1）Caffe：由加州大学伯克利分校开发的针对卷积神经网络的计算框架，主要用于计算机视觉。Caffe用C++和Python实现，但可以通过配置文件来实现所要的网络结构，不需要编码。
（2）TensorFlow：由 Google 公司开发的深度学习框架，可以在任意具备 CPU 或者 GPU 的设备上运行。TensorFlow 的计算过程使用数据流图来表示。TensorFlow 的名字来源于其计算过程中的操作对象为多维数组，即张量（Tensor）。TensorFlow 1.0 版本采用静态计算图，2.0 版本之后也支持动态计算图。
（3）PyTorch：由 Facebook、NVIDIA、Twitter 等公司开发维护的深度学习框架，其前身为Lua语言的Torch。PyTorch也是基于动态计算图的框架，在需要动态改变神经网络结构的任务中有着明显的优势。
（4）MXNet：由亚马逊、华盛顿大学和卡内基梅隆大学等开发维护的深度学习框架。MXNet支持混合使用符号和命令式编程来最大化效率和生产率，并可以有效地扩展到多个 GPU 和多台机器。
本文使用的正是MXNet/Gluon框架。

作为深度学习的基础，首先来了解一下机器学习的主要内容。

机器学习的三个基本要素

模型

假设空间 $\mathcal{F}$ 通常为一个参数化的函数族

$\mathcal{F}=\{f(x;\theta)|\theta \in \mathbb{R}^D\}$

其中 $f(x;\theta)$ 是参数为 $\theta$ 的函数，也称为模型（Model），D为参数的数量。
然后通过观测假设空间在训练集 $\mathcal{D}$ 上的特性，从中选择出一个理想的假设（模型） $f^* \in \mathcal{F}$ 。
常见的模型可以分为线性和非线性两种。神经网络作为一类非线性的机器学习模型，可以更好地实现输入和输出之间的映射。

学习准则

一个好的模型 $f(\textbf{x},\theta^*)$ 应该在所有 $(\textbf{x},y)$ 的可能取值上都与真实映射函数一致，或与真实条件概率分布一致。
模型 $f(\textbf{x},\theta)$ 的好坏可以通过期望风险（Expected Risk） $\mathcal{R}(\theta)$ 来衡量，其定义为

$\mathcal{R}(\theta)=\mathbb{E}_{(\textbf{x},y) \sim p_r(y|\textbf{x})}[\mathcal{L}(y,f(\textbf{x};\theta))]$

其中 $p_r(y|\textbf{x})$ 为真实的数据分布， $\mathcal{L}(y,f(\textbf{x};\theta))$ 为损失函数，用来量化两个变量之间的差异。

损失函数

0-1损失函数 0-1 Loss Function

$\mathcal{L}(y,f(\textbf{x};\theta))= \begin{cases} 0 & \text{if } y = f(\textbf{x};\theta) \\ 1 & \text{if } y \neq f(\textbf{x};\theta) \end{cases} = I(y \neq f(\textbf{x};\theta))$

虽然0-1损失函数能够客观地评价模型的好坏，但其缺点是数学性质不是很好：不连续且导数为0，难以优化，因此经常用连续可微的损失函数替代。

平方损失函数 Quadratic Loss Function

$\mathcal{L}(y,f(\textbf{x};\theta))= \frac{1}{2}(y - f(\textbf{x};\theta))^2$
常用于预测标签y为实数值的任务中（回归问题），不适用于分类问题。

交叉熵损失函数 Cross-Entropy Loss Function

假设样本标签 $y\in \{1,2,\dots,C\}$ 为离散类别，模型 $f(\textbf{x};\theta) \in [0,1]^C$ 的输出为类别标签的条件概率分布（基于训练集样本自变量，样本因变量/标签取到第c类的条件概率），即
$p(y=c|\textbf{x};\theta)=f_c(\textbf{x};\theta)$
其中 $f(\textbf{x};\theta)$ 是一个C维向量，满足：

$f_c(\textbf{x};\theta) \in [0,1]$ ， $f(\textbf{x};\theta)$ 的第c维元素取值在[0,1]之间；
$\sum_{c=1}^C f_c(\textbf{x};\theta) =1$ 。

我们可以用一个C维的one-hot向量（独热编码） $\textbf{y}$ 来表示样本标签 —— 假设样本的标签为 $k\in \{1,2,\dots,C\}$ ，那么标签向量 $\textbf{y}$ 只有第k维的值为1，其余维度的元素都为0。
对于训练集中的一个样本，标签的真实分布 $\textbf{y}$ 和模型预测分布 $f(\textbf{x};\theta)$ 之间的交叉熵定义为

$\begin{aligned} \mathcal{L}(\textbf{y},f(\textbf{x};\theta)) = & \ \textbf{y}^Tlog f(\textbf{x};\theta) \\ = &-\sum_{c=1}^C y_c \ log f_c(\textbf{x};\theta) \\ = &-log f_y(\textbf{x};\theta) \end{aligned}$

其中 $y_c$ 为标签向量第c维的元素值， $f_c(\textbf{x};\theta)$ 同理。第三个等式成立的理由是： $\textbf{y}$ 是one-hot向量，其中 $f_y(\textbf{x};\theta)$ 可以看作真实类别y的似然函数。因此，交叉熵损失函数也就是负对数似然函数。

Hinge损失函数 Hinge Loss Function

对于二分类问题，假设y的取值为 ${-1,+1\}$ ， $f(\textbf{x};\theta) \in \mathbb{R}$ 。
$\mathcal{L}(\textbf{y},f(\textbf{x};\theta))=max(0,1-yf(\textbf{x};\theta))$

风险最小化准则

一个好的模型 $f(\textbf{x};\theta)$ 应当有一个比较小的期望错误，但由于不知道真实的数据分布和映射函数，实际上无法计算其期望风险 $\mathcal{R}(\theta)$ 。给定一个训练集 $\mathcal{D}=\{(x^{(n)},y^{(n)})\}_{n=1}^N$ ，我们可以计算的是经验风险（Empirical Risk），即在训练集上的平均损失：

${\mathcal{R}}_{\mathcal{D}}^{emp}(\theta)=\frac{1}{N}\sum_{n=1}^N\mathcal{L}(y^{(n)},f(x^{(n)};\theta))$

因此，一个切实可行的学习准则是找到一组参数 $\theta^*$ 是的经验风险最小，即

$\theta^*= \mathop{\arg\min}_{\theta}{\mathcal{R}}_{\mathcal{D}}^{emp}(\theta)$

这就是经验风险最小化（Empirical Risk Minimization，ERM）准则。

过拟合：经验风险最小化原则很容易导致模型在训练集上错误率很低，但是在未知数据上错误率很高。这就是所谓的过拟合(Overfitting)。

过拟合问题往往是由于训练数据少和噪声以及模型能力强等原因造成的。为了解决过拟合问题，一般在经验风险最小化的基础上再引入参数的正则化（Regularization）来限制模型能力，使其不要过度地最小化经验风险。这种准则就是结构风险最小化（Structure Risk Minimization，SRM）准则：

$\begin{aligned} \theta^* = & \mathop{\arg\min}_{\theta} {\mathcal{R}}_{\mathcal{D}}^{emp}(\theta) \ + \ \frac{1}{2} \lambda ||\theta||^2\\ = & \mathop{\arg\min}_{\theta} \frac{1}{N}\sum_{n=1}^N\mathcal{L}(y^{(n)},f(x^{(n)};\theta)) \ + \ \frac{1}{2} \lambda ||\theta||^2 \end{aligned}$

其中后面一项是正则化项，用来减少参数空间，避免过拟合；用来控制正则化的强度。

优化算法

在确定了训练集、假设空间 F 以及学习准则后，如何找到最优的模型 $f(\textbf{x};\theta^*)$ 就成了一个最优化（Optimization）问题。
机器学习的训练过程其实就是最优化问题的求解过程。

梯度下降法

在机器学习中，最简单、常用的优化算法就是梯度下降法，即首先初始化参数 $\theta_0$ ，然后按下面的迭代公式来计算训练集上风险函数的最小值：

$\begin{aligned} \theta_{t+1} = & \theta_{t}\ - \ \alpha\frac{\partial {\mathcal{R}}_{\mathcal{D}(\theta)}}{\partial \theta}\\ = & \theta_{t}\ - \ \alpha\frac{1}{N}\sum_{n=1}^N \frac{\mathcal{L}(y^{(n)},f(x^{(n)};\theta))}{\partial \theta} \end{aligned}$

其中为第次迭代时的参数值，为搜索步长。在机器学习中，一般称为学习率（Learning Rate）。

提前停止

针对梯度下降的优化算法，除了加正则化项之外，还可以通过提前停止来防止过拟合。
在梯度下降训练的过程中，由于过拟合的原因，在训练样本上收敛的参数，并不一定在测试集上最优。因此，除了训练集和测试集之外，有时也会使用一个验证集（Validation Set）来进行模型选择，测试模型在验证集上是否最优。在每次迭代时，把新得到的模型(;)在验证集上进行测试，并计算错误率。
如果在验证集上的错误率不再下降，就停止迭代。这种策略叫提前停止（Early Stop）。如果没有验证集，可以在训练集上划分出一个小比例的子集作为验证集。下图给出了提前停止的示例。

随机梯度下降法

在机器学习中，我们假设每个样本都是独立同分布地从真实数据分布中随机抽取出来的，真正的优化目标是期望风险最小。

批量梯度下降法（BatchGradientDescent，BGD）相当于是从真实数据分布中采集个样本，每次迭代时需要计算每个样本上损失函数的梯度并求和，并由它们计算出来的经验风险的梯度来近似期望风险的梯度。当训练集中的样本数量很大时，空间复杂度比较高，每次迭代的计算开销很大。因为BGD在每次迭代时都需要计算 $\frac{1}{N}\sum_{n=1}^N \frac{\mathcal{L}(y^{(n)},f(x^{(n)};\theta))}{\partial \theta}$ 。

批量梯度下降是，求出某一个维度中所有的数据，取个平均来当做每一次梯度下降的step。这样做虽然准确，但是每次要计算一个维度的所有数据的梯度，花费资源较大。²

随机梯度下降法（StochasticGradientDescent，SGD）为了减少每次迭代的计算复杂度，我们也可以在每次迭代时只采集一个样本，计算这个样本损失函数的梯度并更新参数。当经过足够次数的迭代时，随机梯度下降也可以收敛到局部最优解。

随机梯度下降的思想：每次只随机取一个维度中的一条数据求梯度，来当做这个维度梯度下降的step。²

M-P神经元模型

神经网络中最简单的是神经元模型，最简单的神经元模型既是 M-P神经元模型。
假设一个神经元接收个输入 $x_1,x_2,\dots,x_D$ ，令向量 $x=[x_1,x_2,\dots,x_D]$ 来表示这组输入，并用净输入（Net Input） ∈ R 表示一个神经元所获得的输入信号的加权和

$z=\sum_{d=1}^D w_dx_d+b=\textbf{w}^T\textbf{x}+b$

净输入在经过一个非线性函数 $f$ 后，得到神经元的活性值（Activation） $a$ ，
$a = f (z)$

激活函数

激活函数性质：
（1）连续并可导（允许少数点上不可导）的非线性函数. 可导的激活函数可以直接利用数值优化的方法来学习网络参数；
（2）激活函数及其导函数要尽可能的简单，有利于提高网络计算效率；
（3）激活函数的导函数的值域要在一个合适的区间内，不能太大也不能太小，否则会影响训练的效率和稳定性。

常见激活函数³

理想中的激活函数是阶跃函数这样，它将输入值映射为输出值“0”或“1”，显然“1”对应于神经元兴奋，”0”对应于神经元抑制。然而，阶跃函数具有不连续、不光滑的不友好性质，因此实际常用Sigmoid型函数作为激活函数。

Sigmoid型函数

当输入值在 0 附近时，Sigmoid 型函数近似为线性函数；当输入值靠近两端时，对输入进行抑制。输入越小，越接近于 0；输入越大，越接近于 1。

因为 Logistic 函数的性质，使得装备了 Logistic 激活函数的神经元具有以下两点性质：
（1）其输出直接可以看作是概率分布，使得神经网络可以更好地和统计学习模型进行结合；
（2）其可以看作是一个软性门（Soft Gate），用来控制其他神经元输出信息的数量。

Tanh函数的输出是零中心化的（Zero-Centered），而Logistic函数的输出恒大于0。非零中心化的输出会使得其后一层的神经元的输入发生偏置偏移（Bias Shift），并进一步使得梯度下降的收敛速度变慢。

ReLU型函数

ReLU型函数有一系列，再次不再赘述，详见：邱锡鹏《神经网络与深度学习》。

网络结构

前馈网络

前馈网络中各个神经元按接收信息的先后分为不同的组。每一组可以看作一个神经层。每一层中的神经元接收前一层神经元的输出，并输出到下一层神经元。整个网络中的信息是朝一个方向传播，没有反向的信息传播，可以用一个有向无环路图表示。
前馈网络包括全连接前馈网络和卷积神经网络等。
前馈网络可以看作一个函数，通过简单非线性函数的多次复合，实现输入空间到输出空间的复杂映射。这种网络结构简单，易于实现。

记忆网络

记忆网络，也称为反馈网络，网络中的神经元不但可以接收其他神经元的信息，也可以接收自己的历史信息。和前馈网络相比，记忆网络中的神经元具有记忆功能，在不同的时刻具有不同的状态。记忆神经网络中的信息传播可以是单向或双向传递，因此可用一个有向循环图或无向图来表示. 记忆网络包括循环神经网络、Hopfield 网络、玻尔兹曼机、受限玻尔兹曼机等。
记忆网络可以看作一个程序，具有更强的计算和记忆能力。

图网络

图网络是定义在图结构数据上的神经网络。图中每个节点都由一个或一组神经元构成。节点之间的连接可以是有向的，也可以是无向的。每个节点可以收到来自相邻节点或自身的信息。

全连接前馈神经网络

令 $a^{(0)}=x$ ，前馈神经网络通过不断迭代下面公式进行信息传播:

$z^{(l)}=W^{(l)}a^{(l-1)}+b^{(l)}$
$a^{(l)}=f_l(z^{(l)})$

首先根据第l-1层神经元的活性值 $a^{(l-1)}$ 计算出第l层神经元的净活性值/输入值 $z^{(l)}$ ，然后经过一个激活函数得到第l层神经元的活性值 $a^{(l)}$ 。整个传递过程为：

=(0) →(1) →(1) →(2) →⋯→(−1) →() →() =(;,))

通用近似定理

通用近似定理只是说明了神经网络的计算能力可以去近似一个给定的连续函数，但并没有给出如何找到这样一个网络，以及是否是最优的。此外，当应用到机器学习时，真实的映射函数并不知道，一般是通过经验风险最小化和正则化来进行参数学习。因为神经网络的强大能力，反而容易在训练集上过拟合。

应用到机器学习

根据通用近似定理，神经网络在某种程度上可以作为一个“万能”函数来使用，可以用来进行复杂的特征转换，或逼近一个复杂的条件分布。

参数学习

给定一个训练集 $\mathcal{D}=\{(x^{(n)},y^{(n)})\}_{n=1}^N$ ，将每个样本 $x^{(n)}$ 输入给前馈神经网络,得到网络输出为 $\hat{y}^{(n)}$ ，其在数据集上的结构化风险函数为:

$\mathcal{R}(W,b)= \frac{1}{N}\sum_{n=1}^N\mathcal{L}(y^{(n)},\hat{y}^{(n)}) \ + \ \frac{1}{2} \lambda ||W||^2$

其中和分别表示网络中所有的权重矩阵和偏置向量； $W||^2$ 是正则化项，用来防止过拟合； > 0 为超参数。越大，越接近于 0。 $W||^2$ 一般用 $F r o b e n i u s$ 范数：

$||W||^2=\sum_{l=1}^L\sum_{i=1}^{M_l}\sum_{j=1}^{M_{l-1}}（w_{ij}^{(l)}）^2$

有了学习准则和训练样本，网络参数可以通过梯度下降法来进行学习。在梯度下降方法的每次迭代中，第层的参数 $W^{(l)}$ 和 $b^{(l)}$ 参数更新方式为：

反向传播算法/误差逆传播算法 BackPropagation（BP）³

BP算法的含义是：第层的一个神经元的误差项（或敏感性）是所有与该神经元相连的第 + 1 层的神经元的误差项的权重和。然后，再乘上该神经元激活函数的梯度。
给定训练集 $\mathcal{D}=\{(\textbf{x},\textbf{y}_1),(\textbf{x}_2,\textbf{y}_2),\dots,(\textbf{x}_N,\textbf{y}_N)\},\textbf{x}_i\in\mathbb{R}^d,\textbf{y}_i\in\mathbb{R}^l$ ，即训练集中样本自变量是 $d$ 维的，因变量是 $l$ 维的。为便于讨论，考虑拥有 $d$ 个输入神经元、 $l$ 个输出神经元的单层前馈神经网络。

BP算法的目标是是要最小化训练集上的累积误差：

$E=\frac{1}{N}\sum_{n=1}^NE_n$

每个样本的均方误差：

$E_n=\frac{1}{2}\sum_{j=1}^l (\hat{y}_j^n-y_j^n)^2$

其中 $E_n$ 为训练集上第n个样本产生的误差， $\hat{y}_j^n$ 是第n个样本上通过神经网络算出来的第 $j$ 个输出值， $y_j^n$ 是第n个样本的因变量上 $j$ 维元素值。
以下例子，考虑自变量和因变量均为2维的训练集中的一个样本，通过实际计算来解释在这个样本上的BP算法⁴。

这边目标是总误差最小化。

学习率 $\eta$ 控制着算法每一轮迭代中的更新步长，若太大容易震荡，若太小则收敛速度又太小。

使用误差反向传播算法的前馈神经网络训练过程可以分为以下三步：
(1) 前馈计算每一层的净输入和激活值，直到最后一层；
(2) 反向传播计算每一层的误差项 ()；
(3) 计算每一层参数的偏导数，并更新参数。

自动梯度计算

自动计算梯度的方法可以分为以下三类：数值微分、符号微分和自动微分。

自动微分 Automatic Differentiation（AD）

自动微分是一种可以对一个(程序)函数进行计算导数的方法。
自动微分的基本原理是所有的数值计算可以分解为一些基本操作，包含 +, −, ×, / 和一些初等函数 exp, log, sin, cos 等，然后利用链式法则来自动计算一个复合函数的梯度。

按照计算导数的顺序，自动微分可以分为两种模式：前向模式和反向模式。反向模式和反向传播的计算梯度的方式相同。

静态计算图和动态计算图

计算图按构建方式可以分为静态计算图和动态计算图。

静态计算图是在编译时构建计算图，计算图构建好之后在程序运行时不能改变，而动态计算图是在程序运行时动态构建。
两种构建方式各有优缺点。静态计算图在构建时可以进行优化，并行能力强，但灵活性比较差。动态计算图则不容易优化，当不同输入的网络结构不一致时，难以并行计算，但是灵活性比较高。

优化问题

神经网络的参数学习比线性模型要更加困难，主要原因有两点:(1)非凸优化问题和(2)梯度消失问题。

非凸优化问题

神经网络的优化问题是一个非凸优化问题。

梯度消失问题

由于Sigmoid型函数的饱和性，饱和区的导数更是接近于0。这样，误差经过每一层传递都会不断衰减。当网络层数很深时，梯度就会不停衰减，甚至消梯度消失问题在过去失，使得整个网络很难训练。这就是所谓的梯度消失问题（Vanishing Gradient Problem），也称为梯度弥散问题。

代码

代码源自于《动手学习深度学习》⁵。MXNet/Gluon框架安装详见：http://zh.gluon.ai/chapter_prerequisite/install.html

使用数据集简介：Fashion-MNIST

Fashion-MNIST是一个多分类图像数据集。图像分类数据集中最常用的是手写数字识别数据集MNIST 。但大部分模型在MNIST上的分类精度都超过了95%。为了更直观地观察算法之间的差异，我们将使用一个图像内容更加复杂的数据集Fashion-MNIST 。

Fashion-MNIST 是一个替代 MNIST 手写数字集的图像数据集。它是由 Zalando（一家德国的时尚科技公司）旗下的研究部门提供。其涵盖了来自 10 种类别的共 7 万个不同商品的正面图片。FashionMNIST 的大小、格式和训练集 / 测试集划分与原始的 MNIST 完全一致。60000 / 10000 的训练集 / 测试集数据划分，28x28 的灰度图片。

获取数据集

首先导入需要的包或模块。

%matplotlib inline 
import sys
import mxnet
from mxnet import gluon, init, nd, autograd
from mxnet.gluon import data as gdata
import d2lzh as d2l
from mxnet.gluon import loss as gloss, nn
import time
import random
import numpy as np

是在使用jupyter notebook 或者 jupyter qtconsole的时候，才会经常用到%matplotlib；而%matplotlib具体作用是当你调用matplotlib.pyplot的绘图函数plot进行绘图的时候，或者生成一个figure画布的时候，可以直接在你的python console里面生成图像。

下面，我们通过Gluon的data包来下载这个数据集。第一次调用时会自动从网上获取数据。我们通过参数train来指定获取训练数据集（train = True）或测试数据集（train = False）。测试数据集也叫测试集（testing set），只用来评价模型的表现，并不用来训练模型。

查看 mxnet.gluon 中的数据集，我们取出 FashionMNIST。

print(dir(gdata.vision))

['CIFAR10', 'CIFAR100', 'FashionMNIST', 'ImageFolderDataset', 'ImageRecordDataset', 'MNIST', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__', 'datasets', 'transforms']

划分训练集和测试集：

mnist_train = gdata.vision.FashionMNIST(train=True)
mnist_test = gdata.vision.FashionMNIST(train=False)

len(mnist_train), len(mnist_test) 
#训练集有60000个cases，测试集有10000个cases

(60000, 10000)

我们可以通过方括号[]来访问任意一个样本。

feature, label = mnist_train[0]
# 下面获取第一个样本的图像和标签
feature.shape, feature.dtype 
# 这两个函数都是numpy中的，shape是查看feature的形状，dtype是返回数据元素的数据类型

((28, 28, 1), numpy.uint8)

变量feature对应高和宽均为28像素的图像。每个像素的数值为0到255之间8位无符号整数（uint8）。它使用三维的NDArray存储。其中的最后一维是通道数。因为数据集中是灰度图像，所以通道数为1。为了表述简洁，我们将高和宽分别为 $h$ 和 $w$ 像素的图像的形状记为 $\times w$ 或（h，w）。
如果是彩色图像，通道数应为3，对应的就是颜色的RGB三个通道。

print(feature[:,0]) # 查看第1列

[[  0]
 [  0]
 [  0]
 [  0]
 [  0]
 [  0]
 [  0]
 [  1]
 [  0]
 [  0]
 [  0]
 [  1]
 [  0]
 [  0]
 [  0]
 [  0]
 [  0]
 [ 52]
 [118]
 [171]
 [ 39]
 [  0]
 [  2]
 [  0]
 [  0]
 [  0]
 [  0]
 [  0]]
<NDArray 28x1 @cpu(0)>

print(feature[0,:]) # 查看第1行

[[0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]]
<NDArray 28x1 @cpu(0)>

图像的标签使用NumPy的标量表示。它的类型为32位整数（int32）。

label, type(label), label.dtype

Fashion-MNIST中一共包括了10个类别，分别为t-shirt（T恤）、trouser（裤子）、pullover（套衫）、dress（连衣裙）、coat（外套）、sandal（凉鞋）、shirt（衬衫）、sneaker（运动鞋）、bag（包）和ankle boot（短靴）。

show_fashion_mnist函数可以将数值标签转成相应的文本标签。

# 本函数已保存在d2lzh包中方便以后使用
def get_fashion_mnist_labels(labels):
    text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat', 'sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']
    return [text_labels[int(i)] for i in labels]

get_fashion_mnist_labels函数可以在一行里画出多张图像和对应标签的函数。

# 本函数已保存在d2lzh包中方便以后使用
def show_fashion_mnist(images, labels):
    d2l.use_svg_display()
    # 这里的_表示我们忽略（不使用）的变量
    _, figs = d2l.plt.subplots(1, len(images), figsize=(12, 12))
    for f, img, lbl in zip(figs, images, labels):
        f.imshow(img.reshape((28, 28)).asnumpy())
        f.set_title(lbl)
        f.axes.get_xaxis().set_visible(False)
        f.axes.get_yaxis().set_visible(False)

现在，我们看一下训练数据集中前9个样本的图像内容和文本标签。

X, y = mnist_train[0:9]
print(y) 
# y的取值为0-9，对应10个类别。[2 9 6 0 3 4 4 5 4]根据get_fashion_mnist_labels函数分别对应'pullover'，'ankle boot'，etc.
d2l.show_fashion_mnist(X, d2l.get_fashion_mnist_labels(y))

读取小批量

我们将在训练数据集上训练模型，并将训练好的模型在测试数据集上评价模型的表现。虽然我们可以通过yield来定义读取小批量数据样本的函数，但为了代码简洁，这里我们直接创建DataLoader实例。该实例每次读取一个样本数为batch_size的小批量数据。这里的批量大小batch_size是一个超参数。

在实践中，数据读取经常是训练的性能瓶颈，特别当模型较简单或者计算硬件性能较高时。Gluon的DataLoader中一个很方便的功能是允许使用多进程来加速数据读取（暂不支持Windows操作系统）。这里我们通过参数num_workers来设置4个进程读取数据。

此外，我们通过ToTensor实例将图像数据从uint8格式变换成32位浮点数格式，并除以255使得所有像素的数值均在0到1之间。ToTensor实例还将图像通道从最后一维移到最前一维来方便之后介绍的卷积神经网络计算。

通过数据集的transform_first函数，我们将ToTensor的变换应用在每个数据样本（图像和标签）的第一个元素，即图像之上。

batch_size = 256 # 批量大小
transformer = gdata.vision.transforms.ToTensor()
if sys.platform.startswith('win'):
    num_workers = 0  # 0表示不用额外的进程来加速读取数据
else:
    num_workers = 4 # 这里我们通过参数`num_workers`来设置4个进程读取数据。
    
    # DataLoader中一个很方便的功能是允许使用多进程来加速数据读取
train_iter = gdata.DataLoader(mnist_train.transform_first(transformer), 
                              batch_size, shuffle=True,
                              num_workers=num_workers)
test_iter = gdata.DataLoader(mnist_test.transform_first(transformer),
                             batch_size, shuffle=False,
                             num_workers=num_workers)

我们将获取并读取Fashion-MNIST数据集的逻辑封装在d2lzh.load_data_fashion_mnist函数中供后面调用。该函数将返回train_iter和test_iter两个变量。

最后我们查看读取一遍训练数据需要的时间。

start = time.time()
for X, y in train_iter:
    continue
'%.2f sec' % (time.time() - start)

'1.13 sec'

定义“分批量读取fashion_mnist数据的函数”：load_data_fashion_mnist2

def load_data_fashion_mnist2(batch_size, resize=None):
    """Download the fashion mnist dataset and then load into memory."""
    #root = os.path.expanduser(root)
    transformer = []
    if resize:
        transformer += [gdata.vision.transforms.Resize(resize)]
    transformer += [gdata.vision.transforms.ToTensor()]
    transformer = gdata.vision.transforms.Compose(transformer) 

    mnist_train = gdata.vision.FashionMNIST(train=True)
    mnist_test = gdata.vision.FashionMNIST(train=False)
    if sys.platform.startswith('win'):
        num_workers = 0  # 0表示不用额外的进程来加速读取数据
    else:
        num_workers = 4

    train_iter = gdata.DataLoader(mnist_train.transform_first(transformer), 
    # 对数据预处理，具体情况可参看3.5.2节的说明
                                  batch_size, shuffle=False, 
                                  # 为了后面重现建模结果，这里设置shuffle=False；实际项目中可以设置shuffle=True
                                  num_workers=num_workers)
    test_iter = gdata.DataLoader(mnist_test.transform_first(transformer),
                                 batch_size, shuffle=False,
                                 num_workers=num_workers)
    return train_iter, test_iter

前馈神经网络 FNN

下面开始建立前馈神经网络模型，先读取和预处理数据。设置批量大小为256，即在一次模型参数更新中只使用256个样本。

batch_size = 256 # 设置批量大小为256，即在一次模型参数更新中只使用256个样本

train_iter, test_iter = load_data_fashion_mnist2(batch_size) 
# 这里又要下载数据(第1次运行时)
# 调用函数load_data_fashion_mnist2，该函数中含有Fashion-MNIST数据集的逻辑

大家要注意，这里获得的数据与上面的mnist_train和mnist_test已不同，它包含了数据预处理，特别是对输入标准化处理（除以255使得所有像素的数值均在0到1之间）。

定义仅有输出层的模型

第一个简单网络（建立一个输出层为10个神经元的神经网络）:

net = nn.Sequential()
net.add(nn.Dense(10)) 
# 建立一个输出层为10个神经元的神经网络（无隐藏层）

定义损失函数

为了得到更好的数值稳定性，我们直接使用Gluon提供的包括softmax运算和交叉熵损失计算的函数。

loss = gloss.SoftmaxCrossEntropyLoss() # 采用交叉熵作为损失函数

训练模型

训练多层感知机的步骤直接调用d2lzh包中的train_ch3函数。我们在这里设超参数迭代周期数为5，学习率为0.1。

num_epochs = 5 # 设置迭代周期epoch为5，即遍历整个训练集训练模型参数5次
mxnet.random.seed(0) 
# 固定随机数种子，使结果可复现
# 试验中发现np.random.seed(0)固定随机数种子，发现每次运行结果还是不一样
net.initialize(init.Normal(sigma=0.01)) 
# 初始化：以均值为0、标准差为0.01的正态分布随机数作为初始的网络系数
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': 0.1}) 
# net.collect_params()是网络的权重和偏置参数
# 使用学习率为0.1的小批量随机梯度下降(sgd)作为优化算法

# 训练模型时长
start = time.time() # 记录起始时刻
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, None, None, trainer)
'%.2f sec' % (time.time() - start) # 训练模型时间

epoch 1, loss 0.7895, train acc 0.747, test acc 0.803
epoch 2, loss 0.5738, train acc 0.811, test acc 0.819
epoch 3, loss 0.5290, train acc 0.823, test acc 0.827
epoch 4, loss 0.5049, train acc 0.830, test acc 0.833
epoch 5, loss 0.4891, train acc 0.834, test acc 0.837

'6.92 sec'

预测效果

for X, y in test_iter:
    break
# 预测
true_labels = d2l.get_fashion_mnist_labels(y.asnumpy()) 
# 获得真实标签，asnumpy函数将NDArray实例变换成NumPy实例
pred_labels = d2l.get_fashion_mnist_labels(net(X).argmax(axis=1).asnumpy()) 
# 获得预测标签
titles = [true + '\n' + pred for true, pred in zip(true_labels, pred_labels)]
# zip函数用于将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的列表

d2l.show_fashion_mnist(X[0:9], titles[0:9]) 
#第一行为真实类别，第二行为模型预测类别

定义含有隐藏层的模型

第二个网络（含有1个隐藏层）:

net2 = nn.Sequential()
net2.add(nn.Dense(256, activation='relu'),
         nn.Dense(10)) 
# 这个网络有1个隐藏层（含256个神经元，采用relu激活函数）和1个输出层（含10个神经元）

定义损失函数

loss = gloss.SoftmaxCrossEntropyLoss() # 仍然用交叉熵作损失函数

训练模型

num_epochs = 5
random.seed(0) 
net2.initialize(init.Normal(sigma=0.01)) # 初始化
trainer = gluon.Trainer(net2.collect_params(), 'sgd', {'learning_rate': 0.5}) 
# 使用学习率为0.5的小批量随机梯度下降作为优化算法

# 训练模型时长
start = time.time()
d2l.train_ch3(net2, train_iter, test_iter, loss, num_epochs, batch_size, None, None, trainer)
'%.2f sec' % (time.time()-start)

epoch 1, loss 0.8132, train acc 0.693, test acc 0.833
epoch 2, loss 0.4907, train acc 0.819, test acc 0.853
epoch 3, loss 0.4286, train acc 0.842, test acc 0.863
epoch 4, loss 0.3919, train acc 0.855, test acc 0.867
epoch 5, loss 0.3674, train acc 0.864, test acc 0.872

'8.73 sec'

预测效果

for X, y in test_iter:
    break

true_labels = d2l.get_fashion_mnist_labels(y.asnumpy())
pred_labels = d2l.get_fashion_mnist_labels(net2(X).argmax(axis=1).asnumpy())
titles = [true + '\n' + pred for true, pred in zip(true_labels, pred_labels)]

d2l.show_fashion_mnist(X[0:9], titles[0:9]) 
# 第一行为真实类别，第二行为模型预测类别

前馈神经网络k折交叉验证

首先导入需要的包或模块（k折神经网络需要另加一些包）。

import mxnet
import sys
from mxnet import gluon, init, nd, autograd
from mxnet.gluon import data as gdata
import d2lzh as d2l
from mxnet.gluon import loss as gloss, nn
import time
import random
import numpy as np
import pandas as pd

划分训练集

mnist_train = gdata.vision.FashionMNIST(train=True)
# mnist_test = gdata.vision.FashionMNIST(train=False)

定义“建立网络函数”：get_net

def get_net():
    net = nn.Sequential()
    net.add(nn.Dense(256, activation='relu'),
    		nn.Dense(10)) 
    # 这个网络有1个隐藏层（含256个神经元，采用relu激活函数）和1个输出层（含10个神经元）
    mxnet.random.seed(0) # 固定随机数种子，使结果可复现
    net.initialize(init.Normal(sigma=0.01)) 
    # 以均值为0、标准差为0.01的正态分布随机数作为初始的网络系数
    return net

定义“数据分折函数”：get_k_fold_data

get_k_fold_data函数，它返回第i折交叉验证时所需要的训练和验证数据，第i折作为验证集。输入的k为交叉检验折数，(X,y)为整个交叉验证所需的数据（y为标签）。

def get_k_fold_data(k, i, X, y):
    assert k > 1 
    # assert语句用来声明某个条件是真的，当assert语句失败的时候，会引发AssertionError
    fold_size = X.shape[0] // k
    # fold_size每折大小
    # X.shape[0]得到矩阵X的行数，‘//’计算的是除法运算后得到的整数部分
    X_train, y_train = None, None
    # None空值，python没有NULL。这里相当于做了个舒适化
    
    # 循环语句，将数据分折
    for j in range(k):
        idx = slice(j * fold_size, (j + 1) * fold_size)
		# slice实现切片，对象取索引号为[j * fold_size, (j + 1) * fold_size)左闭右开区间内的数
        X_part, y_part = X[idx, :], y[idx]
        
        # j为特定值i时，X_part, y_part为验证集validation
        # 否则，就把不为特定值的X_part, y_part按行连接，作为训练集
        if j == i:
            X_valid, y_valid = X_part, y_part
        elif X_train is None:
            X_train, y_train = X_part, y_part
        else:
            X_train = nd.concat(X_train, X_part, dim=0)
            y_train = nd.concat(y_train, y_part, dim=0)
    return X_train, y_train, X_valid, y_valid

上面提到函数的使用方法：

assert函数：用来声明某个条件是真的，当assert语句失败的时候，会引发AssertionError

‘//’计算：除法运算后得到的整数部分

slice(起始位置，终止位置)函数：实现切片对象取[起始位置，终止位置)这样左闭右开区间内索引号对应的数据

定义“分类准确率函数“：evaluate_accuracy

evaluate_accuracy函数，评价模型net在数据集data_iter上的分类准确率。

准确率的含义是，给定一个类别的预测概率分布y_hat，我们把预测概率最大的类别作为输出类别。如果它与真实类别y一致，说明这次预测是正确的。分类准确率即正确预测数量与总预测数量之比。

为了演示准确率的计算，下面定义准确率evaluate_accuracy函数。相等条件判断式(net(X).argmax(axis=1) == y)是一个值为0（相等为假）或1（相等为真）的NDArray，y的取值是0-9，net(X)的取值是预测为每个分类的概率值，net(X).argmax(axis=1)返回矩阵net(X)每行中最大元素的索引，即返回的是样本通过神经网络得到的预测分类，那么net(X).argmax(axis=1) 的取值也是0-9。由于标签类型为整数，我们先将变量y变换为浮点数再进行相等条件判断。

def evaluate_accuracy(data_iter, net):
    acc_sum, n = nd.array([0]), 0
    # acc_sum用来放置“预测值=标签值”的计数
    for X, y in data_iter:
        y = y.reshape((1,-1))
        # 将y转变成1行的向量，y的取值是0-9，对应9个分类
        y = y.astype('float32')
        # 由于标签类型为整数，我们先将变量`y`变换为浮点数再进行相等条件判断。
        acc_sum += (net(X).argmax(axis=1) == y).sum()
        # acc_sum：预测值=标签值的个数
        # argmax返回矩阵沿axis=1的方向取得最大值的索引号，二维情况下axis=0代表列，axis=1代表行
        # 猜测net(X)返回的应该是，每个样本通过神经网络计算得到的“该样本属于每个类别的概率”，通过argmax函数求最大概率对应的索引号，即预测类别
        n += y.size
        # n：样本总数
    acc_sum.wait_to_read()
    return acc_sum.asscalar() / n

定义“训练模型函数”：train_ch3_modify

train_ch3_modify函数，使用小批量随机梯度下降来优化模型的损失函数，训练模型并得到每次迭代的训练集train_iter/测试集test_iter准确率。

def train_ch3_modify(net, train_iter, test_iter, loss, num_epochs, batch_size, params = None, lr = None, trainer = None):

    train_ls, test_ls = [], []
    # 训练集/测试集上损失函数值初始化
    
    # 做num_epochs次迭代，这里有个我一开始没反应过来的问题，假如要在1～60中选择最优的迭代次数，不需要把迭代次数分别设为1～60每个数，再根据准确率取出最优值；可以直接将迭代次数设为最大值60，然后输出每次迭代的准确率，画出它关于每次迭代次数的准确率，找到最优值
    for epoch in range(num_epochs):
        for X, y in train_iter:
            train_acc_echo, n_echo = 0.0, 0
    
            # 下面开始自动求梯度，autograd中的record函数用来要求MXNet记录与求梯度有关的计算
            with autograd.record():
                y_hat = net(X)
                # 神经网络预测值
                l = loss(y_hat, y).sum()
                # 累积损失
            l.backward()
            
            if trainer is None:
                d2l.sgd(params, lr, batch_size)
            else:
                trainer.step(batch_size)
           
            # 计算预测准确率   
            y = y.reshape((1,-1))
            y = y.astype('float32')
            train_acc_echo += (y_hat.argmax(axis=1) == y).sum().asscalar()
            # 此处y_hat在先前自动求梯度中已经定义为net(X)
            n_echo += y.size
        train_ls.append(train_acc_echo / n_echo)
        test_ls.append(evaluate_accuracy(test_iter, net)) 
        # 调用evaluate_accuracy函数来计算测试集上的分类准确率
    return train_ls, test_ls

定义“k折交叉验证函数”：k_fold

k_fold函数，在 $K$ 折交叉验证中我们训练 $K$ 次并返回训练和验证的平均误差。其中调用get_net函数建立神经网络，调用train_ch3_modify函数训练模型并返回训练集和验证集上分类准确率。

def k_fold(k, X_train, y_train, num_epochs, learning_rate, weight_decay, batch_size):
    train_l_sum, valid_l_sum = 0.0, 0.0
    train_l_mean, valid_l_mean=0.0, 0.0
    # 初始化变量
    
    if sys.platform.startswith('win'):
        num_workers = 0  # 0表示不用额外的进程来加速读取数据
    else:
        num_workers = 4
    # 读取批量数据时，Gluon的DataLoader中一个很方便的功能是允许使用多进程来加速数据读取（暂不支持Windows操作系统）。
    # 这里我们通过参数num_workers来设置4个进程读取数据。
    loss = gloss.SoftmaxCrossEntropyLoss() #采用交叉熵作为损失函数
    
    train_acc_vec, valid_acc_vec = [], []
    
    # ToTensor实例将图像数据从uint8格式变换成32位浮点数格式，并除以255使得所有像素的数值均在0到1之间
    transformer = []
    transformer += [gdata.vision.transforms.ToTensor()]
    transformer = gdata.vision.transforms.Compose(transformer)
    for i in range(k):
        X_train, y_train, X_valid, y_valid = get_k_fold_data(k, i, X_train, y_train)        
        train_kfold=gdata.ArrayDataset(X_train,y_train)
        valid_kfold=gdata.ArrayDataset(X_valid,y_valid)  
        # DataLoader中一个很方便的功能是允许使用多进程来加速数据读取 
    train_iter = gdata.DataLoader(
				 train_kfold.transform_first(transformer),
				 batch_size, shuffle=False, # 为了后面重现建模结果，这里设置shuffle=False；实际项目中可以设置shuffle=True
                 num_workers=num_workers)
    valid_iter = gdata.DataLoader(
				 valid_kfold.transform_first(transformer),
                 batch_size, shuffle=False,
                 num_workers=num_workers)
        
    net = get_net()
    trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': learning_rate})
    # 训练模型，返回的是各epoch下的accuracy
    train_ls, valid_ls = train_ch3_modify(net, train_iter, valid_iter, loss, num_epochs, batch_size, None, None, trainer)

    train_l_sum += train_ls[-1]
    valid_l_sum += valid_ls[-1]
    train_l_mean += np.array(train_ls)
    valid_l_mean += np.array(valid_ls)
    optimal_epoch = np.mat(valid_ls).argmax(axis=1) + 1 
    # mat函数用来创建矩阵
    # optimal_epoch是验证集上
        
    print('fold %d, train acc %f, valid acc %f, optimal num_epochs %d'
           % (i, train_ls[-1], valid_ls[-1], optimal_epoch))
        
     # 作图
    d2l.semilogy(range(1,num_epochs+1), train_ls, 'epochs', 'acc', range(1,num_epochs+1), valid_ls, ['train', 'valid'])

    return train_l_sum / k, valid_l_sum / k, train_l_mean / k, valid_l_mean / k

进行k折交叉验证

k, num_epochs, lr, weight_decay, batch_size = 2, 60, 0.5, 0, 100 
# k为交叉验证折数，lr为learning rate， weight_decay为权重衰减

train_features, train_labels = mnist_train[0:5000] 
# 为加速展示，我这里只取了前5000个cases

# 通过交叉验证选取最优的num_epochs
start = time.time()
train_l, valid_l, train_l_fold, valid_l_fold = k_fold(k, train_features, train_labels, num_epochs, lr, weight_decay, batch_size)

optimal_epoch_kfold = np.argmax(valid_l_fold) + 1
# k折交叉验证的最优迭代值epoch
print('%d-fold validation: avg train acc %f, avg valid acc %f, optimal num_epochs %d'
      % (k, train_l, valid_l, optimal_epoch_kfold))

#作图
d2l.semilogy(range(1,num_epochs+1), list(train_l_fold), 'epochs', 'acc',
             range(1,num_epochs+1), list(valid_l_fold), ['train', 'valid'])

'%.2f sec' % (time.time()-start)
#其他超参数（learning_rate、batch_size等）的确定可类似操作

在迭代次数1-50中，通过2折交叉验证得到的最优迭代值为40，此时训练集平均准确率为86.5%，验证集平均准确率为78.34%。

说明&致谢

本人初学深度学习，理解还不是很透彻，有许多地方带有自己的猜想，欢迎也感谢各位学习者到评论区指出文中问题。在此，特要感谢本人深度学习的授课老师Ms.L提供的资料和教学。Come and Join Us Machine Learning！
接下来计划学习卷积神经网络理论知识及代码，并书写读书笔记。

参考资料

邱锡鹏. 神经网络与深度学习[M]：13-14
https://nndl.github.io/. ↩︎
CSDN博主：winrar_setup.rar. 梯度下降与随机梯度下降概念及推导过程.
https://blog.csdn.net/weixin_39445556/article/details/83661219. ↩︎ ↩︎
周志华. 西瓜书. ↩︎ ↩︎
CSDN博主：Charlotte77. 一文弄懂神经网络中的反向传播法——BackPropagation.
https://www.cnblogs.com/charlotte77/p/5629865.html. ↩︎
Aston Zhang and Zachary C. Lipton and Mu Li and Alexander J. Smola. Dive into Deep Learning（动手学习深度学习）: chapter 3
http://zh.gluon.ai/index.html. ↩︎

你可能感兴趣的:(深度学习·所思所得)

从LLM出发：由浅入深探索AI开发的全流程与简单实践（全文3w字）码事漫谈 AI 人工智能
文章目录第一部分：AI开发的背景与历史1.1人工智能的起源与发展1.2神经网络与深度学习的崛起1.3Transformer架构与LLM的兴起1.4当前AI开发的现状与趋势第二部分：AI开发的核心技术2.1机器学习：AI的基础2.1.1机器学习的类型2.1.2机器学习的流程2.2深度学习：机器学习的进阶2.2.1神经网络基础2.2.2深度学习的关键架构2.3Transformer架构：现代LLM的核
java实现卷积神经网络CNN（附带源码） Katie。 Java 实战项目 java
Java实现卷积神经网络（CNN）项目详解目录项目概述1.1项目背景与意义1.2什么是卷积神经网络（CNN）1.3卷积神经网络的应用场景相关知识与理论基础2.1神经网络与深度学习概述2.2卷积操作与卷积层原理2.3激活函数与池化层2.4全连接层与损失函数2.5前向传播、反向传播与梯度下降项目需求与分析3.1项目目标3.2功能需求分析3.3性能与扩展性要求3.4异常处理与鲁棒性考虑系统设计与实现思路
从0到1构建AI深度学习视频分析系统--基于YOLO 目标检测的动作序列检查系统：（2）消息队列与消息中间件 shiter 人工智能系统解决方案与技术架构人工智能深度学习音视频
文章大纲原始视频队列Python内存视频缓存优化方案（4GB以内）一、核心参数设计二、内存管理实现三、性能优化策略四、内存占用验证五、高级优化技巧六、部署建议检测结果队列YOLO检测结果队列技术方案一、技术选型矩阵二、核心实现代码三、性能优化策略四、可视化方案对比五、部署建议逻辑判定队列时间片图论时间序列大模型引入参考文献原始视频队列想要在单机内存中缓存1-5分钟的视频片段，python技术栈的话
从零开始大模型开发与微调：PyCharm的下载与安装 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：PyCharm的下载与安装1.背景介绍随着人工智能和深度学习技术的不断发展,大型语言模型(LargeLanguageModels,LLMs)已经成为当前最引人注目的研究热点之一。LLMs能够在各种自然语言处理任务上展现出惊人的性能,例如机器翻译、文本生成、问答系统等。PyTorch和TensorFlow等深度学习框架为训练和微调大型语言模型提供了强大的支持。PyCharm
遗传算法与深度学习实战（2）——生命模拟及其应用盼小辉丶遗传算法与深度学习实战深度学习人工智能遗传算法
遗传算法与深度学习实战（2）——生命模拟及其应用0.前言1.康威生命游戏1.1康威生命游戏的规则1.2实现康威生命游戏1.3空间生命和智能体模拟2.实现生命模拟3.生命模拟应用小结系列链接0.前言生命模拟是进化计算的一个特定子集，模拟了自然界中所观察到的自然过程，例如粒子或鸟群的聚集方式。生命模拟只是用来探索和优化问题的模拟形式之一，还有很多其他形式的模拟，可以更好地建模各种过程，但它们都源于康威
PyTorch从入门到精通：探索深度学习新境界 lmtealily 深度学习 pytorch 人工智能
引言PyTorch作为当前最受欢迎的深度学习框架之一，凭借其动态计算图的独特设计和与Python生态的无缝集成，正重塑着人工智能开发的新范式1。从NVIDIA的研究实践到Meta的产业应用，PyTorch的价值已渗透至学术研究、工业部署的每个角落。本文将带领您从张量操作基础开始，逐步探索GPU加速、动态图机制、框架生态集成等高级主题，最终实现理论与实战的双重突破。一、PyTorch核心基础构建1.
【Python】已解决：pip安装第三方模块（库）与PyCharm中不同步的问题（PyCharm添加本地python解释器）屿小夏 python pip pycharm
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
YOLOv5+UI界面在车辆检测中的应用与实现深度学习&目标检测实战项目 YOLOv5实战项目 YOLO ui 分类数据挖掘目标跟踪人工智能
1.引言随着智能交通系统（ITS）的快速发展，车辆检测已成为计算机视觉领域的重要研究方向。车辆检测技术广泛应用于交通流量监控、车辆违章抓拍、无人驾驶等场景中。近年来，深度学习技术的突破，特别是卷积神经网络（CNN）的崛起，使得目标检测技术取得了显著进展。其中，YOLO（YouOnlyLookOnce）系列模型以其高效的实时检测能力和出色的性能成为车辆检测领域的首选方法之一。在本文中，我们将基于YO
DeepSeek：技术教育领域的AI变革者——从理论到实践的全面解析量子纠缠BUG DeepSeek DeepSeek部署 AI 人工智能 python
一、技术教育为何需要DeepSeek？在数字化转型的浪潮下，技术教育面临着知识更新快、实践门槛高、个性化需求强三大核心挑战。传统的教学模式难以满足开发者快速掌握前沿技术、构建复杂系统能力的需求。DeepSeek作为国产开源大模型的代表，凭借其推理能力、多模态支持与低成本部署的特性，正在为技术教育带来突破性解决方案。二、DeepSeek赋能技术教育的核心技术优势1.推理能力驱动深度学习思维链（CoT
【人工智能基础2】机器学习、深度学习总结 roman_日积跬步-终至千里人工智能习题人工智能机器学习深度学习
文章目录一、人工智能关键技术二、机器学习基础1.监督、无监督、半监督学习2.损失函数：四种损失函数3.泛化与交叉验证4.过拟合与欠拟合5.正则化6.支持向量机三、深度学习基础1、概念与原理2、学习方式3、多层神经网络训练方法一、人工智能关键技术领域基础原理与逻辑机器学习机器学习基于数据，研究从观测数据出发寻找规律，利用这些规律对未来数据进行预测。基于学习模式，机器学习可以分为监督、无监督、强化学习
一文搞懂 AI Agent 与 AI 大模型的区别 a小胡哦人工智能 Manus Ai agent
在人工智能蓬勃发展的当下，新术语和新技术层出不穷。AIAgent和AI大模型便是其中的“明星”，但不少人对它们的区别感到困惑。今天，我们就以Manus这类AIAgent为例，深入剖析AIAgent与一般AI大模型的不同之处。Manus：Manus定义与核心能力AI大模型AI大模型是基于深度学习架构，通过海量数据训练得到的复杂模型，像GPT-4、文心一言等。它们具备强大的知识储备和语言理解生成能力，
清华大学《DeepSeek赋能家庭教育》深度解析：AI如何重塑现代家庭教育模式硅基打工人 AI 人工智能经验分享大数据开源语言模型
引言：家庭教育的困境与AI的破局在数字化与智能化浪潮下，家庭教育面临多重挑战：家长教育能力不足、教育资源分配不均、亲子沟通效率低下、个性化需求难以满足等。清华大学发布的《DeepSeek赋能家庭教育》系列报告（共56页）提出了一种基于人工智能的解决方案，通过深度学习平台DeepSeek，为家庭教育注入科技动能。本文将从技术原理、核心功能、应用场景、伦理安全及未来展望等多维度展开分析。一、DeepS
Spring深度学习 — 关于 Spring 搬运Gong Spring spring
前言作为一名Java程序猿，相信对Spring都不陌生，那么我们经常使用的Spring的发展史大家都了解过吗？它是如何来的？又是如何一步一步成长到了现在这种不可替代的重要地位？下面将对Spring进行一个整体认知和学习，对后面的深度学习起到铺垫作用。本文意在对知识点的温顾，如文中有写的不对的地方，还望不吝指教。一、Spring的发展史相信经历过不使用框架开发Web项目的70后、80后都会高如此感触
Python--读取mat文件一头大学牲程序--编程记录 python 开发语言深度学习机器学习
最近在进行学习深度学习过程中，遇到了以MATLAB的.mat格式存储的数据，需要用python读取出来处理，于是就找到了以下比较方便的三种python读取mat文件的方法：使用hdf5库来读取mat文件1.使用scipy.io来读取1.5知识小插曲2.使用hdf5来读取3.使用mat73来读取1.使用scipy.io来读取-如果你的matlab的版本比较旧，保存的.mat格式为‘-v7.3’以前的
AI笔记——语音识别 Yuki-^_^ 人工智能 AI 人工智能笔记语音识别
摘要：语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域的一项重要技术，它将人类的语音信号转换成文字。随着科技的发展，语音识别已经成为现代生活和工作中不可或缺的一部分。本文旨在介绍语音识别的基本原理、关键技术、应用场景以及未来发展趋势。一、历史与发展语音识别技术的历史可以追溯到20世纪50年代，那时的技术基于规则和模板。随着计算能力的提升和深度学习方法的出现，语
Manus（一种AI代理或自动化工具）与DeepSeek（一种强大的语言模型或AI能力）结合使用任务自动化和智能决策 zzlyx99 人工智能自动化语言模型
一、Manus与DeepSeek差异十分好奇DeepSeek和Manus究竟谁更厉害些，DeepSeek是知识型大脑，Manus则是全能型执行者。即DeepSeek专注于语言处理、知识整合与专业文本生成。其核心优势在于海量参数支持的深度学习和知识推理能力，例如撰写论文、润色法律合同、解答专业问题等。Manus则更强调从规划到交付的闭环能力。它通过工具链调用（如浏览器、代码编辑器）自主执行复杂任务，
深度学习处理时间序列（2） yyc_audio 深度学习笔记深度学习人工智能
在数据中寻找周期性在多个时间尺度上的周期性，是时间序列数据非常重要且常见的属性。无论是天气、商场停车位使用率、网站流量、杂货店销售额，还是健身追踪器记录的步数，你都会看到每日周期性和年度周期性（人类生成的数据通常还有每周的周期性）。探索数据时，一定要注意寻找这些模式。（让人想到波，想到傅里叶变换）对于这个数据集，如果你想根据前几个月的数据来预测下个月的平均温度，那么问题很简单，因为数据具有可靠的年
机器视觉|手势识别：基于YOLOv5的手部检测与MediaPipe的关键点估计 RockLiu@805 机器视觉 YOLO
手势识别：基于YOLOv5的手部检测与MediaPipe的关键点估计在实时计算机视觉应用中，手部检测与关键点估计是实现手势识别的重要基础。本文将介绍一种基于深度学习的手势识别技术方案，通过结合YOLOv5物体检测网络和MediaPipe关键点检测框架，实现实时的手部定位与关键点提取。技术背景gesturerecognition作为计算机视觉领域的重要研究方向，在HCI（人机交互）、遥控行为分析、虚
基于深度学习的个性化新闻推荐系统设计与实现计算机毕设 sj52abcd 深度学习课程设计人工智能毕业设计
博主介绍：✌专注于VUE,小程序，安卓，Java,python,物联网专业，有17年开发经验，长年从事毕业指导，项目实战✌选取一个适合的毕业设计题目很重要。✌关注✌私信我✌具体的问题，我会尽力帮助你。研究的背景:随着互联网技术的发展和普及,人们越来越依赖互联网获取信息。然而,随着信息量的不断增加,用户在查找新闻时面临着信息过载的问题。为了解决这个问题,个性化新闻推荐系统被广泛应用。个性化新闻推荐系
Python 在人工智能领域的实际6大案例 Solomon_肖哥弹架构人工智能机器学习 python
Python作为一种功能强大且易于学习的编程语言，在人工智能（AI）领域得到了广泛的应用。从机器学习到深度学习，从自然语言处理到计算机视觉，Python提供了丰富的库和框架，使得开发者能够快速实现各种AI应用。本文将通过多个实际案例，展示Python在人工智能领域的强大功能和应用前景。二、案例一：手写数字识别（MNIST）1.背景介绍手写数字识别是机器学习领域的经典入门项目，MNIST数据集包含了
深入探究YOLO系列的骨干网路编码实践 YOLO 深度学习计算机视觉
深入探究YOLO系列的骨干网路YOLO系列是目标检测领域中非常知名的算法。其通过将整个图像作为输入，并且直接在图像上通过一个单独的神经网络输出每个检测框的类别预测和边界框信息。为了更好地理解YOLO系列，我们需要先了解它所使用的骨干网路。骨干网络是深度学习模型中的核心部分，负责提取图像的特征。如今常用的骨干网络有VGG、ResNet和MobileNet等。YOLO系列算法采用的是Darknet骨干
《Python深度学习》第四讲：计算机视觉中的深度学习 earthzhang2021 2025讲书课专栏 python 深度学习计算机视觉 1024程序员节 numpy 算法人工智能
计算机视觉是深度学习中最酷的应用之一，它让计算机能够像人类一样“看”和理解图像。想象一下，计算机可以自动识别照片中的物体、人脸，甚至可以读懂交通标志。这一切听起来是不是很神奇？其实，这一切都离不开深度学习中的卷积神经网络（CNN）。今天，我们就来深入了解一下CNN是如何工作的。5.1卷积神经网络简介先来看下卷积神经网络（CNN）是什么。CNN是一种专门用于处理图像数据的神经网络。它的灵感来源于人类
基于人工智能的智能视频内容分析系统小彭律师 python
基于人工智能的智能视频内容分析系统系统功能1.视频数据预处理降噪与滤波：去除视频画面中的噪点和干扰画质增强：调整亮度、对比度和色彩平衡关键帧提取：减少数据量，提取关键信息2.目标识别检测基于深度学习模型（YOLO、FasterR-CNN等）识别多种目标类型（人、车辆、物品等）适应不同光照、角度和遮挡情况输出目标位置、类别和置信度3.行为分析研判基于时序模型（LSTM、3D-CNN等）分析目标动作规
FastDVDnet：基于深度学习的视频去噪框架陆可鹃Joey
FastDVDnet：基于深度学习的视频去噪框架项目地址:https://gitcode.com/gh_mirrors/fa/fastdvdnet项目介绍FastDVDnet是一个高效、开源的深度学习模型，专注于视频去噪。该项目由MatteoTassano开发并维护，旨在提供一种快速且有效的解决方案，以消除视频中的噪声，同时保持图像细节和自然纹理。它利用了时间域的连续性和深层神经网络的力量，确保在
手撕multi-head self attention 代码心若成风、自然语言处理语言模型 transformer
在深度学习和自然语言处理领域，多头自注意力（Multi-HeadSelf-Attention）机制是Transformer模型中的核心组件之一。它允许模型在处理序列数据时，能够同时关注序列中的不同位置，从而捕获到丰富的上下文信息。下面，我们将详细解析多头自注意力机制的实现代码。一、概述多头自注意力机制的核心思想是将输入序列进行多次线性变换，然后分别计算自注意力得分，最后将所有头的输出进行拼接，并通
深度学习 Deep Learning 第2章线性代数 odoo中国 AI编程人工智能深度学习线性代数人工智能
深度学习第2章线性代数线性代数是深度学习的语言。张量操作是神经网络计算的基石，矩阵乘法是前向传播的核心，范数约束模型复杂度，而生成空间理论揭示模型表达能力的本质。本章介绍线性代数的基本内容，为进一步学习深度学习做准备。主要内容2.1标量、向量、矩阵和张量标量：单个数字，用斜体表示，通常赋予小写字母变量名。向量：数字数组，按顺序排列，用粗体小写字母表示，元素通过下标访问。矩阵：二维数字数组，用粗体大
MATLAB算法实战应用案例精讲-【深度学习】归一化林聪木 matlab 算法深度学习
目录为什么要做特征归一化/标准化？常用featurescaling方法计算方式上对比分析featurescaling需要还是不需要什么时候需要featurescaling？什么时候不需要FeatureScaling？归一化基础知识点1.什么是归一化2.为什么要归一化3.为什么归一化能提高求解最优解的速度4.归一化有哪些类型5.不同归一化的使用条件6.归一化和标准化的联系与区别层归一化综述提出背景概
必看！一文读懂知识蒸馏技术小天才学习机打游戏人工智能知识图谱神经网络 langchain windows
导读最近，DeepSeek的爆火让大家对人工智能领域的技术发展又有了新的关注。而知识蒸馏作为深度学习中一项重要的技术，也在背后默默地发挥着作用，今天就来给大家详细介绍一下知识蒸馏及其相关原理。1.知识蒸馏是什么在深度学习领域，大型模型（如DeepSeek）通常具有强大的性能，但它们的计算量和参数量都非常庞大，这使得它们难以在资源受限的设备（如移动设备或嵌入式设备）上部署。例如，GPT-3在570G
从零开始大模型开发与微调：PyTorch 2.0深度学习环境搭建 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：PyTorch2.0深度学习环境搭建作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习在各个领域的广泛应用，大模型开发与微调成为了当前研究的热点。大模型能够学习到丰富的知识，并在各个下游任务上取得优异的性能。然而，大模型开发与微调需要强大的计算资源和专业的知识背景，这对于许多初学者和研究
AI大模型学习路线及相关资源推荐 python游乐园学习资源学习 Python AI AI编程人工智能
哈喽，大家好！本文为大家带来AI大模型学习路线及相关资源推荐，这对于学习掌握AI大模型很有帮助呦，希望大家多多点赞收藏～感谢～～1AI大模型的基础信息1.1什么是AI大模型AI大模型，即人工智能大型模型，是一种基于深度学习技术，具有海量参数、强大算力支持、能够处理和生成复杂数据的人工智能模型。1.2AI大模型的主要特点规模庞大：AI大模型通常包含海量的参数。例如，谷歌的BERT模型在最初发布时就有
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

深度学习1：神经网络基础&前馈神经网络Feedforward Neural Network（基于Python MXNet.Gluon框架）

目录

神经网络背景

常用的深度学习框架

机器学习的三个基本要素

模型

学习准则

损失函数

0-1损失函数 0-1 Loss Function

平方损失函数 Quadratic Loss Function

交叉熵损失函数 Cross-Entropy Loss Function

Hinge损失函数 Hinge Loss Function

风险最小化准则

优化算法

梯度下降法

提前停止

随机梯度下降法

M-P神经元模型

激活函数

常见激活函数3

Sigmoid型函数

ReLU型函数

网络结构

前馈网络

记忆网络

图网络

全连接前馈神经网络

通用近似定理

应用到机器学习

参数学习

反向传播算法/误差逆传播算法 BackPropagation（BP）3

自动梯度计算

自动微分 Automatic Differentiation（AD）

静态计算图和动态计算图

优化问题

非凸优化问题

梯度消失问题

代码

使用数据集简介：Fashion-MNIST

获取数据集

读取小批量

定义“分批量读取fashion_mnist数据的函数”：load_data_fashion_mnist2

前馈神经网络 FNN

定义仅有输出层的模型

定义损失函数

训练模型

预测效果

定义含有隐藏层的模型

定义损失函数

训练模型

预测效果

前馈神经网络k折交叉验证

划分训练集

定义“建立网络函数”：get_net

定义“数据分折函数”：get_k_fold_data

定义“分类准确率函数“：evaluate_accuracy

定义“训练模型函数”：train_ch3_modify

定义“k折交叉验证函数”：k_fold

进行k折交叉验证

说明&致谢

参考资料

你可能感兴趣的:(深度学习·所思所得)

常见激活函数³

反向传播算法/误差逆传播算法 BackPropagation（BP）³