你电吴彦祖

《神经网络与深度学习》-无监督学习

无监督学习

1. 无监督特征学习

1.1 主成分分析
1.2 稀疏编码

1.2.1 训练方法
1.2.2 稀疏编码的优点

1.3 自编码器
1.4 稀疏自编码器
1.5 堆叠自编码器
1.6 降噪自编码器

2. 概率密度估计

2.1 参数密度估计

2.1.1 正太分布
2.1.2 多项分布

2.2 非参数密度估计

2.2.1 直方图法
2.2.2 核方法
2.2.3 K近邻方法

无监督学习（Unsupervised Learning，UL）是指从无标签的数据中学习出有用的模式，无监督学习算法一般直接从原始数据中学习，不需要标签。若监督学习是建立输入-输出之间的映射关系，那么无监督学习就是发现隐藏的数据中的有价值信息：有效特征、类别、结构、概率分布等。
主要的几种无监督学习：

无监督特征学习（Unsupervised Feature Learning）是从无标签的训练数据中，挖掘有效的特征或表示，无监督特征学习一般用来进行降维、数据可视化、监督学习前期的数据预处理。
概率密度估计（Probabilistic Density Estimation）简称密度估计，是根据一组训练样本来估计样本空间的概率密度，密度估计由分为：参数密度估计、非参数密度估计。参数密度估计是建设训练样本服从某个已知概率密度形式的分布（如高斯分布），然后去学习概率密度的参数。非参数密度估计是不假设数据服从某个已知分布，只利用训练样本对密度进行估计，可进行任性形状的密度估计，常见方法有直方图、核密度估计等。
聚类（Clustering）是将一组样本数据根据一定的准则划分到不同的组（集群（Cluster））。一个比较通用的准则是组内样本相似度要高于组间样本的相似度。常见的聚类算法：K-Means、谱聚类。

无监督学习方法也包含三个基本要素：模型、学习准则、优化算法。学习准则有最大似然估计、最下重构错误等。
无监督特征学习中，常用学习准则为最小化重构错误、同时也经常对特征进行一些约束：独立性、非负性、稀释性等；
密度估计中，常用学习准则为最大似然估计。

1. 无监督特征学习

无监督特征学习，旨在无标注的数据汇总学习有效数据表示。无监督特征学习主要方法有主成分分析、稀疏编码、自编码器

1.1 主成分分析

主成分分析（Principal Component Analysis，PCA）常用来数据降维，在转换后的空间中数据的方差最大。如图所示二维数据，将数据投影到一维空间中，选择数据方差最大的方向进行投影，能最大化数据差异性，保留更多的原始数据信息。

假设一组 D 维的样本 $\pmb{x} \in \R^D, 1 \leq n \leq N$ ，将其投影到 1 维空间中，投影向量为 $\pmb{w} \in \R^D$ 。不失一般性，我们限制 $\pmb{w}$ 的模为1，即 $\pmb{w}^T\pmb{w} = 1$ 。每个样本点 $\pmb{x}^{(n)}$ 投影之后的表示为：

$z^{(n)} = \pmb{w}^T\pmb{x}^{(n)}$
用矩阵 $\pmb{X} = [\pmb{x}^{(1)},\pmb{x}^{(2)},\cdots,\pmb{x}^{(n)}]$ 表示输入样本， $\overline{\pmb{x}} = \frac{1}{N}\sum^{N}_{n=1}\pmb{x}^{(n)}$ 为原来样本的中心点，所有样本投影后的方差为：

其中 $\overline{X} = \overline{\pmb{x}}1_D^T$ 是向量 $\overline{\pmb{x}}$ 和 D 维全1向量 $1_D$ 的外积，即有 D 列 $\overline{\pmb{x}}$ 组成的矩阵， $\sum = \frac{1}{N}(\pmb{X}-\overline{\pmb{X}})(\pmb{X}-\overline{\pmb{X}})^T$ 是原始样本的协方差矩阵。
最大化投影方差 $\sigma(\pmb{X};\pmb{w})$ 并满足 $\pmb{w}^T\pmb{w} = 1$ ，利用拉格朗日方法转化为无约束优化问题：

$\max_{w} \pmb{w}^T\sum\pmb{w} + \lambda(1-\pmb{w}^T\pmb{w})$

其中 $\lambda$ 为拉格朗日乘子。对上式求导并令导数等于0，可得：

$\sum\pmb{w}=\lambda \pmb{w}$

从上式可知， $\pmb{w}$ 是协方差矩阵 $\sum$ 的特征向量。同时：

$\sigma(\pmb{X};\pmb{w}) = \pmb{w}^T\sum\pmb{w} = \pmb{w}^T \lambda \pmb{w} = \lambda$

$\lambda$ 也是投射后样本的方差，因此，PCA可以转换成一个矩阵特征值分解问题，投影向量 $\pmb{w}$ 为矩阵 $\sum$ 的最大特征值对应的特征向量。
如果要通过投影矩阵 $\pmb{W} \in R^{D\times D^{'}}$ 将样本投到 $D^{'}$ 维空间，投影矩阵满足 $\pmb{W}^T\pmb{W} = \pmb{I}$ 为单位矩阵，只需要将 $\sum$ 的特征值从大到小排列，保留前 $D^{'}$ 个特征向量，对应的特征向量即是最优的投影矩阵：

$\sum \pmb{W} = \pmb{W} diag(\lambda)$

其中 $\pmb{\lambda} = [\lambda_1, \cdots, \lambda_{D^{'}}]$ 为S的前 $D^{'}$ 个最大的特征值。
主成分分析，可作为监督学习的数据预处理方法，用来去噪声并减少特征之间的相关性，但不保证投影后的数据类别可分性更好，提高两类可分性的方法常为监督学习方法，如线性判别分析（Linear Discriminant Analysis，LDA）

1.2 稀疏编码

稀疏编码（Sparse Coding）受哺乳动物视觉系统感受野启发建立的模型。外界信息经过编码后，只有小部分神经元激活，即外界刺激在视觉系统中的表示具有很高的稀疏性。编码的稀疏性在一定程度上符合生物学的低功耗特性。
数学上，（线性）编码是指给定一组基向量 $\pmb{A} = [\pmb{a}_1, \cdots,\pmb{a}_M]$ ，将输入样本 $\pmb{x} \in \R^D$ 表示为这些基向量的线性组合：

其中基向量的系数 $\pmb{z} = [\pmb{z}_1,\cdots,\pmb{z}_M]$ 输入样本的编码(Encoding)，基向量 $\pmb{A}$ 也称为子典(Dictionary).
编码是对 $D$ 维空间中的样本 $\pmb{x}$ 找到其在 P 维空间中的表示（或投影），其目标通常是编码的各个维度都是独立统计的，并且可以重构出输入样本。编码的关键是找到一组“完备”的基向量 $\pmb{A}$ ，比如主成分分析，但PCA得到的编码通常是稠密的

为得到稀疏编码，需找到一组“过完备”的基向量（M>D）来进行编码，在过完备基向量之间常会存在一些冗余性，因此对一个输入样本，会存在很多有效的编码，如果加上稀疏性限制，可以减少解空间的大小，得到“唯一”的稀疏编码。
给定一组N个输入 $[\pmb{x}^{(1)}, \cdots,\pmb{x}^{(N)}]$ ，其稀疏编码的目标函数定义为：

其中 $\pmb{Z} = [z^{(1)}, \cdots, z^{(N)}]$ ， $\rho(\cdot)$ 是一个稀疏性衡量函数， $\eta$ 是超参数，用来控制稀疏性的强度。
对于一个给定的 $\in \R^M$ ,其稀疏性定义为非零元素的比例。如果一个向量只有很少的几个非零元素，就说该向量稀疏。稀疏性衡量函数 $\rho(\pmb{z})$ 是给向量 $\pmb{z}$ 一个标量分数， $\pmb{z}$ 越稀疏， $\rho(\pmb{z})$ 越小。
稀疏性衡量函数的多种选择，如 $l_0$ 范数：

$l_0$ 范数不满足连续可导，很难优化，实际中，稀疏性衡量函数常为 $l_1$ 范数：

稀疏性衡量函数或为对数函数：

稀疏性衡量函数或为指数函数：

1.2.1 训练方法

给定一组 N 个输入向量 $\{\pmb{x}^{(n)}\}_{n=1}^{N}$ ，需要同时学习基向量 $\pmb{A}$ 以及每个输入样本对应的稀疏编码 $\{\pmb{z}^{(n)}\}_{n=1}^{N}$
稀疏编码的训练过程一般用交替优化的方法进行：

固定基向量 $\pmb{A}$ ，对每个输入 $\pmb{x}^{(n)}$ ,计算其对应的最优编码：
固定上一步得到的编码 $\{\pmb{z}^{(n)}\}_{n=1}^{N}$ ，计算其最优的基向量：

其中第二项为正则化项， $\lambda$ 为正则化项系数。

1.2.2 稀疏编码的优点

稀疏编码的每一维都可以看做是一种特征，和基于稠密向量的分布式表示比，稀疏编码计算量小、可解释性强。
计算量 稀疏性可以极大地降低计算量
可解释性 稀疏编码只有少量非零元素，相当于每一个输入样本表示为少数几个相关的特征，可更好地描述其特征，并易于理解。
特征选择 稀疏性可实现特征的自动选择，只选择和输入样本最相关的少数特征，从而更高效地表示输入样本，降低噪声，减轻过拟合。

1.3 自编码器

自编码器（Auto-Encoder，AE）是通过无监督的方式来学习一组数据的有效编码（或表示）。
假设有一组D维的样本 $\pmb{x}^{(n)} \in \R^D，1 \leq n \leq N$ ，自编码器将其映射到特征空间得到每个样本的编码 $\pmb{x}^{(n)} \in \R^M，1 \leq n \leq N$ ，并希望这组编码可重构出原来的样本。

自编码器的机构可分为两部分：

编码器（Encoder）： $f:\R^D \to \R^M$
解码器（Decoder）： $f:\R^M \to \R^D$

自编码器的学习目标是最小化重构错误（Reconstruction Error）：

如果特征空间的维度M小于原始空间维度D，自编码器相当于是一种降维或特征抽取方法，如果 $M > D$ ，则可找到一组或多组解使得 $\circ g$ 为单位函数（Identity Function），并使得重构错误为0，但这样的解无意义。但如果加上附加约束，则有意义，如编码的稀疏性、取值范围、 $f$ 和 $g$ 的具体形式等。我们可以让编码只取K个不同的值(K聚类问题。
最简单的自编码器如图所示两层神经网络，输入层到隐藏层用来编码，隐藏层到输出层用来解码，层与层之间互相连接：

对于样本 $\pmb{x}$ ，自编码器的中间隐藏层的活性值为 $\pmb{x}$ 的编码，即：

自编码器的输出为重构的数据：

其中 $\pmb{W}^{(1)}，\pmb{W}^{(2)}，\pmb{b}^{(1)}，\pmb{b}^{(2)}$ 是网络参数， $f(\cdot)$ 为激活函数，如果令 $\pmb{W}^{(2)}=\pmb{W}^{(1)^T}$ ，则称为捆绑权重（Tied Weight）。捆绑权重自编码器的参数更少，因此更容易学习。此外，捆绑权重还在一定程度上起到正则化的作用。
对于样本 $\pmb{x}^{(n)} \in [0,1]^D, 1 \leq n \leq N$ ，其重构错误为：

通过最小化重构错误，可以有效地学习网络的参数。
使用自编码器是为了得到有效的数据表示，训练结束后，一般去掉解码器，只保留编码器，编码器的输出可直接作为后续机器学习模型的输入。

1.4 稀疏自编码器

自编码器既能学习低维编码，也能学习高维稀疏编码，假设中间隐藏层 $\pmb{z}$ 的维度 M 大于输入样本 $\pmb{x}$ 的维度 D ，并让 $\pmb{z}$ 尽量稀疏，这就是稀疏自编码（Sparse Auto-Encoder）。类似稀疏编码，稀疏自编码可解释性高，进行了隐式特征选择。
通过给自编码器隐藏层单元 $\pmb{z}$ 加上稀疏性限制，自编码器可以学习到数据中一些有用的结构。给定 N 个训练样本 $\{\pmb{x}^{(n)}\}_{n=1}^{N}$ ，稀疏自编码器的目标函数为：

其中 $\pmb{Z} = [\pmb{z}^{(1)}、\cdots、\pmb{z}^{(N)}]$ 表示所有训练样本的编码， $\rho(Z)$ 为稀疏性度量函数， $\pmb{W}$ 表示自编码器中的参数。
稀疏性度量函数 $\rho(Z)$ 分别计算每个编码 $\pmb{z}^{(n)}$ 的稀疏度，再进行求和，此外， $\rho(Z)$ 还可以定义为一组训练样本中每一个神经元激活的概率。

给定N个训练样本，隐藏层第 j 个神经元平均活性值为：

其中 $\hat{\rho_j}$ 可近似看做是第 j 个神经元激活的概率，我们希望 $\hat{\rho_j}$ 接近于一个事先给定的值 $\rho^*$ ,如0.05，可以通过KL距离来衡量 $\hat{\rho_j}$ 与 $\rho^*$ 的差异：

如果 $\hat{\rho_j} = \rho^*$ ，则 $\rho^*||\hat{\rho_j}) = 0$
稀疏性度量函数定义为：

1.5 堆叠自编码器

对很多数据来说，两层神经网络的自编码器不足以获取好的数据表示，因此，可以更深的网络，这样提取的数据表示更抽象，能很好捕捉到数据的语义信息。实践中，常用逐层堆叠的方式来训练一个深层的自编码器，称为堆叠自编码器（Stacked Auto-Encoder，SAE），常采用逐层训练（Layer-Wise Training）来学习网络参数。

1.6 降噪自编码器

有效的数据表示除最小重构错误、稀疏性，有时还要具备对数据部分损坏（Partial Destruction）的鲁棒性，高维数据（比如图像）一般都具有信息冗余，如常可根据一张部分损坏的图像联想出完整内容，故也希望自编码器也能够从损坏的数据中得到有效的数据表示，并能恢复出完整的原始信息。
降噪自编码器（Denoising Auto-Encoder）是通过引入噪声来增加编码鲁棒性的自编码器，并能提高模型泛化能力。对于一向量 $\pmb{x}$ ,我们首先根据一比例 $\mu$ 随机将 $\pmb{x}$ 的一些维度的值设为0，得到一个被损坏的向量 $\tilde{x}$ ,然后将被损坏的向量 $\tilde{x}$ 输入给自编码器得到编码 $\pmb{z}$ ,并重构出原始的无损输入 $\pmb{x}$ 。
自编码器与降噪编码器的对比如下， $f_{\theta}$ 为编码器， $g_{\theta^{'}}$ 为解码器， $L(\pmb{x}, \pmb{x}^{'})$ 为重构错误：

2. 概率密度估计

概率密度估计（Probabilistic Density Estimation），简称密度估计（Density Estimation），基于一些观测样本来估计一个随机变量的概率密度函数。密度估计方法分为：参数密度估计、非参数密度估计

2.1 参数密度估计

参数密度估计（Parametric Density Estimation）根据先验知识假设随机变量服从某种分布，然后通过训练样本来估计分布的参数。
令 $D=\{\pmb{x}^{(n)}\}_{n=1}^N$ 为从某个未知分布中独立抽取的N个训练样本，假设这些赝本服从一个概率分布函数 $p(\pmb{x};\theta)$ ,其对应似然函数为：

我们要估计一个参数 $\theta^{ML}$ 来使得：

这样参数估计问题转化为最优化问题。

2.1.1 正太分布

假设样本 $\pmb{x} \in \R^D$ 服从正太分布：

其中 $\mu$ 和 $\pmb{\sum}$ 是均值和方差。
数据集 $D=\{\pmb{x}^{(n)}\}_{n=1}^N$ 的对数似然函数为：

分别求上式关于 $\mu$ 和 $\pmb{\sum}$ 的偏导数，并令其等于 0，可得到：

2.1.2 多项分布

假设样本服从K个状态的多项分布，令one-hot向量 $\pmb{x} \in \{0,1\}^K$ 来表示第k个状态，即 $x_k=1$ ,其余 $x_{i}=0,i\not=k$ 。样本 $\pmb{x}$ 的概率密度函数为：

其中 $\mu_k$ 为第 k 个状态的概率，并满足 $\sum_{k=1}^{K}\mu_k=1$ .
数据集 $D=\{\pmb{x}^{(n)}\}_{n=1}^N$ 的对数似然函数为：

多项分布的参数估计为约束优化问题，引入拉格朗日乘子 $\lambda$ ，将原问题转换为无约束优化问题：

分别求上式关于 $\mu_k$ , $\lambda$ 的偏导数，并令其等于0，可得到：

其中 $m_k = \sum_{n=1}^{N}x_k^{(n)}$ 为数据集汇总取值为第k个状态的样本数量。

参数密度估计存在的问题：

模型选择问题：即如何选择数据分布的密度函数，实际数据的分布复杂，不是简单的正太分布或多项分布。
不可观测变量问题：即用来训练的样本只包含部分的可观测变量，有一些关键的变量无法预测，这导致很难准确估计数据的真实分布。
维度灾难问题：高维数据的参数估计十分困难，随维度增加，估计参数所需的样本数量指数增加，样本不足时，出现过拟合。

2.2 非参数密度估计

非参数密度估计（Nonparametric Density Estimation）不事先假设数据的分布，通过将样本空间会分为不同的区域并估计每个区域的概率，来近似数据的概率密度函数。
对于高维空间的随机变量 $\pmb{x}$ ,假设其服从一个未知分布 $p (x)$ ,则 $\pmb{x}$ 落在空间中的小区域R的概率：

给定N个训练样本， $D=\{\pmb{x}^{(n)}\}_{n=1}^N$ ，落入区域R的样本数量K服从二项分布：

其中 K/N 的期望为 P, 方差为 $v a r (K / N) = P (1 - P) / N$ 当N非常大时，我们可以近似认为：

假设区域R足够小，其内部的概率密度相同，则有：

其中 V 为区域 R 的体积，结合上述公式，得到：

要准确估计 $p(\pmb{x})$ ,需尽量使用样本数量N足够大，区域体积V尽可能小，实际中，样本数量有限，过小区域会导致落入该区域的样本比较少，这样估计的概率密度不太准确，故实践中，非参数密度估计有两种方式：

固定区域大小V，统计落入不同区域的数量，这种方式包括直方图方法和核方法
改变区域大小V，使落入每个区域的样本数量为K，这种方式为K近邻方法。

2.2.1 直方图法

直方图方法（Histogram Method）是直观的估计连续变量密度函数的方法，可表示为一种柱状图。
以一维随机变量为例，首先将取值范围分为 M 个连续的、不重叠的区间，每个区间宽度为 $\Delta_m$ 。对于给定的训练样本 $D=\{\pmb{x}^{(n)}\}_{n=1}^N$ ，统计这些样本落入每个区间的数量 $K_m$ ,然后将它们归一化为密度函数：

其中区间宽度 $\Delta_m$ 常设为相同的值 $\Delta$ ,直方图方法的关键问题是如何选择一个合适的区间宽度 $\Delta$ ，如果 $\Delta$ 太小，落入每个区间的样本数量会比较少，其估计的区间密度也有很大的随机性；如果 $\Delta$ 太大，其估计的密度函数将变得十分平滑，很难反映真实数据分布。图示如下：蓝线表示真实的密度函数、红色的柱状图为估计的密度。

直方图难以用来处理低维变量，可以很快速地对数据的分布进行可视化，但很难拓展到高维变量。假设一个D维随机变量，如果每一维都划分为M个区间，那么整个空间的区间数量为 $M^D$ 个，直方图方法需要的样本数量会随着维度D的增加而指数增长，从而导致维度灾难。

2.2.2 核方法

核密度估计（Kernel Density Estimation），也叫Parzen 窗方法，是一种直方图方法的改进。
假设R为D维空间中的一个以点 x 为中心的“超立方体”，并定义核函数：

来表示一个样本 $\pmb{z}$ 是否落入该超立方体中，其中 H 为超立方体边长，也叫核函数的宽度。
给定的训练样本 $D=\{\pmb{x}^{(n)}\}_{n=1}^N$ ，落入区域 R 的样本数量 K 为：

则点 x 的密度估计为：

其中 $H^D$ 表示超立方体R的体积。

除超立方体核函数，还可以选择更平滑的核函数，如高斯核函数：

其中 $h^2$ 可看做是高斯核函数的方差，这样，点x的密度估计为：

核密度估计方法中的核宽度是固定的，因此同一个宽度可能对高密度的区域过大，而对低密度的区域过小。

2.2.3 K近邻方法

设置可变宽度的区域，并使落入每个区域中样本数量为固定的K，要估计x的密度，先找到一个以x为中心的球体，使得落入球体的样本数量为 K ，根据 $\approx \frac{K}{NV}$ 可计算点x的密度，因为落入球体的样本也是离x最近的K个样本，故此方法称为 K近邻方法（K-Nearest Neighbor）。
KNN中，K的选择很关键，K太小，无法有效估计密度函数；K太大，也会使得局部的估计不准确，增加计算开销。
KNN常用于分类，K=1时，为最近邻分类器，最近邻分类器的一个性质是，当 $\to \infty$ 时，其分类错误率不超过最优分类器错误率的两倍。

【ShuQiHere】《机器学习的进化史『下』：从神经网络到深度学习的飞跃》 ShuQiHere 机器学习深度学习神经网络
【ShuQiHere】引言：神经网络与深度学习的兴起在上篇文章中，我们回顾了机器学习的起源与传统模型的发展历程，如线性回归、逻辑回归和支持向量机（SVM）。然而，随着数据规模的急剧增长和计算能力的提升，传统模型在处理复杂问题时显得力不从心。在这种背景下，神经网络重新进入了研究者们的视野，并逐步演变为深度学习，成为解决复杂问题的强大工具。今天，我们将进一步探索从神经网络到深度学习的进化历程，揭示这些
神经网络深度学习梯度下降算法优化海棠如醉人工智能深度学习
【神经网络与深度学习】以最通俗易懂的角度解读[梯度下降法及其优化算法]，这一篇就足够（很全很详细）_梯度下降在神经网络中的作用及概念-CSDN博客https://blog.51cto.com/u_15162069/2761936梯度下降数学原理
李宏毅机器学习笔记 2.回归 Simone Zeng 机器学习机器学习
最近在跟着Datawhale组队学习打卡，学习李宏毅的机器学习/深度学习的课程。课程视频：https://www.bilibili.com/video/BV1Ht411g7Ef开源内容：https://github.com/datawhalechina/leeml-notes本篇文章对应视频中的P3。另外，最近我也在学习邱锡鹏教授的《神经网络与深度学习》，会补充书上的一点内容。通过上一次课1.机器
深度学习路线，包括书籍和视频 jjm2002 深度学习深度学习人工智能
深度学习是一个广泛而快速发展的领域，涉及多种技术和应用。以下是一个深度学习学习路线，包括书籍和视频资源。入门阶段：理解基础知识：书籍：《深度学习》（DeepLearning）IanGoodfellow,YoshuaBengio和AaronCourville著。这是深度学习领域的权威书籍，适合初学者。书籍：《神经网络与深度学习》（NeuralNetworksandDeepLearning）Micha
神经网络与深度学习 Neural Networks and Deep Learning 课程笔记第一周林间得鹿吴恩达深度学习系列课程笔记深度学习神经网络笔记
神经网络与深度学习NeuralNetworksandDeepLearning课程笔记第一周文章目录神经网络与深度学习NeuralNetworksandDeepLearning课程笔记第一周深度学习简介什么是神经网络使用神经网络进行监督学习为什么神经网络会兴起本文是吴恩达深度学习系列课程的学习笔记。深度学习简介什么是神经网络深度学习一般是指训练神经网络。那么什么是神经网络？课程以房价预测的例子来说明
小白初探｜神经网络与深度学习神奇的代码在哪里人工智能深度学习神经网络人工智能外接显卡
一、学习背景由于工作的原因，需要开展人工智能相关的研究，虽然不用参与实际研发，但在项目实施过程中发现，人工智能的项目和普通程序开发项目不一样，门槛比较高，没有相关基础没法搞清楚人力、财力如何投入，很难合理管控成本以及时间。为搞清楚情况，老年博主决定一步一个脚印，好好自学。在写本文时，博主已学到一定阶段了，趁有时间，通过博文记录下来，以免遗忘。二、学习准备常年的学习告诉我们，一门学科要快速入门，主流
神经网络与深度学习Pytorch版 Softmax回归笔记砍树＋c＋v 深度学习神经网络 pytorch 人工智能 python 回归笔记
Softmax回归目录Softmax回归1.独热编码2.Softmax回归的网络架构是一个单层的全连接神经网络。3.Softmax回归模型概述及其在多分类问题中的应用4.Softmax运算在多分类问题中的应用及其数学原理5.小批量样本分类的矢量计算表达式6.交叉熵损失函数7.模型预测及评价8.小结Softmax回归，也称为多类逻辑回归，是一种用于解决多分类问题的机器学习算法。它与普通的logist
【吴恩达-神经网络与深度学习】第3周：浅层神经网络倏然希然_ 深度学习与神经网络神经网络深度学习人工智能
目录神经网络概览神经网络表示含有一个隐藏层的神经网络（双层神经网络）计算神经网络的输出多样本的向量化向量化实现的解释激活函数（Activationfunctions）一些选择激活函数的经验法则：为什么需要非线性激活函数？激活函数的导数神经网络的梯度下降法（选修）直观理解反向传播随机初始化神经网络概览右上角方括号[]里面的数字表示神经网络的层数可以把许多sigmoid单元堆叠起来形成一个神经网络：第
2023年度佳作：AIGC、AGI、GhatGPT、人工智能大语言模型的崛起与挑战鸭鸭渗透人工智能 AIGC agi 语言模型自然语言处理
目录前言01《ChatGPT驱动软件开发》内容简介02《ChatGPT原理与实战》内容简介03《神经网络与深度学习》04《AIGC重塑教育》内容简介05《通用人工智能》目录前言2023年是人工智能大语言模型大爆发的一年，一些概念和英文缩写也在这一年里集中出现，很容易混淆，甚至把人搞懵。LLM：LargeLanguageModel，即大语言模型，旨在理解和生成人类语言。LLM的特点是规模庞大，包含成
Pytorch 实现强化学习策略梯度Reinforce算法爱喝咖啡的加菲猫强化学习强化学习神经网络 pytorch
一、公式推导这里参考邱锡鹏大佬的《神经网络与深度学习》第三章进阶模型部分，链接《神经网络与深度学习》。`伪代码：二、核心代码defmain():env=gym.make('CartPole-v0')obs_n=env.observation_space.shape[0]act_n=env.action_space.nlogger.info('obs_n{},act_n{}'.format(obs_
基于图神经网络与深度学习的商品推荐算法谦谦菜鸟深度学习机器学习人工智能
传统做法现阶段局限创新方法结果相关工作目前推荐算法基于矩阵分解的推荐算法基于深度学习的推荐算法基于图神经网络的推荐算法创新点模型设计本文的核心任务是训练出一个模型LGDL模型框架嵌入层ID特征嵌入评论文本特征嵌入前向传播层关联关系提取偏好特征提取评分预测层模型优化传统做法利用深度学习方法从用户ID、评论文本等数据中提取其中所隐藏的用户物品特征，根据该特征预测用户对新物品的打分从而给出推荐是传统推荐
神经网络与深度学习（五）——人工神经网络和卷积神经网络吴丞楚20012100032
姓名：吴丞楚学号：20012100032学院：竹园三号书院【嵌牛导读】简要介绍NN与CNN【嵌牛鼻子】深度学习神经网络【嵌牛提问】NN与CNN的区别有哪些人工神经网络简称神经网络(NN)，是目前各种神经网络的基础，其构造是仿造生物神经网络，将神经元看成一个逻辑单元，其功能是用于对函数进行估计和近似，是一种自适应系统，通俗的讲就是具备学习能力。其作用，目前为止就了解到分类。其目的就是在圈和叉之间画出
学习笔记--神经网络与深度学习之卷积神经网络 qssssss79 深度学习神经网络深度学习学习
目录1.卷积1.1一维卷积1.2卷积的作用1.3卷积扩展1.4二维卷积1.5互相关2.卷积神经网络2.1用卷积代替全连接2.2卷积层2.3汇聚层（池化层）2.4卷积网络结构3.其它卷积种类3.1空洞卷积3.2转置卷积/微步卷积4典型的卷积神经网络4.1LeNet-54.2AlexNet4.3Inception4.4残差网络利用全连接前馈网络处理图像时的问题：（1）参数太多：对于输入的10010
计划1 JLcucumber
1.吴恩达DL2021(强推|双字)2021版吴恩达深度学习课程Deeplearning.ai_哔哩哔哩_bilibiliPart1神经网络与深度学习（6+19+12+8）共45Part2训练、开发、测试集（14+10+11）共35Part3机器学习策略（13+11）共24Part4计算机视觉（11+14+14+(5+6)）共50Part5序列模型（12+10+15）共372.经典网络模型论文ht
[23-24 秋学期] NNDL-作业2 HBU 洛杉矶县牛肉板面深度学习人工智能机器学习深度学习
前言：本文解决《神经网络与深度学习》-邱锡鹏第二章课后题。对于习题2-1，平方损失函数在机器学习课程中学习过，但是惭愧的讲，在完成这篇博客前我对均方误差和平方损失函数的概念还有些混淆。交叉熵损失函数我未曾了解过，只在决策树一节中学习过关于熵entropy的基本概念。借此机会弄清原理，并且尝试着学会应用它。对于习题2-12，考察对混淆矩阵的理解程度和计算。其中宏平均和微平均是我未曾学习过的概念，借此
【22-23 春学期】AI作业5-深度学习基础 HBU_David AI 深度学习人工智能 python
人工智能、机器学习、深度学习之间的关系神经网络与深度学习的关系“深度学习”和“传统浅层学习”的区别和联系神经元、人工神经元MP模型单层感知机SLP异或问题XOR多层感知机MLP前馈神经网络FNN激活函数ActivationFunction为什么要使用激活函数？常用激活函数有哪些？均方误差和交叉熵损失函数，哪个适合于分类？哪个适合于回归？为什么？
神经网络与深度学习day01-基础知识小鬼缠身、深度学习神经网络人工智能 python
今天开始新学期，然后就是每周要在这里发这周的实验报告，CSDN对不起了，你可能不情愿，但是必须要稍微容纳一下我(这个菜比)在这里吹了。第一周的基础知识训练：1、导入numpy库importnumpy2、建立一个一维数组a=[4,5,6]。输出：(1)a的类型；(2)a的各维度的大小；(3)a的第一个元素a=[4,5,6]print(type(a))print(numpy.shape(a))prin
HBU_神经网络与深度学习实验10 卷积神经网络：基于ResNet18网络完成图像分类任务 ZodiAc7 cnn 深度学习 python
目录写在前面的一些内容一、实践：基于ResNet18网络完成图像分类任务1.数据处理(1)数据集介绍(2)数据读取(3)构造Dataset类2.模型构建3.模型训练4.模型评价5.模型预测二、实验Q&A写在前面的一些内容本文为HBU_神经网络与深度学习实验（2022年秋）实验10的实验报告，此文的基本内容参照[1]Github/卷积神经网络-下.ipynb，检索时请按对应序号进行检索。本实验编程语
Python练习题：猜数字游戏 BioVS python 开发语言
#题目来源于MOOC课程《神经网络与深度学习》，程序为自己独立编写题目：随机产生一个1-10之间的整数，并提示用户输入1-10的整数进行猜测，判断是否猜中。每次猜完后，提示“太大了”或者“太小了”，猜对之后提示“恭喜你，猜对了！”，并退出程序。当用户才出数字后，询问是否想要继续下一轮游戏，并记录显示用户已参加轮次。对应python程序：importrandomtimes=1#存放第几轮游戏，用于后
2023年度盘点：AIGC、AGI、GhatGPT、人工智能大模型必读书单家有娇妻张兔兔粉丝送书活动 AIGC agi 人工智能福利送书
2023年度盘点智能大模型必读书单概述好书推荐01《ChatGPT驱动软件开发》02《ChatGPT原理与实战》03《神经网络与深度学习》04《AIGC重塑教育》05《通用人工智能》写在末尾：主页传送门：传送送书系列：送书第一期：考研必备书单送书第二期：CTF那些事儿送书第三期：数据要素安全流通送书第四期：MLOps工程实践：工具、技术与企业级应用送书第五期：Python数据挖掘：入门进阶与实用案
搜索与人工智能码海串游人工智能
前言第一：通过博弈树搜索和启发式搜索的例子了解基于搜索的通用问题求解方法第二：了解人工智能发展的历程和社会影响第三：了解机器学习的基本思想和典型应用第四：了解人工智能应用开发的基本模式内容1.博弈树与剪纸、零和博弈，极大极小策略博弈树与搜索，α与β剪枝以及著名的计算机博弈的例子2.启发式搜索启发式函数，启发式搜索过程，3.人工智能与机器学习人工智能发展历程，专家系统，机器学习，神经网络与深度学习。
2023年度AI盘点 AIGC|AGI|ChatGPT|人工智能大模型 herosunly 优质书籍推荐人工智能 AIGC agi
文章目录0.前言1.《ChatGPT驱动软件开发》2.《ChatGPT原理与实战》3.《神经网络与深度学习》4.《AIGC重塑教育》5.《通用人工智能》0.前言 2023年是人工智能大语言模型大爆发的一年，一些概念和英文缩写也在这一年里集中出现，很容易混淆，甚至把人搞懵。LLM：LargeLanguageModel，即大语言模型，旨在理解和生成人类语言。LLM的特点是规模庞大，包含成百、上千亿的
DL Homework 11 熬夜患者 DL Homework 人工智能深度学习
目录1.被优化函数编辑(代码来源于邱锡鹏老师的神经网络与深度学习的实验）L1.pyop.py（1）SimpleBatchGD（2）Adagrad（3）RMSprop（4）Momentum（5）Adam2.被优化函数编辑3.解释不同轨迹的形成原因，并分析各个算法的优缺点（1）SimpleBatchGD（2）Adagrad（3）RMSprop（4）Momentum（5）Adam总结在展开本次作业之前，
2020-12-07 吴恩达-神经网络与深度学习-第三周编程练习 Vivivivi安
Github地址：https://github.com/Poissons/wuenda-Deep-Learning-And-Neural-Network-third-week-excercise.git
2020-12-03 吴恩达-神经网络与深度学习-第二周编程练习 Vivivivi安
最近听吴恩达老师的课，写课后作业Github地址：https://github.com/Poissons/wuenda-Deep-Learning-And-Neural-Network-second-week-excercise
2023年度AI盘点 AIGC|AGI|ChatGPT|人工智能大模型雪碧有白泡泡粉丝福利活动人工智能 AIGC agi
前言「作者主页」：雪碧有白泡泡「个人网站」：雪碧的个人网站2023年是人工智能大语言模型大爆发的一年，一些概念和英文缩写也在这一年里集中出现，很容易混淆，甚至把人搞懵。文章目录前言01《ChatGPT驱动软件开发》02《ChatGPT原理与实战》03《神经网络与深度学习》《AIGC重塑教育》05《通用人工智能》LLM：LargeLanguageModel，即大语言模型，旨在理解和生成人类语言。LL
年度大盘点：AIGC、AGI、GhatGPT震撼登场！揭秘人工智能大模型的奥秘与必读书单洁洁！ external AIGC agi 人工智能
这里写目录标题前言01《ChatGPT驱动软件开发》02《ChatGPT原理与实战》03《神经网络与深度学习》04《AIGC重塑教育》05《通用人工智能》前言在2023年，人工智能领域经历了一场前所未有的大爆发，特别是在语言模型领域。新的概念和英文缩写如AIGC、AGI、GhatGPT等频繁出现，给人们带来了极大的困惑和好奇。这些突如其来的名词和缩写不仅让人摸不着头脑，还引发了对人工智能发展的种种
2023年度佳作：AIGC、AGI、GhatGPT、人工智能大语言模型的崛起与挑战库库的里昂杂谈人工智能 AIGC agi 语言模型自然语言处理
目录前言01《ChatGPT驱动软件开发》内容简介02《ChatGPT原理与实战》内容简介03《神经网络与深度学习》04《AIGC重塑教育》内容简介05《通用人工智能》目录前言2023年是人工智能大语言模型大爆发的一年，一些概念和英文缩写也在这一年里集中出现，很容易混淆，甚至把人搞懵。LLM：LargeLanguageModel，即大语言模型，旨在理解和生成人类语言。LLM的特点是规模庞大，包含成
循环神经网络-RNN记忆能力实验 [HBU] 洛杉矶县牛肉板面深度学习 rnn 深度学习人工智能
目录一、循环神经网络二、循环神经网络的记忆能力实验三、数据集构建数据集的构建函数加载数据并进行数据划分构造Dataset类四、模型构建嵌入层SRN层五、模型训练训练指定长度的数字预测模型多组训练损失曲线展示六、模型评价参考《神经网络与深度学习》中的公式(6.50)，改进SRN的循环单元，加入隐状态之间的残差连接，并重复数字求和实验。观察是否可以缓解长程依赖问题？总结参考原文章：aistudio.b
[23-24 秋学期]NNDL 作业6 卷积 [HBU] 洛杉矶县牛肉板面深度学习深度学习人工智能卷积神经网络
目录一、概念二、探究不同卷积核的作用后接：关于使用pycharm输出卷积图像后图片仍然不清晰的可能原因以及解决方法总结：前言：卷积常用于特征提取实验过程中注意认真体会“特征提取”，弄清楚为什么卷积能够提取特征。一、概念用自己的语言描述“卷积、卷积核、特征图、特征选择、步长、填充、感受野”。大致看了一遍邱锡鹏《神经网络与深度学习》的卷积一节。谈谈我对这些名词概念的理解(理解不足描述不准请见谅)。个人
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本