深度学习笔记之基本概念

引言

  1. 深度学习(deep learning)通过其他较简单的表示来表达复杂表示,解决了表示学习中的核心问题。
    2.前馈深度网络或 多层感知机(multilayer perceptron, MLP)
    3.人工神经网络(artificial neural network, ANN)

线性代数

  1. 标量(scalar):一个标量就是一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。我们用斜体表示标量。标量通常被赋予小写的变量名称。如 s ∈ R
    2.向量(vector)一个向量是一个列数。
    3.矩阵(matrix):矩阵是一个二维数组,其中的每一个元素被两个索引(而非一个)所确定。我们通常会赋予矩阵粗体的大写变量名称,比如 A。
    我们通过用 “:’’ 表示水平坐标,以表示垂直坐标 i 中的所有元素。比如,A i,: 表示 A 中垂直坐标 i 上的一横排元素。这也被称为 A 的第 i 行(row)。同样地,A:,i 表示 A 的第 i 列(column)。
    4.张量(tensor):在某些情况下,我们会讨论坐标超过两维的数组。一般地,一个数组中的元素分布在若干维坐标的规则网格中,我们称之为张量。我们使用字体 A 来表示张量 “A’’。张量 A 中坐标为 (i, j, k) 的元素记作 A i,j,k。
    5.两个矩阵的标准乘积不是指两个矩阵中对应元素的乘积。不过,那样的矩阵操作确实是存在的,被称为 元素对应乘积(element-wise product)或者 Hadamard 乘积(Hadamard product),记为 A ⊙ B。
    6.两个相同维数的向量 x 和 y 的 点积(dot product)可看作是矩阵乘积 x⊤y。
    7.有时我们需要衡量一个向量的大小。在机器学习中,我们经常使用被称为 范数(norm)的函数衡量向量大小
    8.奇异值分解(singular value decomposition, SVD),将矩阵分解为 奇异向量(singular vector)和 奇异值(singular value)。
    9.主成分分析(principal components analysis, PCA)是一个简单的机器学习算法,

概率论

1.离散型变量的概率分布可以用 概率质量函数(probability mass function, PMF)来描述。我们通常用大写字母 P 来表示概率质量函数。
2. 概率密度函数(probability density function, PDF)
3.某些函数在处理概率分布时经常会出现,尤其是深度学习的模型中用到的概率分布。其中一个函数是 logistic sigmoid 函数:σ(x) = 1/(1 + exp(−x))。logistic sigmoid 函数通常用来产生 Bernoulli 分布中的参数 ϕ,因为它的范围是(0, 1),处在 ϕ 的有效取值范围内。sigmoid 函数在变量取绝对值非常大的正值或负值时会出现 饱和(saturate)现象,意味着函数会变得很平,并且对输入的微小改变会变得不敏感。
4.另外一个经常遇到的函数是 softplus 函数(softplus function) ζ(x) = log(1 + exp(x)).softplus 函数可以用来产生正态分布的 β 和 σ 参数,因为它的范围是 (0, ∞)。

5.一种极具毁灭性的舍入误差是 下溢(underflow)。当接近零的数被四舍五入为零时发生下溢。另一个极具破坏力的数值错误形式是 上溢(overflow)。当大量级的数被近似为∞ 或 −∞ 时发生上溢。必须对上溢和下溢进行数值稳定的一个例子是 softmax 函数
6.我们把要最小化或最大化的函数称为 目标函数(objective function)或 准则(criterion)。当我们对其进行最小化时,我们也把它称为 代价函数(cost function)、损失函数(loss function)或 误差函数(error function)。
7. 仅使用梯度信息的优化算法被称为 一阶优化算法 (first-order optimization algorithms),如梯度下降。使用 Hessian 矩阵的优化算法被称为 二阶最优化算法 (second-order optimization algorithms) 如牛顿法。

你可能感兴趣的:(深度学习)