——数学基础部分，包括标量、向量、矩阵、张量，导数&偏导数，特征值&特征向量，概率&分布。

一、“量”

概念

标量：单独的“数”。

向量：一维有序排列的数。

矩阵：二维数据表形式。

张量：N维，基于向量和矩阵的推广。0阶张量是标量，1阶张量是向量，2阶张量是矩阵，3阶可表示如RGB彩色图像。

向量范数

1范数：各元素的绝对值的和

2范数：各元素的平方和的平方根

p范数：1范数和2范数的普遍形式，

负无穷范数：最小的绝对值

正无穷范数：最大的绝对值

矩阵范数

无穷范数（行模）：取最大的行的绝对值和，。

核范数：A的奇异值之和（即SVD）。

L0范数：A非零元素的个数。

L1范数（列模）：取最大的列的绝对值和，。

F范数：各个元素平方和的平方根，通常也叫L2范数。

2范数（谱模）：矩阵的最大特征值的平方根，。

L21范数：先求每列的F范数，再将结果求L1范数，它是介于L1和L2之间的一种范数。

二、“导”

导数：对含有一个自变量的函数进行求导，就是曲线在某一点切线的斜率。

偏导数：对多于一个的自变量的函数中的一个自变量求导，就是函数在某一点上沿坐标轴正方向的的变化率。（注：求解时将另外一个变量看做常数。）

三、特征值&奇异值

特征值：对于n阶方阵A，若存在n维非零向量x，使得，则x为A的特征向量，为A的特征值。特征值表示的是这个特征到底有多重要，而特征向量表示这个特征是什么。特征值分解的局限在于变换的矩阵必须是方阵。

奇异值：奇异值分解（SVD）适用于任意矩阵。将A与其转置相乘将会得到一个方阵，再求特征值。对于非奇异矩阵进行奇异值分解（SVD），得到的奇异值，就是特征值。（注：奇异矩阵是行列式为 0 的矩阵，即不可逆矩阵；非奇异矩阵是行列式不为 0 的矩阵，也就是可逆矩阵。）

四、概率

随机变量：当变量的取值的概率不是1时，变量就变成了随机变量。

概率分布：用来描述随机变量或一簇随机变量的每一个可能的状态的可能性大小的方法。

概率质量函数(Probability Mass Function, PMF)：描述离散型随机变量的概率分布P。

概率密度函数(Probability Density Function, PDF)：描述连续型随机变量的概率分布p。

联合概率：联合概率指类似P(X=a,Y=b)这样，包含多个条件，且所有条件同时成立的概率。联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。

边缘概率：边缘概率是某个事件发生的概率，而与其它事件无关。边缘概率指类似于P(X=a)，仅与单个随机变量有关的概率。

链式法则：条件概率得出，P(AB) = P(B|A)*P(A)进行多轮的推广，即P(A_1 A_2 ... A_n)=。

独立：两个随机变量x、y，概率分布表示成两个因子乘积形式，一个因子只包含x，另一个因子只包含y，两个随机变量相互独立。

条件独立：给定Z的情况下,X和Y条件独立，当且仅当。

五、分布

伯努利分布（离散）：即0-1分布，只有两种结果（p和1-p概率）、独立的随机实验，期望p，方差p*(1-p)，相当于N=1的二项分布（执行n次可叫n重伯努利试验）。

二项式分布（离散）：X～b(n,p)即N次独立重复事件，相当于N次伯努利，期望np，方差n*p*(1-p)。

几何分布（离散）：伯努利试验发生N次首次成功的概率（即前n-1次都失败），记为X~GE(p)，即(1-p)^(k-1)，N的概率分布期望EX=1/p，方差DX=(1-p)/p^2

泊松分布（离散）：单位时间内随机事件发生的次数的分布X~P(λ)，期望和方差都是λ (λ>0)。若随机变量X取自然数，在n次独立试验中出现的次数x恰好为k次的概率：。

正态分布（连续）：即高斯分布，当影响因素很多，没有完全左右结果的因素，则呈现正态分布X～N(μ,σ^2)，期望μ，方差σ^2。

卡方分布（连续）：k个标准正态分布即X～N(0,1)的平方和构成了服从自由度为k的卡方分布，X~ ，期望为自由度k，方差为2k。

拉普拉斯分布：允许我们在任意一点 $\mu$处设置概率质量的峰值。

指数分布：用来描述在x=0点处取得边界点的分布, 。指数分布用指示函数来使x取负值时的概率为零。

狄拉克分布（连续）：保证概率分布中所有质量都集中在一个点上。狄拉克分布的狄拉克函数(也称单位脉冲函数)定义为如图所示。

狄拉克函数

分布相关概念

期望：表示事件可能结果的概率乘以其结果的累加和，反映随机变量平均取值的大小，。离散函数期望为，连续函数期望为。（注：如果X、Y相互独立，则。）

方差：表示随机变量和其数学期望（即均值）之间的偏离程度，。具有性质，如果X、Y相互独立，则。

协方差：表示两个变量线性相关性强度，，具体计算公式为。独立变量的协方差为0。

相关系数：表示变量之间线性相关程度，。具有有界性（ [-1,1]）；值越接近1，两个变量越正相关；越接近-1，越负相关性越强，为0时无相关性。

参考文献

1、《深度学习500问》 https://github.com/scutan90/DeepLearning-500-questions

2、向量与矩阵的范数（比较1-范数、2-范数、无穷范数、p-范数、L0范数和 L1范数等） https://blog.csdn.net/zaishuiyifangxym/article/details/81673491

3、特征值和奇异值的关系 https://blog.csdn.net/qq_36653505/article/details/82052593

数学基础Part