数学基础复习

数学基础

    • 张量
    • 矩阵论
    • 概率统计
      • 常见的概率分布
        • 伯努利分布(二值分布,0-1分布)
        • 二项分布
        • 均匀分布
        • 高斯分布
      • 多变量概率分布
      • 常用统计量
        • 方差
        • 协方差

张量

张量维度 代表含义
0维张量 标量(数字)
1维张量 向量
2维张量 矩阵
3维张量 时间序列数据 股价 文本数据 单张彩色图片(RGB)
  • 3维 = 时间序列

  • 4维 = 图像

  • 5维 = 视频
    例子:一个图像可以用三个字段表示:

(width, height, channel) = 3D

但是,在机器学习工作中,我们经常要处理不止一张图片或一篇文档——我们要处理一个集合。我们可能有10,000张郁金香的图片,这意味着,我们将用到4D张量:

(batch_size, width, height, channel) = 4D

矩阵论

  • 矩阵如果不为方阵或者是奇异矩阵,不存在逆矩阵,但是可以计算其广义逆矩阵或伪逆矩阵
  • 对于矩阵A,如果存在矩阵B是的 A B A = A ABA=A ABA=A,则称B为A的广义逆矩阵
  • 矩阵分解:
    • 特征分解:可对角化的矩阵才可以
    • 奇异值分解:存在正交矩阵U和V.A=U对角V^T

概率统计

常见的概率分布

伯努利分布(二值分布,0-1分布)

  • 伯努利试验:只可能要两种结果的单次随机实验
  • 其概率分布: P ( X = 1 ) = p , P ( X = 0 ) = 1 − p P(X=1)=p,P(X=0)=1-p P(X=1)=p,P(X=0)=1p.

二项分布

  • 二项分布即重复n次伯努利试验,各试验之间都相互独立
  • 如果每次试验时,事件发生的概率为p,不发生的概率为1-p,则n次重复独立试验中事件发生k次的概率为
    P ( X = k ) = C n k p k ( 1 − p ) n − k P(X = k) = C_n^kp^k(1-p)^{n-k} P(X=k)=Cnkpk(1p)nk

均匀分布

  • 又称矩形分布
  • 在给定长度间隔[a,b]内的分布概率是等可能的,均匀分布由参数a,b定义,
  • 概率密度函数为: p ( x ) = 1 b − a , a < x < b p(x) = \frac{1}{b-a}, \quad a < x p(x)=ba1,a<x<b
    数学基础复习_第1张图片

高斯分布

  • 又称正态分布(normal),
  • 是实数中最常用的分布,由均值μ和标准差σ决定其分布,
  • 概率密度函数为: p ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 p(x) = \frac{1}{\sqrt{2 \pi}\sigma}e^{-\frac{(x-\mu)^2}{2 \sigma^2}} p(x)=2π σ1e2σ2(xμ)2
  • 常用来表示独立随机事件发生的时间间隔,参数为λ>0的指数分布概率密度函数为: p ( x ) = λ e − λ x x ≥ 0 p(x) = \lambda e^{-\lambda x} \quad x \geq 0 p(x)=λeλxx0. 指数分布重要特征是无记忆性。

多变量概率分布

  • 条件概率(Conditional probability):事件X在事件Y发生的条件下发生的概率,P(X|Y)

  • 联合概率(Joint probability):表示两个事件X和Y共同发生的概率,P(X,Y)

  • 条件概率和联合概率的性质: P ( Y ∣ X ) = P ( Y , X ) P ( X ) P ( X ) > 0 P(Y|X) = \frac{P(Y,X)}{P(X)} \quad P(X ) > 0 P(YX)=P(X)P(Y,X)P(X)>0.

  • 推广到 n 个事件,条件概率的链式法则: P ( X 1 , X 2 , … , X n ) = P ( X 1 ∣ X 2 , … , X n ) P ( X 2 ∣ X 3 , X 4 , … , X n ) … P ( X n − 1 ∣ X n ) P ( X n ) \begin{aligned} P\left(X_{1}, X_{2}, \ldots, X_{n}\right) &=P\left(X_{1} \mid X_{2}, \ldots, X_{n}\right) P\left(X_{2} \mid X_{3}, X_{4}, \ldots, X_{n}\right) \ldots P\left(X_{n-1} \mid X_{n}\right) P\left(X_{n}\right)\end{aligned} P(X1,X2,,Xn)=P(X1X2,,Xn)P(X2X3,X4,,Xn)P(Xn1Xn)P(Xn)
    = P ( X n ) ∏ i = 1 n − 1 P ( X i ∣ X i + 1 , … , X n ) \begin{aligned} =P\left(X_{n}\right) \prod_{i=1}^{n-1} P\left(X_{i} \mid X_{i+1}, \ldots, X_{n}\right) \end{aligned} =P(Xn)i=1n1P(XiXi+1,,Xn)

  • 先验概率(Prior probability):根据以往经验和分析得到的概率,在事件发生前已知,它往往作为“由因求果”问题中的“因”出现。

  • 后验概率(Posterior probability):指得到“结果”的信息后重新修正的概率,是“执果寻因”问题中 的“因”,后验概率是基于新的信息,修正后来的先验概率所获得 的更接近实际情况的概率估计。

  • 举例说明:一口袋里有3只红球、2只白球,采用不放回方式摸取,求: (1) 第一次摸到红球(记作A)的概率; (2) 第二次摸到红球(记作B)的概率; (3) 已知第二次摸到了红球,求第一次摸到的是红球的概率?

    • 解:
      • (1) P ( A = 1 ) = 3 / 5 P(A=1) = 3/5 P(A=1)=3/5, 这就是先验概率;
      • (2) P ( B = 1 ) = P ( A = 1 ) P ( B = 1 ∣ A = 1 ) + P ( A = 0 ) P ( B = 1 ∣ A = 0 ) = 3 5 2 4 + 2 5 3 4 = 3 5 P(B=1) = P(A=1) P(B=1|A=1)+ P(A=0)P(B=1|A=0)=\frac{3}{5}\frac{2}{4}+\frac{2}{5}\frac{3}{4} = \frac{3}{5} P(B=1)=P(A=1)P(B=1A=1)+P(A=0)P(B=1A=0)=5342+5243=53
      • (3) P ( A = 1 ∣ B = 1 ) = P ( A = 1 ) P ( B = 1 ∣ A = 1 ) P ( B = 1 ) = 1 2 P(A=1|B=1) = \frac{P(A = 1)P(B = 1|A = 1)}{P(B = 1)} = \frac{1}{2} P(A=1B=1)=P(B=1)P(A=1)P(B=1A=1)=21, 这就是后验概率。
  • 全概率公式:设事件 A i {A_i} Ai是样本空间 Ω Ω Ω 的一个划分,且 P ( A i ) > 0 ( i = 1 , 2 , . . . , n ) P(A_i)>0(i=1,2,...,n) P(Ai)>0(i=1,2,...,n),那么: P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B) = \sum_{i = 1}^nP(A_i)P(B|A_i) P(B)=i=1nP(Ai)P(BAi).

  • 贝叶斯公式:全概率公式给我们提供了计算后验概率的途径,即贝叶斯公式 P ( A i ∣ B ) = P ( B ∣ A i ) P (   A i ) P ( B ) = P ( B ∣ A i ) P (   A i ) ∑ j = 1 n P ( A j ) P ( B ∣ A j ) P\left(\mathrm{A}_{i} \mid \mathrm{B}\right)=\frac{P\left(\mathrm{B} \mid \mathrm{A}{i}\right) P\left(\mathrm{~A}{i}\right)}{P(\mathrm{B})}=\frac{P\left(\mathrm{B} \mid \mathrm{A}{i}\right) P\left(\mathrm{~A}{i}\right)}{\sum_{j=1}^{n} P\left(\mathrm{A}_{j}\right) P\left(\mathrm{B} \mid \mathrm{A}_{j}\right)} P(AiB)=P(B)P(BAi)P( Ai)=j=1nP(Aj)P(BAj)P(BAi)P( Ai)

常用统计量

方差

  • 用来衡量随机变量与数学期望之间的偏离程度。统计中的方差则为样本方差,是各个样本数据分别与其平均数之差 的平方和的平均数,计算过程为: V a r ( X ) = E [ x − E ( x ) ] 2 = E ( x 2 ) − [ E ( x ) ] 2 {Var}(X)=E{[x-E(x)]^{2}}=E(x^{2})-[E(x)]^{2} Var(X)=E[xE(x)]2=E(x2)[E(x)]2

协方差

  • 衡量两个随机变量X和Y直接的总体误差,计算过程为: C o v ( X , Y ) = E [ x − E ( x ) ] [ y − E ( y ) ] = E ( x y ) − E ( x ) E ( y ) {Cov}(X,Y)=E{[x-E(x)][y-E(y)]}=E(xy)-E(x)E(y) Cov(X,Y)=E[xE(x)][yE(y)]=E(xy)E(x)E(y)

你可能感兴趣的:(机器学习,人工智能)