人工智能数学课高等数学线性微积分数学教程笔记(6. 概率论)

前言

对人工智能数学课高等数学线性微积分数学教程的学习笔记。主要用于快速回忆已学的数学知识点,不适合基础学习。博客园中同步更新。

文章目录

  1. 人工智能数学课高等数学线性微积分数学教程笔记(目录)
  2. 人工智能数学课高等数学线性微积分数学教程笔记(1. 数学内容概述)
  3. 人工智能数学课高等数学线性微积分数学教程笔记(2. 一元函数微分学)
  4. 人工智能数学课高等数学线性微积分数学教程笔记(3. 线性代数基础)
  5. 人工智能数学课高等数学线性微积分数学教程笔记(4. 多元函数的微分学)
  6. 人工智能数学课高等数学线性微积分数学教程笔记(5. 线性代数高级)
  7. 人工智能数学课高等数学线性微积分数学教程笔记(6. 概率论)
  8. 人工智能数学课高等数学线性微积分数学教程笔记(7. 最优化)

笔记目录

  • 前言
  • 文章目录
  • 6. 概率论
    • - 基本概念
    • - 条件概率和贝叶斯公式
    • - 数学期望和方差
    • - 常用分布
    • - 随机向量
    • - 协方差
    • - 最大似然估计


6. 概率论

- 基本概念

  • 用概率论建模,假设它服从某种概率分布

  • 随机事件 (必然事件,不可能事件) 和随机事件概率

  • 随机事件独立: p ( b ∣ a ) = p ( b ) p(b|a)=p(b) p(ba)=p(b) , p ( a , b ) = p ( a ) p ( b ) p(a,b)=p(a)p(b) p(a,b)=p(a)p(b), p ( a 1 , ⋯   , a n ) = ∏ i = 1 n p ( a i ) p(a_1,\cdots,a_n)=\prod\limits_{i=1}^{n}p(a_i) p(a1,,an)=i=1np(ai)

  • 随机变量:(1) 离散;(2) 连续,概率密度函数 f ( x ) ≥ 0 , ∫ − ∞ + ∞ f ( x ) d x = 1 f(x)\ge0,\int_{-\infty}^{+\infty}f(x)dx=1 f(x)0,+f(x)dx=1

    F ( y ) = p ( x ≤ y ) = ∫ − ∞ y f ( x ) d x , ∫ x 1 x 2 f ( x ) d x = F ( x 2 ) − F ( x 1 ) F(y)=p(x\le y)=\int_{-\infty}^{y}f(x)dx,\int_{x_1}^{x_2}f(x)dx=F(x_2)-F(x_1) F(y)=p(xy)=yf(x)dx,x1x2f(x)dx=F(x2)F(x1)

- 条件概率和贝叶斯公式

  • 对于两个随机事件 a a a b b b ,在 a a a 发生的情况下 b b b 发生的概率为 p ( b ∣ a ) = p ( a , b ) p ( a ) p(b|a)=\frac{p(a,b)}{p(a)} p(ba)=p(a)p(a,b)

  • 贝叶斯公式: p ( a ∣ b ) = p ( a ) p ( b ∣ a ) p ( b ) p(a|b)=\frac{p(a)p(b|a)}{p(b)} p(ab)=p(b)p(a)p(ba) a a a 为因, b b b 是果,知道原因后结果发生的概率是先验概率,贝叶斯公式得到的是后验概率。

    p ( b ) p ( a ∣ b ) = p ( a , b ) = p ( a ) p ( b ∣ a ) p(b)p(a|b)=p(a,b)=p(a)p(b|a) p(b)p(ab)=p(a,b)=p(a)p(ba)

  • 最大化后验概率 MAP

- 数学期望和方差

  • 数学期望就是概率意义的平均值

    E ( x ) = ∑ x i p ( x i ) , E ( x ) = ∫ − ∞ + ∞ x f ( x ) d x E(x)=\sum x_ip(x_i),E(x)=\int_{-\infty}^{+\infty}xf(x)dx E(x)=xip(xi),E(x)=+xf(x)dx

  • 方差反应数据的波动程度

    D ( x ) = ∑ ( x i − E ( x ) ) 2 p ( x i ) D(x)=\sum (x_i-E(x))^2p(x_i) D(x)=(xiE(x))2p(xi)

    D ( x ) = ∫ − ∞ + ∞ ( x − E ( x ) ) 2 f ( x ) d x D(x)=\int_{-\infty}^{+\infty} (x-E(x))^2f(x)dx D(x)=+(xE(x))2f(x)dx

  • 有关性质

    E ( a + b X ) = a + b E X E(a+bX)=a+bEX E(a+bX)=a+bEX

    V a r X = E ( X − μ ) 2 = E ( X 2 ) − ( E ( X ) ) 2 VarX=E(X-\mu)^2=E(X^2)-(E(X))^2 VarX=E(Xμ)2=E(X2)(E(X))2

- 常用分布

  • 正态分布: σ \sigma σ 越大越矮胖
    f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-\mu )^2}{2\sigma ^2}} f(x)=2π σ1e2σ2(xμ)2

  • 均匀分布:
    f ( x ) = { 1 b − a a ≤ x ≤ b 0 x < a , x > b f(x)=\left\{\begin{matrix} \frac{1}{b-a}\quad a\le x\le b\\ 0\quad xb \end{matrix}\right. f(x)={ba1axb0x<a,x>b

  • 二项分布
    p ( x = 1 ) = p , p ( x = 0 ) = 1 − p p(x=1)=p,p(x=0)=1-p p(x=1)=p,p(x=0)=1p

- 随机向量

  • 随机变量推广至随机向量

  • 离散型: p ( x = x i ) p(\boldsymbol{x}=\boldsymbol{x}_i) p(x=xi) 向量取值为某一向量

  • 连续型: f ( x ) ≥ 0 , ∭ f ( x ) d x = 1 f(\boldsymbol{x})\ge 0, \iiint f(\boldsymbol{x})d\boldsymbol{x}=1 f(x)0,f(x)dx=1,二维时: f ( x 1 , x 2 ) ≥ 0 , f ( x ) ≥ 0 , ∫ − ∞ + ∞ f ( x 1 , x 2 ) d x 1 d x 2 = 1 f(x_1,x_2)\ge 0, f(x)\ge0,\int_{-\infty}^{+\infty}f(x_1,x_2)dx_1dx_2=1 f(x1,x2)0,f(x)0,+f(x1,x2)dx1dx2=1

  • 随机变量的独立性: f ( x 1 , x 2 , ⋯   , x n ) = f ( x 1 ) f ( x 2 ) ⋯ f ( x n ) f(x_1,x_2,\cdots,x_n)=f(x_1)f(x_2)\cdots f(x_n) f(x1,x2,,xn)=f(x1)f(x2)f(xn)

  • 随机向量的常见分布:正态分布
    f ( x ) = 1 ( 2 π ) n 2 ∣ Σ ∣ 1 2 e − 1 2 ( x − μ ) T Σ − 1 ( x − μ )   , x ∈ R n f(x)=\frac{1}{(2\pi)^{n\over 2}\left | \Sigma \right |^{1\over 2}}e^{-\frac{1}{2}(x-\mu)^T\Sigma ^{-1}(x-\mu)}\ ,x\in \mathbb{R}^n f(x)=(2π)2nΣ211e21(xμ)TΣ1(xμ) ,xRn
    Σ \Sigma Σ 是协方差矩阵。

- 协方差

  • 对于两个随机变量:
    c o v ( x 1 , x 2 ) = E ( ( x 1 − E ( x 1 ) ) ( x 2 − E ( x 2 ) ) ) c o v ( x 1 , x 2 ) = E ( x 1 x 2 ) − E ( x 1 ) E ( x 2 ) cov(x_1,x_2)=E((x_1-E(x_1))(x_2-E(x_2)))\\ cov(x_1,x_2)=E(x_1x_2)-E(x_1)E(x_2) cov(x1,x2)=E((x1E(x1))(x2E(x2)))cov(x1,x2)=E(x1x2)E(x1)E(x2)

  • 协方差矩阵
    [ x 1 x 1 x 1 x 2 ⋯ x 1 x n x 2 x 1 ⋱ ⋯ x 2 x n ⋮ ⋮ ⋱ ⋮ x n x 1 ⋯ ⋯ x n x n ] \begin{bmatrix} x_1x_1 & x_1x_2 & \cdots & x_1x_n\\ x_2x_1 & \ddots & \cdots & x_2x_n\\ \vdots & \vdots & \ddots & \vdots \\ x_nx_1 & \cdots & \cdots & x_nx_n \end{bmatrix} x1x1x2x1xnx1x1x2x1xnx2xnxnxn

- 最大似然估计

  • 最大似然估计(maximum likelihood estimation, MLE),估计参数;
  • 总似然: L ( θ ) = ∏ i = 1 l p ( x i ; θ ) L(\theta )= \prod\limits_{i=1}^{l}p(x_i;\theta ) L(θ)=i=1lp(xi;θ)
  • 对数总似然: ln ⁡ L ( θ ) = ln ⁡ ∏ i = 1 l p ( x i ; θ ) = ∑ i = 1 l ln ⁡ p ( x i ; θ ) \ln L(\theta )= \ln\prod\limits_{i=1}^{l}p(x_i;\theta )=\sum\limits_{i=1}^{l}\ln p(x_i;\theta ) lnL(θ)=lni=1lp(xi;θ)=i=1llnp(xi;θ)
  • max ⁡ ∑ i = 1 l ln ⁡ p ( x i ; θ ) \max \sum\limits_{i=1}^{l}\ln p(x_i;\theta ) maxi=1llnp(xi;θ),对 θ \theta θ 求导让它对于0

你可能感兴趣的:(数学,概率论,人工智能)