一、基础知识(1)-范数、导数

一、范数

1.1 向量范数

  1. 定义:满足正定、齐次、三角不等式,则称从向量空间到实数域的非负函数的范数
  2. l p l_p lp范数: ∣ ∣ v ∣ ∣ p = ( ∣ v 1 ∣ p + ∣ v 2 ∣ p + . . . + ∣ v n ∣ p ) 1 p ||v||_p=(|v_1|^p+|v_2|^p+...+|v_n|^p)^{\frac{1}{p}} vp=(v1p+v2p+...+vnp)p1
  3. l ∞ 范 数 l_{\infty}范数 l ∣ ∣ v ∣ ∣ ∞ = m a x ( ∣ v i ∣ ) ||v||_{\infty}=max(|v_i|) v=max(vi)

1.2 矩阵范数

  1. l 2 范 数 , F 范 数 l_2范数,F范数 l2,F ∣ ∣ A ∣ ∣ F = T r ( A A T ) = ∑ a i j 2 ||A||_F=\sqrt{Tr(AA^T)}=\sqrt{\sum{a_{ij}^2}} AF=Tr(AAT) =aij2
    1. 正交不变性: ∣ ∣ U A V ∣ ∣ F 2 = T r ( U A V V T A T U T ) = T r ( U A A T U T ) = T r ( A A T U T U ) = T r ( A A T ) = ∣ ∣ A ∣ ∣ F 2 ||UAV||_F^2=Tr(UAVV^TA^TU^T)=Tr(UAA^TU^T)=Tr(AA^TU^TU)=Tr(AA^T)=||A||_F^2 UAVF2=Tr(UAVVTATUT)=Tr(UAATUT)=Tr(AATUTU)=Tr(AAT)=AF2
      1. U ∈ R m × m 、 V ∈ R n × n U\in R^{m×m}、V\in R^{n×n} URm×mVRn×n是正交矩阵
      2. T r ( X ) = ∑ a i i Tr(X)=\sum{a_{ii}} Tr(X)=aii,矩阵的迹,对角线的和。
  2. 核范数: A ∈ R m × n , ∣ ∣ A ∣ ∣ ∗ = ∑ i = 1 r σ i A\in R^{m×n},||A||_*=\sum_{i=1}^{r}{\sigma_i} ARm×n,A=i=1rσi
    1. σ i 为 A 的 所 有 非 零 奇 异 值 , r = r a n k ( A ) \sigma_i 为A的所有非零奇异值,r=rank(A) σiA,r=rank(A)
    2. 奇异值:设A为 m ∗ n m*n mn阶矩阵, q = m i n ( m , n ) q=min(m,n) q=min(m,n) A ∗ A A*A AA的q个非负特征值的算术平方根叫作A的奇异值。

1.3 矩阵内积

  1. Frobenius内积:常用来表示两个矩阵(张成的空间)之间的夹角
  2. 定义: < A , B > = d e f T r ( A B T ) = ∑ ∑ a i j b i j \overset{def}{=}Tr(AB^T)=\sum\sum{a_{ij}b_{ij}} <A,B>=defTr(ABT)=aijbij

二、导数

2.1 梯度、海瑟矩阵

  1. 梯度: lim ⁡ p → 0 f ( x + p ) − f ( x ) − g T p ∣ ∣ p ∣ ∣ = 0 \underset{p\rightarrow 0}{\lim}\frac{f(x+p)-f(x)-g^Tp}{||p||}=0 p0limpf(x+p)f(x)gTp=0
    • ∣ ∣ ⋅ ∣ ∣ ||·|| 是任意向量范数,g为 f f f在x点处的梯度
  2. 海瑟矩阵: f ( x ) : R n → R f(x):R^n\rightarrow R f(x):RnR
    一、基础知识(1)-范数、导数_第1张图片
    1. 二阶可微: ∇ 2 f ( x ) \nabla^2f(x) 2f(x)在区域D上的每个点x都存在
    2. 二阶连续可微: ∇ 2 f ( x ) \nabla^2f(x) 2f(x)在D上还连续,可以证明此时海瑟矩阵还是对称矩阵。
  3. 雅克比矩阵 J ( x ) J(x) J(x), f : R n → R m f:R^n\rightarrow R^m f:RnRm是向量值函数
    一、基础知识(1)-范数、导数_第2张图片
  4. 梯度利普希茨连续:
    1. 可微函数 f f f,若存在 L > 0 L>0 L>0,对任意 x , y ∈ d o m f x,y\in domf x,ydomf ∣ ∣ ∇ f ( x ) − ∇ f ( y ) ∣ ∣ ≤ L ∣ ∣ x − y ∣ ∣ ||\nabla f(x)-\nabla f(y)||\leq L||x-y|| f(x)f(y)Lxy,称 f f f是梯度利普希茨连续的, L L L为相应的函数,称为 L − 光 滑 L-光滑 L
    2. 二次上界: f ( x ) 可 微 , 且 为 L − 光 滑 , 则 f ( x ) 有 二 次 上 界 : f ( y ) ≤ f ( x ) + ∇ f ( x ) T ( y − x ) + L 2 ∣ ∣ y − x ∣ ∣ 2 f(x)可微,且为L-光滑,则f(x)有二次上界:f(y)\leq f(x)+\nabla f(x)^T(y-x)+\frac{L}{2}||y-x||^2 f(x)Lf(x)f(y)f(x)+f(x)T(yx)+2Lyx2
    3. f ( x ) 可 微 , 存 在 全 局 极 小 点 x ∗ , 且 f ( x ) 为 L − 利 普 希 茨 连 续 f(x)可微,存在全局极小点x^*,且f(x)为L-利普希茨连续 f(x),x,f(x)L则: 1 2 L ∣ ∣ ∇ f ( x ) ∣ ∣ 2 ≤ f ( x ) − f ( x ∗ ) \frac{1}{2L}||\nabla f(x)||^2\leq f(x)-f(x^*) 2L1f(x)2f(x)f(x)

2.2矩阵变量的导数

  1. Gâteaux可微: t → 0 l i m f ( X + t V ) − f ( X ) − t < G , V > t = 0 \overset{lim}{t\rightarrow0}\frac{f(X+tV)-f(X)-t}{t}=0 t0limtf(X+tV)f(X)t<G,V>=0
    • G , V ∈ R m × n G,V\in R^{m×n} G,VRm×n

2.3自动微分

  1. 链式法则

你可能感兴趣的:(#,最优化,线性代数,算法)