对人工智能数学课高等数学线性微积分数学教程的学习笔记。主要用于快速回忆已学的数学知识点,不适合基础学习。博客园中同步更新。
其他的自变量固定不动,对其中某一个变量求导数。
∂ f ∂ x i = lim Δ x i → 0 f ( x 1 , . . . , x i + Δ x i , . . . , x n ) − f ( x 1 , . . . , x i , . . . , x n ) Δ x i \frac{\partial f}{\partial x_i}=\lim \limits_{\Delta x_i\rightarrow 0}\frac{f\left ( x_1,...,x_i+\Delta x_i,...,x_n \right )-f\left ( x_1,...,x_i,...,x_n \right )}{\Delta x_i} ∂xi∂f=Δxi→0limΔxif(x1,...,xi+Δxi,...,xn)−f(x1,...,xi,...,xn)
from sympy import diff,symbols
x,y = symbols('x y')
f = x**2 + x*y - y**2
diff(f,x)
>>> 2*x + y
diff(f,x,2)
= ∂ 2 f ∂ 2 x \frac{\partial ^2f}{\partial^2 x} ∂2x∂2fdiff(f,y).subs(y,2)
= ∂ f ∂ y ∣ y = 2 \frac{\partial f}{\partial y}\Big |_{y=2} ∂y∂f∣ ∣y=2∇ f ( x ) = ( ∂ f ∂ x 1 , ∂ f ∂ x 2 , ⋯ , ∂ f ∂ x n ) T \nabla f(\boldsymbol{x})=\left ( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2},\cdots,\frac{\partial f}{\partial x_n}\right )^T ∇f(x)=(∂x1∂f,∂x2∂f,⋯,∂xn∂f)T
一阶偏导数构成的矩阵,简化求导公式。
一个函数 f f f 把 n n n 维向量 x \boldsymbol{x} x 映射为 k k k 维向量 y \boldsymbol{y} y: y = f ( x ) \boldsymbol{y}=f(\boldsymbol{x}) y=f(x)
[ ∂ y 1 ∂ x 1 ∂ y 1 ∂ x 2 ⋯ ∂ y 1 ∂ x n ∂ y 2 ∂ x 1 ∂ y 2 ∂ x 2 ⋯ ∂ y 2 ∂ x n ⋯ ⋯ ⋯ ⋯ ∂ y k ∂ x 1 ∂ y k ∂ x 2 ⋯ ∂ y k ∂ x n ] \begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_1}{\partial x_2} & \cdots & \frac{\partial y_1}{\partial x_n}\\ \frac{\partial y_2}{\partial x_1} & \frac{\partial y_2}{\partial x_2} & \cdots & \frac{\partial y_2}{\partial x_n} \\ \cdots & \cdots & \cdots & \cdots\\ \frac{\partial y_k}{\partial x_1} & \frac{\partial y_k}{\partial x_2} & \cdots & \frac{\partial y_k}{\partial x_n} \end{bmatrix} ⎣ ⎡∂x1∂y1∂x1∂y2⋯∂x1∂yk∂x2∂y1∂x2∂y2⋯∂x2∂yk⋯⋯⋯⋯∂xn∂y1∂xn∂y2⋯∂xn∂yk⎦ ⎤
第 k k k 行就是 y k y_k yk 对 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn 求偏导。
[ ∂ 2 f ∂ x 1 2 ∂ 2 f ∂ x 1 ∂ x 2 ⋯ ∂ 2 f ∂ x 1 ∂ x n ∂ 2 f ∂ x 2 ∂ x 1 ∂ 2 f ∂ x 2 2 ⋯ ∂ 2 f ∂ x 2 ∂ x n ⋯ ⋯ ⋯ ⋯ ∂ 2 f ∂ x n ∂ x 1 ∂ 2 f ∂ x n ∂ x 2 ⋯ ∂ 2 f ∂ x n 2 ] \begin{bmatrix} \frac{\partial^2 f}{{\partial x_1}^2} & \frac{\partial^2 f}{\partial x_1\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1\partial x_n}\\ \frac{\partial^2 f}{\partial x_2\partial x_1} & \frac{\partial^2 f}{{\partial x_2}^2} & \cdots & \frac{\partial^2 f}{\partial x_2\partial x_n} \\ \cdots & \cdots & \cdots & \cdots\\ \frac{\partial^2 f}{\partial x_n\partial x_1} & \frac{\partial^2 f}{\partial x_n\partial x_2} & \cdots & \frac{\partial^2 f}{{\partial x_n}^2} \end{bmatrix} ⎣ ⎡∂x12∂2f∂x2∂x1∂2f⋯∂xn∂x1∂2f∂x1∂x2∂2f∂x22∂2f⋯∂xn∂x2∂2f⋯⋯⋯⋯∂x1∂xn∂2f∂x2∂xn∂2f⋯∂xn2∂2f⎦ ⎤
它的所有元素是二阶偏导数,Hessian 矩阵是对称矩阵。
Hessian 矩阵和函数凹凸性有密切关系。Hessian 矩阵正定,函数为凸函数,负定则为凹函数。
一元函数: f ( x ) f(x) f(x) 一阶导数等于0处有极值,当 f ( x ) f(x) f(x) 的二阶导数大于0时是极小值,当二阶导数小于0时是极大值,参考 x 2 x^2 x2。
多元函数的极值判别法则:看 Hessian 矩阵在 f ( x ) f(\boldsymbol{x}) f(x) 的二阶导数等于0处,即驻点处。
矩阵正定:对于任意向量 x ≠ 0 ⃗ \boldsymbol{x}\ne \vec{0} x=0 ,都有 x T A x > 0 \boldsymbol{x}^T\boldsymbol{A}\boldsymbol{x}>0 xTAx>0,则是正定矩阵,如果是 ≥ \ge ≥,则是半正定矩阵。
判断原则:
矩阵特征值全部大于0;
矩阵所有的顺序主子式都大于0;
矩阵合同于单位阵。