人工智能数学课高等数学线性微积分数学教程笔记(2. 一元函数微分学)

前言

对人工智能数学课高等数学线性微积分数学教程的学习笔记。主要用于快速回忆已学的数学知识点,不适合基础学习。博客园中同步更新。

文章目录

  1. 人工智能数学课高等数学线性微积分数学教程笔记(目录)
  2. 人工智能数学课高等数学线性微积分数学教程笔记(1. 数学内容概述)
  3. 人工智能数学课高等数学线性微积分数学教程笔记(2. 一元函数微分学)
  4. 人工智能数学课高等数学线性微积分数学教程笔记(3. 线性代数基础)
  5. 人工智能数学课高等数学线性微积分数学教程笔记(4. 多元函数的微分学)
  6. 人工智能数学课高等数学线性微积分数学教程笔记(5. 线性代数高级)
  7. 人工智能数学课高等数学线性微积分数学教程笔记(6. 概率论)
  8. 人工智能数学课高等数学线性微积分数学教程笔记(7. 最优化)

笔记目录

  • 前言
  • 文章目录
  • 2. 一元函数微分学
    • - 导数
      • - 导数的定义
      • - 左导数、右导数和右导数
      • - 几何意义与物理意义
    • - 求导公式
      • - 基本函数
      • - 四则运算法则
      • - 复合函数求导法则
    • - 用途
    • - 高阶导数
    • - 导数与函数单调性关系
    • - 极值定理
    • - 导数与函数凹凸性
    • - 一元函数泰勒展开


2. 一元函数微分学

- 导数

- 导数的定义

f ′ ( x 0 ) = lim ⁡ Δ x → 0 f ( x 0 + Δ x ) − f ( x 0 ) Δ x {f}'\left ( x_0 \right )= \lim\limits_{\Delta x\rightarrow 0}\frac{f( x_0+\Delta x )-f(x_0)}{\Delta x} f(x0)=Δx0limΔxf(x0+Δx)f(x0)

- 左导数、右导数和右导数

  • ReLu函数 Activation Function

max ⁡ ( 0 , x ) \max(0,x) max(0,x)

- 几何意义与物理意义

  • 几何意义,切线的斜率(一元函数)
  • 物理意义,瞬时速度

f ′ ( t ) = lim ⁡ Δ t → 0 Δ s Δ t f'(t)=\lim\limits_{\Delta t\rightarrow 0}\frac {\Delta s}{\Delta t} f(t)=Δt0limΔtΔs

- 求导公式

- 基本函数

  • ( x a ) ′ = a x a − 1 (x^a)'=ax^{a-1} (xa)=axa1
  • ( a x ) ′ = a x ln ⁡ a (a^x)'=a^x\ln a (ax)=axlna ; ( e x ) ′ = e x (e^x)'=e^x (ex)=ex
  • ( l o g a x ) ′ = 1 ln ⁡ a 1 x (log_a x)'=\frac{1}{\ln a}\frac{1}{x} (logax)=lna1x1 ; ( ln ⁡ x ) ′ = 1 x (\ln x)'=\frac{1}{x} (lnx)=x1
  • 定义: lim ⁡ n → + ∞ ( 1 + 1 n ) n = e \lim\limits_{n\rightarrow+\infty}(1+\frac{1}{n})^n=e n+lim(1+n1)n=e ; lim ⁡ x → 0 sin ⁡ x x = 1 \lim\limits_{x\rightarrow0}\frac{\sin x}{x}=1 x0limxsinx=1; lim ⁡ n → 0 ( 1 + n ) 1 n = e \lim\limits_{n\rightarrow0}(1+n)^\frac{1}{n}=e n0lim(1+n)n1=e

- 四则运算法则

  • ( f ( x ) + g ( x ) ) ′ = f ′ ( x ) + g ′ ( x ) (f(x)+g(x))'=f'(x)+g'(x) (f(x)+g(x))=f(x)+g(x)
  • ( f ( x ) g ( x ) ) ′ = f ′ ( x ) g ( x ) + f ( x ) g ′ ( x ) (f(x)g(x))'=f'(x)g(x)+f(x)g'(x) (f(x)g(x))=f(x)g(x)+f(x)g(x)
  • ( f ( x ) g ( x ) ) ′ = f ′ ( x ) g ( x ) − f ( x ) g ′ ( x ) g 2 ( x ) (\frac{f(x)}{g(x)})'=\frac{f'(x)g(x)-f(x)g'(x)}{g^2(x)} (g(x)f(x))=g2(x)f(x)g(x)f(x)g(x)

- 复合函数求导法则

( f ( g ( x ) ) ) ′ = f ′ ( g ) g ′ ( x ) (f(g(x)))'=f'(g)g'(x) (f(g(x)))=f(g)g(x) 链式求导法则

- 用途

  • 求极值,backpropagation 激活函数

  • sigmoid函数: σ ( x ) = 1 1 + e − x \sigma(x)=\frac{1}{1+e^{-x}} σ(x)=1+ex1 ; σ ′ ( x ) = [ 1 − σ ( x ) ] σ ( x ) \sigma'(x)=[1-\sigma(x)]\sigma(x) σ(x)=[1σ(x)]σ(x)

  • tanh (双曲正切)函数: tanh ⁡ ( x ) = sinh ⁡ x cosh ⁡ x = e x − e − x e x + e − x \tanh(x)=\frac{\sinh x}{\cosh x}=\frac{e^x-e^{-x}}{e^x+e^{-x}} tanh(x)=coshxsinhx=ex+exexex

    tanh ⁡ ′ ( x ) = 1 − tanh ⁡ 2 ( x ) \tanh'(x)=1-\tanh^2(x) tanh(x)=1tanh2(x)

- 高阶导数

对导数再次求导: f ( n ) ( x ) f^{(n)}(x) f(n)(x)

- 导数与函数单调性关系

导数大于0,单调增;导数小于0,单调减。

- 极值定理

极值处函数的导数(若有)等于0,导数等于0处不一定是极值。

极值点是函数图像的某段子区间内上极大值或者极小值点的横坐标。极值点出现在函数的驻点(导数为0的点)或不可导点处(导函数不存在,也可以取得极值,此时驻点不存在)。

- 导数与函数凹凸性

:中国大陆数学界某些机构关于函数凹凸性定义和国外的定义是相反的。

国外定义中,凸函数是向下凸的(不同于我们传统意义上的"凸")。

凹凸函数定义:

设函数 f f f 为定义在区间 I I I 上的函数,若对 ( a , b ) (a,b) (a,b) 上任意两点 x 1 x_1 x1 x 2 x_2 x2 ,恒有:

(1) f ( x 1 + x 2 2 ) > f ( x 1 ) + f ( x 2 ) 2 f(\frac{x_1+x_2}{2})>\frac{f(x_1)+f(x_2)}{2} f(2x1+x2)>2f(x1)+f(x2),则称 f f f ( a , b ) (a,b) (a,b) 上的凹函数或者上凸函数或者 A 型函数;

(2) f ( x 1 + x 2 2 ) < f ( x 1 ) + f ( x 2 ) 2 f(\frac{x_1+x_2}{2})<\frac{f(x_1)+f(x_2)}{2} f(2x1+x2)<2f(x1)+f(x2),则称 f f f ( a , b ) (a,b) (a,b) 上的凸函数或者下凸函数或者 V 型函数;

  • f ′ ′ ( x ) > 0 f''(x)>0 f′′(x)>0 二阶导数大于0——凸 (convex) 函数;反之,凹 (concave) 函数
  • f ′ ( x ) = 0 f'(x)=0 f(x)=0 驻点;
  • f ′ ′ ( x ) = 0 f''(x)=0 f′′(x)=0 ,若该曲线图形的函数在拐点(连续曲线的凹弧与凸弧的分界点)有二阶导数,则二阶导数在拐点处异号(由正变负或由负变正)或不存在。

- 一元函数泰勒展开

多项式函数来近似一个可导函数。
f ( x ) = f ( x 0 ) 0 ! + f ′ ( x 0 ) 1 ! ( x − x 0 ) + f ′ ′ ( x 0 ) 2 ! ( x − x 0 ) 2 + . . . + f n ( x 0 ) n ! ( x − x 0 ) n + R n ( x ) f(x)=\frac{f(x_0)}{0!}+\frac{f'(x_0)}{1!}(x-x_0)+\frac{f''(x_0)}{2!}(x-x_0)^2+...+\frac{f^{n}(x_0)}{n!}(x-x_0)^n + R_n(x) f(x)=0!f(x0)+1!f(x0)(xx0)+2!f′′(x0)(xx0)2+...+n!fn(x0)(xx0)n+Rn(x)

f ( x ) = f ( x k ) + ( x − x k ) f ′ ( x k ) + 1 2 ( x − x k ) 2 f ′ ′ ( x k ) + o n f(x)=f(x_k)+(x-x_k)f'(x_k)+\frac{1}{2}(x-x_k)^2f''(x_k)+o^n f(x)=f(xk)+(xxk)f(xk)+21(xxk)2f′′(xk)+on

机器学习中求极值用的,梯度下降法(保留泰勒展开一阶项),牛顿法(保留泰勒展开二阶项)。

你可能感兴趣的:(数学,人工智能)