导数表现出两个小变量\(\varDelta y,\varDelta x\)之间近似的线性关系(式(1)),这个关系启发了我们,可以为“无穷小量”建立一个度量模型。但这里说的“无穷小量”并不是一个孤立的量,它具有一种“动态”,且和自变的“无穷小量”有线性关系。无穷小量的“动态”衍生于函数,所以对它的讨论离不开具体的函数。对于每个函数\(y=f(x)\),如果在某一点\(x_0\)满足式(1),我们称\(f(x)\)在\(x_0\)可微。变量\(x,y\)在\(x_0\)处表示变化的“无穷小量”被称为\(x,y\)的微分,记作\(\text{d}x,\text{d}y\),且有\(\text{d}y=A\,\text{d}x\)。
\[\varDelta y=A\varDelta x+o(\varDelta x)\tag{1}\]
关于微分的概念,上面的描述倾向于把它当“无穷小”的一种模型,但我们后面需要把它当一般的非零数量,进行四则运算甚至微分运算。因此需要先对微分的这些运算建立严格的理论。这个工作在上世纪有人做过,这里就不展开了。为了让下面的推导有个严谨的解释,我想还是采用教材上的提法,定义\(\text{d}x=\varDelta x\),它是自变的非零小量。而其它微分则是式(1)的\(A\varDelta x\)部分,讨论中要特别注意分母上的微分不能为\(0\)。
由定义可知,一元函数可微的充要条件是可导,它们是等价的。为此导(函)数有时也写作\(\dfrac{\text{d} f(x)}{\text{d} x}\)或\(\dfrac{\text{d} f}{\text{d} x}{(x)}\)(后者更主张形式定义,而不是除法),并可称为微商。根据导数的四则运算,容易推得微分的四则运算(式(2))。再由复合函数的导数公式可得到式(3),由此看出,微分的线性关系不仅仅存在于自变量和因变量之间,还存在于任何两个有可导函数关系的因变量之间。
\[\text{d}(u\pm v)=\text{d}u\pm\text{d} v;\quad\text{d}(uv)=v\,\text{d}u+u\,\text{d}v;\quad\text{d}(\dfrac{u}{v})=\dfrac{v\,\text{d}u-u\,\text{d}v}{v^2}\tag{2}\]
\[\text{d}y=[f(u)]'dx=f'(u)u'\,\text{d}x=f'(u)\,\text{d}u\tag{3}\]
上面看到,微分\(\text{d}y\)其实也是关于\(x\)的函数,所以可以继续对其求微分。这样的微分\(\text{d}(\text{d}y)\)叫\(y\)的二阶微分,简记为\(\text{d}^2y\)。由乘法的微分公式可知,\(\text{d}^2y=\text{d}f'(x)\,\text{d}x+f'(x)\,\text{d}(\text{d}x)\)。由于\(\text{d}x\)是独立的自变量,所以\(\text{d}(\text{d}x)=0\),再把\((\text{d}x)^2\)简记为\(\text{d}x^2\),故有\(\text{d}^2y=f''(x)\,\text{d}x^2\)。
同样可以定义\(n\)阶微分\(\text{d}^ny\),并且有式(4)成立,所以高阶导数也可以定义为\(\dfrac{\text{d}^ny}{\text{d}x^n}\)。类似于乘法的高阶导数,乘法的高阶微分同样有莱布尼兹定理(式(5))。但要注意,在高阶微分中,类似式(3)的形式不变性不一定还成立,你可以随便找个函数验证这个结论。
\[\text{d}^ny=f^{(n)}(x)\,\text{d}x^n\tag{4}\]
\[\text{d}^n(uv)=\sum\limits_{i=0}^n{C_n^i\,\text{d}^{n-i}u\;\text{d}^i}v\tag{5}\]
将导数表示成微商的形式,可以为无穷小建立度量模型,从而方便了很多问题的讨论。比如有一类函数关系,\(x,y\)都是参数(自变量)\(t\)的因变量(式(6)左称为参变量方程)。如果想得到\(x,y\)之间函数的导数,用微分表达式就很方便。当\(x'(t)\ne 0\)时,可有\(y'_x=\dfrac{\text{d}y}{\text{d}x}=\dfrac{y'(t)\text{d}t}{x'(t)\text{d}t}=\dfrac{y'(t)}{x'(t)}\),同样可求得\(x'_y\)(式(6))。利用\(y''_x=\dfrac{\text{d}(\frac{\text{d}y}{\text{d}x})}{\text{d}x}\)继续变形,可求得二阶导数(式(7)),更高阶导数的求法类似。
\[\left\{\begin{matrix}x=x(t)\\y=y(t)\end{matrix}\right.\quad\Rightarrow\quad y'_x=\dfrac{y'(t)}{x'(t)};\quad x'_y=\dfrac{x'(t)}{y'(t)}\tag{6}\]
\[y''_x=\dfrac{y''(t)x'(t)-y'(t)x''(t)}{[x'(t)]^3}\tag{7}\]
我们在连续函数的基础上,又添加了可导(可微)的概念,每增加一种限制,函数就体现出更特殊的性质,现在就来看看可导函数有哪些性质。连续函数的特点表现为局部的连续性(废话),而可导函数则体现了函数在局部的平滑性(值以近似线性的趋势变化)。
先看一个平滑性的例子,如果可导函数\(f(x)\)在\(x_0\)处极大(小)值,则在\(x_0\)处的单边导数一定分别\(\geqslant 0\)和\(\leqslant 0\)。由于函数可导,故左右导数必定都为\(0\),也就是说\(f'(x_0)=0\)。函数在极点处是平滑过渡的,而不是尖角,这个结论叫费马(Fermat)定理。
说到函数的极值,我们知道\([a,b]\)上的连续函数必有最大和最小值,所以如果\(f(x)\)在\([a,b]\)上的可导,它必有最大值\(M\)和最小值\(m\)。为了让它们不都落在端点处,再假设\(f(a)=f(b)\),如果\(m=M\),则函数为常数,导数处处为\(0\)。如果\(m\ne M\),则必有一个不落在端点,故必有一个内点的导数为零。结论总结为:如果\(f(x)\in C_{[a,b]}\)可导且\(f(a)=f(b)\),则必存在\(c\in (a,b)\)使得\(f'(c)=0\)。该结论被称为罗尔(Rolle)定理。
罗尔定理有着直观的几何解释,如果光滑线段两端在同一高度,则必有一处的切线是水平的。显然这一几何现象是可以推广的,第一种推广就是不限定端点,其中一个或两个端点可以伸到无穷远处,但两端的极限相等。证明方法类似,主要是确定存在极点,得到的结论也称为扩展的罗尔定理。罗尔定理虽然直观,但定理的使用却有着无穷的变换,很多看似无关的问题在通过巧妙的变换后,却仍然还是这个定理。
• \(f(x)\)可导且存在两个零点,求证:\(f(x)+f'(x)\)在这两个零点之间有一个零点。(提示:考察\(F(x)=e^xf(x)\))
罗尔定理的另一种扩展就是把水平线变成任意方向的斜线,即如果\(f(x)\in C_{[a,b]}\)可导,猜想存在\(\xi\in (a,b)\)使得式(9)成立。但这毕竟不是几何问题,不好说通过旋转坐标的方法证明结论,我们还是得借助罗尔定理来证明。思路其实很简单,只要利用\(f(x)\)构造一个满足\(F(a)=F(b)=0\)的函数\(F(x)\),然后间接地得到结论。容易构造出式(8)的函数满足条件,利用罗尔定理并整理后便得到公式(9)。
\[F(x)=f(x)-f(a)-\dfrac{f(b)-f(a)}{b-a}(x-a)\tag{8}\]
\[f'(\xi)=\dfrac{f(b)-f(a)}{b-a}\tag{9}\]
该结论称为拉格朗日(Lagrange)定理,也叫微分学中值定理,它建立了导数和函数值之间的关系,是微分学的基本定理。如果函数是以参数方程的形式表示的,中值定理也有对应的结论。如果\(f(x),g(x)\in C_{[a,b]}\)可导,且\(g'(x)\ne 0\),通过类似的构造可知,存在\(\xi\in(a,b)\)使得式(10)成立。这个结论也叫柯西中值定理。
\[\dfrac{f'(\xi)}{g'(\xi)}=\dfrac{f(b)-f(a)}{g(b)-g(a)}\tag{10}\]
• \(f(x)\in C_{[a,b]}\)可导(\(a>0\)),则存在\(\xi_1,\xi_2\in(a,b)\),满足\(f'(\xi_1)=\dfrac{f'(\xi_2)}{2\xi_2}(a+b)\)。(提示:\(g(x)=x^2\))
柯西中值定理的形式提示我们,可以将不定式\(\dfrac{0}{0}\)问题转化为导数的比。具体来说,如果\(x\to 0\)时\(f(x)\to 0, g(x)\to 0\),\(f(x),g(x)\)可导且\(g'(x)\ne 0\),则由柯西中值定理知\(\dfrac{f(x)}{g(x)}=\dfrac{f'(\xi)}{g'(\xi)}\)。所以如果后者的极限\(K\)存在或为无穷,则前者具有相同的极限(式(11))。从证明过程可知,结论对于单边极限也是成立的,并且如果\(f(x),g(x)\)高阶可导且\(g^{(n)}(x)\ne 0\),公式(11)可以连续使用。但要注意,如果后者的极限不存在,并不能说明前者的极限也不存在。
\[\lim\limits_{x\to a}\,{\dfrac{f'(x)}{g'(x)}}=K\quad\Rightarrow\quad\lim\limits_{x\to a}\,{\dfrac{f(x)}{g(x)}}=K\tag{11}\]
同样条件下,对\(\dfrac{\infty}{\infty}\)型不定式(\(f(x)\to\infty, g(x)\to\infty\))可以有样的结论,证明中要以\(\dfrac{f(x)-f(x_0)}{g(x)-g(x_0)}\)为中间式进行讨论。当\(x\to\infty\)时做代换\(x=\dfrac{1}{t}\),以上两种不定式同样成立。这就是说结论在\(a,K\)为实数或无穷时都成立,它们一起被称为洛比达(L'Hospitale)法则。对于\(0\cdot\infty,\infty-\infty,0^0,\infty^0,1^{\infty}\)形式的不等式,其实都可以转化为以上两种情景,故也可以利用洛必达法则计算。
可导函数是平滑的,这一点使得函数值在领域内有了牵连,后面的积分学中我们将会看到,导数可以完全确定函数的走向。某一点如果有高阶导数,它们会影响低阶导数的走向,我们自然想问:某一点的高阶导数对周边值究竟有多大影响?设\(f(x),g(x)\)在\(x_0\)处的值和直到\(n\)阶导数都相等(注意,在\(x_0\)有\(n\)阶导数标志着在其邻域内有\(1\sim n-1\)阶导数),它们的差值\(r(x)=f(x)-g(x)\)在\(x_0\)处满足式(12)。
\[r(x_0)=r'(x_0)=r''(x_0)=\cdots=r^{(n)}(x_0)=0\tag{12}\]
首先由\(\dfrac{r(x)}{x-x_0}\to r'(x_0)=0\),可知\(r(x)=o(x-x_0)\)。类似地有\(r'(x)=o(x-x_0)\),从而\(\dfrac{r(x)}{x-x_0}=r'(\xi)=o(\xi-x_0)\),容易有\(r(x)=o((x-x_0)^2)\)。使用归纳法可以证明\(r(x)=o((x-x_0)^n)\),这就表示一个点的导数和高阶导数对它周围的值有很好的限制作用,误差可以控制在任何精度之内。
有了以上结论,我们可以找一个简单函数来作为\(f(x)\)的逼近,而最简单的函数当然就是多项式。而且\(n\)阶多项式\(P_n(x)\)可以唯一表示成\(\sum\limits_{i=0}^n=a_i(x-x_0)^i\)的形式,这个形式的每一项就是每一阶的无穷小量,用起来非常方便。如果\(P_n(x)\)在\(x_0\)处与\(f(x)\)的值和直到\(n\)阶导数都相等,首先容易证明\(a_i=\dfrac{f^{(i)}(x_0)}{i!}\),其次由刚才的结论得到\(f(x)\)的估算式(13)。
\[f(x)=f(x_0)+\dfrac{1}{1!}f'(x_0)(x-x_0)+\dfrac{1}{2!}f''(x_0)(x-x_0)^2+\cdots+\dfrac{1}{n!}f^{(n)}(x_0)(x-x_0)^n+o((x-x_0)^n)\tag{13}\]
以上公式被称为泰勒公式,差函数\(r_n(x)=f(x)-P_n(x)\)称为它的余项,而\(o((x-x_0)^n)\)称为皮亚诺余项。泰勒公式有着非常好的形式特点,回顾幂函数的导数公式,其实上面相邻两项之间有着很紧密的联系。为此重新记多项式为\(P_n(x,x_0)\),设\(\varphi(z)=f(x)-P_n(x,z)\),其中\(x\)固定而\(z\)为变量。则可以有\(\varphi(x)=0,\,\varphi(x_0)=r_n(x)\),并且容易算得到\(\varphi'(z)=-\dfrac{f^{(n+1)}(z)}{n!}(x-z)^n\)。
对\(\varphi(z)\)中值定理可有\(r_n(x)=(x-x_0)\dfrac{1}{n!}f^{(n+1)}(\xi)(x-\xi)^n\),令\(\theta=\dfrac{\xi-x_0}{x-x_0}\),可得到式(14),它被称为柯西余项。为了消除\((x-\xi)^n\)以得到更好的形式,以上推导其实可以使用柯西中值定理,容易想到选第二个函数为\((x-z)^{n+1}\),就可以得到式(15),它被称为拉格朗日余项。要注意,柯西余项和拉个朗日余项的推导过程是要求\(f(x)\)在\(x_0\)邻域内有直到\(n+1\)阶导数的,而皮亚诺余项只要求\(f(x)\)在\(x_0\)邻域内有直到\(n-1\)阶导数且在\(x_0\)有\(n\)阶导数。
\[r_n(x)=\dfrac{1}{n!}f^{(n+1)}(x_0+\theta(x-x_0))(1-\theta)^n(x-x_0)^{n+1},\quad(0<\theta<1)\tag{14}\]
\[r_n(x)=\dfrac{1}{(n+1)!}f^{(n+1)}(\xi)(x-x_0)^{n+1},\quad (\xi\in(x_0,x))\tag{15}\]
泰勒公式给出了函数估值的各阶无穷小,在求极限和很多问题中有非常广的应用。初等函数有着任意阶的导数,下表列出了它们的泰勒公式,以便查阅。
\((1+x)^\mu\) | \(=1+\mu x+\dfrac{\mu(\mu-1)}{2}x^2+\cdots+\dfrac{\mu(\mu-1)\cdots(\mu-n+1)}{n!}x^n+o(x^n)\) |
\(\dfrac{1}{1-x}\) | \(=1+x+x^2+\cdots+x^n+o(x^n)\) |
\(e^x\) | \(=1+\dfrac{1}{1!}x+\dfrac{1}{2!}x^2+\cdots+\dfrac{1}{n!}x^n+o(x^n)\) |
\(\ln{(1+x)}\) | \(=x-\dfrac{1}{2}x^2+\dfrac{1}{3}x^3-\cdots+(-1)^{n-1}\dfrac{1}{n}x^n+o(x^n)\) |
\(\sin{x}\) | \(=x-\dfrac{1}{3!}x^3+\dfrac{1}{5!}x^5-\cdots+(-1)^{n-1}\dfrac{1}{(2n-1)!}x^{2n-1}+o(x^{2n})\) |
\(\cos{x}\) | \(=1-\dfrac{1}{2!}x^2+\dfrac{1}{4!}x^4-\cdots+(-1)^n\dfrac{1}{(2n)!}x^{2n}+o(x^{2n+1})\) |
\(\arcsin{x}\) | \(=x+\dfrac{1}{2}\cdot\dfrac{x^3}{3}+\cdots+\dfrac{1\cdot 3\cdots(2n-1)}{2\cdot 4\cdots 2n}\dfrac{x^{2n+1}}{2n+1}+o(x^{2n+2})\) |
\(\arctan{x}\) | \(=x-\dfrac{1}{3}x^3+\dfrac{1}{5}x^5-\cdots+(-1)^{n-1}\dfrac{1}{2n-1}x^{2n-1}+o(x^{2n})\) |