考虑下面函数的导数
根据目前现有的工具,我们可以利用二项式定理将函数展开成多项式进行求导。
然后可以立马求出导数
展开比较讨人厌但是不难。然而,很少人愿意对函数 y=(x3+2)100 进行同样的操作。最好能有一种链式法则,可以对每个函数的求导都变得容易。
出于此目的,理解函数(1)的结构非常重要。通过引入辅助变量 u=x3+2 来实现此目的,这样的话(1)式就可以分解成两个简单的部分:
我们将 u 的表达式带入 y=u5 重新构成(1)。这样的函数叫做复合函数,或函数的函数。一般来说,假设 y 是 u 的函数,而 u 是 x 的函数,
对应的复合函数就是
假定我们现在有一个(6)那样的复合函数,我们希望知道如何将它分解成(5)那样容易求导的形式来计算它的导数。这就是链式法则的内容。
7 链式法则:在上面描述的环境下,我们有
如我们所见,链式法则有点代数的特点;因为莱布尼兹的导数符号表明两个分式中的 du 可以消掉,所以这个公式很好记忆。如果我们将导数看作变化率的话,直观上也很容易理解:
如果 y 的变化速度是 u 的 a 倍, u 的变化速度是 x 的 b 倍,那么 y 的变化速度是 x 的 ab 倍。
或者用日常用语来说,如果车的速度是自行车的两倍,自行车的速度是步行的四倍,那么车的速度是步行的 2⋅4=8 倍。
在进行链式法则证明之前,让我们先看看它是如何应用刚才讨论的问题上,(1)是给定的函数,(4)是它的分解形式。根据(7)
最后一步用 x3+2 替换辅助变量 u 。这个结果跟(3)一样,直接看似乎不太明显,但是等价是很容易建立起来的。更进一步, y=(x3+2)100 的导数可以用相同的方式很容易就计算出来:
利用(7)式得到
正如这些例子展示的那样,链式法则是个强大的工具。
跟之前一样,我们用自变量的变化量 Δx 来证明(7)式;对于变量 u 产生的变化量是 Δu ,那么对于 y 就是 Δy 。我们知道可导隐含着连续,所以 Δx→0 时 Δu→0 。看三个导数的定义,我们现在试图将它们连接起来
那么很自然的我们尝试用简单的代数知识来完成证明:
所以
这个推理几乎完全正确,但是不绝对。难点在于除数为零。根据(9)中的定义来计算 dy/dx 时,增量 Δx 趋近于0但不等于零时,公式才是有意义的。另一方面, Δx 可能对 u 不产生影响,即 Δu=0 ,这样的话(10)(11)就不成立。这个缺陷用巧妙的数学诡计就能填补。
链式法则对所有级别的求导包括最简单的都是必不可少的。在寻找 (x3+2)5 和 (x3+2)100 导数的联系中给出了说明。通用的法则可以表示为如下的形式
任何对 x 可导的函数都能放入括号内。如果给定一个关于 u 的函数,那么公式可以写成如下形式。
8 幂法则:
目前我们知道指数 n 可以为正,可以为负,也可以为零。之后我们将会看到它也可以为分数。
例1:对 y=(3x4+1)7 求导,应用公式(12)
而对 y=[(3x4+1)7+1]5 求导,我们需要连续用两次(12):
对这个过程熟悉后,经常跳过其中的几步直接写出来。目前为了更清晰,我们将计算的每一步都写出来。
例2:如果 y=[(1−2x)/(1+2x)]4 ,那么根据(12)和除法法则
例3:如果 y=(x2−1)3(x2+1)−2 ,那么根据(12)和乘法法则
为了化简,我们提出公因子 2x(x2−1)2 ,去掉负指数,并通分:
之后我们将在许多科学和几何的具体问题上将求导作为工具,那时候将清楚的看到将我们计算的导数化简成最简形式是非常值得的。
还有一些结束语应给给出。我们一直没有解释为什么链式法则是合适的。理由就是,(7)式中我们处理的三个变量 y,u,x 都是互相联系的,每一个依赖于下一个。这个关系可以写成
y 依赖于 u 依赖于 x .
公式
告诉我们如何计算第一个变量相对于最后一个变量的导数,那就是考虑链中的各个部分。这个公式很容易扩展到多变量的情况。例如,如果 x 依赖于 z ,那么
如果 z 依赖于 w ,那么
等等。每个新变量链中就增加一个新的链接,公式中就增加一个新的导数。