数据结构与算法之美——复杂度分析(下):浅析最好、最坏、平均、均摊时间复杂度

[TOC]

说明

今天讲解四个复杂度分析方面的知识点:

  • 最好情况时间复杂度
  • 最坏情况时间复杂度
  • 平均情况时间复杂度
  • 均摊时间复杂度

最好、最坏情况时间复杂度

首先上代码进行分析

// n 表示数组 array 的长度
int find(int[] array, int n, int x) {
  int i = 0;
  int pos = -1;
  for (; i < n; ++i) {
    if (array[i] == x) pos = i;
  }
  return pos;
}

这段代码要实现的功能是,在一个无序的数组中,查找变量x出现的位置。如果没有找到,就返回-1。很容易看出来这段代码的时间复杂度是O(n),其中,n代表数组的长度。

实际上,我们在数组中查找一个数据,并不需要每次都把整个数组遍历一遍,因为有可能中途找到就可以提前结束循环了。我们可以优化一下上述代码。

// n 表示数组 array 的长度
int find(int[] array, int n, int x) {
  int i = 0;
  int pos = -1;
  for (; i < n; ++i) {
    if (array[i] == x) {
       pos = i;
       break;
    }
  }
  return pos;
}

优化之后你会发现这段代码的时间复杂度发生了变化。因为,要查找的变量x可能出现在数组的任意位置。

如果数组中的第一个元素正好是要查找的变量x,那就不需要继续遍历剩下的n-1个数据了,那时间复杂度就是O(1)。但如果数组中不存在变量x,那就需要将整个数组都遍历一遍,时间复杂度就变成了O(n),所以,不同的情况下,这段代码的时间复杂度是不一样的。

为了表示代码在不同情况下的不同时间复杂度,引入了三个概念:最好情况时间复杂度、最坏情况时间复杂度和平均情况时间复杂度。

顾名思义,最好情况时间复杂度就是在最理想的情况下,执行这段代码的时间复杂度。就比如上面提到的要查找的变量x正好是数组的第一个元素,这个时候对应的时间复杂度就是最好情况时间复杂度。

同理,最坏情况时间复杂度就是在最糟糕的情况下,执行这段代码的时间复杂度。就比如上面提到的,如果数组中没有要查找的变量x,我们需要把整个数组都遍历一边才行,所以这种情况对应的时间复杂度就是最坏情况时间复杂度。

平均情况时间复杂度

最好情况时间复杂度和最坏情况时间复杂度对应的都是极端情况下的代码复杂度,发生的概率其实并不大。为了更好的表示平均情况下的复杂度,引入新的概念:平均情况时间复杂度,后面简称为平均时间复杂度。

依旧用上面查找变量x的例子进行解释。

要查找的变量x在数组中的位置,有n+1种情况:在数组的0~n-1位置中和不在数组中。我们把每种情况下查找需要遍历的元素个数累加起来,然后再除以n+1,就可以得到需要遍历的元素个数的平均值,即:

数据结构与算法之美——复杂度分析(下):浅析最好、最坏、平均、均摊时间复杂度_第1张图片
平均值

我们知道在时间复杂度的大O标记法中,可以省略掉系数、低阶、常量,所以,上面公式简化之后,得到的平均时间复杂度就是O(n)。

这样结论虽然是正确的,但是计算过程是有问题的,因为没有考虑到每种情况发生的概率。

要查找的变量x,要么在数组里,要么就不在数组里。这两种情况对应的概率统计起来很麻烦,为了方便理解,我们假设在数组中与不在数组中的概率都为1/2.另外,要查找的数据出现在0n-1这n个位置的概率也是一样的,为1/n。所以,根据概率乘法法则,要查找的数据出现在0n-1中任意位置的概率就是1/(2n)。

所以正确的计算方式应该是利用概率论的知识,求加权平均值,也叫做期望值,所以平均时间复杂度的全称应该叫加权平均时间复杂度或者期望时间复杂度

那平均时间复杂度的计算过程就变成了这样:

数据结构与算法之美——复杂度分析(下):浅析最好、最坏、平均、均摊时间复杂度_第2张图片
平均时间复杂度

这样计算出来的结果去掉系数和常量,这段代码的加权平均时间复杂度为O(n)。

均摊时间复杂度 ★

均摊时间复杂度,以及对应的分析方法,摊还分析(或者叫平摊分析)

二话不说,上代码!

 // array 表示一个长度为 n 的数组
 // 代码中的 array.length 就等于 n
 int[] array = new int[n];
 int count = 0;
 
 void insert(int val) {
    if (count == array.length) {
       int sum = 0;
       for (int i = 0; i < array.length; ++i) {
          sum = sum + array[i];
       }
       array[0] = sum;
       count = 1;
    }

    array[count] = val;
    ++count;
 }

这段代码实现了一个往数组中插入数据的功能。当数组满了之后,也就是代码中的count == array.length时,我们用for循环遍历数组求和,并清空数组,将求和之后的sum值放到数组的第一个位置,然后再将新的数据插入。但如果数组一开始就有空闲空间,则直接将数据插入数组。

注意:清空数组的理解是,当数组满后再去重新插入时,对应的代码是count=1,此时从数组的array[1]开始依次插入,可比做是清空数组。

回到正题,那这段代码的时间复杂度是多少呢?我们先用之前讲到的三种时间复杂度的分析方法来分析一下。

最理想的情况下,数组中有空闲空间,我们只需要将数据插入到数组下标为count的位置就可以了,所以最好情况时间复杂度为O(1)
最坏的情况下,数组中没有空闲空间了,我们需要先做一次数组的遍历求和,然后再将数据插入,所以最坏情况时间复杂度为O(n)
平均情况下,假设数组的长度是n。首先有两种情况,一个是数组没有空闲空间时插入数据,这个时候时间复杂度是O(n),一个是数组有空闲空间,分为n种情况,每种情况的复杂度是O(1)。而且,这n+1种情况发生的概率一样,都是1/(n+1)。所以,根据加权平均的计算方法,求得平均时间复杂度就是:

平均时间复杂度

疑问:为什么这个例子不需要引入概率论的知识。
对比一下inser()和find()的例子,你会发现区别。

  • find()函数在极端情况下,复杂度才为O(1)。但inser()在大部分情况下,时间复杂度都为O(1)。只有个别情况下,复杂度才高,为O(n)。
  • 对于inser()函数来说,O(1)时间复杂度的插入和0(n)时间复杂度的插入,出现的频率是非常有规律的,而且有一定的前后时序关系,一般都是一个O(n)插入之后,紧跟着n-1个O(1)的插入操作,循环往复。

所以,针对这样一种特殊场景的复杂度分析,我们并不需要像之前讲平均复杂度分析方法那样,找出所有的输入情况及对应的发生概率,然后再计算加权平均值。

针对这种特殊的场景,引入一种更加简单的分析方法:摊还分析法,通过摊还分析得到的时间复杂度我们起了一个名字,叫均摊时间复杂度。

插注:看到前面这一段真的是有些懵逼,用概率论也能算的吧...接下来就更懵逼了!!!

那究竟如何使用他摊还分析法来分析算法的均摊时间复杂度呢?

我们还是继续看在数组中插入数据的这个例子。每一次0(n)的插入操作,都会跟着n-1次O(1)的插入操作,所以把耗时多的那次操作均谈到接下来的n-1次耗时少的操作上,均摊下来,这一组连续的操作的均摊时间复杂度就是O(1)。这就是均摊分析的大致思路。

对一个数据结构进行一组连续操作中,大部分情况下时间复杂度都很低,只有个别情况下时间复杂度比较高,而且这些操作之间存在前后连贯的时序关系,这个时候,我们就可以将这一组操作放在一块儿分析,看是否能将较高时间复杂度那次操作的耗时,平摊到其他那些时间复杂度比较低的操作上。而且,在能够应用均摊时间复杂度分析的场合,一般均摊时间复杂度就等于最好情况时间复杂度

尽管很多数据结构和算法书籍都花了很大力气来区分平均时间复杂度和均摊时间复杂度,但其实我个人认为,均摊时间复杂度就是一种特殊的平均时间复杂度,我们没必要花太多精力去区分它们,主要是要掌握这种分析方法,摊还分析。至于分析出来的结果是叫平均还是叫均摊,这只是个说法,并不重要。

内容总结

  • 最好情况时间复杂度:在最理想的情况下,执行这段代码的时间复杂度。
  • 最坏情况时间复杂度:在最糟糕的情况下,执行这段代码的时间复杂度。
  • 平均情况时间复杂度:概率论的方法求加权平均值,即每种情况发生的次数 x 每种情况发生的概率 之和。
  • 均摊时间复杂度:
    • 条件:
      1. 大部分情况下时间复杂度都很低,个别情况下时间复杂度比较高。
      2. 一般具有前后连贯的时序关系。
    • 摊还分析:
      1. 将一组操作放在一块分析,看能否将较高时间复杂度那次操作的耗时,平摊到其他那些时间复杂度比较低的操作上。
      2. 不使用概率论。
    • 结论:
      1. 一般均摊时间复杂度就等于最好情况时间复杂度。
      2. 均摊时间复杂度就是一种特殊的平均时间复杂度。

课后思考

上代码,上代码,我要做题!

// 全局变量,大小为 10 的数组 array,长度 len,下标 i。
int array[] = new int[n]; 
int len = n;
int i = 0;

// 往数组中添加一个元素
void add(int element) {
   if (i >= len) { // 数组空间不够了
     // 重新申请一个 2 倍大小的数组空间
     int new_array[] = new int[len*2];
     // 把原来 array 数组中的数据依次 copy 到 new_array
     for (int j = 0; j < len; ++j) {
       new_array[j] = array[j];
     }
     // new_array 复制给 array,array 现在大小就是 2 倍 len 了
     array = new_array;
     len = 2 * len;
   }
   // 将 element 放到下标为 i 的位置,下标 i 加一
   array[i] = element;
   ++i;
}

插注:原始第一行代码new int[10]和第二行代码int len = 10,我觉得把 10 换成 n 好理解一些。

解答:

  • 当数组空间足够时,即i < len的时候,直接为数组赋值,此时的时间复杂度为O(1),为最好情况时间复杂度
  • 当数组空间不足时,即i >= len的时候,在for循环中会进行 n 次遍历,此时的时间复杂度为O(n),为最坏情况时间复杂度
  • 平均情况时间复杂度:在这里我只想使用概率论的方式去做。首先有空间足够时一种情况,空间不足时为0~n-1种情况,所以一共有n+1种情况,每种情况的概率都是1/(n+1),使用加权方法,次数x概率之和,即为:O(1)。
  • 均摊时间复杂度:摊还分析法,其实就是把复杂度较少的次数O(n)平摊到复杂度较多的次数0(1),没错,就是O(1)了。其实就当做是最好情况时间复杂度得了。

你可能感兴趣的:(数据结构与算法之美——复杂度分析(下):浅析最好、最坏、平均、均摊时间复杂度)