目录
2.1算法的定义
2.2算法的特性
2.2.1输入输出
2.2.2有穷性
2.2.3确定性
2.2.4可行性
2.3算法设计的要求
2.3.1正确性
2.3.2可读性
2.3.3健壮性
2.3.4时间效率高和储存量低
2.4算法效率的度量方法
2.4.1事后统计方法
2.4.2事前分析估算方法
2.5函数的渐进增长
2.6算法时间复杂度
2.6.1算法时间复杂度定义
2.6.2推导大O阶方法
2.6.3常数阶
2.6.3线性阶
2.6.4对数阶
2.6.5平方阶
2.7常见的时间复杂度
2.8最坏情况与平均情况
2.9算法空间复杂度
算法是解决特定问题求解步骤的描述,在计算机中表现为指令的有限序列,并且每条指令表示一个或多个操作。
算法定义中,提到了指令,指令能被人或机器人等计算装置执行。它可以是计算机指令,也可以是我们平时的语言文字。
为了解决某个或某类问题,需要把指令表示成一定的操作序列,操作序列包括一组操作,每一个操作都完成特定的功能,这就是算法了。
一个算法具有零个或多个输入,这些输入取自于某个特定的对象集合。
一个算法具有一个或多个输出,这些输出是与输入有着某种特定关系的量。
一个算法必须总在执行有穷步之后结束,且每一步都可在有穷时间内完成。
算法中每条指令必须有确切的含义,对于相同的输入只能得出相同的输出。
算法中描述的操作都可以通过已经实现的基本运算执行有限次来实现。
正确性:算法的正确性是指算法至少应该具有输入,输出和加工处理无歧视义性,能正确反映问题的需求,能够得到问题的正确答案。
算法的“正确”大体分为以下四个层次
层次1是最低要求,层次4是最困难的,一般我们把层次3作为一个算法是否正确的标准。
可读性:算法设计的另一个目的是为了便于阅读,理解和交流。
可读性是算法好坏很重要的标志。
健壮性:当输入数据不合法时,算法也能做出相关处理,而不是产生异常或莫名奇妙的结果。
时间效率是指的是算法的执行时间。对于同一个问题,如果有多个算法能够解决,执行时间短的算法效率高。储存量需求指的是算法在执行过程中需要的最大存储空间。设计算法应该尽量满足时间效率高和存储量低的需求。
事后统计方法:这种方法主要是通过设计好的测试程序和数据,利用计算机计时器对不同算法编制的程序的运行时间进行比较,从而确定算法效率的高低。
但这种方法有很大的缺陷:
所以我们不采用这种方法。
事前分析估算方法:在计算机程序编制前,依据统计方法对算法进行估算。
一个高级语言编写的程序在计算机上运行所消耗的时间取决于下列因素:
第一条是算法好坏的根本,第二条要由软件来支持,第四条要看硬件性能。所以一个程序的运行时间,依赖于算法的好坏和问题的输入规模。所谓问题输入规模是指输入量的多少。
第一种算法:
int i,sum=0,n=100;//执行1次
for(i=1;i<=n;i++)//执行了n+1次
{
sum=sum+i;//执行n次
}
printf("%d",sum);//执行1次
第二种算法:
int sum=0,n=100;//执行1次
sum=(1+n)*n/2;//执行1次
printf("%d",sum);//执行1次
第一种算法执行了1+(n+1)+n+1=2n+3次,第二种算法执行了1+1+1=3次。
所以对于计算1+2+3+......+99+100第二种算法要好于第一种算法。因此要测定运行时间最可靠的方法就是计算对运行时间有消耗的基本操作的执行次数,运行时间与这个计数成正比。
所以我们就不需要关心用什么语言编写,不需要关心程序在什么样的计算机上运行,我们只关心它实现的算法。最终,在分析程序的运行时间,最重要的是把程序看成独立于程序设计语言的算法或一系列步骤。
次数 | 算法A(2n+3) | 算法A'(2n) | 算法B(3n+1) | 算法B'(3n) |
n=1 | 5 | 2 | 4 | 3 |
n=2 | 7 | 4 | 7 | 6 |
n=3 | 9 | 6 | 10 | 9 |
n=10 | 23 | 20 | 31 | 30 |
n=100 | 203 | 200 | 301 | 300 |
由上表算法A总体上要优于算法B,此时我们给出这样的定义,输入规模n在没有限制的情况下,只要超过一个数值N,这个函数就总是大于另一个函数,我们称函数是渐进增长的。
函数的渐进增长:给定两个函数f(n)和g(n),如果存在一个整数N,使得对于所有的n>N,f(n)总是比g(n)大,那么,我们说f(n)的增长渐进快于g(n)。
而且从表中我们还可以总结出,随着n的增大后面的+3还是+1其实是不影响最终的算法变化的。
所以,我们可以忽略这些加法常数。
次数 | 算法C(4n+8) | 算法C'(n) | 算法D(2n^2+1) | 算法D'(n^2) |
n=1 | 12 | 1 | 3 | 1 |
n=2 | 16 | 2 | 9 | 4 |
n=3 | 20 | 3 | 19 | 9 |
n=10 | 48 | 10 | 201 | 100 |
n=100 | 408 | 100 | 20001 | 10000 |
n=1000 | 4008 | 1000 | 2000001 | 1000000 |
从表中我们总结出,随着n的增大前面的乘4还是乘2其实是不影响最终的算法变化的。
所以,与最高次项相乘的常数并不重要。
次数 | 算法E(2n^2+3n+1) | 算法E'(n^2) | 算法F(2n^3+3n+1) | 算法F'(n^3) |
n=1 | 6 | 1 | 6 | 1 |
n=2 | 15 | 4 | 23 | 8 |
n=3 | 28 | 9 | 64 | 27 |
n=10 | 231 | 100 | 2031 | 1000 |
n=100 | 20301 | 10000 | 2000301 | 1000000 |
通过观察最高次项的指数大的,函数随着n的增长,结果也会增长更快。
次数 | 算法G(2n^2) | 算法H(3n+1) | 算法(2n^2+3n+1) |
n=1 | 2 | 4 | 6 |
n=2 | 8 | 7 | 15 |
n=5 | 50 | 16 | 66 |
n=10 | 200 | 31 | 66 |
n=100 | 20000 | 301 | 20301 |
n=1000 | 2000000 | 3001 | 2003001 |
n=10000 | 200000000 | 30001 | 200030001 |
n=100000 | 20000000000 | 300001 | 20000300001 |
n=1000000 | 2000000000000 | 3000001 | 2000003000001 |
我们可以得出一个结论,判断一个算法的效率时,函数中的常数和其他次要项常常可以忽略,而更应该关注主项(最高阶项)的阶数。
如果我们可以对比这几个算法的关键执行次数函数的渐近增长性,基本就可以分析出:某个算法,随着n的增大,它会越来越优于另一算法,或者越来越差于另一算法。这其实就是事前估算方法的理论依据,通过算法时间复杂度来估算算法时间效率。
在进行算法分析时,语句总的执行次数T(n)是关于问题规模n的函数,进而分析T(n)随n的变化情况并确定T(n)的数量级。 算法的时间复杂度,也就是算法的时间度量,记作 T(n)=O(f(n))。它表示随问题规模 n的增大,算法执行时间的增长率和f(n)的增长率相同,称作算法的时间复杂度,简称为时间复杂度。其中f(n)是问题规模n的某个函数。
这样用大写的O()来体现算法时间复杂度的记法,我们称之为大O记法。一般情况下随着n的增大,T(n)增长最慢的算法为最优算法。O(1)叫常数阶,O(n)叫线性阶,O(n^2)叫平方阶。
推导大O阶:
int sum=0,n=100;
sum=(1+n)*n/2;
sum=(1+n)*n/2;
sum=(1+n)*n/2;
上面这段代码与n无关,我们称之为具有O(1)的时间复杂度。
注意:不管这个常数是多少,我们都记作O(1),而不是O(3),O(12)等其他任何数字,这是初学者尝尝犯的错误。
要分析算法的复杂度,关键就是要分析循环结构的运行情况。
下面这段代码,它的循环的时间复杂度为O(n),因为循环体中的代码需要执行n次。
int i;
for(i=0;i
int count=1;
while (count
这个循环的时间复杂度为O(logn),因为当count大于n时就退出循环,所以2的x次方等于n,x=log以二为底的n。
int i,j;
for(i=0;i
这个循环的时间复杂度为O(n^2),如果循环次数为m的话,这个循环的时间复杂度为O(n*m)。所以,循环的时间复杂度等于循环体的复杂度乘以该循环运算的次数。
int i,j;
for(i=0;i
由于当i=0时,内循环执行了N次,当i=1时,执行了n-1次......所以总的执行次数为:n+(n-1)+(n-2)+...+1=n^2/2+n/2。
常用的时间复杂度所消耗的时间从小到大依次是:
O(1)
平均运行时间是所有情况中最有意义的,因为它是期望的运行时间。
一般在没有特殊说明的情况下,都是指最坏时间复杂度。
算法的空间复杂度通过计算算法所需的存储空间实现,算法空间复杂度的计算公式,记作:S(n)=O(f(n))。