《大话数据结构》阅读总结（二）算法

（二）算法

算法是解决特定问题求解步骤的描述，在计算机中表现为指令的有限序列，并且每条指令表示一个或多个操作。

2.1 算法的特性

算法具有五个基本特性。

输入	算法具有零个或多个输入
输出	算法至少有一个或多个输出
有穷性	算法在执行有限的步骤之后，自动结束而不会出现无限循环，并且一个步骤在可接受的时间内完成。
确定性	算法的每一个步骤都具有确定的含义，不会出现二义性。
可行性	算法的每一步都必须是可行的，也就是说，每一步都能够通过执行有限次数完成。

2.2 算法设计的要求

正确性	算法的正确性是指算法至少应该具有输入、输出和加工处理无歧义性、能正确反映问题的需求、能够得到问题的正确答案。
正确性	大体分为以下四个层次： 1 算法程序没有语法错误。 2 算法程序对于合法的输入数据能够产生满足要求的输出结果。 3 算法程序对于非法的输入数据能够得出满足规格说明的结果。 4 算法程序对于精心选择的，甚至刁难的测试数据都有满足要求的输出结果。一般情况，以层次3作为一个算法是否正确的标准。
可读性	算法设计的另一目的是为了便于阅读、理解和交流。
健壮性	当输入数据不合法时，算法也能做出相关处理，而不是产生异常或莫名其妙的结果。
时间效率高和存储量低	设计算法应该尽量满足时间效率高和存储量低的需求。

2.3 算法效率的度量方法

算法效率大都指算法的执行时间，通过对算法的数据测试，利用计算机的计时功能，来计算不同算法的效率是高还是低。

2.3.1 事后统计方法

主要是通过设计好的测试程序和数据，利用计算机计时器对不同算法编制的程序的运行时间进行比较，从而确定算法效率的高低。

缺陷：

必须依据算法事先编制好程序，需要花费大量的时间和精力。
时间的比较依赖计算机硬件和软件等环境因素，有时会掩盖算法本身的优劣。
算法的测试数据设计困难，程序的运行时间往往还与测试数据的规模有很大关系，效率高的算法在小的测试数据面前得不到体现。

基于事后统计方法有上述缺陷，不予采纳。

2.3.2 事前分析估算方法

在计算机程序编制前，依据统计方法对算法进行估算。

算法执行时间的受影响因素
1 算法采用的策略、方法	算法好坏的根本
2 编译产生的代码质量	软件支持
3 问题的输入规模	输入量的多少
4 机器执行指令的速度	硬件性能

PS: 抛开与计算机硬件、软件有关的因素。一个算法的运行时间，依赖于算法的好坏和问题的输入规模。

我们不关心编写程序的设计语言，也不关心程序跑在什么计算机中，我们只关心它所实现的算法。最终，在分析程序的运行时间时，最重要的是把程序看成是独立于程序设计语言的算法或一系列步骤。

综上所述，测定运行时间最可靠的方法就是计算对运行时间有消耗的基本操作的执行次数。运行时间与这个计数成正比。
而我们在分析一个算法的运行时间时，重要的是把基本操作的数量与输入规模关联起来，即基本操作的数量必须表示成输入规模的函数。

举例：1 + 2 + 3 + ... + n 求和算法
算法	输入规模	基本操作的执行次数（输入规模的函数）
遍历1到n累加	n	f(n) = n
(1 + n) * n / 2	n	f(n) = 1

2.4 函数的渐近增长

函数的渐近增长：给定两个函数 f(n) 和 g(n)，如果存在一个整数 N，使得对于所有的 n > N，f(n) 总是比 g(n) 大，那么，我们说 f(n) 的增长渐近快于 g(n)。

两个算法函数进行比较时，随着 n 的增长，我们发现如下几点规律：

加法常量可以忽略。
与最高次项相乘的常数并不重要。
最高次项的指数大的，函数随着 n 的增长，结果也会增长的特别快。

综上所述，判断一个算法的效率时，函数中的常数和其他次要项常常可以忽略，而更应该关注主项（最高阶项）的阶数。

判断一个算法的好坏，少量的数据是不能做出准确判断的。
某个算法，随着n的增大，它会越来越优于另一个算法，或者越来越差于另一个算法。
即事前估算方法的理论依据，通过算法时间复杂度来估算算法时间效率。

2.5 算法时间复杂度

在进行算法分析时，语句总的执行次数 T(n) 是关于问题规模 n 的函数，进而分析 T(n) 随 n 的变化情况并确定 T(n) 的数量级。算法的时间复杂度，也就是算法的时间量度，记作：T(n) = O(f(n))。它表示随问题规模n的增大，算法执行时间的增长率和 f(n) 的增长率相同，称作算法的渐近时间复杂度，简称为时间复杂度。其中 f(n) 是问题规模 n 的某个函数。

这样用大写O()来体现时间复杂度的记法，称之为大O记法。

2.5.1 推导大O阶方法

用常数1取代运行时间中的所有加法常数。
在修改后的运行次数函数中，只保留最高阶项。
如果最高阶项存在且不是1，则去除与这个项相乘的常数。

2.5 常见的时间复杂度

执行次数函数 f(n)	阶 O(f(n))	非正式术语
12	O(1)	常数阶
6n^3 + 2n^2 + 3n + 4	O(n3)	立方阶
3n^2 + 2n + 1	O(n^2)	平方阶
5log2(n) + 20	O(logn)	对数阶
2n + 3nlog2(n) + 19	O(nlogn)	nlogn阶
6n^3 + 2n^2 + 3n + 4	O(n^3)	立方阶
2^n	O(n^2)	指数阶

常用时间复杂度所耗费的时间从小到大依次是:
O(1) < O(logn) < O(n) < O(nlogn) < O(n^2) < O(n^3) < O(2^n) < O(n!) < O(n^n)

2.6 最坏情况与平均情况

查找一个有n个随机数字数组的某个数字，最好的情况是第一个数字就是，那么算法的时间复杂度为 O(1) ,但也有可能这个数字就在最后一个位置上待着，那么算法的时间复杂度就是 O(n) ,这是最坏的一种情况。

最坏情况运行时间是一种保证，那就是运行时间将不会再坏了。在应用中，这是一种最重要的需求，通常，除非特别指定，我们提到的运行时间都是最坏情况的运行时间。

平均运行时间是所有情况中最有意义的，因为它是期望的运行时间。

对算法的分析，一种方法是计算所有情况的平均值，这种时间复杂度的计算方法称为平均时间复杂度。另一种方法是计算最坏情况下的时间复杂度，这种方法称为最坏时间复杂度。一般在没有特殊说明的情况下，都是指最坏时间复杂度。

2.7 算法空间复杂度

我们在写代码时，完全可以用空间来换取时间。

算法的空间复杂度通过计算算法所需的存储空间实现，算法空间复杂度的计算公式记作： S(n) = O(f(n)) ,其中， n 为问题的规模，f(n) 为语句关于 n 所占存储空间的函数。

通常，我们都使用“时间复杂度”来指运行时间的需求，使用“空间复杂度”指空间需求。当不用限定词地使用“复杂度时”，通常指时间复杂度。