数据结构(Data Structure)是计算机存储、组织数据的方式,指相互之间存在一种或多种特定关系的数据元素的集合。
数据结构和数据库的区别是什么?
这二者都是管理数据,只不过数据库是在磁盘中管理数据–增删查改,而数据结构是在内存中管理数据。
磁盘空间很大,内存很小,如果数据量大则在磁盘中用数据库来管理,而数据量小则可以在内存中使用数据结构来管理。
它们最重要的区别是:磁盘可以不带电永久存储数据,而内存一旦断电数据全部消失,内存只是临时来存放这些数据。就比如说写完文档退出后要保存,因为此时的数据是临时存放在内存中的,保存之后才会存入到磁盘中,如果不保存,文档中的数据全部丢失,内存就把这部分的数据全部丢了,同样的如果断电道理也是如此。
算法(Algorithm):就是定义良好的计算过程,他取一个或一组的值为输入,并产生出一个或一组值作为输出。简单来说算法就是一系列的计算步骤,用来将输入数据转化成输出结果。
像前面接触过的算法有排序算法:冒泡排序,qsort等,查找算法:暴力搜索,二分查找等。
只要是解决问题的步骤就是算法。
算法在编写成可执行程序后,运行时需要耗费时间资源和空间(内存)资源 。因此衡量一个算法的好坏,一般是从时间和空间两个维度来衡量的,即时间复杂度和空间复杂度。
时间复杂度主要衡量一个算法的运行快慢,而空间复杂度主要衡量一个算法运行所需要的额外空间。
随着硬件的发展,到目前算法非常关注时间效率,已经不太关注空间效率,因为目前手机电脑的存储空间都非常大了,所以相对而言空间就不太重要了。
比如对于以下斐波那契数列:
long long Fib(int N)
{
if(N < 3)
return 1;
return Fib(N-1) + Fib(N-2);
}
斐波那契数列的递归实现方式非常简洁,但简洁一定好吗?那该如何衡量其好与坏呢?
时间复杂度的定义:在计算机科学中,算法的时间复杂度是一个函数,它定量描述了该算法的运行时间。
一个算法执行所耗费的时间,从理论上说,是不能算出来的,只有把你的程序放在机器上跑起来,才能知道。但是需要每个算法都上机测试吗?是可以都上机测试,但是这很麻烦,所以才有了时间复杂度这个分析方式。
一个算法所花费的时间与其中语句的执行次数成正比例,算法中的基本操作的执行次数,为算法的时间复杂度。
即:找到某条基本语句与问题规模N之间的数学表达式,就是算出了该算法的时间复杂度。
练习:
// 请计算一下Func1中++count语句总共执行了多少次?
void Func1(int N) {
int count = 0;
for (int i = 0; i < N ; ++ i)
{
for (int j = 0; j < N ; ++ j)
{
++count;
}
}
for (int k = 0; k < 2 * N ; ++ k)
{
++count;
}
int M = 10;
while (M--)
{
++count;
}
该函数的复杂度函数式:N*N + 2*N + 10,这就是计算该函数准确的执行次数。
第一个循环N次,并且里面还嵌套了一个循环N次的循环,因此这里的执行次数为N*N,紧接着下面的循环次数为2*N次,最后一个循环循环10次。
Func1 执行的基本操作次数 :
F(N) = N² + 2*N + 10
其实在计算一个算法的时间复杂度时,没有必要准确地计算出该算法的执行次数,只要计算出它的大概执行次数即可,也就是大概地算出它的量级。
那么把表达式中对结果影响不大的项全都去掉,从上面的表达式中可以看出当N越大,后两项对最后的结果的影响就越小,因此该函数的时间复杂度可以估算为:O(N²),这里的O就是接下来要介绍的大O的渐进表示法。
在了解之前,先看两个例子来大概的计算熟悉一下:
// 计算Func2的时间复杂度?
void Func2(int N) {
int count = 0;
for (int k = 0; k < 2 * N ; ++ k)
{
++count;
}
int M = 10;
while (M--)
{
++count;
}
printf("%d\n", count);
}
不难计算,该函数的准确执行次数为:2*N + 10,那么有了上面的概念,把对结果影响不大的项都去掉,当N越大的时候10对与结果的影响微乎其微,当N无线大的时候2对于结果的影响也不大,去掉后该函数的时间复杂度可以估算为:O(N)。
// 计算Func3的时间复杂度?
void Func3(int N, int M) {
int count = 0;
for (int k = 0; k < M; ++k)
{
++count;
}
for (int k = 0; k < N; ++k)
{
++count;
}
printf("%d\n", count);
}
该函数的准确执行次数为:M + N,如果M远大于N,那么该函数估算的时间复杂度为:O(M),反之为:O(N),如果M和N相等为两个任意之一。
// 计算BubbleSort的时间复杂度?
void BubbleSort(int* a, int n) {
assert(a);
for (size_t end = n; end > 0; --end)
{
int exchange = 0;
for (size_t i = 1; i < end; ++i)
{
if (a[i - 1] > a[i])
{
Swap(&a[i - 1], &a[i]);
exchange = 1;
}
}
if (exchange == 0)
break;
}
}
冒泡排序是比较熟悉的排序算法了,两两比较,一趟确定一个最大的元素,也就是比较N-1个元素,第二趟比较N-2个元素…到最后只有一个元素。
因此可以推出它的执行次数为:N-1,N-2,N-3…3,2,1,数学好的一眼就能看出这时一个等差数列,根据等差数列的公式可以得出:1+2+3…+N-1 = N*(N-1)/2。
把对结果影响小的先去掉后表达式为N²/2,当N无线大的时候2对于结果的影响也不大也要去掉,因此冒泡排序的时间复杂度大约为:O(N²)。
时间复杂度是算它是属于什么量级,而不是准确的执行次数.
接下来就来了解一下大O渐进表示法:
大O符号(Big O notation):是用于描述函数渐进行为的数学符号。
推导大O阶方法:
这是因为最高阶项它对结果产生决定性影响
通过上面的例子会发现大O的渐进表示法去掉了那些对结果影响不大的项,简洁明了的表示出了执行次数。
另外有些算法的时间复杂度存在最好、平均和最坏情况,
比如说:
// 计算strchr的时间复杂度?
const char * strchr ( const char * str, int character );
这是在字符串中查找某个字符的函数,它的复杂度就存在最好、平均和最坏的情况。
最好情况:1次找到
最坏情况:N次找到
平均情况:N/2次找到
在实际中一般情况关注的是算法的最坏运行情况,所以数组中搜索数据时间复杂度为O(N),所以该函数的时间复杂度为O(N)。
继续看下面的代码:
// 计算BinarySearch的时间复杂度?
int BinarySearch(int* a, int n, int x) {
assert(a);
int begin = 0;
int end = n - 1;
// [begin, end]:begin和end是左闭右闭区间,因此有=号
while (begin <= end)
{
int mid = begin + ((end - begin) >> 1);
if (a[mid] < x)
begin = mid + 1;
else if (a[mid] > x)
end = mid - 1;
else
return mid;
}
return -1;
}
顾名思义,二分查找就是每次都取区间中点的元素大小来进行比较,比目标值小了缩小左区间,比目标值大了缩小右区间,每次查找区间就会缩小一半。
那么二分的最好情况就是一次找到,时间复杂度为O(1),最坏的情况是找不到,当begin > end的时候说明目标值不存在,这种最坏的情况下找了多少次?
假设最开始N个数,第一次查找时缩放为N的一半,也就是N/2,第二次找不到,会再次缩放一半,即N/2/2,第三次查找再次缩放为原来的一半,即N/2/2/2…要找多少次那么这个区间就会被缩放原来的一半也就是除2,直到这个区间只剩一个值。
如果查找了x次,那么N = 2^x,因此x = log2N,所以二分查找的最坏时间复杂度为O(logN)。
// 计算阶乘递归Fac的时间复杂度?
long long Fac(size_t N) {
if (0 == N)
return 1;
return Fac(N - 1) * N;
}
该函数的时间复杂度为:O(N)。
调用逻辑:Fac(N) -> Fac(N-1) -> Fac(N-2) -> Fac(N-3)… -> Fac(2) -> Fac(1),会调用N次,并且每次执行的次数都是常数次,因此复杂度为O(N)。
// 计算斐波那契递归Fib的时间复杂度?
long long Fib(size_t N) {
if (N < 3)
return 1;
return Fib(N - 1) + Fib(N - 2);
}
到这里来回答一下文章最开始的那个问题:
斐波那契数列的递归实现方式非常简洁,但简洁一定好吗?那该如何衡量其好与坏呢?
画图来看斐波那契数列递归的调用图:
一共递归多少次呢?第一行1次,第二行2次,4,8,16…调用次数每层是成二倍增长的,也就是说有N个数会调用2(n-1)次。
20+21+22…+2(n-1) = 2(n-1),这也是等比数列,又因为每次调用执行的次数为常数项可以直接省略,因此斐波那契递归的时间复杂度为:O(2n),这是一个非常大数字,一点数据量数程序都会卡的没法运行,因此递归斐波那契是一个没用的算法。
空间复杂度也是一个数学表达式,是对一个算法在运行过程中临时额外占用存储空间大小的量度 。
空间复杂度不是程序占用了多少bytes的空间,因为这个也没太大意义,所以空间复杂度算的是变量的个数。
空间复杂度计算规则基本跟实践复杂度类似,也使用大O渐进表示法。
// 计算BubbleSort的空间复杂度?
void BubbleSort(int* a, int n) {
assert(a);
for (size_t end = n; end > 0; --end)
{
int exchange = 0;
for (size_t i = 1; i < end; ++i)
{
if (a[i - 1] > a[i])
{
Swap(&a[i - 1], &a[i]);
exchange = 1;
}
}
if (exchange == 0)
break;
}
}
冒泡排序的空间复杂度为O(1),只有在运算过程中临时开辟的变量才会算在空间复杂度中,而该函数中只有三个局部变量,是常数个变量所以空间复杂度为O(1)。
// 计算阶乘递归Fac的空间复杂度?
long long Fac(size_t N) {
if (N == 0)
return 1;
return Fac(N - 1) * N;
}
该函数的空间复杂度为O(N),每次递归调用都会在栈区上开辟一个栈帧,一共会开辟N+1个栈帧,每个栈帧中的变量都是常数个。
// 计算斐波那契递归Fib的空间复杂度?
long long Fib(size_t N) {
if (N < 3)
return 1;
return Fib(N - 1) + Fib(N - 2);
}
这里的空间复杂度为O(N),这里需要注意的是空间不像时间是一去不复返的,空间可以重复利用,因此每次调用结束后,把那块栈帧的空间还给操作系统后,等下次调用会再次重新分配这块空间。
注意:函数运行时所需要的栈空间(存储参数、局部变量、一些寄存器信息等)在编译期间已经确定好了,因此空间复杂度主要通过函数在运行时候显式申请的额外空间来确定。
本篇完。