什么是数据结构?
通俗的来讲,我们在做一些项目时,需要把一些数据存储起来;方式包括:通讯录,数组,这些是顺序表,后面还有链表,哈希表,红黑树等高级数据结构。简单来说,就是管理数据的方式。
什么是算法?
算法可以说是通过某种方式对数据进行处理,具体的来讲就是:排序,二分查找。而暴力求解,回溯等属于算法的分类。递归则是解决算法问题的方式。
1.算法效率
1.1如何衡量一个算法的好坏?
算法在编写成可执行程序后,运行时需要耗费时间资源和空间(内存)资源 。因此衡量一个算法的好坏,一般是从时间和空间两个维度来衡量的,即时间复杂度和空间复杂度。
1.2算法的时间复杂度和空间复杂度
复杂度是衡量算法效率的一个标准。时间复杂度主要衡量一个算法的运行快慢,而空间复杂度主要衡量一个算法运行所需要的额外空间。是但是经过计算机行业的迅速发展,计算机的存储容量已经达到了很高的程度。所以我们如今已经不需要再特别关注一个算法的空间复杂度。
2.时间复杂度(初阶)
2.1时间复杂度的概念:
时间复杂度的定义:在计算机科学中,算法的时间复杂度是一个函数,这里的函数是指数学函数,不是编程函数。它定量描述了该算法的运行时间。一个算法执行所耗费的时间,从理论上说,是不能算出来的,只有你把你的程序放在机器上跑起来,才能知道。但是我们需要每个算法都上机测试吗?是可以都上机测试,但是这很麻烦,所以才有了时间复杂度这个分析方式。一个算法所花费的时间与其中语句的执行次数成正比例,算法中的 基本操作的执行次数,为算法的时间复杂度。
即:找到某条基本语句与问题规模N之间的数学表达式,就是算出了该算法的时间复杂度。
// 请计算一下Func1中++count语句总共执行了多少次?
void Func1(int N)
{
int count = 0;
for (int i = 0; i < N ; ++ i)
{
for (int j = 0; j < N ; ++ j)
{
++count;
}
}
for (int k = 0; k < 2 * N ; ++ k)
{
++count;
}
int M = 10;
while (M--)
{
++count;
}
printf("%d\n", count);
}
时间复杂度函数:f(N) = N*N + 2*N + 10。共执行了N*N + 2*N + 10次(printf也可以算进去,为N*N + 2*N + 11次,不过没有什么影响,具体看后面),基本操作执行了多少次就是它的复杂度。所以时间复杂度的计算方式是执行了多少次。时间复杂度的计算和环境没有关系。
大O渐进法(是一种估算):
Func1 执行的基本操作次数 :
f(N) = N*N + 2*N + 10
N = 10 F(N) = 130
N = 100 F(N) = 10210
N = 1000 F(N) = 1002010
随着N的变大,后两项对结果的影响逐渐变小。实际中我们计算时间复杂度时,我们其实并不一定要计算精确的执行次数,而只需要大概执行次数,那么这里我们使用大O的渐进表示法。
2.2大O的渐进表示法
大O符号(Big O notation):是用于描述函数渐进行为的数学符号。
推导大O阶方法:
1、用常数1取代运行时间中的所有加法常数。
void Func4(int N)
{
int count = 0;
for (int k = 0; k < 100; ++ k)
{
++count;
}
printf("%d\n", count);
}
准确执行了100次(可以是101次,但还是常数,影响不大),是一个常数,所以时间复杂度是O(1)。
所以O(1)要求的算法只能执行常数次。
2、在修改后的运行次数函数中,只保留最高阶项。
3、如果最高阶项存在且不是1,则去除与这个项目相乘的常数。得到的结果就是大O阶。
// 计算Func2的时间复杂度?
void Func2(int N)
{
int count = 0;
for (int k = 0; k < 2 * N ; ++ k)
{
++count;
}
int M = 10;
while (M--)
{
++count;
}
printf("%d\n", count);
}
准确执行了2*N+10次,保留最高阶项后为2*N,再除去与这个项目相乘的常数后为N。所以时间复杂度为O(N)。
大O中表示的是未知数可以是N,也可以是K等等。但必须是未知数,
2.3常见时间复杂度计算举例
// 计算Func3的时间复杂度?
void Func3(int N, int M)
{
int count = 0;
for (int k = 0; k < M; ++ k)
{
++count;
}
for (int k = 0; k < N ; ++ k)
{
++count;
}
printf("%d\n", count);
}
若没有任何条件,则时间复杂度为O(M+N),若M远大于(小于)N,则时间复杂度为O(M)(O(N)),若M和N差不多,则时间复杂度为O(N)或O(M)。
// 计算strchr的时间复杂度?
const char * strchr ( const char * str, int character )
{
while(*str)
{
if(*str == character)
{
return str;
}
else
{
++str;
}
}
return NULL;
}
在str是一个字符串的情况下,具体执行次数不确定。所以有些算法的时间复杂度存在最好、平均和最坏情况:
最坏情况:任意输入规模的最大运行次数(上界)
平均情况:任意输入规模的期望运行次数
最好情况:任意输入规模的最小运行次数(下界)
例如:在一个长度为N数组中搜索一个数据x
最好情况:1次找到
最坏情况:N次找到
平均情况:N/2次找到
在实际中一般情况关注的是算法的最坏运行情况,所以数组中搜索数据时间复杂度为 O(N)
// 计算BubbleSort的时间复杂度?
void BubbleSort(int* a, int n)
{
assert(a);
for (size_t end = n; end > 0; --end)
{
int exchange = 0;
for (size_t i = 1; i < end; ++i)
{
if (a[i-1] > a[i])
{
Swap(&a[i-1], &a[i]);
exchange = 1;
}
}
if (exchange == 0)
break;
}
}
最坏的情况:N*(N-1)/2 时间复杂度为:O(N^2)
最好的情况:N-1 时间复杂度为:O(N)
BubbleSort的时间复杂度为O(N^2)
下面是较复杂的时间复杂度计算:
// 计算BinarySearch的时间复杂度?
int BinarySearch(int* a, int n, int x)
{
assert(a);
int begin = 0;
int end = n;
while (begin < end)
{
int mid = begin + ((end-begin)>>1);
if (a[mid] < x)
begin = mid+1;
else if (a[mid] > x)
end = mid;
else
return mid;
}
return -1;
}
最好的情况:一次找到,一次属于常数次,时间复杂度为O(1)。
最坏的情况:找不到
以纸条表示数组,设纸条长为N,第一次寻找,没找到,纸的长度变为N/2,第二次,纸条长度为N/4,第X次,纸条长度变为1,此时仍然没有找到,寻找结束。对纸条长度有公式:1*2^X = N,所以X的大小为log以2为底,N的对数。所以最坏情况的时间复杂度为O(log2 N)。简写成O(logN)。只有以2为底的有简写,其他n分查找没有。有些资料会简写成lgN,但这是不对的。
所以看算法的时间复杂度不能看有几层循环。
二分查找一定要注意开区间,闭区间的问题,闭区间是left/right = mid + 1,因为mid已经查过了,而开区间是left/right = mid,mid还没有查过(可以这样理解:[0 , 10),查找后变为[0 , 5),如果是end= mid - 1那么就成了[0 , 4),显然,4被漏了)。哪边为闭,哪边就要加减1,哪边为开,哪边就要查找未查找的数。
这样写中间值可以防止溢出:mid = begin + ((end - begin)>>1)
// 计算阶乘递归Fac的时间复杂度?
long long Fac(size_t N)
{
if(0 == N)
return 1;
return Fac(N-1)*N;
}
时间复杂度为:O(N);
递归算法时间复杂度的计算方式:
1.每次调用是O(1),就看它的调用次数。
2.每次调用不是O(1),看它递归调用中次数的累加。
// 计算斐波那契递归Fib的时间复杂度?
long long Fib(size_t N)
{
if(N < 3)
return 1;
return Fib(N-1) + Fib(N-2);
}
这属于情况1,看它的调用次数,但这是一个双路递归。
假设N是10,10分成9和8进行递归,9变8和7的递归,第1层是10的递归,第二层是9和8的递归,第三层是8和7和7和6的递归;最后一层是2和1的递归,2到10为9层(N-1);假设每层是满的,第一层是2^0,最后一层是2^(N-2),累加得1+2+4+8+……+2^(N-2)个累加得:a1(1-q^(n-1))/(1-q)。带入得:2^(N-1)-1,所以时间复杂度为O(2^N)。
3.空间复杂度
空间复杂度也是一个数学表达式,是对一个算法在运行过程中 临时占用存储空间大小的量度 。
空间复杂度不是程序占用了多少bytes的空间,因为这个也没太大意义,所以空间复杂度算的是变量的个数。空间复杂度计算规则基本跟时间复杂度类似,也使用 大 O 渐进表示法。
注意: 函数运行时所需要的栈空间 ( 存储参数、局部变量、一些寄存器信息等 ) 在编译期间已经确定好了,因 此空间复杂度主要通过函数在运行时候显式申请的额外空间来确定。
// 计算BubbleSort的空间复杂度?
void BubbleSort(int* a, int n)
{
assert(a);
for (size_t end = n; end > 0; --end)
{
int exchange = 0;
for (size_t i = 1; i < end; ++i)
{
if (a[i-1] > a[i])
{
Swap(&a[i-1], &a[i]);
exchange = 1;
}
}
if (exchange == 0)
break;
}
}
int* a是算法使用的先决条件,不是为这个算法开辟的额外空间,int* a不归入空间复杂度的计算。
BubbleSort开辟了size_t end,int exchange,size_t i三个空间,所以空间复杂度是O(1)。exchange 是局部变量,出for循环就销毁了,同一时间最多存在三个开辟的空间,所以即使exchange创建了N 次,空间复杂度也还是O(1)。
空间复杂度为O(n)的情况
这种情况,虽然malloc开辟一个大空间,但空间的大小取决于numsSize,随着numsSize的增大,开辟的空间也会增大,开辟空间的大小与numsSize呈线性关系,所以空间复杂度为O(n)。
// 计算Fibonacci的空间复杂度?
// 返回斐波那契数列的前n项
long long* Fibonacci(size_t n)
{
if(n==0)
return NULL;
long long * fibArray = (long long *)malloc((n+1) * sizeof(long long));
fibArray[0] = 0;
fibArray[1] = 1;
for (int i = 2; i <= n ; ++i)
{
fibArray[i] = fibArray[i - 1] + fibArray [i - 2];
}
return fibArray;
}
开辟了n+1个空间所以是O(n),不过这是第一次看见的斐波那契数列实现方式。
// 计算阶乘递归Fac的空间复杂度?
long long Fac(size_t N)
{
if(N == 0)
return 1;
return Fac(N-1)*N;
}
空间复杂度是O(N),第一次看很容易误认为O(1),联系函数栈帧就很容易想明白了,递归函数的每次调用都是在创建新的函数栈帧,创建的次数和N呈线性关系。所以是O(N)。
栈帧创建的大小几乎是固定的。
答案是O(N)。
大概创建10000栈帧,就会造成栈溢出,如果斐波那契数列的空间复杂度是O(2^N),那么N为20左右就会造成栈溢出,但在运行时明显没有,造成时间和空间不同的原因在于时间是不可重复利用的,而空间是可以重复利用的。Fib(N)先调用Fib(N-1),Fib(N-1)先调用Fib(N-2),最后Fib(3)先调用Fib(2),Fib(2)不再调用返回1后销毁,Fib(3)再调用Fib(1),创建Fib(1)的栈帧和之前Fib(2)的栈帧是同一块空间,这样Fib(N-1)完成计算后Fib(N)调用Fib(N-2),调用Fib(N-2)所创建的空间和之前创建Fib(N-1)的栈帧是同一块空间,这样在同一时间,创建的空间数最多为N-1个。所以空间复杂度是O(N)。
常见复杂度对比: