本文涉及更多的是概念,代码部分请参考之前写过的 2 篇博客
排序算法 基于Javascript
基本数据结构和查找算法
本文主要是基础的数据结构和算法概念,可能部分地方会涉及更高级的算法和算法,具体内容以后会单独写的。此外一些性质还会不断补充,也希望可以得到您的指点,谢谢。
程序 = 数据结构 + 算法
在数据结构中,没有前件的结点称为根结点,没有后件的结点成为终端结点
数据结构的基本操作
插入和删除是对数据结构的两种基本操作。此外还有查找、分类、合并、分解、复制和修改等。
线性结构和非线性结构
根据数据结构中各数据元素之间前后件关系的复杂程度,一般将数据结构分为两大类型:线性结构和非线性结构。
本文涉及一下内容:
顺序表是线性表的顺序存储结构,指的是用一组地址连续的存储单元依次存储线性表的数据元素。
顺序表具备如下两个基本特征:
假设顺序表的每个元素需占用 K K 个存储单元,并以所占的第一个单元的存储地址作为数据元素的存储位置。则顺序表中第 i+1 i + 1 个数据元素的存储位置 LOC(ai+1) L O C ( a i + 1 ) 和第 i i 个数据元素的存储位置 LOC(ai) L O C ( a i ) 之间满足下列关系为:
LOC(ai+1)=LOC(ai)+K L O C ( a i + 1 ) = L O C ( a i ) + K
LOC(ai)=LOC(a1)+(i−1)∗K L O C ( a i ) = L O C ( a 1 ) + ( i − 1 ) ∗ K
其中, LOC(a1) L O C ( a 1 ) 是顺序表的第一个数据元素 a1 a 1 的存储位置,通常称做顺序表的起始位置或基地址。顺序存储结构也称随机存取结构。
顺序表常见操作(括号中为算法平均时间复杂度,没有写明的具体复杂度依赖不同算法和运算规则):
插入( O(n) O ( n ) )、删除( O(n) O ( n ) )、查找、排序、分解、合并、复制( O(n) O ( n ) )、逆转( O(n) O ( n ) )
链表指线性表的链式存储结构。一组任意的存储单元存储线性表的数据元素,因此,为了表示每个数据元素 ai a i 与其直接后继数据元素 ai+1 a i + 1 之间的逻辑关系,对数据元素 ai a i 来说,除了存储其本身的信息(数据域)之外,还需存储一个变量指示其直接后继的信息(指针域)。这两部分信息组成数据元素 ai a i 的存储映象,称为结点。 N N 个结点链结成一个链表。该链表就是传统的单向链表。
有时,我们在单链表的第一个结点之前附设一个结点,称之为头结点,它指向表中第一个结点。头结点的数据域可 以不存储任何信息,也可存储如线性表的长度等类的附加信息,头结点的指针域存储指向第一个结点的指针。在单链表中,取得第 I 个数据元素必须从头指针出发寻找,因此,链表是非随机存取的存储结构。
以上提到的链表指针域只包括一个指针,指向下一个数据的地址,如果我们将链表最后一个结点指针域的指针指向链表的头结点地址,就构成了一个环状的存储结构,我们称作循环链表。
当然我们可以给每个结点的指针域再添加一个指针,使其指向前一个数据结点的地址,这样就构成了双向链表,而将头结点的前一个结点指向尾结点,同时将尾结点的下一个结点指向头结点就构成了双向循环链表。
如果链表的尾结点的指针域指向了该链表之前的任意一个结点,我们称该链表为有环链表。环形链表就是其中一个特例
顺序表常见操作(括号中为算法平均时间复杂度,没有写明的具体复杂度依赖不同算法和运算规则):
插入( O(n) O ( n ) )、删除( O(n) O ( n ) )、查找、排序、分解、合并、复制( O(n) O ( n ) )、逆转( O(n) O ( n ) )
索引存储除建立存储结点信息外,还建立附加的索引表来标识结点的地址。索引表由若干索引项组成。
对于索引的理解最好的例子就是《新华字典》,它建立的2套索引表(拼音、部首)。字典的正文就是从“啊”到“做”的每个字的解释,有上千页,就是是数据。而前面的拼音/部首就是索引表,索引表告诉你某个读音/部首在第几页,这就好比是指向数据地址的指针。而索引表可以有一级的也可以是多级的,比如字典中的部首索引就是两级的。
索引存储结构是用结点的索引号来确定结点存储地址,其优点是检索速度快,缺点是增加了附加的索引表,会占用较多的存储空间。
散列存储,又称哈希(hash)存储,是一种力图将数据元素的存储位置(预留连续存储区域)与关键码之间建立确定对应关系的查找技术。散列法存储的基本思想是由结点的关键码值决定结点的存储地址。散列技术除了可以用于存储外,还可以用于查找。
散列以数据中每个元素的关键字 K K 为自变量,通过散列函数 H(k) H ( k ) 计算出函数值,以该函数值作为一块连续存储空间的的单元地址,将该元素存储到函数值对应的单元中。由于该函数值唯一,所以查找时间复杂度为 O(1) O ( 1 )
线性表满足以下特征:
栈实际上也是一个线性表,只不过是一种特殊的线性表。栈是只能在表的一端进行插入和删除运算的线性表,通常称插入、删除这一端为栈顶(TOP),另一端为栈底(BOTTOM)。当表中没有元素时称为栈空。 栈顶元素总是后被插入(入栈)的元素,从而也是最先被移除(出栈)的元素;栈底元素总是最先被插入的元素,从而也是最后才能被移除的元素。所以栈是个 后进先出(LIFO) 的数据结构
栈的基本运算有三种:入栈、出栈与读栈顶,时间复杂度都是 O(1) O ( 1 )
队列是只允许在一端删除,在另一端插入的顺序表,允许删除的一端叫做队头,用对头指针 front f r o n t 指向对头元素的下一个元素,允许插入的一端叫做队尾,用队尾指针 rear r e a r 指向队列中的队尾元素,因此,从排头指针 front f r o n t 指向的下一个位置直到队尾指针 rear r e a r 指向的位置之间所有的元素均为队列中的元素。
队列的修改是 先进先出(FIFO) 。往队尾插入一个元素称为入队运算。从对头删除一个元素称为退队运算。
队列主要有两种基本运算:入队运算和退队运算,复杂度都是 O(1) O ( 1 )
在实际应用中,队列的顺序存储结构一般采用循环队列的形式。所谓循环队列,就是将队列存储空间的最后一个 位置绕到第一个位置,形成逻辑上的环状空间。在实际使用循环队列时,为了能区分队满还是队列空,通常需要增加一个标志 S S 。
循环队列主要有两种基本运算:入队运算和退队运算,复杂度都是 O(1) O ( 1 )
树是一种简单的非线性结构。树型结构具有以下特点:
二叉树是一种树型结构,通常采用链式存储结构,满足以下特性:
二叉树的基本性质
二叉树的遍历
就是遵从某种次序,访问二叉树中的所有结点,使得每个结点仅被访问一次。分为以下几种:
此外图的遍历也可以用在树上,包括:
除此之外还有很多有特点的特殊二叉树:
- 在满二叉树的第 K K 层上有 2K−1 2 K − 1 个结点,且深度为 M M 的满二叉树有 2M−1 2 M − 1 个结点
- 完全二叉树:除最后一层以外,每一层上的结点数均达到最大值;在最后一层上只缺少右边的若干结点。
- 具有 N N 个结点的完全二叉树的深度为 ⌊log2N⌋+1 ⌊ l o g 2 N ⌋ + 1
- 完全二叉树总结点数为 N N ,则叶子结点数为 ⌈N/2⌉ ⌈ N / 2 ⌉
将根结点最大的堆叫做 最大堆 或 大根堆 ,根结点最小的堆叫做 最小堆 或 小根堆 。
堆具有以下基本操作:
常用的哈希函数
实现映射的函数是哈希函数,简单的 hash 可能会发生碰撞(不同输入得到相同输出),为了防止碰撞,考虑以下方法:
平均查找长度
ASLs=∑mi=1dim A S L s = ∑ i = 1 m d i m ,查找成功
ASLu=∑ni=1din A S L u = ∑ i = 1 n d i n ,查找不成功
ASLs=∑ki=1(当前级指针数量×当前级数)m A S L s = ∑ i = 1 k ( 当 前 级 指 针 数 量 × 当 前 级 数 ) m ,查找成功
ASLu=∑ni=1当前个位置链长度n A S L u = ∑ i = 1 n 当 前 个 位 置 链 长 度 n ,查找不成功
图有两种定义:
图的分类
图有不同的分类规则,具体如下:
分类1
- 有向图: 如果图中顶点之间关系不仅仅是连通与不连通,而且区分两边的顶点的出入(存在出边和入边),则为有向图。
- 无向图: 如果图中顶点之间关系仅仅是连通与不连通,而不区分两边顶点的出入(不存在出边和入边),则为无向图。
单图
分类2
- 有环图: 单向遍历回可以到已遍历的点,比如有环链表
- 无环图: 单向遍历不能回到已遍历的点,比如树
分类3
- 带权图: 图的具有边带有关于该边信息的权值,比如地图中两点间距离
- 无权图: 图的每个边都不具有有关于该边信息的权值,其仅表示是否连通
其他
- 单图: 一个图如果任意两顶点之间只有一条边且边集中不含环,则称为单图
图的表示采用邻接矩阵和类似树的形式(顶点指针域是个指针数组)的形式,其具有以下特点:
图的遍历
图的相关性质:
操作 | 添加 | 删除 | 查找 | 使用条件 |
---|---|---|---|---|
数组 | O(n) O ( n ) | O(n) O ( n ) | O(n) O ( n ) | 数定下标 |
链表 | O(1) O ( 1 ) | O(n) O ( n ) | O(n) O ( n ) | 两端修改 |
变长数组 | O(1) O ( 1 ) | O(n) O ( n ) | O(n) O ( n ) | 数不定下标 |
栈 | O(1) O ( 1 ) | O(1) O ( 1 ) | - | LIFO |
队列 | O(1) O ( 1 ) | O(1) O ( 1 ) | - | FIFO |
哈希表 | O(1) O ( 1 ) | O(1) O ( 1 ) | O(1) O ( 1 ) | key操作,无序 |
树字典 | O(log2n) O ( l o g 2 n ) | O(log2n) O ( l o g 2 n ) | O(log2n) O ( l o g 2 n ) | key操作,有序 |
哈希集合 | O(1) O ( 1 ) | O(1) O ( 1 ) | O(1) O ( 1 ) | 唯一值,无序 |
树集合 | O(log2n) O ( l o g 2 n ) | O(log2n) O ( l o g 2 n ) | O(log2n) O ( l o g 2 n ) | 唯一值,有序 |
算法复杂度
复杂度表示方法: 使用大写 O O 表示: O(n) O ( n ) 表示时间复杂度时指 n n 个数据处理完成使用 n n 个单位的时间;表示空间复杂度时指 n n 个数据处理完成使用了 n n 个单位的辅助空间。
字符串算法除了增删改查以外,还有很多匹配算法,比如最耳熟能详的 KMP 算法(不属于基础部分),这里整理一些相关算法的性质:
排序算法实际上可以分为内排序和外排序:
排序算法时间复杂度
排序算法分为以下几类:
算法 | 时间复杂度(最好) | 时间复杂度(最好) | 时间复杂度(最坏) | 空间复杂度 | 稳定性 |
---|---|---|---|---|---|
插入排序 | O(n2) O ( n 2 ) | O(n) O ( n ) | O(n2) O ( n 2 ) | O(1) O ( 1 ) | 稳定 |
希尔排序 | O(n1.3) O ( n 1.3 ) | O(n) O ( n ) | O(n2) O ( n 2 ) | O(1) O ( 1 ) | 不稳定 |
选择排序 | O(n2) O ( n 2 ) | O(n2) O ( n 2 ) | O(n2) O ( n 2 ) | O(1) O ( 1 ) | 不稳定 |
堆排序 | O(nlog2n) O ( n l o g 2 n ) | O(nlog2n) O ( n l o g 2 n ) | O(nlog2n) O ( n l o g 2 n ) | O(1) O ( 1 ) | 不稳定 |
冒泡排序 | O(n2) O ( n 2 ) | O(n) O ( n ) | O(n2) O ( n 2 ) | O(1) O ( 1 ) | 稳定 |
快速排序 | O(nlog2n) O ( n l o g 2 n ) | O(nlog2n) O ( n l o g 2 n ) | O(n2) O ( n 2 ) | O(nlog2n) O ( n l o g 2 n ) | 不稳定 |
归并排序 | O(nlog2n) O ( n l o g 2 n ) | O(nlog2n) O ( n l o g 2 n ) | O(nlog2n) O ( n l o g 2 n ) | O(n) O ( n ) | 稳定 |
基数排序 | O(d(r+n)) O ( d ( r + n ) ) | O(d(n+rd)) O ( d ( n + r d ) ) | O(d(r+n)) O ( d ( r + n ) ) | O(n+rd) O ( n + r d ) | 稳定 |
注:
1. 基数排序的复杂度中, r r 代表关键字基数, d d 代表长度, n n 代表关键字个数
2. 排序算法的稳定性指在原序列中, ri=rj r i = r j ,且 ri r i 在 rj r j 之前,而在排序后的序列中, ri r i 仍在 rj r j 之前,则称这种排序算法是稳定的;否则称为不稳定的。
查找算法时间复杂度
算法 | 查找(最坏) | 插入(最坏) | 删除(最坏) | 查找(最好) | 插入(最好) | 删除(最好) | 是否要求有序 |
---|---|---|---|---|---|---|---|
顺序结构 | N | N | N | N2 N 2 | N | N2 N 2 | No |
二分算法 | logN | N | N | logN | N2 N 2 | N2 N 2 | Yes |
二叉查找树(BST) | N | N | N | 1.39logN | 1.39logN | N‾‾√ N | Yes |
2-3树 | clogN | clogN | clogN | clogN | clogN | clogN | Yes |
红黑树 | 2logN | 2logN | 2logN | logN | logN | logN | Yes |
哈希散列查找 | logN | logN | logN | 3~5 | 3~5 | 3~5 | No |
哈希探针查找 | logN | logN | logN | 3~5 | 3~5 | 3~5 | No |
平均查找长度(ASL) = 查找表中第 i i 个元素概率( Pi P i ) × × 找到第 i i 个元素时已经比较的次数( Ci C i )