常见的数据结构

1.1 数组(Array)

数组是一种顺序存储的线性表,所有元素的内存地址都是连续的。

特性

  • 元素的值按顺序放置,并通过从 0 到数组长度的索引访问;
  • 数组是连续的内存块;
  • 它们通常由相同类型的元素组成(这取决于编程语言);
  • 元素的访问和添加速度很快;搜索和删除不是在 O(1) 中完成的。
1.2 链表(Linked Lists)

链表是线性数据结构,就像数组一样。链表和数组的主要区别在于链表的元素不存储在连续的内存位置。它由节点组成——实体存储当前元素的值和下一个元素的地址引用。这样,元素通过指针链接。

特性

  • 它们分为三种类型:单独的、双重的和圆形的;
  • 元素不存储在连续的内存块中;
  • 完美的优秀内存管理(使用指针意味着动态内存使用);
  • 插入和删除都很快;访问和搜索元素是在线性时间内完成的
1.3 堆栈(Stacks)

堆栈是一种抽象数据类型,它形式化了受限访问集合的概念。该限制遵循 LIFO(后进先出)规则。因此,添加到堆栈中的最后一个元素是您从中删除的第一个元素。

堆栈可以使用数组或链表来实现

特性

  • 一次只能访问最后一个元素(顶部的元素);
  • 一个缺点是,一旦您从顶部弹出元素以访问其他元素,它们的值将从堆栈的内存中丢失;
  • 其他元素的访问是在线性时间内完成的;任何其他操作都在 O(1) 中。
1.4 队列(Queues)

​ 队列是受限访问集合中的另一种数据类型,就像前面讨论的堆栈一样。主要区别在于队列是按照FIFO(先进先出)模型组织的:队列中第一个插入的元素是第一个被移除的元素。队列可以使用固定长度的数组、循环数组或链表来实现。

特性

  • 我们只能直接访问引入的“最旧”元素;
  • 搜索元素将从队列的内存中删除所有访问过的元素;
  • 弹出/推送元素或获取队列的前端是在恒定时间内完成的。搜索是线性的
1.5 Map 和 哈希表(Hash Table)

Maps (dictionaries)是包含键集合和值集合的抽象数据类型。每个键都有一个与之关联的值。

哈希表是一种特殊类型的映射。它使用散列函数生成一个散列码,放入一个桶或槽数组:键被散列,结果散列指示值的存储位置。

最常见的散列函数(在众多散列函数中)是模常数函数。例如,如果常量是 6,则键 x 的值是x%6。

理想情况下,散列函数会将每个键分配给一个唯一的桶,但他们的大多数设计都采用了不完善的函数,这可能会导致具有相同生成值的键之间发生冲突。这种碰撞总是以某种方式适应的。

特性

  • 键是唯一的(没有重复);
  • 抗碰撞性:应该很难找到具有相同键的两个不同输入;
  • 原像阻力:给定值 H,应该很难找到键 x,使得h(x)=H;
  • 第二个原像阻力:给定一个键和它的值,应该很难找到另一个具有相同值的键;
1.6 图表(Graphs)

图是表示一对两个集合的非线性数据结构:G={V, E},其中 V 是顶点(节点)的集合,而 E 是边(箭头)的集合。节点是由边互连的值 - 描述两个节点之间的依赖关系(有时与成本/距离相关联)的线。

图有两种主要类型:有向图和无向图。在无向图中,边(x, y)在两个方向上都可用:(x, y)和(y, x)。在有向图中,边(x, y)称为箭头,方向由其名称中顶点的顺序给出:箭头(x, y)与箭头(y, x) 不同。

特性

图论是一个广阔的领域,但我们将重点介绍一些最知名的概念:

  • 无向图中节点的度数是它的关联边数;
  • 有向图中节点的内部/外部度数是指向/来自该节点的箭头的数量;
  • 从节点 x 到节点 y 的链是相邻边的连续,x 是它的左端,y 是它的右边;
  • 一个循环是一个链,其中 x=y;图可以是循环/非循环的;如果 V 的任意两个节点之间存在链,则图是连通的;
  • 可以使用广度优先搜索 (BFS) 或深度优先搜索 (DFS) 遍历和处理图,两者都在 O(|V|+|E|) 中完成,其中 |S| 是集合S 的基数;查看下面的链接,了解图论中的其他基本信息。
1.7 树(Trees)

一棵树是一个无向图,在连通性方面最小(如果我们消除一条边,图将不再连接)和在无环方面最大(如果我们添加一条边,图将不再是无环的) . 所以任何无环连通无向图都是一棵树,但为了简单起见,我们将有根树称为树。

根是一个固定节点,它确定树中边的方向,所以这就是一切“开始”的地方。叶子是树的终端节点——这就是一切“结束”的地方。
一个顶点的孩子是它下面的事件顶点。一个顶点可以有多个子节点。一个顶点的父节点是它上面的事件顶点——它是唯一的

特性

  • 根没有父级;
  • 叶子没有孩子;
  • 根和节点 x 之间的链的长度表示 x 所在的级别;
  • 一棵树的高度是它的最高层(在我们的例子中是 3);
  • 最常用的遍历树的方法是 O(|V|+|E|) 中的 DFS,但我们也可以使用 BFS;使用 DFS 在任何图中遍历的节点的顺序形成 DFS 树,指示我们访问节点的时间。
1.8 二叉树(Binary Trees)和二叉搜索树(Binary Search Trees)

二叉树是一种特殊类型的树:每个顶点最多可以有两个子节点。在严格二叉树中,除了叶子之外,每个节点都有两个孩子。具有 n 层的完整二叉树具有所有2ⁿ-1 个可能的节点。

二叉搜索树是一棵二叉树,其中节点的值属于一个完全有序的集合——任何任意选择的节点的值都大于左子树中的所有值,而小于右子树中的所有值。

特性

BST 有三种类型的 DFS 遍历:

  • 先序(根、左、右);
  • 中序(左、根、右);
  • 后序(左、右、根);全部在 O(n) 时间内完成;
  • 中序遍历以升序为我们提供了树中的所有节点;
  • 最左边的节点是 BST 中的最小值,最右边的节点是最大值;
  • 注意 RPN 是 AST 的中序遍历;
  • BST 具有排序数组的优点,但有对数插入的缺点——它的所有操作都在 O(log n) 时间内完成。
1.9 AVL树(Adelson-Velsky and Landis Trees )

所有这些类型的树都是自平衡二叉搜索树。不同之处在于它们以对数时间平衡高度的方式。

AVL 树在每次插入/删除后都是自平衡的,因为节点的左子树和右子树的高度之间的模块差异最大为 1。 AVL 以其发明者的名字命名:Adelson-Velsky 和 Landis。

在红黑树中,每个节点存储一个额外的代表颜色的位,用于确保每次插入/删除操作后的平衡。

在 Splay 树中,最近访问的节点可以快速再次访问,因此任何操作的摊销时间复杂度仍然是 O(log n)。

特性

  • ANY自平衡BST中ANY操作的摊销时间复杂度为O(log n);
  • 在最坏的情况下,AVL 的最大高度是 1.44 * log2n(为什么?提示:考虑所有级别都已满的 AVL 的情况,除了最后一个只有一个元素);
  • AVLs 在实践中搜索元素是最快的,但是为了自平衡而旋转子树的成本很高;
  • 同时,由于没有旋转,RBT 提供了更快的插入和删除;
  • 展开树不需要存储任何簿记数据。
1.10 堆(Heaps)

最小堆是一棵二叉树,其中每个节点的值都大于或等于其父节点的值:val[par[x]] <= val[x],具有堆的 xa 节点,其中val[ x]是它的值,par[x] 是它的父级。

还有一个实现相反关系的最大堆。

二叉堆是一棵完整的二叉树(它的所有层都被填充,除了最后一层)

特性

  • 它总是平衡的:无论何时我们在结构中删除/插入一个元素,我们只需要“筛选”/“渗透”它直到它处于正确的位置;
  • 节点k > 1的父节点是[k/2](其中 [x] 是 x 的整数部分),其子节点是2k和2k+1;
  • 设置优先级队列的替代方案,ordered_map(在 C++ 中)或任何其他可以轻松允许访问最小/最大元素的有序结构;
  • 根优先,因此其访问的时间复杂度为O(1),插入/删除在O(log n)中完成;创建一个堆是在 O(n) 中完成的;O(n*log n)中的堆排序。
1.11 字典树(Tries)

trie 是一种高效的信息检索数据结构。也称为前缀树,它是一种搜索树,允许以 O(L) 时间复杂度插入和搜索,其中 L 是键的长度。

如果我们将密钥存储在一个平衡良好的 BST 中,它将需要与 L * log n 成正比的时间,其中 n 是树中的密钥数量。这样,与 BST 相比,trie 是一种更快的数据结构(使用 O(L)),但代价是 trie 存储要求。

特性

  • 它有一个键值关联;键通常是一个单词或它的前缀,但它可以是任何有序列表;
  • 根有一个空字符串作为键;
  • 节点值与其子节点值之间的长度差为 1;这样,根的子节点将存储长度为 1 的值;作为结论,我们可以说来自第 k 层的节点 x 具有长度k 的值;
  • 正如我们所说,插入/搜索操作的时间复杂度是 O(L),其中 L 是键的长度,这比 BST 的 O(log n) 快得多,但与哈希表相当;

空间复杂度实际上是一个缺点:O(ALPHABET_SIZELn)。

你可能感兴趣的:(数据结构和算法,数据结构)