聊聊什么是数据结构

引子

顺序存储

假设有一个数组 [1,2,3,4,5], 是一个连续的内存地址

100 | #101 | #102 | #103 | #104

---|--- | ---|--- | ---
1 | 2 | 3 | 4 | 5

设计get/set/insert/delete/update/length API

时间复杂度上:

get(index): 1,

set(index, val): 1,

insert(index, val): n - index + 1 (如果内存地址不够了,需要移到一个新的连续内存)

delete(index): n - index + 1

length: 尝试选择几种方法

  • 每次找length就遍历一遍,那么就要: n
  • 在连续地址前或者后再加一个地址存length,消耗一个空间,但是只要1 (大多数语言是这么做的)

以上的设计连续地址,我们称之为顺序存储,好处就是改查很快,但是要求地址连续

所以我们平时遇到的数组下标是从0开始的,如array[3]就是array的地址(#100)偏移3个位置

链式存储

还是这个数组 [1,2,3,4,5], 这次使用链式存储,不需要连续的内存空间

0 1 2 3 4
1 -- #100 2 -- #233 3 -- #789 4 -- #999 5 -- null

数组的每个单元存着它的值和下一个单元的地址,在遍历的时候,会一直往下一个地址寻址,直到遇到null,表示末端

同样我们设计一些API

get(index): index,

set(index, val): index + 1,

insert(index, val): index + 1 + 1 (上一个的地址指向新生成的,新生成的地址指向原本的下一个)

delete(index): index + 1

再一看,链接存储的所有API的时间复杂度都是n,相比顺序存储并没有任何优势。但是业界上我们的确可以看到优秀链式存储例子。这是为什么呢?

假设我们更换一下API,item数组中的一个节点:

get(item): index,

set(item, val): 1,

insert(item, val): 1 (直接根据val生成一个节点然后插入item)

delete(item): 1 (删除iterm的下一个)

length: 不变

可以得出一个结论,根据设计的API不同,顺序存储适合查和改,链接存储适合增加和删除

数据结构

数据结构 = 数据 + 逻辑结构 + API

  • 数据(不可控)
  • 逻辑机构:用结构解释数据,如线性表,树,图
  • API:逻辑结构需要搭配合适的API,程序员需要研究存储结构以加速API

逻辑结构举例

  • 线性表 linear list
  • 树型结构
  • 哈希结构
  • 其他

存储结构举例

  • 顺序存储
  • 链接存储
  • 混合存储(一小块一小块的链接,小块是连续的)
  • 其他

API举例

  • 队列: 如果提供入列enqueue和出列dequeue API,那就是队列
  • 栈:如果提供压栈push和弹栈pop的API,那就是栈
  • 二叉堆

有些API相对简单,有些则相对复杂,是在基础API上的扩展,
如红黑树拥有树的所有API,再扩展了自己红白和自旋等特征

总结

核心: 数据结构 = 数据 + 逻辑结构 + API

在我写这篇文章前,对数据结构的概念很模糊,堆/栈/队列/哈希/链表 ,大多数情况下把这几个概念混淆了

这次将这几个概念分开来理解,发现每一块都有自己独立的领域,又有互相作用的地方。通过一个数组的存储,可以了解为什么存在存储结构这样的东西。通过对各种API的研究,直到了只有合适的API,特定的存储结构才能发光。

勿混淆

你可能感兴趣的:(聊聊什么是数据结构)