数据结构是一种存在某种关系的元素的集合。“数据” 是指元素;“结构” 是指元素之间存在的关系,分为 “逻辑结构” 和 “物理结构(又称存储结构)”。
常用的数据结构有 数组(array)、栈(stack)、队列(queue)、链表(linked list)、树(tree)、图(graph)、堆(heap)、散列表(hash)。
数据结构是一种存在某种关系的元素的集合。“数据” 是指元素;“结构” 是指元素之间存在的关系,分为 “逻辑结构” 和 “物理结构(又称存储结构)”。
常用的数据结构有 数组(array)、栈(stack)、队列(queue)、链表(linked list)、树(tree)、图(graph)、堆(heap)、散列表(hash)。
数据结构与算法常作为一个术语出现,这里的算法用来操作数据结构中的元素的,如检索、插入、删除、更新、排序等。
数据的逻辑结构和物理结构是数据结构的两个密切相关的方面,同一逻辑结构可以对应不同的存储结构。同时,算法的设计取决于数据的逻辑结构,而算法的实现却依赖于指定的存储结构。
逻辑结构是指反映数据元素之间的逻辑关系的数据结构,其中逻辑关系是指数据元素之间的前后间关系,而与它们的存储位置无关。
逻辑关系包括:
物理结构是指数据在计算机存储空间的存放形式。
数据物理结构是数据结构在计算机中的表示(又称映像),它包括数据元素的机内表示和逻辑关系的机内表示。
数据元素的机内表示:
用二进制位(bit)的位串表示数据元素,通常称这种位串为节点(node)。当数据元素由若干个数据项组成时,位串中与各数据项对应的子位串称为数据域(data field)。因此,节点是数据元素的机内表示。
逻辑关系的机内表示:
逻辑关系的机内表示可以分为顺序映像和非顺序映像,常用两种存储结构,即顺序存储结构和非顺序存储结构。顺序映像借助数据元素在存储器内的相对位置来表示数据元素之间的逻辑关系,非顺序映像借助指示数据元素存储位置的指针来表示数据元素之间的逻辑关系。
物理结构的实现方法分为顺序存储和非顺序存储。
数据结构有很多种,一般来说,按照其逻辑结构可以分为 线性结构 和 非线性结构 两大类。
线性结构是指各个数据元素之间具有线性关系。栈、队列 等就属于线性结构。从数据结构的角度来看,其有以下特点:
非线性结构是指各个数据元素之间有多个对应关系。数组、树、图 等就属于非线性结构。从数据结构的角度来看,其有以下特点:
常用数据结构包括 数组(array)、栈(stack)、队列(queue)、链表(linked list)、树(tree)、图(graph)、堆(heap)、散列表(hash)。
数组是一种聚合数据类型,它是将具有相同类型的若干变量有序的组织在一起的集合。一个数组可以分解为多个数组元素。按照元素类型,数组可以分为 整型数组、字符型数组、浮点型数组 等。数组元素是通过下标进行访问的,且下标从 0 开始。
// java 定义一个数组
String[] strings = new String[] { "zed", "fizz", "ahri" }
优点:
缺点:
适用场景:检索多、增删少的情况。
栈是一种特殊的线性表,它只能在表的一个固定端进行数据元素的插入和删除。栈按照 先进后出或后进先出 的原则存储数据,即先插入的数据被压入栈底,后插入的元素放在栈顶。读数据时,从栈顶开始读。插入亦称入栈,读取亦称出栈。
适用场景:栈长应用于实现递归功能方面的场景。
注:线性表是一种最简单的数据结构。
队列和栈一样,也是一种特殊的线性表。队列按照 先进先出 的原则存储数据。和栈不同的是,队列只允许在一端进行插入操作,在另一端进行读取操作。插入操作的一端称为队尾,取出操作的一端称为队首。
适用场景:由于其先进先出的特点,队列常用在多线程应用中。
链表是一种数据元素按照 链式存储结构 存储的数据结构,这种存储结构具有在物理上非连续的特点。链表由一系列数据结点组成,每个数据结点包含数据域和指针域两部分,其中指针域存放了数据结构中下一个元素的存放地址。链表数据结构中数据元素的逻辑关系是通过链表中指针的链接次序来实现的。根据指针的指向,链表可以形成不同的结构,如单链表、双向链表、循环链表等。
优点:
缺点:
适用场景:数据量小、插入删除操作多的情况。
树是一种典型的非线性数据结构,它是由 n(n >= 1)各有限节点组成的具有层次关系的集合。
其特点是:
树 数据结构有很多扩展结构,如二叉树、平衡树、 B 树、B+ 树、红黑树等。其中最常用的是二叉树。
二叉树插入、删除元素很快,且在查找方面也有很多优化算法,所以二叉树既有数组的优点,也有链表的好处,是两者的优化方案,在处理大批量动态数据方面非常有用。
树的种类:
图是另一种非线性数据结构。是由顶点的有穷集合 V 和边的集合 E 组成。数据结点一般称为顶点,而边是顶点的有序偶对。如果两个顶点之间存在一条边,那么就表示这两个顶点具有相邻关系。
按照顶点指向的方向可分为有向图和无向图。
图是一种较复杂的数据结构,在存储数据上有着较复杂和高效的算法,如 邻接矩阵、邻接表、十字链表、邻接多重表、边集数组等存储结构。
堆是一种特殊的树数据结构,一般讨论的堆都是二叉堆。堆的特点是根节点的值是所有节点中的最大值或最小值,为最大值时称为最大堆或大根堆;为最小值时称为最小堆或小根堆。且所有子节点也是堆结构。
适用场景:因堆有序的特点,所以常用来做排序。
散列表也叫哈希表,源自于散列函数(hash function),其思想是如果在结构中存在关键字和 T 相等的记录,那么必定在 f(T) 的存储位置可以找到该记录,这样就可以不用比较而直接获取需要查找的记录。
f 即为散列函数,又称哈希函数。则散列表是将 key 通过散列函数转换成一个整型数字,然后将该数字对数组长度进行取余,取余即是数组的下标,最后将 value 存放在该下标所对应的数组空间里。这种存储结构充分利用了数组的查找优势,所以查找速度很快。