数据是客观事物的符号表示,可以说是信息的载体,它是所有能被输入到计算机中,并被计算机程序识别和处理的符号集合。
数据由数据元素组成,即数据元素是数据的基本单位
,而数据元素又由若干个数据项
组成,所以,数据项是组成数据元素的最基本、不可分割的最小单位
。
另外,具有相同性质的数据元素集合称为数据对象
,它是数据的一个子集
。
数据类型是高级程序语言中的一个基本概念,它是一个值的集合和定义在集合上一组操作的总称
。抽象数据类型是指由用户定义,即用数学化的语言来定义数据的逻辑结构、运算等等,从而表示的数学模型,它包括三个部分,数据对象
、数据对象上关系的集合
、对数据对象的基本操作的集合
。
探究一种数据结构的方法分为三个步骤:
1、首先,要定义数据元素之间的关系,即定义逻辑上的结构;
2、由于需要存储这些数据元素,所以需要确定某种存储结构,实现数据结构以及对数据结构的基本运算,即定义存储结构;
3、针对实现的需求,需要对这种逻辑结构进行怎样的运算,即数据的运算。
例如,举一个现实中的例子,公司员工的信息表,其中每个员工的信息就是一个数据元素;由于每个员工都有员工编号,所以其编号的前后员工也是存在的,即有前驱和后驱(线性结构),另外,公司中还存在一个经理来领导某一个部门的所有员工(非线性结构),从而对应逻辑结构;这些信息都某种存储方式被存储在计算机中,其中存储的方式有很多,即对应存储结构;当公司有新的员工入职(增加)、老员工离职(删除)、员工信息修改(修改)、查找某个员工的信息(查找)等情况,即对应数据的运算。
数据结构针对数据元素的集合,指这些数据元素中存在一种或多种特定关系
的数据元素的集合,它包括逻辑结构、存储结构和数据的运算共三个方面,即数据结构的三个方面缺一不可
,另外,存储结构也可称为物理结构,如下:
例如,一维数组中存在一对一的关系,它存储一组具有相同数据类型的数据元素,通过数组下标来访问,每个数据元素在一维数组中都对应有一个特定的位置,如下:
数组下标 | 0 | 1 | 2 | … |
---|---|---|---|---|
数据元素 | A | B | C | … |
二叉树是一对二,即一对多的关系,其中每个结点可以算作一个根结点,每个根结点的后继结点最多只能有两个,从而对应左子树(左孩子)和右子树(右孩子),而没有后继结点的则称为叶子结点,如下图:
逻辑结构指的是数据元素之间在逻辑上的关系,可分为线性结构
和非线性结构
,如下:
例如,顺序表、单链表、哈希表既描述逻辑结构,又描述存储结构和数据的运算,而有序表只是一种逻辑结构,它只表示数据元素之间的逻辑关系是有序的。
1、线性结构是一对一
的关系,例如有线性表、栈、队列、串、一维数组等。
2、非线性结构是一对多
和多对多
的关系,例如有二维数组(多维数组)、广义表、树(二叉树)、图等。
通常指的线性结构即数据元素之间存在一对一的关系,树形结构(树、二叉树等)即数据元素之间存在一对多的关系,图形结构(无向图、有向图等)即数据元素之间存在多对多的关系,而集合中的数据元素之间无关系。
数据的逻辑结构在计算机中的表示称为存储结构,也称为物理结构,根据其存储特点可以分为四种存储结构,即顺序
存储结构、链式
存储结构、索引
存储结构和散列
存储结构。
以上四种存储结构,由于每种存储结构都有其优缺点,不能直接地说哪种存储结构最优,只能说在针对某种数据结构中需要选择不同的存储结构时,应该选择符合其特点的数据结构才是最优的。
顺序存储由存储单元的邻接关系体现,即把逻辑上相邻的元素存储在物理位置上也相邻的存储单元里,其中数据是连续的。
随机存取
,每个元素占用最少的存储空间
,而缺点是由于只能使用相邻的一整块存储单元
,从而会产生较多的外部碎片
。以线性表为例,通过顺序存储的线性表称为顺序表,它是将线性表中所有元素按照其逻辑顺序,依次存储到指定存储位置开始的一块连续的存储空间里;而通过链式存储的链表中,每个结点不仅包含该元素的信息,还包含元素之间的逻辑关系的信息。
链式存储不要求逻辑上相邻的元素物理位置上也相邻,通过指示元素存储地址的指针
来体现元素之间的逻辑关系,其数据是可离散的。
充分利用
了所有的存储单元,不会造成碎片现象,而缺点是由于通过指针来表示逻辑关系,所以指针也要存储,从而占用额外的存储空间
,即链式存储的存储结构所占存储空间分两部分,一部分存放结点的值,另一部分存放表示结点间关系的指针(结点内的存储单元要求连续,而不同结点的存储空间可以不连续),例如,顺序表的存储密度=1,而链表的存储密度<1,是由于结点中含有指针域。另外,链式结构只能顺序存取
,不能随机存储。以线性表为例,单链表是通过链式存储的,其每个结点除了存放数据元素之外,还存储指向下一个结点的指针;而顺序表是顺序存储的,其每个结点只存放数据元素。顺序存储结构可以随机存取、顺序存取,而链式存储结构只能顺序存取,顺序存储结构不仅可用于存储线性结构,还能用于树、图等非线性结构。
针对线性表,以上两种存储结构在线性表中的实际选择:
在一般情况下,若需对表进行频繁的插入、删除操作,此时适合选链式存储,因为顺序表平均需要移动近一半的元素且耗费时间(其插入和删除算法的平均时间复杂度为O(n)),而链表在插入和删除操作时不需要移动元素,只需修改指针;当若表的总数基本稳定,且很少进行插入和删除操作,则顺序表相较于链表可以充分发挥其存取速度块、存储利用率高的优点。
索引存储在存储数据元素的同时还需要建立附加的索引表,其中的索引项的形式为关键字和地址,其数据是可离散的。
很快、容易找到
,而缺点是由于附加了索引表,从而占用了额外的存储空间
,同时,若需要增加和修改数据时,需修改索引表,会花费较多时间。例如,查找算法中树型查找的B树、B+树的应用到了索引存储结构。
散列存储是根据数据元素的关键字直接计算其存储地址,也称为哈希存储(Hash),其数据是可离散的。
很快
,而缺点是若定义的哈希函数不能完全贴合情况,则会发生元素存储单元的冲突
,而减少冲突从而会花费时间和一定的空间上的开销。例如,哈希表即为一种基于散列存储结构的查找表。
前面说过,针对实现的需求,需要对这种逻辑结构进行怎样的运算,即数据的运算,它是数据定义的一组操作,而运算的实现是通过存储结构的。【定义针对逻辑结构、实现针对存储结构
】
例如,顺序表的增删改查,即为数据的运算,对应的是顺序表插入操作、删除操作、修改元素和查找元素。