数据结构作为计算机的一门学科,主要研究和讨论以下三个方面:
数据:是对客观事物的符号表示,在计算机科学中是指所有能输入到计算机中并被计算机程序处理的符号的总称。
数据元素:是数据的基本单位,在计算机程序中通常作为一个整体进行考虑和处理。
数据对象:是性质相同的数据元素的集合,是数据的一个子集。
数据的逻辑结构是对数据元素之间的逻辑关系的描述,它可以用一个数据元素的集合和定义在此集合中
的若干关系来表示。数据的逻辑结构有两个要素:一是数据元素的集合,通常记为D;二是D上的关系,它反映了数据元素之间的前后件关系,通常记为R。
一个逻辑结构可以表示成
B=(D,R)
其中B表示逻辑结构。为了反映D中各数据元素之间的前后件关系,一般用二元组来表示。
数据的逻辑结构在计算机存储空间中的存放形式称为数据的存储结构(也称数据的物理结构)。
由于数据元素在计算机存储空间中的位置关系可能与逻辑关系不同,因此,为了表示存放在计算机存储空间中的各数据元素之间的逻辑关系(即前后件关系),在数据的存储结构中,不仅要存放各数据元素的信 息,还需要存放各数据元素之间的前后件关系的信息。
一种数据的逻辑结构根据需要可以表示成多种存储结构,常用的存储结构有顺序、链接、索引等存储结构。而采用不同的存储结构,其数据处理的效率是不同的。因此,在进行数据处理时,选择合适的存储结构 是很重要的。
根据数据结构中各数据元素之间前后件关系的复杂程度,一般将数据结构分为两大类型:线性结构与非线性结构。如果一个非空的数据结构满足下列两个条件:
有且只有一个根结点;
每一个结点最多有一个前件,也最多有一个后件。
则称该数据结构为线性结构。线性结构又称线性表。在一个线性结构中插入或删除任何一个结点后还应是线性结构。如果一个数据结构不是线性结构,则称之为非线性结构。
栈及其基本运算
栈的基本概念
栈是限定只在一端进行插入与删除的线性表,通常称插入、删除的这一端为栈顶,另一端为栈底。当表中没有元素时称为空栈。栈顶元素总是最后被插入的元素,从而也是最先被删除的元素;栈底元素总是最先被插入的元素,从而也是最后才能被删除的元素。栈是按照"先进后出"或"后进先出"的原则组织数据的。
栈的顺序存储及其运算
用一维数组S(1∶m)作为栈的顺序存储空间,其中m为最大容量。
在栈的顺序存储空间S(1∶m)中,S(bottom)为栈底元素,S(top)为栈顶元素。top=0表示栈空;top=m表示栈满。
栈的基本运算有三种:入栈、退栈与读栈顶元素。
入栈运算:入栈运算是指在栈顶位置插入一个新元素。首先将栈顶指针加一(即top加1),然后将新元素插入到栈顶指针指向的位置。当栈顶指针已经指向存储空间的最后一个位置时,说明栈空间已满,不 可能再进行入栈操作。这种情况称为栈"上溢"错误。
退栈运算:退栈是指取出栈顶元素并赋给一个指定的变量。首先将栈顶元素(栈顶指针指向的元素)赋给一个指定的变量,然后将栈顶指针减一(即top减1)。当栈顶指针为0时,说明栈空,不可进行退栈 操作。这种情况称为栈的"下溢"错误。
读栈顶元素:读栈顶元素是指将栈顶元素赋给一个指定的变量。这个运算不删除栈顶元素,只是将它赋给一个变量,因此栈顶指针不会改变。当栈顶指针为0时,说明栈空,读不到栈顶元素。
在链式存储方式中,要求每个结点由两部分组成:一部分用于存放数据元素值,称为数据域,另一部分用于存放指针,称为指针域。其中指针用于指向该结点的前一个或后一个结点(即前件或后件)。
链式存储方式既可用于表示线性结构,也可用于表示非线性结构。
线性表的链式存储结构称为线性链表。
在某些应用中,对线性链表中的每个结点设置两个指针,一个称为左指针,用以指向其前件结点;另一个称为右指针,用以指向其后件结点。这样的表称为双向链表。
带链的栈
栈也是线性表,也可以采用链式存储结构。带链的栈可以用来收集计算机存储空间中所有空闲的存储结点,这种带链的栈称为可利用栈。
误区警示:
满二叉树也是完全二叉树,而完全二叉树一般不是满二叉树。应该注意二者的区别。
树的基本概念
树(tree)是一种简单的非线性结构。在树结构中,每一个结点只有一个前件,称为父结点,没有前件的结点只有一个,称为树的根结点。每一个结点可以有多个后件,它们称为该结点的子结点。没有后件的结点称为叶子结点。在树结构中,一个结点所拥有的后件个数称为该结点的度。叶子结点的度为0。在树中,所有结点中的最大的度称为树的度。
二叉树的定义
二叉树是一种很有用的非线性结构,具有以下两个特点:
非空二叉树只有一个根结点;
每一个结点最多有两棵子树,且分别称为该结点的左子树和右子树。
由以上特点可以看出,在二叉树中,每一个结点的度最大为2,即所有子树(左子树或右子树)也均为二叉树,而树结构中的每一个结点的度可以是任意的。另外,二叉树中的每个结点的子树被明显地分为左子 树和右子树。在二叉树中,一个结点可以只有左子树而没有右子树,也可以只有右子树而没有左子树。当一 个结点既没有左子树也没有右子树时,该结点即为叶子结点。
二叉树的基本性质
二叉树具有以下几个性质:
性质1:在二叉树的第k层上,最多有 2 k − 1 ( k ≥ 1 ) 2^{k-1}( k≥1 ) 2k−1(k≥1)个结点;
性质2:深度为m的二叉树最多有 2 m − 1 2^m-1 2m−1个结点;
性质3:在任意一棵二叉树中,度为0的结点(即叶子结点)总是比度为2的结点多一个。
性质4:具有 n n n个结点的二叉树,其深度至少为 [ l o g 2 n ] + 1 [log_2n]+1 [log2n]+1,其中 [ l o g 2 n ] [log_2n] [log2n]表示取 l o g 2 n log_2n log2n的整数部分。
小技巧:在二叉树的遍历中,无论是前序遍历,中序遍历还是后序遍历,二叉树的叶子结点的先后顺序都是不变的。
满二叉树与完全二叉树
满二叉树是指这样的一种二叉树:除最后一层外,每一层上的所有结点都有两个子结点。在满二叉树中,
每一层上的结点数都达到最大值,即在满二叉树的第k层上有 2 k − 1 2^{k-1} 2k−1个结点,且深度为m的满二叉树有 2 m - 1 2^m-1 2m-1个 结点。
完全二叉树是指这样的二叉树:除最后一层外,每一层上的结点数均达到最大值;在最后一层上只可能缺少右边的若干结点。即要求必须先有左子树才能有右子树,或者就是两个都不存在。
对于完全二叉树来说,叶子结点只可能在层次最大的两层上出现:对于任何一个结点,若其右分支下的子孙结点的最大层次为p,则其左分支下的子孙结点的最大层次或为p,或为p+1。
完全二叉树具有以下两个性质:
性质5:具有n个结点的完全二叉树的深度为 [ l o g 2 n ] + 1 [log_2n]+1 [log2n]+1。
性质6:设完全二叉树共有 n n n个结点。如果从根结点开始,按层次(每一层从左到右)用自然数 1 , 2 , … … n 1,2,……n 1,2,……n给结点进行编号,则对于编号为k(k=1,2,……,n)的结点有以下结论:
若 k = 1 k=1 k=1,则该结点为根结点,它没有父结点;若 k > 1 k>1 k>1,则该结点的父结点编号为 i n t ( k / 2 ) int(k/2) int(k/2)[int用来向下取整]。
若 2 k ≤ n 2k≤n 2k≤n,则编号为k的结点的左子结点编号为 2 k 2k 2k;否则该结点无左子结点(显然也没有右子结点)。
若 2 k + 1 ≤ n 2k+1≤n 2k+1≤n,则编号为k的结点的右子结点编号为 2 k + 1 2k+1 2k+1;否则该结点无右子结点。
在遍历二叉树的过程中,一般先遍历左子树,再遍历右子树。在先左后右的原则下,根据访问根结点的次序,二叉树的遍历分为三类:前序遍历、中序遍历和后序遍历。
然先访问根结点,然后遍历左子树,最后遍历右子树。
然先遍历左子树,然后访问根结点,最后遍历右子树。
然先遍历左子树,然后遍历右子树,最后访问根结点。
疑难解答:树与二叉树的不同之处是什么?
在二叉树中,每一个结点的度最大为2,即所有子树(左子树或右子树)也均为二叉树,而树结构中的每一个结点的度可以是任意的。
顺序查找是指在一个给定的数据结构中查找某个指定的元素。从线性表的第一个元素开始,依次将线性表中的元素与被查找的元素相比较,若相等则表示查找成功;若线性表中所有的元素都与被查找元素进行了比较但都不相等,则表示查找失败。
在下列两种情况下也只能采用顺序查找:
如果线性表为无序表,则不管是顺序存储结构还是链式存储结构,只能用顺序查找。
即使是有序线性表,如果采用链式存储结构,也只能用顺序查找。
二分法只适用于顺序存储的,按非递减排列的有序表,其方法如下:
设有序线性表的长度为n,被查找的元素为i,
将i与线性表的中间项进行比较;
若i与中间项的值相等,则查找成功;
若i小于中间项,则在线性表的前半部分以相同的方法查找;
若i大于中间项,则在线性表的后半部分以相同的方法查找。
二分查找法只适用于顺序存储的有序表。在此所说的有序表是指线性表中的元素按值非递减排列(即从小到大,但允许相邻元素值相等)。
这个过程一直进行到查找成功或子表长度为0为止。
对于长度为n的有序线性表,在最坏情况下,二分查找只需要比较 l o g 2 n log_2n log2n次。
首先,从表头开始往后扫描线性表,逐次比较相邻两个元素的大小,若前面的元素大于后面的元素,则将它们互换,不断地将两个相邻元素中的大者往后移动,最后最大者到了线性表的最后。然后,从后到前扫描剩下的线性表,逐次比较相邻两个元素的大小,若后面的元素小于前面的元素,则\将它们互换,不断地将两个相邻元素中的小者往前移动,最后最小者到了线性表的最前面。对剩下的线性表重复上述过程,直到剩下的线性表变空为止,此时已经排好序。在最坏的情况下,冒泡排序需要比较次数为 n ( n - 1 ) / 2 n(n-1)/2 n(n-1)/2。
它的基本思想是:任取待排序序列中的某个元素作为基准(一般取第一个元素),通过一趟排序,将待排元素分为左右两个子序列,左子序列元素的排序码均小于或等于基准元素的排序码,右子序列的排序码则 大于基准元素的排序码,然后分别对两个子序列继续进行排序,直至整个序列有序。
疑难解答:冒泡排序和快速排序的平均执行时间分别是多少?
冒泡排序法的平均执行时间是 O ( n 2 ) O(n^2) O(n2),而快速排序法的平均执行时间是 O ( n l o g 2 n ) O(nlog_2n) O(nlog2n)。