数据结构初阶--二叉树的顺序结构之堆

目录

一.堆的概念及结构

1.1.堆的概念

1.2.堆的存储结构

二.堆的功能实现

2.1.堆的定义

2.2.堆的初始化

2.3.堆的销毁

2.4.堆的打印

2.5.堆的插入

向上调整算法

堆的插入

2.6.堆的删除

向下调整算法

堆的删除

2.7.堆的取堆顶元素

2.8.堆的判空

2.9.堆的求堆的大小

三.堆的创建

3.1.向上调整建堆

时间复杂度

3.2.向下调整建堆

时间复杂度

四.堆的应用

4.1.堆排序

步骤一:建堆

步骤二:排序

4.2.TOP-K问题


一.堆的概念及结构

1.1.堆的概念

若n个关键字序列L[1...n]满足下面某一条性质,则称为堆(Heap)

  1. 若满足:L(i)>=L(2i)且L(i)>=L(2i+1)(1<=i<=n/2)--大根堆(大顶堆)
  2. 若满足:L(i)<=L(2i)且L(i)<=L(2i+1)(1<=i<=n/2)--小根堆(小顶堆)

大根堆在逻辑视角上可以看成所有子树根>=左,右的完全二叉树。相应的小根堆也可以看成根<=左,右的完全二叉树。

数据结构初阶--二叉树的顺序结构之堆_第1张图片

堆的性质:

  1. 堆中某个结点的值总是不大于或不小于其父结点的值;
  2. 堆总是一棵完全二叉树。

1.2.堆的存储结构

普通的二叉树是不适合用数组来存储的,因为可能会存在大量的空间浪费。而完全二叉树更适合使用顺序结构存储。现实中我们通常把堆(一种二叉树)使用顺序结构的数组来存储。

数据结构初阶--二叉树的顺序结构之堆_第2张图片

二.堆的功能实现

2.1.堆的定义

typedef int HPDataType;

typedef struct Heap
{
	HPDataType* a;//开辟一个动态数组a
	int size;//当前元素个数
	int capacity;//数组的最大容量
}HP;

定义一个struct来保存堆的信息,主要包含数组首元素的地址a,数组中当前元素个数size以及数组的最大容量capacity。堆的定义同顺序表的定义类似。

2.2.堆的初始化

void HeapInit(HP* php)
{
	//判空
	assert(php);

	//将数组首元素的地址位置空
	php->a = NULL;

	php->size = php->capacity = 0;
}

在初始化堆之前,首先需要对传入的参数php进行断言判断其是否为空,然后将数组首元素的地址置为空NULL,最后再将size和capacity都初始化为0。

调试分析:

数据结构初阶--二叉树的顺序结构之堆_第3张图片

2.3.堆的销毁

void HeapDestory(HP* php)
{
	//判空
	assert(php);

	//释放
	free(php->a);
	php->a = NULL;

	php->size = php->capacity = 0;
}

在销毁堆之前,首先需要对传入的参数php进行断言判断其是否为空,然后调用free函数释放数组首元素的地址,并将数组首元素的地址置为空NULL,最后再将size和capacity都置为0。

调试分析:

数据结构初阶--二叉树的顺序结构之堆_第4张图片

2.4.堆的打印

void HeapPrint(HP* php)
{
	//判空
	assert(php);

	//打印
	for (int i = 0; i < php->size; ++i)
	{
		printf("%d ", php->a[i]);
	}
	printf("\n");
}

首先判断传入的参数php是否为空,然后进行for循环依次打印数组中的各个元素。

2.5.堆的插入

当在堆中插入新元素时,对于小根堆,新元素放到表尾,与父结点对比,若新元素比父结点更小,则将二者互换。新元素就这样一路向上调整,直到无法继续上升为止。

向上调整算法

当在堆的末尾插入一个新元素,而新插入的元素可能会破坏堆的性质,这时就要进行调整。以小堆为例,当新元素大于其对应的父结点,则满足堆的性质,无需调整;当新元素小于其对应的父结点,则不满足堆的性质,要进行调整。

数据结构初阶--二叉树的顺序结构之堆_第5张图片

调整规则:

若新插入的元素child小于其对应的父结点parent,则调用Swap函数,将二者进行交换,此时child来到父结点parent的位置,其对应的新的父结点的下标为(child-1)/2,然后将child继续与parent进行比较,依次往上执行,直到child大于其对应的父结点parent,则跳出循环。

循环判断条件为:child>0,这是考虑到最坏的情况,也就是当child一直小于其对应的父结点时,child经过最后一次交换来到根结点的位置时,此时堆的调整已经结束。

实现:

//交换数据
void Swap(HPDataType* p1, HPDataType* p2)
{
	HPDataType tmp = *p1;
	*p1 = *p2;
	*p2 = tmp;
}

//向上调整(小堆)
void AdjustUp(HPDataType* a, int child)
{
	//查找父结点下标
	int parent = (child - 1) / 2;

	//最坏情况是一路调整到根
	while (child > 0)
	{
		if (a[child] < a[parent])//大堆:a[child]>a[parent]
		{
			//将父子结点进行交换
			Swap(&a[child], &a[parent]);

			//把父结点的下标赋值给孩子
			child = parent;

			//再去查找父结点的下标
			parent = (child - 1) / 2;
		}
		else
		{
			//若已构成堆,则直接跳出循环
			break;
		}
	}
}

堆的插入

void HeapPush(HP* php, HPDataType x)
{
	//判空
	assert(php);

	//检查容量是否为空或已满
	if (php->size == php->capacity)
	{
		//扩容
		int newCapacity = php->capacity == 0 ? 4 : php->capacity * 2;//为空就开辟四个元素空间,不为空,就扩容至二倍
		HPDataType* tmp = (HPDataType*)realloc(php->a, sizeof(HPDataType) * newCapacity);

		//判空
		if (tmp == NULL)
		{
			printf("realloc fail\n");
			exit(-1);
		}

		//将新开辟的内存空间的首地址tmp赋值给a
		php->a = tmp;
		//更新capacity
		php->capacity = newCapacity;
	}

	//插入
	//先将元素插入到堆的末尾,即最后一个孩子后面
	//插入之后如果堆的性质遭到了破坏,则将新插入结点顺着其双亲往上调整到合适的位置
	php->a[php->size] = x;//注意:size指向数组最后一个元素的下一个位置
	php->size++;

	//向上调整
	AdjustUp(php->a, php->size - 1);
}

在堆中插入元素之前,首先需要检查当前容量是否为空或者已满。若容量为空,则调用realloc函数开辟四个元素的内存空间,若容量已满,则调用realloc函数将内存空间开辟到原来的二倍,并将新开辟的内存空间的首地址tmp赋值给a,同时更新capacity。接着便可以插入元素,因为size是指向数组最后一个元素的下一个位置,所以先将新元素x插到下标为size的位置,然后再将size+1。最后再调用AdjustUp函数,进行向上调整。

调试分析:

数据结构初阶--二叉树的顺序结构之堆_第6张图片

运行结果:

2.6.堆的删除

堆的删除是删除堆顶的元素,将堆顶的元素与最后一个元素交换,然后删除数组最后一个元素,再进行向下调整。

向下调整算法

当对堆进行删除时,删除的往往是堆顶元素,删除之后可能会破坏堆的性质,这时就要进行调整。以小堆为例,在删除之前,首先将堆顶元素与最后一个元素交换,交换完之后再将最后一个元素删除。然后从根结点开始依次向下调整,直到把它调整为一个小堆。

向下调整算法的前提:左右子树必须是一个堆,才能调整。

数据结构初阶--二叉树的顺序结构之堆_第7张图片

调整规则:

首先选出根结点的左右孩子中较小的那一个,这里先假设左孩子最小,然后将左孩子与右孩子进行比较,若左孩子小于右孩子,则不变;若左孩子大于右孩子,则将右孩子设为最小。然后将最小的孩子与父结点进行比较,如果比父结点小,则交换,交换完之后,把孩子结点child所在的下标赋值给父结点parent,并让child指向新的父结点的左孩子,然后依次向下比较,直到调整到叶子结点的位置;如果比父结点大,则调整结束。

实现:

//交换数据
void Swap(HPDataType* p1, HPDataType* p2)
{
	HPDataType tmp = *p1;
	*p1 = *p2;
	*p2 = tmp;
}

void AdjustDown(HPDataType* a, int size, int parent)
{
	//1.选出左右孩子中小的那一个
	int child = parent * 2 + 1;//假设左孩子最小

	while (child < size)
	{
		//当右孩子存在且右孩子小于左孩子
		if (child + 1 < size && a[child + 1] < a[child])//大堆:a[child+1]>a[child]
		{
			++child;//则将右孩子置为child
		}

		//2.小的孩子跟父亲比较,如果比父亲小,则交换,然后继续往下调整;如果比父亲大,则调整结束
		if (a[child] < a[parent])//大堆:a[child]>a[parent]
		{
			//交换数据
			Swap(&a[child], &a[parent]);

			//3.继续往下调,最多调整到叶子结点就结束
			//把孩子的下标赋值给父亲
			parent = child;

			//假设左孩子最小
			child = parent * 2 + 1;
		}
		else
		{
			break;
		}
	}
}

堆的删除

void HeapPop(HP* php)
{
	//判空
	assert(php);

	//判断数组是否为空
	assert(php->size > 0);

	//将第一个元素与最后一个元素交换,然后删除
	Swap(&(php->a[0]), &(php->a[php->size - 1]));
	php->size--;

	//向下调整
	AdjustDown(php->a, php->size, 0);
}

在删除之前,首先需要判断数组是否为空,若为空则无法进行删除,若不为空则可以进行删除。然后调用Swap函数将数组的第一个待删除元素与数组的最后一个元素进行交换,并让size-1,删除最后一个元素。最后再调用函数AdjustDown,进行向下调整。

调试分析:

数据结构初阶--二叉树的顺序结构之堆_第8张图片

运行结果:

2.7.堆的取堆顶元素

HPDataType HeapTop(HP* php)
{
	//判空
	assert(php);

	//判断数组是否为空
	assert(php->size > 0);

	//根结点即为堆顶元素
	return php->a[0];
}

在取堆顶元素之前,首先要对数组进行判空操作,若数组为空则无法进行读取操作,若数组不为空则直接读取数组的首元素,数组的首元素也就是根结点,即为堆顶元素。

调试分析:

数据结构初阶--二叉树的顺序结构之堆_第9张图片

运行结果:

2.8.堆的判空

bool HeapEmpty(HP* php)
{
	//判空
	assert(php);

	//看size的大小是否为0
	return php->size == 0;
}

判断堆是否为空,只需判断size是否等于0,若size为0,则数组为空,即堆为空;若size不为0,则数组不为空,即堆不为空。

调试分析:

数据结构初阶--二叉树的顺序结构之堆_第10张图片

2.9.堆的求堆的大小

int HeapSize(HP* php)
{
	//判空
	assert(php);

	//size的大小即为数组的大小,也就是堆的大小
	return php->size;
}

求堆的大小,只需求数组中当前元素个数,也就是求size的大小。

调试分析:

数据结构初阶--二叉树的顺序结构之堆_第11张图片

三.堆的创建

3.1.向上调整建堆

向上调整建堆,实际上是模拟堆的插入过程。首先,将数组中的第一个元素看做是堆的根结点,然后将数组中的元素依次插入堆中,每插入一个元素,就调用函数AdjustUp向上调整一次,直到将所有的元素均插入堆中。

实现:

for (int i = 1; i < n; ++i)//从第一个位置插入
{
	AdjustUp(a, i);
}

时间复杂度

因为堆是一棵完全二叉树,而满二叉树又是一种特殊的完全二叉树,为了简化计算,我们不妨假设此处的堆是一棵满二叉树。

数据结构初阶--二叉树的顺序结构之堆_第12张图片

由上图得,对于高度为h的满二叉树构成的堆,最多进行向上调整的次数设为T(N),有:

数据结构初阶--二叉树的顺序结构之堆_第13张图片

综上,证得向上调整建堆的时间复杂度为O(N*logN)

3.2.向下调整建堆

首先将数组中的元素以完全二叉树的形式排列好,然后从倒数第一个非叶子结点开始,调用函数AdjustDown依次向下调整。每调整一次,则将i的值减1,让其来到倒数第二个非叶子结点的位置,重复上述操作,直到i来到根结点的位置。

实现:

for (int i = (n - 1 - 1) / 2; i >= 0; i--)//n-1为最后一个结点的下标,求最后一个结点的父结点的下标(n-1-1)/2
{
	AdjustDown(a, n, i);
}

注意:

我们可以直接通过向上调整算法来建堆,但是我们不可以直接通过向下调整算法来建堆。因为向下调整算法的前提:左右子树必须是堆,才能调整。

时间复杂度

因为堆是一棵完全二叉树,而满二叉树又是一种特殊的完全二叉树,为了简化计算,我们不妨假设此处的堆是一棵满二叉树。

数据结构初阶--二叉树的顺序结构之堆_第14张图片

由上图得,对于高度为h的满二叉树构成的堆,最多进行向上调整的次数设为T(N),有:

数据结构初阶--二叉树的顺序结构之堆_第15张图片

综上,证得向上调整建堆的时间复杂度为O(N)。 

四.堆的应用

4.1.堆排序

堆排序也就是利用堆的思想来进行排序,总共分为两个步骤:

  1. 建堆(升序建大堆,降序建小堆);
  2. 利用堆删除思想来进行排序 。

注意:

升序也可以建小堆,只是每次都要通过建堆的方式选出最小的元素。当进行第一次建堆选出最小的元素并放在数组起始位置时,剩余的元素关系就会发生错乱:原本的左孩子结点会变成新的根结点,右孩子结点会变成新的左孩子结点。然后将剩下的元素继续进行建堆,选出剩余元素中最小的元素并放入数组起始位置的下一个位置,重复上述操作,直到整个数组有序。整体时间复杂度为O(N^2),可见效率太低,没有使用到堆的优势。因此,升序要建大堆。

数据结构初阶--二叉树的顺序结构之堆_第16张图片

我们以升序建大堆为例:

步骤一:建堆

这里采用时间复杂度较低的向下建堆法来进行大根堆的建立。

实现:

//交换数据
void Swap(HPDataType* p1, HPDataType* p2)
{
	HPDataType tmp = *p1;
	*p1 = *p2;
	*p2 = tmp;
}

//向下调整
void AdjustDown(HPDataType* a, int size, int parent)
{
	//1.选出左右孩子中小的那一个
	int child = parent * 2 + 1;//假设左孩子最小

	while (child < size)
	{
		//当右孩子存在且右孩子小于左孩子
		if (child + 1 < size && a[child + 1] > a[child])//大堆:a[child+1]>a[child]
		{
			++child;//则将右孩子置为child
		}

		//2.小的孩子跟父亲比较,如果比父亲小,则交换,然后继续往下调整;如果比父亲大,则调整结束
		if (a[child] > a[parent])//大堆:a[child]>a[parent]
		{
			//交换数据
			Swap(&a[child], &a[parent]);

			//3.继续往下调,最多调整到叶子结点就结束
			//把孩子的下标赋值给父亲
			parent = child;

			//假设左孩子最小
			child = parent * 2 + 1;
		}
		else
		{
			break;
		}
	}
}

void HeapSort(int* a, int n)
{
	//建堆
	//建堆方式二:向下调整
	//向下调整算法的左右子树必须是堆,因此不能使用该方法直接建堆
	//时间复杂度:O(N)
	//首先将数组中的元素以完全二叉树的形式排列好,然后从倒数第一个非叶子结点开始,依次向下调整
	for (int i = (n - 1 - 1) / 2; i >= 0; i--)//n-1为最后一个结点的下标,求最后一个结点的父结点的下标(n-1-1)/2
	{
		AdjustDown(a, n, i);
	}
}

int main()
{
	int a[] = { 27,15,19,18,28,34,65,49,25,37 };

	HeapSort(a, sizeof(a) / sizeof(a[0]));

	return 0;
}

调试分析:

建堆前:                                                                      

数据结构初阶--二叉树的顺序结构之堆_第17张图片

建堆后:

数据结构初阶--二叉树的顺序结构之堆_第18张图片

步骤二:排序

这里用到堆的删除思想。先交换数组的首尾元素,此时尾结点中的元素为堆中的最大值。然后将堆的最后一个元素排除在外,并继续从根结点开始,对堆进行向下调整。重复上述操作,直到堆中仅剩一个元素为止。

实现:

//交换数据
void Swap(HPDataType* p1, HPDataType* p2)
{
	HPDataType tmp = *p1;
	*p1 = *p2;
	*p2 = tmp;
}

//向下调整
void AdjustDown(HPDataType* a, int size, int parent)
{
	//1.选出左右孩子中小的那一个
	int child = parent * 2 + 1;//假设左孩子最小

	while (child < size)
	{
		//当右孩子存在且右孩子小于左孩子
		if (child + 1 < size && a[child + 1] > a[child])//大堆:a[child+1]>a[child]
		{
			++child;//则将右孩子置为child
		}

		//2.小的孩子跟父亲比较,如果比父亲小,则交换,然后继续往下调整;如果比父亲大,则调整结束
		if (a[child] > a[parent])//大堆:a[child]>a[parent]
		{
			//交换数据
			Swap(&a[child], &a[parent]);

			//3.继续往下调,最多调整到叶子结点就结束
			//把孩子的下标赋值给父亲
			parent = child;

			//假设左孩子最小
			child = parent * 2 + 1;
		}
		else
		{
			break;
		}
	}
}

void HeapSort(int* a, int n)
{
	//建堆
	//建堆方式二:向下调整
	//向下调整算法的左右子树必须是堆,因此不能使用该方法直接建堆
	//时间复杂度:O(N)
	//首先将数组中的元素以完全二叉树的形式排列好,然后从倒数第一个非叶子结点开始,依次向下调整
	for (int i = (n - 1 - 1) / 2; i >= 0; i--)//n-1为最后一个结点的下标,求最后一个结点的父结点的下标(n-1-1)/2
	{
		AdjustDown(a, n, i);
	}


	//排序
	//时间复杂度:O(N*logN),其中N为元素个数,logN为向上调整的次数,也即树的高度
	int end = n - 1;
	while (end > 0)
	{
		//将第一个结点与最后一个结点交换
		Swap(&a[0], &a[end]);

		//向下调整选出次大的数
		AdjustDown(a, end, 0);
		--end;
	}
}

int main()
{
	int a[] = { 27,15,19,18,28,34,65,49,25,37 };

	HeapSort(a, sizeof(a) / sizeof(a[0]));

	return 0;
}

调试分析:

排序前:

数据结构初阶--二叉树的顺序结构之堆_第19张图片

排序后:

数据结构初阶--二叉树的顺序结构之堆_第20张图片

小结:

建堆和堆的删除都用到了向下调整,因此掌握了向下调整,就可以完成排序。

建堆的时间复杂度为:O(N),排序的时间复杂度为:O(N*logN)。取影响结果较大的一个,也就是O(N*logN)。所以堆排序的时间复杂度为O(N*logN)。

4.2.TOP-K问题

TOP-K问题:即求数据集合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大。
对于TOP-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能数据都不能一下子全部加载到内存中)。

法一:

堆排序,采用时间复杂度最低的堆排序,时间复杂度为O(N*logN);

法二:

首先建立N个数的大根堆,然后Top/Pop k次,时间复杂度为O(N+k*logN);

注意:上述两种方法在数据量非常大时,是不太可取的。

法三:

假设N非常大,比如N是100亿,而K比较小,假如k是100,如何求解?

首先,将数据集合中前k个数建立小根堆,时间复杂度:O(k);
然后,将剩下的N-k个元素依次和堆顶元素进行比较,如果比堆顶元素大,就替换堆顶元素,并进行向下调整;
待N-k个元素依次和堆顶元素比较完之后,堆中剩余的k个元素就是所求的最大的前k个元素,时间复杂度:O((N-k)*logk)。

注意:法三较于前两种方法有很高的空间效率。

实现:

//交换数据
void Swap(HPDataType* p1, HPDataType* p2)
{
	HPDataType tmp = *p1;
	*p1 = *p2;
	*p2 = tmp;
}

//向下调整
void AdjustDown(HPDataType* a, int size, int parent)
{
	//1.选出左右孩子中小的那一个
	int child = parent * 2 + 1;//假设左孩子最小

	while (child < size)
	{
		//当右孩子存在且右孩子小于左孩子
		if (child + 1 < size && a[child + 1] < a[child])//大堆:a[child+1]>a[child]
		{
			++child;//则将右孩子置为child
		}

		//2.小的孩子跟父亲比较,如果比父亲小,则交换,然后继续往下调整;如果比父亲大,则调整结束
		if (a[child] < a[parent])//大堆:a[child]>a[parent]
		{
			//交换数据
			Swap(&a[child], &a[parent]);

			//3.继续往下调,最多调整到叶子结点就结束
			//把孩子的下标赋值给父亲
			parent = child;

			//假设左孩子最小
			child = parent * 2 + 1;
		}
		else
		{
			break;
		}
	}
}

void PrintTopK(int* a, int n, int k)
{
	//1.建堆:用a中前k个元素建堆
	int* kMinHeap = (int*)malloc(sizeof(int) * k);
	assert(kMinHeap);

	for (int i = 0; i < k; i++)
	{
		//将a中前k的元素放进kMinHeap中
		kMinHeap[i] = a[i];
	}

	//建立小根堆
	for (int i = (k - 1 - 1) / 2; i >= 0; --i)
	{
		AdjustDown(kMinHeap, k, i);
	}


	//2.将剩余的n-k个元素依次与堆顶元素比较,不满则替换
	for (int j = k; j < n; j++)
	{
		//若后面的元素大于堆顶元素,则进行替换,并向下调整
		if (a[j] > kMinHeap[0])
		{
			kMinHeap[0] = a[j];
			AdjustDown(kMinHeap, k, 0);
		}
	}


	//3.打印最大的前k个元素
	for (int i = 0; i < k; i++)
	{
		printf("%d ", kMinHeap[i]);
	}

	printf("\n");

	//销毁
	free(kMinHeap);
}

void TestTopk()
{
	int n = 10000;
	int* a = (int*)malloc(sizeof(int) * n);
	assert(a);

	srand((size_t)time(0));

	for (int i = 0; i < n; i++)
	{
		//产生一万个不大于100万的随机数
		a[i] = rand() % 1000000;
	}

	a[5] = 1000000 + 1;
	a[1231] = 1000000 + 2;
	a[531] = 1000000 + 3;
	a[5121] = 1000000 + 4;
	a[115] = 1000000 + 5;
	a[2335] = 1000000 + 6;
	a[9999] = 1000000 + 7;
	a[76] = 1000000 + 8;
	a[423] = 1000000 + 9;
	a[3144] = 1000000 + 10;

	PrintTopK(a, n, 10);
}

int main()
{
	TestTopk();

	return 0;
}

运行结果:

你可能感兴趣的:(数据结构,数据结构)