【算法设计与分析】贪心 | 复习笔记

【算法设计与分析】贪心 | 复习笔记_第1张图片

文章目录

      • 贪心
          • 贪心的概念
          • 贪心的基本要素
          • 贪心与动态规划的差异
          • 贪心算法的理论基础
      • 应用范例
          • 活动安排问题
          • 最优装载问题
          • 哈夫曼编码
          • 单源最短路径(Dijkstra算法)
          • 最小生成树(的Prim算法和Kruskal算法)
          • 多机调度问题

贪心

贪心的概念

贪心算法总是作出在当前看来最好的选择。也就是说贪心算法并不从整体最优考虑,它所作出的选择只是在某种意义上的局部最优选择。
希望贪心算法得到的最终结果也是整体最优的。虽然贪心算法不能对所有问题都得到整体最优解,但对许多问题它能产生整体最优解。如单源最短路经问题,最小生成树问题等。在一些情况下,即使贪心算法不能得到整体最优解,其最终结果却是最优解的很好近似。

贪心的基本要素

贪心选择性质

  • 所谓贪心选择性质是指所求问题的整体最优解可以通过一系列局部最优的选择,即贪心选择来达到。这是贪心算法可行的第一个基本要素,也是贪心算法与动态规划算法的主要区别。
  • 动态规划算法通常以自底向上的方式解各子问题,而贪心算法则通常以自顶向下的方式进行,以迭代的方式作出相继的贪心选择,每作一次贪心选择就将所求问题简化为规模更小的子问题。
  • 对于一个具体问题,要确定它是否具有贪心选择性质,必须证明每一步所作的贪心选择最终导致问题的整体最优解。

最优子结构性质

  • 当一个问题的最优解包含其子问题的最优解时,称此问题具有最优子结构性质。问题的最优子结构性质是该问题可用动态规划算法或贪心算法求解的关键特征。
贪心与动态规划的差异

贪心算法和动态规划算法都要求问题具有最优子结构性质,这是两类算法的一个共同点。但是,对于具有最优子结构的问题应该选用贪心算法还是动态规划算法求解?是否能用动态规划算法求解的问题也能用贪心算法求解?
我们通过2个经典的组合优化问题,并以此说明贪心算法与动态规划算法的主要差别。

  • 0-1背包问题
  • 背包问题
    与0-1背包问题类似,所不同的是在选择物品i装入背包时,可以选择物品i的一部分,而不一定要全部装入背包,1 ≤ i ≤ n。

这2类问题都具有最优子结构性质,极为相似,但背包问题可以用贪心算法求解,而0-1背包问题却不能用贪心算法求解。

首先计算每种物品单位重量的价值Vi/Wi,然后,依贪心选择策略,将尽可能多的单位重量价值最高的物品装入背包。若将这种物品全部装入背包后,背包内的物品总重量未超过C,则选择单位重量价值次高的物品并尽可能多地装入背包。依此策略一直地进行下去,直到背包装满为止。

void Knapsack(int n, float M, float v[], float w[], float x[]){
	Sort(n,v,w);
	int i;
	for (i=1;i<=n;i++) 
		x[i]=0;
	float c=M;
	for (i=1;i<=n;i++) {
		if (w[i]>c) 
			break;
		x[i]=1;
		c-=w[i];
	}
	if (i<=n) 
		x[i]=c/w[i];
}

对于0-1背包问题,贪心选择之所以不能得到最优解是因为在这种情况下,它无法保证最终能将背包装满,部分闲置的背包空间使每公斤背包空间的价值降低了。
在考虑0-1背包问题时,应比较选择该物品和不选择该物品所导致的最终方案,然后再作出最好选择。由此就导出许多互相重叠的子问题。这正是该问题可用动态规划算法求解的另一重要特征。
实际上也是如此,动态规划算法的确可以有效地解0-1背包问题。

贪心算法的理论基础

借助于拟阵工具,可建立关于贪心算法的较一般的理论。这个理论对确定何时使用贪心算法可以得到问题的整体最优解十分有用。

拟阵

  • 拟阵M定义为满足下面3个条件的有序对(S,I):
    1. S是非空有限集。
    2. I是S的一类具有遗传性质的独立子集族,即若B∈I,则B是S的独立子集,且B的任意子集也都是S的独立子集。空集∅必为I的成员。
    3. )I满足交换性质,即若A∈I,B∈I且|A|<|B|,则存在某一元素x∈B-A,使得A∪{x}∈I。
  • 例如,设S是一给定矩阵中行向量的集合,I是S的线性独立子集族,则由线性空间理论容易证明(S,I)是一拟阵。拟阵的另一个例子是无向图G=(V,E)的图拟阵
  • 给定拟阵M=(S,I),对于I中的独立子集A∈ I,若S有一元素x∉ A,使得将x加入A后仍保持独立性,即A∪{x} ∈ I,则称x为A的可扩展元素。
  • 当拟阵M中的独立子集A没有可扩展元素时,称A为极大独立子集。
  • 拟阵M中所有极大独立子集大小相同

关于带权拟阵的贪心算法

  • 许多可以用贪心算法求解的问题可以表示为求带权拟阵的最大权独立子集问题
  • 给定带权拟阵M=(S,I),确定S的独立子集A∈I使得W(A)达到最大。这种使W(A)最大的独立子集A称为拟阵M的最优子集。由于S中任一元素x的权W(x)是正的,因此,最优子集也一定是极大独立子集。
Set greedy (M,W){
	A=;
	将S中元素依权值W(大者优先)组成优先队列;
	while (S!=) {
		S.removeMax(x);
		if (A∪{x}∈I) 
			A=A∪{x};
	}
	return A;
}

拟阵的贪心选择性质

  • 设M=(S,I)是具有权函数W的带权拟阵,且S中元素依权值从大到小排列。又设x∈ S是S中第一个使得{x}是独立子集的元素,则存在S的最优子集A使得x∈ A。
  • 算法greedy在以贪心选择构造最优子集A时,首次选入集合A中的元素x是单元素独立集中具有最大权的元素。此时可能已经舍弃了S中部分元素。可以证明这些被舍弃的元素不可能用于构造最优子集。

设M=(S,I)是拟阵。若S中元素x不是空集的可扩展元素,则x也不可能是S中任一独立子集A的可扩展元素。

拟阵的最优子结构性质

  • 设x是求带权拟阵M=(S,I)的最优子集的贪心算法greedy所选择的S中的第一个元素。那么,原问题可简化为求带权拟阵M’=(S’,I’)的最优子集问题,其中:
    S’={y|y∈ S且{x,y} ∈ I}
    I’={B|B⊆ S-{x}且B∪{x} ∈ I}
    M’的权函数是M的权函数在S’上的限制(称M’为M关于元素x的收缩)。

带权拟阵贪心算法的正确性

  • 设M=(S,I)是具有权函数W的带权拟阵,算法greedy返回M的最优子集。

应用范例

活动安排问题

活动安排问题就是要在所给的活动集合中选出最大的相容活动子集合。
设有 n 个活动的集合 E = { 1, 2, …, n },其中每个活动都要求使用同一资源,如演讲会场等,而在同一时间内只有一个活动能使用这一资源。每个活动 i 都有一个要求使用该资源的起始时间 si 和一个结束时间 fi , 且 si < fi 。如果选择了活动 i ,则它在半开时间区间 [ si, fi) 内占用资源。若区间 [ si, fi)与区间 [ sj, fj )不相交,则称活动 i 与活动 j 是相容的。也就是说,当 si ≥ fj 或 sj ≥ fi 时,活动 i 与活动 j 相容。

下面给出解活动安排问题的贪心算法GreedySelector :

template<class Type>
void GreedySelector(int n, Type s[], Type f[], bool A[]){//各活动的起始时间和结束时间存储于数组s和f中且按结束时间的非减序排列
	A[1]=true;
	int j=1;
	for (int i=2;i<=n;i++) {
		if (s[i]>=f[j]) { 
			A[i]=true; 
			j=i; 
		}
		else 
			A[i]=false;
	}
}

由于输入的活动以其完成时间的非减序排列,所以算法greedySelector每次总是选择具有最早完成时间的相容活动加入集合A中。直观上,按这种方法选择相容活动为未安排活动留下尽可能多的时间。也就是说,该算法的贪心选择的意义是使剩余的可安排时间段极大化,以便安排尽可能 多的相容活动。
算法greedySelector的效率极高。当输入的活动已按结束时间的非减序排列,算法只需O(n)的时间安排n个活动,使最多的活动能相容地使用 公共资源。如果所给出的活动未按非减序排列,可以用O(nlogn)的时间重排。

最优装载问题

有一批集装箱要装上一艘载重量为c的轮船。其中集装箱i的重量为Wi。最优装载问题要求确定在装载体积不受限制的情况下,将尽可能多的集装箱装上轮船。

template<class Type>
void Loading(int x[], Type w[], float c, int n){
	int *t = new int [n+1]; //按照集装箱重量从轻到重的顺序
	SelectSort(w, t, n);
	for (int i = 1; i <= n; i++) 
		x[i] = 0;
	for (int i = 1; i <= n && w[t[i]] <= c; i++){
		x[t[i]] = 1; 
		c -= w[t[i]];
	}
}
template<class Type>
void SelectSort(Type w[],int *t,int n){
	Type tempArray[n+1],temp;
	memcpy( tempArray, w, (n+1) * sizeof(Type) );//将w拷贝到临时数组tempArray中
	int min;
	for(int i = 1; i <= n; i++)  t[i] = i;
	for(int i = 1; i < n; i++){
		min = i;
		for(int j = i+1; j <= n; j++){
			if(tempArray[min] > tempArray[j]{
				min=j;
			}
		}
	Swap(tempArray[i],tempArray[min]);
	Swap(t[i],t[min]);
	}
}
哈夫曼编码

哈夫曼编码是广泛地用于数据文件压缩的十分有效的编码方法。其思想:给出现频率高的字符较短的编码,出现频率较低的字符以较长的编码,可以大大缩短总码长。

【算法设计与分析】贪心 | 复习笔记_第2张图片
前缀码:

  • 对每一个字符规定一个0,1串作为其代码,并要求任一 字符的代码都不是其它字符代码的前缀。这种编码称为前缀码。
  • 编码的前缀性质可以使译码方法非常简单。
  • 表示最优前缀码的二叉树总是一棵完全二叉树, 即树中任一结点都有2个儿子结点。
  • 平均码长定义为
    在这里插入图片描述
    使平均码长达到最小的前缀码编码方案称为给定 编码字符集C的最优前缀码。

构造哈夫曼编码

  • 哈夫曼算法以自底向上的方式构造表示最优前缀码的二叉树T。
  • 算法以|C|个叶结点开始,执行|C|-1次的“合并”运算后产生最终所要求的树T。
  • 在算法huffmanTree中,编码字符集中每一字符 c 的频率是f©。以f为键值的优先队列Q用在贪心选择时,有效地确定算法当前要合并的2棵具有最小频率的树。一旦2棵具有最小频率的树合并后,产生一棵新的树,其频率为合并的2棵树的频率之和,并将新树插入优先队列Q。经过n-1次的合并后,优先队列中只剩下一棵树,即所要求的树T。
  • 算法huffmanTree用最小堆实现优先队列Q。初始化优先队列需要O(n)计算时间,由于最小堆的removeMin和put运算均需O(logn)时间,n-1次的合并总共需要O(nlogn)计算时间。因此,关于n个字符的哈夫曼算法的计算时间为O(nlogn) 。

要证明哈夫曼算法的正确性,只要证明最优前缀码问题具有贪心选择性质和最优子结构性质。

单源最短路径(Dijkstra算法)

给定带权有向图G =(V,E),其中每条边的权是非负实数。另外,还给定V中的一个顶点,称为源。现在要计算从源到所有其它各顶点的最短路径长度。这里路的长度是指路上各边权之和。这个问题通常称为单源最短路径问题。

基本思想:
设置顶点集合S并不断地作贪心选择来扩充这个集 合。一个顶点属于集合S当且仅当从源到该顶点的最短路径长度已知

  1. 初始时,S中仅含有源
  2. 设u是G的某一个顶点,把从源到u且中间只经过S中顶点的路称为 从源到u的特殊路径,并用数组dist记录当前每个顶点所对应的最短特殊路径长度
  3. Dijkstra算法:每次从V-S中取出具有最短特殊路长度的顶点u,将u添加到S中,同时对数组dist作必要的修改。
    当S添加u之后,可能出现一条到顶点的新的特殊路,如果这条新特 殊路是先经过老的S到达顶点u,然后从u经过一条边直接到达顶点i, 则这种路的最短长度是dist[u]+c[u][i]。如果
    dist[u] + c[u][i] < dist[i]
    则需要更新dist[i]的值,并且将u赋值给prev[i]
  4. 当S包含了所有V中顶点,dist就记录了从源到所有其它顶点之 间的最短路径长度。

【算法设计与分析】贪心 | 复习笔记_第3张图片
【算法设计与分析】贪心 | 复习笔记_第4张图片

最小生成树(的Prim算法和Kruskal算法)

生成树性质:

  • 设G=(V,E)是连通带权图,U是V的真子集。如果(u,v)∈E,且u∈U,v∈V-U,且在所有这样的边中,(u,v)的权c[u][v]最小,那么一定存在G的一棵最小生成树,它以(u,v)为其中一条边。这个性质有时也称为MST性质。

Prim算法

  • 设G=(V,E)是连通带权图,V = { 1, 2, …, n}。
  • 首先置S = { 1 } ,然后,只要S是V的真子集,就作如下的贪心选择:选取满足条件i∈S,j∈V-S,且c[i][j]最小的边,将顶点j添加到S中。这个过程一直进行到S=V时为止。

【算法设计与分析】贪心 | 复习笔记_第5张图片

【算法设计与分析】贪心 | 复习笔记_第6张图片
Kruskal算法:

  • 首先将G的n个顶点看成n个孤立的连通分支。将所有 的边按权从小到大排序。然后从第一条边开始,依边权递增的顺序查看每一条边,并按下述方法连接2个不 同的连通分支:
  • 当查看到第k条边(v,w)时,如果端点v和w分别是 当前2个不同的连通分支T1和T2中的顶点时,就用边(v,w)将T1和T2连接成一个连通分支,然后继续查看第k+1条边;
  • 如果端点v和w在当前的同一个连通分支中,就直 接再查看第k+1条边。这个过程一直进行到只剩下一个连通分支时为止
  • 【算法设计与分析】贪心 | 复习笔记_第7张图片
  • 关于集合的一些基本运算可用于实现Kruskal算法
  • 按权的递增顺序查看等价于对优先队列执行removeMin运算。可以用堆实现这个优先队列
  • 对一个由连通分支组成的集合不断进行修改,需要用到抽象数据类型并查集UnionFind所支持的基本运算。
多机调度问题

多机调度问题要求给出一种作业调度方案,使所给的n个作业在尽可能短的时间内由m台机器加工处理完成。
约定,每个作业均可在任何一台机器上加工处理,但未完工前不允许中断处理。作业不能拆分成更小的子作业。
这个问题是NP完全问题,到目前为止还没有有效的解法。对于这一类问题,用贪心选择策略有时可以设计出较好的近似算法。

采用最长处理时间作业优先的贪心选择策略可以设计出解多机调度问题的较好的近似算法。
按此策略,当 n <= m时,只要将机器i的[0, ti]时间区间分配给作业i即可,算法只需要O(1)时间。
当 n > m 时,首先将n个作业依其所需的处理时间从大到小排序。然后依此顺序将作业分配给空闲的处理机。算法所需的计算时间为O(nlogn)。

例如,设7个独立作业{1,2,3,4,5,6,7}由3台机器M1,M2和M3加工处理。各作业所需的处理时间分别为{2,14,4,16,6,5,3}。
如果用贪心算法策略进行调度的话,其加工次序是怎样的?7个作业共需要多长时间?
【算法设计与分析】贪心 | 复习笔记_第8张图片


  • 以上内容仅复习所用,不妥删

你可能感兴趣的:(算法设计与分析,复习笔记,算法,贪心算法)