聚类算法与贪心算法

聚类算法综述

作者原创,转载请注明出处

 

聚类的算法有很多,现在已知的算法主要有以下四中类型。划分聚类、层次聚类、基于密度的聚类、基于表格的聚类。

(1)划分聚类   对于给定的数据集,划分聚类需要知道要划分簇的数目k(k<=n, n是数据集中项的数目)。划分聚类将数据分为k组,每组至少有一项。大多数划分聚类都是基于距离的。 一般情况下给出了聚类数目k,首先会产生一个初始的划分。然后用迭代的方法通过更改数据项所属的簇来提高划分的质量。一个好的划分的标准是同一个簇内的数据项彼此相似,相反地,不同簇的项有较大的区别。实现全局最优划分往往很难在复杂度忍受的范围内做到。然而,大多数应用都选取了一些启发式方法。比如像选取贪心策略的k-means和k-medoids算法,都极大地提高了划分质量,并达到了一个局部最优解。这些启发式聚类算法在中小型数据集中挖掘类似球形簇表现非常好。

(2)层次聚类  层次聚类就是通过对数据集按照某种方法进行层次分解,直到满足某种条件为止。层次聚类根据划分的方法分为凝聚和分割的两种。凝聚的方法也叫做自底向上方法。它每次迭代将最相近两个项(或者组)合并形成一个新的组。直至最终形成一个组或者达到其他停止的条件。分割的方法也叫自顶向下,与凝聚的方法相反。开始的时候讲所有数据看成一个组,每一次迭代一个簇就被划分成两个小一点簇。直到最终每个项都是一个簇或者达到了某个停止条件。层次聚类可以是基于距离、基于密度、基于连接的。层次聚类有一个缺点:一旦一个凝聚或分割形成了,这个操作永远不能再更改了。这样的好处就是可以计算复杂度相对较小。

(3)基于密度的聚类 很多聚类算法都是根据距离计算的。 这样子的话很容易发现球形的簇,然后很难发现其他形状的簇。基于密度的算法认为,在整个样本空间点中,各目标类簇是由一群的稠密样本点组成的,而这些稠密样本点被低密度区域(噪声)分割,而算法的目的就是要过滤低密度区域,发现稠密样本点。这类算法往往重视数据项的密集程度,因此这些算法都是基于连接的。虽然是基于连接的,但是也强调了连接过程中数据项周围的密度。这样就能发现各种任意形状的聚类簇。

(4)基于网格的聚类  这类算法将数据项的空间划分成有限数目的网格。所有的聚类操作都是在网格上进行的。这样最大的好处是可以计算速度相当快。因为计算过程跟数据项的数目没有关系,只与每一维网格的数目和维数有关系。对于大数据的数据挖掘问题,网格的方法效率往往会很不错。然而我觉得网格只是一种思想,这种思想往往要和其他的算法相结合才能解决好实际问题,比如聚类。


聚类(番外篇)--贪心算法

   在之前 对层次聚类的介绍 中提到了贪心算法。在这里我也简单的谈谈贪心算法是什么吧。转载此文请注明出处: http://blog.csdn.net/jiang1st2010/article/details/8432627

        贪心算法又叫做贪婪算法,最大的特点就是,它在每一步做出的选择,是就当前情况而言,是最优的选择。换句话说,有可能尽管当前情况下的选择是最优的,却没有从整体的角度考虑,因此不一定是全局最优解。所以这个算法叫贪婪。

        就我们而言,当然希望贪婪算法求得的解是全局最优解。那么在满足什么条件下能用贪婪算法求解呢? 这篇博客中 总结了两个重要性质:贪心选择性质和最优子结构性质。

        所谓贪心选择性质是指所求问题的整体最优解可以通过一系列局部最优的选择,即贪心选择来达到。贪心算法则通常以自顶向下的方式进行,以迭代的方式作出相继的贪心选择,每作一次贪心选择就将所求问题简化为规模更小的子问题。而对于一个具体问题,要确定它是否具有贪心选择性质,必须证明每一步所作的贪心选择最终导致问题的整体最优解。

        而最优子结构性质是指,当一个问题的最优解包含其子问题的最优解时,称此问题具有最优子结构性质。

        其实这两条性质总结起来就是一个意思,就是一个问题的最优解,一定包含了贪心策略中存在的子问题的最优解。

        好像还是没解释清楚。还是用具体的例子来说吧。以经典的背包问题为例。

  • 0-1背包问题:

        给定 n 种物品和一个背包。物品 i 的重量是 Wi ,其价值为 Vi ,背包的容量为 C 。应如何选择装入背包的物品,使得装入背包中物品的总价值最大 ? 在选择装入背包的物品时, 对每种物品 i 只有 2 种选择,即装入背包或不装入背包 。不能将物品 i 装入背包多次,也不能只装入部分的物品 i

  • 背包问题:

         与 0-1 背包问题类似,所不同的是在选择物品 i 装入背包时,可以选择物品 i 的一部分,而不一定要全部装入背包, 1  <= i <= n

       

        对于最优子结构性质,我们做如下解释:两个问题中背包的重量是 Wi ,假设最优解中装的物品分别为 a1,a2,a3……an 等,那么对于子问题“背包的重量是 Wi-ai ”来说,最优解一定就是 a1,a2….ai-1,ai+1……an 了(反证法,如果是其他的组合最优,那么对于最优解来说一定是这个新的组合加上 ai ,而不是现在这个 a1,a2,…..an 了)。让人迷惑的也许是这个“子问题”。这个子问题如果说是贪心策略的每一步形成的子问题,那个两个背包问题都满足最优子结构性质(这一特点满足了 动态规划 的求解基础)。而对于原问题的任一子问题来说, 0-1 背包问题并不能满足(而背包问题能够满足)。按照这点解释, 0-1 背包问题不能用贪心算法求解是一个原因。

        对于背包问题,其策略是每一步都选择单位重量价值最高的物品装入背包,直到装满为止。在这个策略下,如果最终能将背包填满,是满足贪心选择性质的,因此背包问题能用贪心算法求解。对于 0-1 背包问题,在最优解下,背包不一定能够填满。这样导致填背包的物品的单位重量的价值降低了,而不是原策略下的那个单位价值。事实上,在考虑 0-1 背包问题时,应比较选择该物品和不选择该物品所导致的最终方案,然后再作出最好选择。由此就导出许多互相重叠的子问题。对于这种情况,就应该使用动态规划求解。

        回到 层次聚类的问题 中,自顶向下的聚类方法每一步都合并最近的两个类,直到所有的类都不再靠近。这显然是贪心算法。但是这里每一步都合并了最近的两个类,也就是说每一步合并后都将合并后的新类当做一个整体进行判断。这一策略应该是满足最优子结构性质的,和 0-1 背包问题相似,如果剔除某个类的所有点,其余的所有点的划分情况不会改变。而合并过程的每一步并不能导致问题的整体最优解,很显然是因为每次合并都以整体为单位,被划分为某类的样本不可能再被划分出去,所以,这个过程不一定能得到最优解。


贪心算法

http://www.cnblogs.com/chinazhangjie/archive/2010/11/23/1885330.html

顾名思义,贪心算法总是作出在当前看来最好的选择。也就是说贪心算法并不从整体最优考虑,它所作出的选择只是在某种意义上的局部最优选择。当然,希望贪心算法得到的最终结果也是整体最优的。虽然贪心算法不能对所有问题都得到整体最优解,但对许多问题它能产生整体最优解。如单源最短路经问题,最小生成树问题等。在一些情况下,即使贪心算法不能得到整体最优解,其最终结果却是最优解的很好近似。

问题一、活动安排问题

问题表述:设有n个活动的集合E = {1,2,…,n},其中每个活动都要求使用同一资源,如演讲会场等,而在同一时间内只有一个活动能使用这一资源。每个活i都有一个要求使用该资源的起始时间si和一个结束时间fi,si < fi 。如果选择了活动i,则它在半开时间区间[si, fi)内占用资源。若区间[si, fi)与区间[sj, fj)不相交,则称活动i与活动j是相容的。也就是说,当si >= fjsj >= fi时,活动i与活动j相容。

由于输入的活动以其完成时间的非减序排列,所以算法greedySelector每次总是选择具有最早完成时间的相容活动加入集合A中。直观上,按这种方法选择相容活动为未安排活动留下尽可能多的时间。也就是说,该算法的贪心选择的意义是使剩余的可安排时间段极大化,以便安排尽可能多的相容活动。

算法greedySelector的效率极高。当输入的活动已按结束时间的非减序排列,算法只需O(n)的时间安排n个活动,使最多的活动能相容地使用公共资源。如果所给出的活动未按非减序排列,可以用O(nlogn)的时间重排。

例:设待安排的11个活动的开始时间和结束时间按结束时间的非减序排列如下:

聚类算法与贪心算法_第1张图片

算法greedySelector 的计算过程如下图所示。图中每行相应于算法的一次迭代。阴影长条表示的活动是已选入集合A的活动,而空白长条表示的活动是当前正在检查相容性的活动。

聚类算法与贪心算法_第2张图片

若被检查的活动i的开始时间Si小于最近选择的活动j的结束时间fi,则不选择活动i,否则选择活动i加入集合A中。 

贪心算法并不总能求得问题的整体最优解。但对于活动安排问题,贪心算法greedySelector却总能求得的整体最优解,即它最终所确定的相容活动集合A的规模最大。这个结论可以用数学归纳法证明。

活动安排问题实现:

 

代码

 

贪心算法的基本要素

对于一个具体的问题,怎么知道是否可用贪心算法解此问题,以及能否得到问题的最优解呢?这个问题很难给予肯定的回答。

但是,从许多可以用贪心算法求解的问题中看到这类问题一般具有2个重要的性质:贪心选择性质和最优子结构性质。

1、贪心选择性质

所谓贪心选择性质是指所求问题的整体最优解可以通过一系列局部最优的选择,即贪心选择来达到。这是贪心算法可行的第一个基本要素,也是贪心算法与动态规划算法的主要区别。

动态规划算法通常以自底向上的方式解各子问题,而贪心算法则通常以自顶向下的方式进行,以迭代的方式作出相继的贪心选择,每作一次贪心选择就将所求问题简化为规模更小的子问题。 

对于一个具体问题,要确定它是否具有贪心选择性质,必须证明每一步所作的贪心选择最终导致问题的整体最优解。

2、最优子结构性质

当一个问题的最优解包含其子问题的最优解时,称此问题具有最优子结构性质。问题的最优子结构性质是该问题可用动态规划算法或贪心算法求解的关键特征。 

3、贪心算法与动态规划算法的差异

贪心算法和动态规划算法都要求问题具有最优子结构性质,这是2类算法的一个共同点。但是,对于具有最优子结构的问题应该选用贪心算法还是动态规划算法求解?是否能用动态规划算法求解的问题也能用贪心算法求解?下面研究2个经典的组合优化问题,并以此说明贪心算法与动态规划算法的主要差别。

0-1背包问题:

给定n种物品和一个背包。物品i的重量是Wi,其价值为Vi,背包的容量为C。应如何选择装入背包的物品,使得装入背包中物品的总价值最大?

在选择装入背包的物品时,对每种物品i只有2种选择,即装入背包或不装入背包。不能将物品i装入背包多次,也不能只装入部分的物品i

背包问题:

0-1背包问题类似,所不同的是在选择物品i装入背包时,可以选择物品i的一部分,而不一定要全部装入背包,1 <= i <= n

2类问题都具有最优子结构性质,极为相似,但背包问题可以用贪心算法求解,而0-1背包问题却不能用贪心算法求解。

用贪心算法解背包问题的基本步骤:

首先计算每种物品单位重量的价值Vi/Wi,然后,依贪心选择策略,将尽可能多的单位重量价值最高的物品装入背包。若将这种物品全部装入背包后,背包内的物品总重量未超过C,则选择单位重量价值次高的物品并尽可能多地装入背包。依此策略一直地进行下去,直到背包装满为止。

伪代码:

void Knapsack(int n,float M,float v[],float w[],float x[])

{

  Sort(n,v,w);

  int i;

  for (i = 1 ; i <= n ; i++) 

    x[i] = 0;

    float c=M;

    for (i=1;i<=n;i++) {

      if (w[i] > c) break;

    x[i]=1;

    c-=w[i];

  }

  if (i <= n) 

    x[i]=c / w[i];

}

算法knapsack的主要计算时间在于将各种物品依其单位重量的价值从大到小排序。因此,算法的计算时间上界为 Onlogn)。

为了证明算法的正确性,还必须证明背包问题具有贪心选择性质。

对于0-1背包问题,贪心选择之所以不能得到最优解是因为在这种情况下,它无法保证最终能将背包装满,部分闲置的背包空间使每公斤背包空间的价值降低了。事实上,在考虑0-1背包问题时,应比较选择该物品和不选择该物品所导致的最终方案,然后再作出最好选择。由此就导出许多互相重叠的子问题。这正是该问题可用动态规划算法求解的另一重要特征。实际上也是如此,动态规划算法的确可以有效地解0-1背包问题。

问题二、 哈夫曼编码

哈夫曼编码是广泛地用于数据文件压缩的十分有效的编码方法。其压缩率通常在20%90%之间。哈夫曼编码算法用字符在文件中出现的频率表来建立一个用01串表示各字符的最优表示方式。

给出现频率高的字符较短的编码,出现频率较低的字符以较长的编码,可以大大缩短总码长。

 

a

b

c

d

e

f

频率(千次)

45

13

12

16

9

5

定长码

000

001

010

011

100

101

变长码

0

101

100

111

1101

1100

定长码:

  3*(45+13+12+16+9+5) = 300 千位

变长码:

  1*45+3*13+3*12+3*16+4*9+4*5 = 224 千位

1、前缀码

对每一个字符规定一个0,1串作为其代码,并要求任一字符的代码都不是其它字符代码的前缀。这种编码称为前缀码

编码的前缀性质可以使译码方法非常简单。 

表示最优前缀码的二叉树总是一棵完全二叉树,即树中任一结点都有2个儿子结点。

f(c)表示字符c出现的概率,dt(c)表示c的码长

平均码长定义为:

使平均码长达到最小的前缀码编码方案称为给定编码字符集C最优前缀码

2、构造哈夫曼编码

哈夫曼提出构造最优前缀码的贪心算法,由此产生的编码方案称为哈夫曼编码

哈夫曼算法以自底向上的方式构造表示最优前缀码的二叉树T

算法以|C|个叶结点开始,执行|C|1次的“合并”运算后产生最终所要求的树T。 

f为键值的优先队列Q用在贪心选择时有效地确定算法当前要合并的2棵具有最小频率的树。一旦2棵具有最小频率的树合并后,产生一棵新的树,其频率为合并的2棵树的频率之和,并将新树插入优先队列Q。经过n1次的合并后,优先队列中只剩下一棵树,即所要求的树T

算法huffmanTree用最小堆实现优先队列Q。初始化优先队列需要O(n)计算时间,由于最小堆的removeMinput运算均需O(logn)时间,n1次的合并总共需要O(nlogn)计算时间。因此,关于n个字符的哈夫曼算法的计算时间为O(nlogn) 

3、哈夫曼算法的正确性

要证明哈夫曼算法的正确性,只要证明最优前缀码问题具有贪心选择性质和最优子结构性质。

(1)贪心选择性质

(2)最优子结构性质

实现:

代码

 

问题三、单源最大路径

给定带权有向图G =(V,E),其中每条边的权是非负实数。另外,还给定V中的一个顶点,称为源。现在要计算从源到所有其它各顶点的最短路长度。这里路的长度是指路上各边权之和。这个问题通常称为单源最短路径问题。

1、算法基本思想

Dijkstra算法是解单源最短路径问题的贪心算法。

其基本思想是,设置顶点集合S并不断地作贪心选择来扩充这个集合。一个顶点属于集合S当且仅当从源到该顶点的最短路径长度已知。

初始时,S中仅含有源。设uG的某一个顶点,把从源到u且中间只经过S中顶点的路称为从源到u的特殊路径,并用数组dist记录当前每个顶点所对应的最短特殊路径长度。Dijkstra算法每次从V-S中取出具有最短特殊路长度的顶点u,将u添加到S中,同时对数组dist作必要的修改。一旦S包含了所有V中顶点,dist就记录了从源到所有其它顶点之间的最短路径长度。

例如,对下图中的有向图,应用Dijkstra算法计算从源顶点1到其它顶点间最短路径的过程列在下表中。

聚类算法与贪心算法_第3张图片

Dijkstra算法的迭代过程:

迭代

s

u

dist[2]

dist[3]

dist[4]

dist[5]

初始

{1}

-

10

maxint

30

100

1

{1,2}

2

10

60

30

100

2

{1,2,4}

4

10

50

30

90

3

{1,2,4,3}

3

10

50

30

60

4

{1,2,4,3,5}

5

10

50

30

60

2、算法的正确性和计算复杂性

(1)贪心选择性质

(2)最优子结构性质

(3)计算复杂性

对于具有n个顶点和e条边的带权有向图,如果用带权邻接矩阵表示这个图,那么Dijkstra算法的主循环体需要O(n)时间。这个循环需要执行n-1次,所以完成循环需要O(n)时间。算法的其余部分所需要时间不超过O(n^2)

实现:

 

代码

 


你可能感兴趣的:(Graphic,Tips,Algorithm,算法,聚类算法,贪心算法)