两种划分阈值的方法

风险等级划分的时候可以降低主观性的一些系统方法

方法一:分层聚类法

凝聚层次聚类/分裂层次聚类

重点:确定层次聚类的簇数,画出树状图,基本就能得到你的区间范围,但数据量大的时候还是得再用代码跑

方法二:自然断点法Natural Breaks/Jenks

优点:自然断点法运用了聚类的思维,它的核心思想与聚类一样:使每一组内部的相似性最大,而外部组与组之间的相异性最大。但是与聚类不一样的地方,聚类是不会关注每一类中的要素数量和范围的,而自然断点法在于它还会兼顾每一组之间的要素的范围和个数尽量相近。

自然断点法的意义在于,詹克斯教授认为任何数列之间,都存在一些自然(非人为设定的)的转折点断点,这些自然的断点,都是具有统计学意义的,用这些转折点可以把研究的对象分成性质相似的群组,因此,自然断点本身就是分级的良好界限。

(摘自:探索性数据分析:自然断点法算法原理及Python实现_虾神说D的博客-CSDN博客)

自然断点法和分层聚类法的操作结果(小数据量时)感觉差别不太大

同一组数据,

两种划分阈值的方法_第1张图片

 两种划分阈值的方法_第2张图片

 我一共有56个数据跑出来的结果,感觉差别不大,分层聚类的话可能区间之间不是连续的,但是所有对象都囊括在内了。以后写论文可以参考~~~~俩方法应该都行

你可能感兴趣的:(python,算法,聚类)