理解连续数据的离散化

在进行多属性的决策问题研究时,人工神经网络、模糊集、粗糙集、概念格、统计决策分析等算法经常出现,但是这些算法在处理问题时都会对现实作出这样或者那样的假设,比如:属性之间相互独立、服从某种分布规律,或者要求属性要尽可能的少,以便简化处理算法和计算过程,可是实际情况往往不是能够满足这些假设,粗集理论的出现为解决这一类的问题提供拉很好的方案,但是粗集又是基于集合理论,处理的对象是离散变量,不是实际中经常遇到的连续变量,于是如何将连续变量科学、合理的转变称为符合实际数据分布特征的离散量,就成为粗集开发技术的入门瓶颈,最近对于数据离散化处理技术进行了大量的资料搜集和分析,数据的离散化处理实际上就是根据某种相似性或者相异性来对数据进行分类,关键是相似性或者相异性如何定义,这是问题的难点,很多算法的不同本质上讲,其实就是在这一点上有所区别而已。分别利用K-均值和SOM网络实验了连续数据的离散化处理,发现原来SOM仅仅是受了很多约束条件的K-均值算法,并无吓人之处,不过SOM网络试验结果相当的令人满意,以下是实际效果:

**************对于数据库信息进行离散化处理******************

                                      原始数据10e6d4a1ce9.jpg

                                      离散化结果10e6d4a6c79.jpg

**********对于状态监测连续数据进行离散化处理****************

                                   原始数据10e6d4aeea0.jpg

                                      离散化处理结果10e6d4bd2ae.jpg

^_^,这个时候就可以开始神奇的粗集之旅了!

你可能感兴趣的:(数据)