连续属性离散化方法

离散化方法

由于一些数据挖掘的算法,主要是一些分类算法,要求数据是分类的形式即是离散的。所以就需要将连续的属性变换为分类的属性,即连续的变为离散的。
常用的离散化方法有以下三种:等宽法、等频法、基于聚类分析的方法。
下面来依次简单介绍一下三种方法的原理:
等宽法主要就是将属性的值域分成具有相同宽度的区间,区间的个数由数据本身的特点决定,可能会导致一些区间数据少,一些区间数据多的情况。
等频法主要是将数量相同的记录放进每个区间,可能会将相同的数据分到不同的区间以满足每个区间中固定的数据个数。
基于聚类分析的方法:主要是用聚类算法进行聚类,然后将得到的cluster进行处理,合并到一个cluster的连续属性值做同一标记。
下面还是通过代码来进行展示:

#连续元素离散化
import pandas as pd
import matplotlib.pyplot as plt
datafile = 'G:\data\Python\chapter4\demo\data\discretization_data.xls'
data = pd.read_excel(datafile) 
data = data['肝气郁结证型系数'].copy()
k = 4
d1 = pd.cut(data,k,labels = range(k)) #等宽离散化,各个类比依次命名为0,1,2,3
#等频率离散化
w = [1.0*i/k for i in range(k+1)] #生成一个以0.25为间距的列表
w = data.describe(percentiles = w)[4:4+k+1] #用describe函数自动计算分位数
w[0] = w[0]*(1-1e-10)
d2 = pd.cut(data,w,labels = range(k)) #等频率
#基于聚类分析方法
from sklearn.cluster import KMeans
kmodel = KMeans(n_clusters = k,n_jobs = 4)
kmodel.fit(data.values.reshape((len(data),1))) #训练模型
c = pd.DataFrame(kmodel.cluster_centers_).sort_values(0)
w = c.rolling(2).mean().iloc[1:] #相邻两项求中点,作为边界点
w = [0] + list(w[0]) + [data.max()] #把首末边界点加上
d3 = pd.cut(data,w,labels = range(k))
#作图函数
def cluster_plot(d,k):
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    
    plt.figure(figsize = (8,3))
    for j in range(0,k):
        plt.plot(data[d==j],[j for i in d[d==j]],'o') #画出d1,d2...属于四类中那类
    plt.ylim(-0.5,k-0.5)
    return plt
cluster_plot(d1,4)
cluster_plot(d2,4)
cluster_plot(d3,4)

运行结果如下:
连续属性离散化方法_第1张图片
连续属性离散化方法_第2张图片
连续属性离散化方法_第3张图片
上面三个图就是用三种不同的离散化方法处理同一数据集后的图像。

你可能感兴趣的:(Data,Ming)