python实现数据预处理之箱光滑

题目: 给定一个数据集waitakere.txt,该数据集中含有大量的噪音数据。具体操作要求:1)该数据集的偶数位均为噪音数据,判断偶数位是否为0,若为0,利用1替换。2)对转换后的数据集进行排序,利用分箱技术来光滑数据。假设有10个桶,实现“用箱均值光滑”、 “用箱中位数光滑”、“用箱边界光滑”三种技术。
waitakere.txt:
这只是一部分数据,只是为了示例噪音数据

1 0 3 2 0 3 
4 0 1 0 0 0
0 0 0 1 0 0
0 0 0 0 7 0
0 8 9 0 9 0
0 6 0 5 0 3
6 0 7 0 1 0
......

解题思路:首先读入数据到列表里,然后对数据进行排序,将数据划分到10个箱中。对于箱均值光滑,箱中每一个值都被替换为箱中的均值。对于箱中位数光滑,箱中每一个值都被替换为箱中的中位数。对于箱边界光滑,箱中每一个值都被替换为最近的边界值。
以下为python代码实现部分:

import numpy as np
def binning(filename,box_num):
    my_list=[]
    my_list1=[]
    noise_data = open(filename) 
    for line in noise_data.readlines():
        dataline=line.strip()
        my_list.append(dataline)
    for i in range(0,len(my_list)):
        my_list[i]=int(my_list[i])
        if (i+1) % 2==0 and my_list[i]==0:
            my_list[i]=1
    my_list1=sorted(my_list)
    #print my_list1
    box_list=[]
    len_box=int(np.ceil(len(my_list1)/float(box_num)))
    for i in range(0,10):
        each_box=my_list1[i*len_box:(i+1)*len_box]
        box_list.append(each_box)
    return box_list
def box_mean_smooth(box_list):
    for i in range(0,len(box_list)):
        box_avg=int(np.average(box_list[i]))
        for j in range(0,len(box_list[i])):
            box_list[i][j]=box_avg
    return box_list

def box_mid_smooth(box_list):
    for i in range(0,len(box_list)):
        box_mid=int(np.median(box_list[i]))
        for j in range(0,len(box_list[i])):
            box_list[i][j]=box_mid
    return box_list

def box_boundary_smooth(box_list):
    for i in range(0,len(box_list)):
        left_bdy=box_list[i][0]
        right_bdy=box_list[i][-1]
        for j in range(0,len(box_list[i])):
            if abs(box_list[i][j]-left_bdy)else:
                box_list[i][j]=right_bdy
    return box_list

filename='waitakere.txt'
box_list=binning(filename,10)
print box_list
print box_mean_smooth(box_list)
print box_mid_smooth(box_list)
print box_boundary_smooth(box_list)

下图为实验结果截图:
由于数据较多,截图只是一部分
python实现数据预处理之箱光滑_第1张图片

你可能感兴趣的:(python,数据处理与分析)