数据挖掘csv文件与xls文件预处理

(1)、在windows下的csv文件,默认打开方式是GBK格式,在linux下打开的文件默认是utf-8的格式。所以windows下的格式在linux下会出现中文乱码的现象。使用iconv命令对整个文件进行转码的操作。

sudo iconv -f GBK -t UTF-8 d_train_20180102.csv -o new_d_train.csv

后面的第一个csv为需要转码操作的文件,后面的为生成的新文件。
(2)、在windows下,如果想将编码的格式转换为utf-8的格式如下操作:
用记事本打开csv文件–》另存为–》更改编码格式为utf-8。只有记事本才能很方便的更改csv文件的属性。结束后,文件的格式就可以用python打开。

(3)、对xls文件的内容操作

import xlrd
data = xlrd.open_workbook('data.xls')

grade = []
lik = []
sheet = data.sheet_by_index(0)  #此语句可以将xls按照索引进行查找
s = '优秀'       #判断某一个单元格的内容
s_utf8 = s.encode('UTF-8')   #中文的内容需要就行转码操作才能进行比较
print(sheet.nrows)      #打印列数

for i in range(1, sheet.nrows):
    if sheet.cell(i, 7).value.encode('UTF-8') == s_utf8:  #把单元格的内容进行转码操作
        grade.append(1)
    else:
        grade.append(0)

s2 = '是'
s2_utf8 = s2.encode('UTF-8')
for i in range(1, sheet.nrows):
    if sheet.cell(i, 9).value.encode('UTF-8') == s2_utf8:
        lik.append(1)
    else:
        lik.append(0)

你可能感兴趣的:(编程,数据挖掘)