想要读取一个excel文件,并且获取某一个分类下的所有的数据
1 pandas官方api有read_excel方法,然而我试了总是提示找不到这个方法,so 还是采用了read_csv
2 将excel转为csv文件,pd.read_csv(path)可以读取,但是乱码,pd.read_csv(path,encoding='utf-8')会出现
只有变更csv文件本身的编码了,用notepad打开,有个编码选择,前方高能,注意:
我这里一开始选择了utf8编码,导致后来出现了获取数据不准确的问题,在转码的时候,有些字符错误导致,分隔符并没有解析出来,
csv本来就是逗号分隔符文件,所以读取的话就会出现数据移动的问题
我在csv文件中并没有看出这个问题,groupby的时候发现出现了不应该出现的数据统计,所以定位到出现错误的index
data_r = data['***'] #返回series
data_err = data_r[data_r == '******'] 返回index和值
用notepad打开 发现错误所在序列,确实现实了问题
这里高新技术和国税 本来应该是两列,但是因为转码错误,导致“,”解析不出来,整个数据左移了一位
最后尝试了下 csv文件转码的时候 在notepad里选择 utf8无bom编码格式
最后成功
__author__ = 'user'
# -*- coding:utf-8 -*-
import numpy as np
import pandas as pd
import matplotlib as plt
from pandas import Series,DataFrame
data = pd.read_csv('E:/yangnan/work/2013_1.csv')
print data.columns
data_scale = data['企业规模(国家统计局标准)']
print data_scale.size
print data_scale.value_counts()