【python】read_csv+编码问题

想要读取一个excel文件,并且获取某一个分类下的所有的数据

1 pandas官方api有read_excel方法,然而我试了总是提示找不到这个方法,so 还是采用了read_csv

2 将excel转为csv文件,pd.read_csv(path)可以读取,但是乱码,pd.read_csv(path,encoding='utf-8')会出现


只有变更csv文件本身的编码了,用notepad打开,有个编码选择,前方高能,注意:

我这里一开始选择了utf8编码,导致后来出现了获取数据不准确的问题,在转码的时候,有些字符错误导致,分隔符并没有解析出来,

csv本来就是逗号分隔符文件,所以读取的话就会出现数据移动的问题

我在csv文件中并没有看出这个问题,groupby的时候发现出现了不应该出现的数据统计,所以定位到出现错误的index

data_r = data['***']    #返回series

data_err = data_r[data_r == '******']   返回index和值 

用notepad打开 发现错误所在序列,确实现实了问题


这里高新技术和国税 本来应该是两列,但是因为转码错误,导致“,”解析不出来,整个数据左移了一位

最后尝试了下 csv文件转码的时候 在notepad里选择 utf8无bom编码格式

最后成功

__author__ = 'user'
# -*- coding:utf-8 -*-
import numpy as np
import pandas as pd
import matplotlib as plt
from pandas import Series,DataFrame

data = pd.read_csv('E:/yangnan/work/2013_1.csv')
print  data.columns
data_scale = data['企业规模(国家统计局标准)']
print data_scale.size
print data_scale.value_counts()

你可能感兴趣的:(python)