pandas读取中文xlsx文件出现的问题

panda读取中文xlsx文件

1、数据为中文内容,xlsx文件保存。

2、直接读取文件出错(Python报错:pandas.errors.ParserError: Error tokenizing data. C error: Expected 3……),将xlsx文件后缀保存为csv,仍出现格式问题(xlsx不能为多表,左下角可以切换多个窗口的那种),后**将xlsx文件另存为csv**解决此问题。

3、读取csv文件出现编码问题(UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xb3 in position 0: invalid start byte),在读取文件时改编码content = pd.read_csv(‘news.csv’,encoding=‘gbk’)

解决pandas读取xlsx时报错

Must explicitly set engine if not passing in buffer or path for io.

今天在用低版本的pandas==0.24.2时,读取xlsx文件报错。

pd.read_excel(xlsx_file_IO_string)   # xlsx IO流

Must explicitly set engine if not passing in buffer or path for io.

查看了源代码,如果未指定engine,那么默认使用xlrd来读,而且我本地的xlrd==1.2.0,所以不存在xlrd版本问题。另外又尝试指定了engine=openpyxl,仍然不能解决读取xlsx文件错误的问题。确定是pandas版本过低导致的问题,有条件的可以升级pandas版本,没条件的继续往下看。

使用BytesIO对象,声明流为bytes类型,成功解决问题。

from pandas.io.common import BytesIO
import pandas as pd
 
pd.read_excel(BytesIO(content)))  # 此处centent为你的xlsx文件内容

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

你可能感兴趣的:(pandas读取中文xlsx文件出现的问题)