高效循环读取excel中有多个sheet的两种方法

先说明一下如果单纯地使用read_excel方法,会导致效率极其低下,因为read_excel第一个参数是要传path(如:r’C:\Users\Desktop\贷款\data.xlsx’)给计算机,每一次循环都要再传一次,简直慢的不要不要的,而ExcelFile则是一个类,给计算机循环传类就不会存在这种问题。
以下是传统方法:

wb = xlrd.open_workbook(r'C:\Users\Desktop\贷款\data.xlsx')
 # 获取workbook中所有的表格
sheets = wb.sheet_names()
data2 = pd.DataFrame()
for i in range(len(sheets)):
    df2 = pd.read_excel(r'C:\Users\Desktop\贷款\data.xlsx'', sheet_name=sheets[i], index=False, encoding='utf8',converters={'外呼任务批次':str,'座席工号':str})
    data2 = data2.append(df2)
    print(i)
    print(sheets[i])

这里要介绍一下国外大神的方法:附链接(https://stackoverflow.com/questions/26474693/excelfile-vs-read-excel-in-pandas/38560203#38560203),以下是搬运过来的。
从技术上讲,ExcelFile是一个类,read_excel是一个函数。无论哪种情况,实际的解析都是由中_parse_excel定义的方法处理的ExcelFile。所以可以使用以下两种传类的方法来进行。
PS:我这个excel每一个sheet有上万行,共有30多个sheet。
1、ExcelFile&read_excel方法;

xl = pd.ExcelFile(path)
for name in xl.sheet_names:
    df = pd.read_excel(xl, name)

2、ExcelFile&parse方法。

xl = pd.ExcelFile(path)
for name in xl.sheet_names:
    df = xl.parse(name)

下面是实际运行代码

import pandas as pd
def read_excel1(path):
    data_xlsx = pd.ExcelFile(path)
    print(data_xlsx.sheet_names)
    data=pd.DataFrame()
    for name in data_xlsx.sheet_names:
        df=data_xlsx.parse(sheet_name=name,converters={'外呼任务批次':str,'座席工号':str,'问卷调查结果':str})
#         data[name]=df
        data = data.append(df)
#         print(df)
        print(name)
    return data
path=r'C:\Users\Desktop\贷款\data.xlsx'
data=read_excel1(path)
import pandas as pd
def read_excel1(path):
    data_xlsx = pd.ExcelFile(path)
    print(data_xlsx.sheet_names)
    data=pd.DataFrame()
    for name in data_xlsx.sheet_names:
        df=data_xlsx.read_excel(data_xlsx,sheet_name=name, encoding='utf8',converters={'外呼任务批次':str,'座席工号':str,'问卷调查结果':str})
#         data[name]=df
        data = data.append(df)
#         print(df)
        print(name)
    return data

path=r'C:\Users\Desktop\贷款\data.xlsx'
data=read_excel1(path)

你可能感兴趣的:(技术,python,excel)