pandas读取大数据量的Excel文件

使用pandas快速读取百万行Excel数据的一种方法是使用pandas中的read_excel函数。可以使用以下代码读取Excel文件:

import pandas as pd
df=pd.read_excel('file_name')

这个适合少量数据,如果一旦数据几十万或者上百万,那么程序就很慢

有几种优化方法

  1. 只读取需要的列:使用read_excel函数的usecols参数来指定需要读取的列。这可以减少读取的数据量,从而加快读取速度。
  2. 分块读取:您可以使用read_excel函数的chunksize参数来实现分块读取。这样可以限制内存使用,并避免内存不足的情况。

例如,以下代码读取第1列和第3列,并将数据分成2万行一块:

df = pd.read_excel('file.xlsx', usecols=[0, 2], chunksize=20000)

在读取大量数据的时候即便用上面的方法读取速度也可能很慢,所以有个点就是在存大文件的时候尽量采用csv文件。

你可能感兴趣的:(python基础,数据分析,pandas,excel,数据分析)