pandas读取和处理大文件

chunksize 为每次读取的数据量,可以减少内存的使用。一般笔记本的内存不可能无限大。
chunk可以处理进行分块处理数据。
进行数据统计和数据筛选的的话用这种方式比较方便。

import pandas as pd

# 读取文件
filename = 'data.csv'
chunksize = 1000  # 每个块的行数
for chunk in pd.read_csv(filename, chunksize=chunksize):
    # 对于每个块,进行一些处理
    # 例如:计算块内的统计量,进行数据清洗等
    print(chunk.shape)

你可能感兴趣的:(python小白成长之路,pandas,python,数据分析)