Python Pandas大数据处理

pandas 处理过大数据时间太长或者没有响应

可以使用chunksize 将数据分段处理并拼接

import pandas as pd
df = pd.DataFrame()
for chunk in pd.read_csv('test.csv', usecold=[0,1], names=['times', 'data'], chunksize=2000000):
    df = df.append(chunk)

chunksize 尽量不要超过1000w数据,超过1000w数据响应时间比200w拼接时间长好几倍

你可能感兴趣的:(Python,pandas,python,数据分析)