原文件user_item_behavior_history.csv有2亿多条数据,如果是用本机内存读取的话,在配置有限的情况下用普通的方法读取肯定是行不通的,会内存报错,
使用get_chunk方法,当chunkSize=10000000时,读取速度最快。
原理:把dataframe分为多个chunk,一个chunk有10000000条数据,最后再拼接成chunks就OK了。
import pandas as pd
# 增加列名'user_id', 'item_id', 'behavior_type','timestamp'
reader = pd.read_csv('./data/user_item_behavior_history.csv', header=None, names = ['user_id', 'item_id', 'behavior_type','timestamp'], iterator=True)
# 使用get_chunk方法获取数据
loop = True
chunkSize = 10000000 # 设置chunksize
chunks = []
import datetime
# start time
starttime = datetime.datetime.now()
# long running
while loop:
try:
chunk = reader.get_chunk(chunkSize)
chunks.append(chunk)
except StopIteration:
loop = False
print("Iteration is stopped.") # 迭代完成
# 拼接chunks
df = pd.concat(chunks, ignore_index=True)
# end time
endtime = datetime.datetime.now()
# 共计数据获取时间
print('loop_time:', (endtime - starttime).seconds)