pandas中使用pyarrow加速

pyarrow能够快速处理大数据。并且与pandas兼容
可以在定义pandas数据的同时添加dtype参数,将其值设为pyarrow类型
如:ser = pd.Series([-1.5, 0.2, None], dtype="float32[pyarrow]")

1.要将 pyarrow.Table转换为dataframe,采用pyarrow.Table.to_pandas()方法,参数也要一致:

table = pa.table([pa.array([1, 2, 3], type=pa.int64())], names=["a"])

df = table.to_pandas(types_mapper=pd.ArrowDtype)

2.pyarrow.同样支持pandas的一系列函数方法
3.进行文件读写时也可以将engine=“pyarrow”,使用dtype_backend="pyarrow"会将文件数据读取为pyarrow格式。

你可能感兴趣的:(pandas)