parquet存储linux文件,使用AWS Lambda读取存储在S3中的Parquet文件(Python 3)

我正在尝试使用AWS Lambda在S3中加载,处理和编写Parquet文件.我的测试/部署过程是:

似乎有两种可能的方法,它们都在本地工作到docker容器:

>带有s3fs的fastparquet:不幸的是,包的解压缩大小超过256MB,因此无法用它更新Lambda代码.

>带有s3fs的pyarrow:我跟着https://github.com/apache/arrow/pull/916,当用lambda函数执行时,我得到:

>如果我在URI前加上S3或S3N(如代码示例所示):在Lambda环境中OSError:传递非文件路径:s3:// mybucket / path / to / myfile in pyarrow / parquet.py,第848行.本地我在pyarrow / parquet.py第714行得到IndexError:list index超出范围

>如果我没有用S3或S3N作为URI的前缀:它在本地工作(我可以读取镶木地板数据).在Lambda环境中,我得到相同的OSError:传递非文件路径:s3:// mybucket / path / to / myfile in pyarrow / parquet.py,第848行.

我的问题是:

>为什么我的docker容器中的结果与Lambda环境中的结果不同?

>提供URI的正确方法是什么?

>有没有可以通过AWS Lambda在S3中读取Parquet文件的方法?

谢谢!

你可能感兴趣的:(parquet存储linux文件,使用AWS Lambda读取存储在S3中的Parquet文件(Python 3))