python使用hdfs包远程上传文件出错原因及解决措施

错误提示

ConnectionError: HTTPConnectionPool(host='slave2', port=50075):Max retries exceeded with url: /webhdfs/v1/home/temp/temp1/test.py?op=OPEN&user.name=root&namenoderpcaddress=master:9000&offset=0 (Caused by NewConnectionError(': Failed to establish a new connection: [Errno -2] Name or service not known',))

原因分析

报错的重点在于,Max retries exceeded with url 和 Name or service not known达到最大尝试次数后,提示未知的地址或服务,说明客户端并没有与数据节点建立连接。

python使用hdfs包远程上传文件出错原因及解决措施_第1张图片

根据hdfs读流程的数据流向可以看到,当主节点确认hdfs中存在被请求的数据时,客户端时直接与子节点建立连接的,而在某个特定情况下,子节点和客户端可能不在同一网段,或者客户端/etc/host中没有记录子节点地址与机器名的映射,而导致连接失败。

解决措施

将客户端和所有节点放到同一网段,如果已经在同一网段,可以尝试在客户端/etc/host中添加子节点地址与机器名的映射。

你可能感兴趣的:(python使用hdfs包远程上传文件出错原因及解决措施)