python 操作CDH的HDFS

环境:安装了pyenv,pip
pyenv global 3.6.8

pip install hdfs
pip install ipython  (个人喜欢使用pyenv的自动补全功能)
安装完hdfs后建议重启,测试过程出现了hdfs模块找不到的情况
注意:客户端分为Client和InsecureClient,Client需要验证权限

In [1]: from hdfs import InsecureClient                                                                                                                                
In [2]: client_hdfs = InsecureClient('http://192.168.4.86:9870',user='hdfs')                                                                                           
In [3]: client_hdfs.list('/')                                                                                                                                          
Out[3]: ['dongsc', 'hbase', 'tmp', 'user']
In [4]: client_hdfs.makedirs('/dongsc2')  
In [6]: client_hdfs.delete('/dongsc',recursive='true')       --recursive:是否允许递归删除                                                                                                         
Out[6]: True


假如想使用Client添加对权限的认证,需要修改授权,将root用户添加进ACLs中
Client模块下,尽管当前用户是root,但是hadoop 里的hdfs是另外一套文件系统了,root在里面是没有权限的。
上传文件时需要注意:
客户端(运行python的机器)必须要有NameNode和DataNode的解析,可以是DNS,也可以是/etc/hosts,否则会出现:

。。。。。。。。。。。。。。。省略,下面是报错的最后一句。。。。
/usr/local/lib/python3.6/site-packages/urllib3/connection.py in _new_conn(self)
    167         except SocketError as e:
    168             raise NewConnectionError(
--> 169                 self, "Failed to establish a new connection: %s" % e)
    170 
    171         return conn
NewConnectionError: : Failed to establish a new connection: [Errno -2] Name or service not known

 

你可能感兴趣的:(CDH,Python,Hadoop,Hdfs,Hadoop)