07.Python pyhdfs 连接 HADOOP 基本命令

1.pyhdfs 连接上 Hadoop

1)使用 pyhdfs ,pip install pyhdfs

2)client = pyhdfs.HdfsClient(hosts="139.********",timeout=60,max_tries=5)

    

  参数详解:

07.Python pyhdfs 连接 HADOOP 基本命令_第1张图片

坑:连接的时候会碰到权限问题:修改 节点上的 hdfs-site.xml 权限问题

       

                dfs.permissions

                false

       

3)查看集群根目录下有哪些文件client.listdir("/")

4)创建文件夹client.mkdirs("/test080602")

5)上传文件client.copy_from_local("/Users/****/123.txt", "/test0806/123.txt", overwrite=True)   

     先写本地的文件URL,再写 Hadoop 上的 URL 

坑:上传文件的时候也会碰到问题,主要是在 本地电脑 vi /etc/hosts

  •        需要 把 hadoop 上的 /etc/hosts 的 ip 对应的名称映射放进去。

       例:192.168.1.1   node01

  •        在 hadoop 上的 hdfs-site.xml 再添加

     

             dfs.webhdfs.enabled

            true

     

  •   50075 端口 会用到 50075端口,因为我用的是阿里云,没开放这个端口,所以遇到了坑。

6)下载文件client.copy_to_local("/test0806/123.txt", "/Users/****/123.txt", overwrite=True)   

   先写 Hadoop 上的 URL ,写本地的文件URL

07.Python pyhdfs 连接 HADOOP 基本命令_第2张图片

7)读取文件

  • response = client.open("/test0806/123.txt")
  • response.read()

8) 查看 active 的namenode节点:

  •     client.get_active_namenode()           

 

 

你可能感兴趣的:(07.Python pyhdfs 连接 HADOOP 基本命令)