hadoop配置文件详解、安装及相关操作

一、      Hadoop伪分布配置

           1. conf/hadoop-env.sh文件中增加:export JAVA_HOME=/home/Java/jdk1.6

           2.  conf/core-site.xml文件中增加如下内容:

 

 

              fs.default.name

              hdfs://localhost:9000

       


       hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site.xml中不配                     置namenodedatanode的存放位置,默认就放在这个路径中-->

 

      hadoop.tmp.dir

       /home/hdfs/tmp

   

 3.  conf/hdfs-site.xml中增加如下内容:

       

     

         dfs.replication

         1

    

 

          

           

             dfs.name.dir

             /home/hdfs/name

       

       

        dfs.data.dir

        /home/hdfs/data

   

 

 

               解决:org.apache.hadoop.security.AccessControlException:Permission                                                 denied:user=Administrator,access=WRITE,inode="tmp":root:supergroup:rwxr-xr-x

因为Eclipse使用hadoop插件提交作业时,会默认以 DrWho 身份去将作业写入hdfs文件系统中,对应的也就是 HDFS 上的/user/hadoop ,  由于 DrWho 用户对hadoop目录并没有写入权限,所以导致异常的发生。解决方法为:放开 hadoop 目录的权限, 命令如下 :$ hadoop fs -chmod 777 /user/hadoop -->

                

                   dfs.permissions

                   false

                      If "true", enable permission checking in HDFS. If "false", permission checking is turned                     off,   but all other behavior is unchanged. Switching from one parameter value to                                   the other does   not change the mode, owner or group of files or directories

             

 

        

 

   4.  conf/mapred-site.xml中增加如下内容:

     

       mapred.job.tracker

      localhost:9001

二、操作命令

           1.  格式化工作空间

进入bin目录,运行 ./hadoop namenode –format

           2.  启动hdfs

进入hadoop目录,bin/下面有很多启动脚本,可以根据自己的需要来启动。

                    * start-all.sh 启动所有的Hadoop守护。包括namenode, datanode, jobtracker, tasktrack

* stop-all.sh 停止所有的Hadoop

* start-mapred.sh 启动Map/Reduce守护。包括JobtrackerTasktrack

* stop-mapred.sh 停止Map/Reduce守护

* start-dfs.sh 启动Hadoop DFS守护NamenodeDatanode

* stop-dfs.sh 停止DFS守护  

三、Hadoop hdfs 整合

     可按如下步骤删除和更改hdfs不需要的文件:

         1.hadoop-core-1.0.0.jar 移动到lib目录下。

         2. ibexec目录下的文件移动到bin目录下。

         3. 删除除binlibconflogs之外的所有目录和文件。

         4. 如果需要修改日志存储路径,则需要在conf/hadoop-env.sh文件中增加:

            export    HADOOP_LOG_DIR=/home/xxxx/xxxx即可。

四、HDFS文件操作

Hadoop使用的是HDFS,能够实现的功能和我们使用的磁盘系统类似。并且支持通配符,如*

       1.  查看文件列表

查看hdfs/user/admin/hdfs目录下的文件。

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs -ls /user/admin/hdfs

查看hdfs/user/admin/hdfs目录下的所有文件(包括子目录下的文件)。

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs -lsr /user/admin/hdfs

       2.  创建文件目录

查看hdfs/user/admin/hdfs目录下再新建一个叫做newDir的新目录。

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs -mkdir /user/admin/hdfs/newDir

       3.  删除文件

删除hdfs/user/admin/hdfs目录下一个名叫needDelete的文件

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs -rm /user/admin/hdfs/needDelete

      删除hdfs/user/admin/hdfs目录以及该目录下的所有文件

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs -rmr /user/admin/hdfs

        4. 上传文件

上传一个本机/home/admin/newFile的文件到hdfs/user/admin/hdfs目录下

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs put /home/admin/newFile /user/admin/hdfs/

        5. 下载文件

下载hdfs/user/admin/hdfs目录下的newFile文件到本机/home/admin/newFile

a. 进入HADOOP_HOME目录。

             b. 执行sh bin/hadoop fs get /user/admin/hdfs/newFile /home/admin/newFile

        6. 查看文件内容

查看hdfs/user/admin/hdfs目录下的newFile文件

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs cat /home/admin/newFile

你可能感兴趣的:(hadoop配置文件详解、安装及相关操作)