hadoop 需要注意的地方

      1、 对于一个新手来说,简单地进行hadoop安装和wordcount demo程序的验证都是件十分不易的事情。安装完之后把环境变量写进/etc/profile,并source一下。

      2、另外需要注意的是:

通过hadoop dfs -copyFromLocal /tmp/test.txt firstTest 是上传测试文件到 firstTest里。 firstTest 为一个文件

若想上传多个文件到一个目录下,则需要创建一个目录:hadoop dfs -mkdir thirdTest

然后可以上传多个文件到这个目录底下,然后将多个文件做为输入,来统计单词个数

假如有三个文件夹在/tmp/目录下,如下面所示为test1.txt、test2.txt、test.txt

root@cloud1:/tmp# ls
hadoop-root                        Jetty_0_0_0_0_50060_task____.2vcltf
hadoop-root-datanode.pid           Jetty_0_0_0_0_50070_hdfs____w2cu08
hadoop-root-jobtracker.pid         Jetty_0_0_0_0_50075_datanode____hwtdwq
hadoop-root-namenode.pid           Jetty_0_0_0_0_50090_secondary____y6aanv
hadoop-root-secondarynamenode.pid  test1.txt
hadoop-root-tasktracker.pid                 test2.txt
hsperfdata_root                                     test.txt
Jetty_0_0_0_0_50030_job____yn7qmk


上传三个测试文件到thirdTest目录下

hadoop dfs -copyFromLocal /tmp/test*.txt thirdTest

除此之外,需要注意,如果你上次使用过firstTest文件。这次又把测试文件的内容上传到这个文件夹时就会出现提示,文件夹已经存在,这时就需要重新使用别的文件名,比如secondTest等

     3、执行wordcount

hadoop jar hadoop-examples-1.0.4.jar wordcount thirdTest  result

注意:在执行的时候可能会提醒你result 这个文件已经存在,这说明上一次你在输出结果的时候已经使用到了result 这个文件,所以要么删掉result这个文件夹。,要么输出结果到其他文件夹里。比如说 resultn等。

你可能感兴趣的:(hadoop)