eclipse运行wordcount参数配置

要想wordcount在hadoop上运行,那么必须为wordcount程序指定输入路径和输出路径。输入路径是我们要进行词频统计的文本文件,在这里我们的文件名是20417.txt。而输出路径是词频统计结果存放的路径。如下图所示,是进行参数配置:WordCount.java->右键->Run As->Run Configuration

eclipse运行wordcount参数配置_第1张图片

上述的路径是HDFS中的路径,HDFS路径可以查看下图:


在图一中我们输入完输入输出路径以后,我们点击Apply,但是这个时候不能点击Run,因为这里的run是指在单机上run,而我们是要在hadoop集群上run,因此我们执行以下步骤:WordCount.java->右键->Run as->Run on hadoop

运行过程中console会提示一些信息,如下所示:

[cpp] view plain copy
  1. 11/10/09 14:07:50 WARN conf.Configuration: DEPRECATED: hadoop-site.xml found in the classpath. Usage of hadoop-site.xml is deprecated. Instead use core-site.xml, mapred-site.xml and hdfs-site.xml to override properties of core-default.xml, mapred-default.xml and hdfs-default.xml respectively  
  2. 11/10/09 14:07:50 INFO input.FileInputFormat: Total input paths to process : 1  
  3. 11/10/09 14:07:50 INFO mapred.JobClient: Running job: job_201110091333_0001  
  4. 11/10/09 14:07:51 INFO mapred.JobClient:  map 0% reduce 0%  
  5. 11/10/09 14:07:59 INFO mapred.JobClient:  map 100% reduce 0%  
  6. 11/10/09 14:08:12 INFO mapred.JobClient:  map 100% reduce 100%  
  7. 11/10/09 14:08:14 INFO mapred.JobClient: Job complete: job_201110091333_0001  
  8. 11/10/09 14:08:14 INFO mapred.JobClient: Counters: 17  
  9. 11/10/09 14:08:14 INFO mapred.JobClient:   Job Counters   
  10. 11/10/09 14:08:14 INFO mapred.JobClient:     Launched reduce tasks=1  
  11. 11/10/09 14:08:14 INFO mapred.JobClient:     Launched map tasks=1  
  12. 11/10/09 14:08:14 INFO mapred.JobClient:     Data-local map tasks=1  
  13. 11/10/09 14:08:14 INFO mapred.JobClient:   FileSystemCounters  
  14. 11/10/09 14:08:14 INFO mapred.JobClient:     FILE_BYTES_READ=143076  
  15. 11/10/09 14:08:14 INFO mapred.JobClient:     HDFS_BYTES_READ=674762  
  16. 11/10/09 14:08:14 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=286184  
  17. 11/10/09 14:08:14 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=205265  
  18. 11/10/09 14:08:14 INFO mapred.JobClient:   Map-Reduce Framework  
  19. 11/10/09 14:08:14 INFO mapred.JobClient:     Reduce input groups=0  
  20. 11/10/09 14:08:14 INFO mapred.JobClient:     Combine output records=10015  
  21. 11/10/09 14:08:14 INFO mapred.JobClient:     Map input records=12761  
  22. 11/10/09 14:08:14 INFO mapred.JobClient:     Reduce shuffle bytes=0  
  23. 11/10/09 14:08:14 INFO mapred.JobClient:     Reduce output records=0  
  24. 11/10/09 14:08:14 INFO mapred.JobClient:     Spilled Records=20030  
  25. 11/10/09 14:08:14 INFO mapred.JobClient:     Map output bytes=1082004  
  26. 11/10/09 14:08:14 INFO mapred.JobClient:     Combine input records=112607  
  27. 11/10/09 14:08:14 INFO mapred.JobClient:     Map output records=112607  
  28. 11/10/09 14:08:14 INFO mapred.JobClient:     Reduce input records=10015  
  29. 11/10/09 14:08:14 INFO input.FileInputFormat: Total input paths to process : 1  
  30. 11/10/09 14:08:14 INFO mapred.JobClient: Running job: job_201110091333_0002  
  31. 11/10/09 14:08:15 INFO mapred.JobClient:  map 0% reduce 0%  
  32. 11/10/09 14:08:24 INFO mapred.JobClient:  map 100% reduce 0%  
  33. 11/10/09 14:08:36 INFO mapred.JobClient:  map 100% reduce 100%  
  34. 11/10/09 14:08:38 INFO mapred.JobClient: Job complete: job_201110091333_0002  
  35. 11/10/09 14:08:38 INFO mapred.JobClient: Counters: 17  
  36. 11/10/09 14:08:38 INFO mapred.JobClient:   Job Counters   
  37. 11/10/09 14:08:38 INFO mapred.JobClient:     Launched reduce tasks=1  
  38. 11/10/09 14:08:38 INFO mapred.JobClient:     Launched map tasks=1  
  39. 11/10/09 14:08:38 INFO mapred.JobClient:     Data-local map tasks=1  
  40. 11/10/09 14:08:38 INFO mapred.JobClient:   FileSystemCounters  
  41. 11/10/09 14:08:38 INFO mapred.JobClient:     FILE_BYTES_READ=143076  
  42. 11/10/09 14:08:38 INFO mapred.JobClient:     HDFS_BYTES_READ=205265  
  43. 11/10/09 14:08:38 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=286184  
  44. 11/10/09 14:08:38 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=104533  
  45. 11/10/09 14:08:38 INFO mapred.JobClient:   Map-Reduce Framework  
  46. 11/10/09 14:08:38 INFO mapred.JobClient:     Reduce input groups=0  
  47. 11/10/09 14:08:38 INFO mapred.JobClient:     Combine output records=0  
  48. 11/10/09 14:08:38 INFO mapred.JobClient:     Map input records=10015  
  49. 11/10/09 14:08:38 INFO mapred.JobClient:     Reduce shuffle bytes=0  
  50. 11/10/09 14:08:38 INFO mapred.JobClient:     Reduce output records=0  
  51. 11/10/09 14:08:38 INFO mapred.JobClient:     Spilled Records=20030  
  52. 11/10/09 14:08:38 INFO mapred.JobClient:     Map output bytes=123040  
  53. 11/10/09 14:08:38 INFO mapred.JobClient:     Combine input records=0  
  54. 11/10/09 14:08:38 INFO mapred.JobClient:     Map output records=10015  
  55. 11/10/09 14:08:38 INFO mapred.JobClient:     Reduce input records=10015  
在运行完以后,HDFS中会产生词频统计结果,如下图所示:

eclipse运行wordcount参数配置_第2张图片

词频统计结果存放在part-r-00000这个文件中。

你可能感兴趣的:(eclipse运行wordcount参数配置)