mapreduce 学习过程

阅读更多
1. 大致阅读 mapred_tutorial.pdf
2. 建立一个eclipse 项目,拷贝 wordCount ,编译,执行
    bin/hadoop jar mylib/tuthadoop.jar  com.***.tut.WordCount input1 output1
3. 缺省的 input ,会读 input1 底下的每个文件的每一行
   缺省的output ,会把每一行写入output1 底下的文件
4. easy
5. 阅读 nutch 源码 ,因为 nutch build on hadoop 太多的map reduce example. very good.
  
   http://wiki.apache.org/nutch/Becoming_A_Nutch_Developer, 建议的阅读顺序
   In order they are Injector, Generator, Fetcher, ParseSegment, CrawlDb, LinkDb, Indexer, DeleteDuplicates.

   http://banditjava.iteye.com/blog/244262
   Nutch开源搜索引擎的crawl日志分析及工作目录说明。

  http://www.hadoop.org.cn/mapreduce/nutch-mapreduce/
  
   阅读 Injector ,Generator 等类。 呵呵。

6. 不能确定下一步是否需要部署 nutch
   http://wiki.apache.org/nutch/NutchHadoopTutorial

你可能感兴趣的:(Mapreduce,Hadoop,Eclipse,搜索引擎,Apache)