阅读更多
1. 大致阅读 mapred_tutorial.pdf
2. 建立一个eclipse 项目,拷贝 wordCount ,编译,执行
bin/hadoop jar mylib/tuthadoop.jar com.***.tut.WordCount input1 output1
3. 缺省的 input ,会读 input1 底下的每个文件的每一行
缺省的output ,会把每一行写入output1 底下的文件
4. easy
5. 阅读 nutch 源码 ,因为 nutch build on hadoop 太多的map reduce example. very good.
http://wiki.apache.org/nutch/Becoming_A_Nutch_Developer, 建议的阅读顺序
In order they are Injector, Generator, Fetcher, ParseSegment, CrawlDb, LinkDb, Indexer, DeleteDuplicates.
http://banditjava.iteye.com/blog/244262
Nutch开源搜索引擎的crawl日志分析及工作目录说明。
http://www.hadoop.org.cn/mapreduce/nutch-mapreduce/
阅读 Injector ,Generator 等类。 呵呵。
6. 不能确定下一步是否需要部署 nutch
http://wiki.apache.org/nutch/NutchHadoopTutorial