阅读更多
1.配置nutch 在eclipse 中可以单步跟踪
2. 修改 nutch, 从 Fetcher1 到 Fetcher2 , 每个host 一个队列的抓取方式 (同 levin)
3. 参看 nutch 把存储改为 Hbase 的文档
http://www.nabble.com/-jira--Created:-(NUTCH-650)-Hbase-Integration-td19551301.html
4. 基本阅读了主要的 nutch 类 : Injector, Generator, Fetcher, ParseSegment, CrawlDb
参考:
1. nutch 的几个效率低下的原因思考
a. 不方便部分选取,比如: mapreduce 在 dedup url 的时候,需要map 所有的 record from file, 然后 reduce
b. 不用 Hbase 的时候, 数据拷贝,复制,太多
我的问题:
1. 对于习惯了Dip 的编程来说,这些代码有点乱,没有心情添加代码
2. 能否用Osgi 取代nutch 现有的plug-in,重新发明轮子
3. 能否用Jmx 做管理
说白了,我不喜欢hadoop,的代码。 侵入式设计,层次不清楚。