nutch源代码分析之Fetcher

MapReduce:获取的urls集

  • 输入:<url,CrawlDatum>, 按主机分块, 按hash排序
  • Map(url,CrawlDatum) $\to$ <url,FetcherOutput>
      通过多线程、异步map实现
      调用已有的Nutch协议插件
  • FetcherOutput: <CrawlDatum, 网页内容Content>
  • Reduce()是同一化
  • 输出: 两种文件: <url,CrawlDatum>, <url,Content>

 

你可能感兴趣的:(mapreduce,多线程)