nutch随笔

lucene nutch(crawDb linkDb Segment) hadoop Tika gora(bigtable) crawler-commons


nutch随笔seed为最初爬虫链接

nutch随笔

每一个命令对应一个mapreduce程序

nutch随笔segment为一次抓取的内容(时间戳)content为抓取网页的二进制文件 crawl_fetch crawl_parse解析状态 parse_data解析元数据 parse_text解析的文本 


nutch随笔






















垂直搜索是针对某一个行业的专业搜索引擎,如网站内置的搜索

通用搜索引擎比如google、百度




你可能感兴趣的:(nutch随笔)