nutch学习1

inject inject操作调用的是nutch的核心包之一crawl包中的类Injector 作用:       将url集合进行格式化和过滤,消除其中的非法url,并设定        url状态(UNFETCHED),按照一定方法进行初始化       将url进行合并,消除重复url入口       将url及其状态,分值传入crawldb数据库,与原数据库中重复的则删除旧的,更换新的 inject操作结果:crawldb数据库内容得到更新,包括url及其状态 generate    generate操作调用的是crawl包中的类generator    generate操作主要作用    从crawldb数据库中将url取出并进行过滤    对url进行排序,通过域名,链接数和一种hash算法综合进行降序排列     将排列列表写入segment generate操作结果:创建了抓取列表,存放在generate文件夹下 以时间为文件夹名称。循环抓取多少次,segment文件夹下就会有多少子文件夹 fetch       抓取,按照segment文件夹下的抓取列表进行       抓取过程中,页面的url地址可能因为链接发生改变,从而需要更新url       抓取采用多线程方式进行,以提高抓取速度       fetch操作过程中调用了parse操作 fetch操作结果:将页面内容抓取下来,存于segment目录下 parse  (parse包中的类ParseSegment) 解析segment中同fetch得到的页面,并进行整理 将页面分为parsr-date和parse-text parse-date保存的是页面的题名,作者,日期,链接 parse-text中保存的是页面的文本内容 parse:将fetch得到的页面解析为text和date updatedb  (crawl包中的类CrawlDb) 对crawldb进行更新。增加新的url 索引过程可分为三个主要操作阶段 将数据转换为文本(采用plugin机制) 分析文本 将分析过的文本保存到数据库中 
 

你可能感兴趣的:(多线程,算法)