网页抓取程序常用的工作流处理器

网页抓取程序DataScraper使用工作流引擎驱动网络爬虫和网页抓取及结构化抓取结果,在工作流引擎中,很多工作流处理器节点按照工作流指令文件的规定相互关联起来,规定了特定于某个网页抓取主题的运行流程。由于网页抓取程序采用工作流引擎,模块化程度很高,很容易扩展,GooSeeker官方发布了很多常用的工作流处理器,合作伙伴甚至最终用户开发了大量的定制的网页抓取处理器。本文仅讲解几个GooSeeker官方发布的常用的工作流处理器,对上一节讲解的网页抓取程序原理的补充。

最常用的工作流处理器有下述几个:

名称 使用说明
MigrateWorksBucket 被抓取的网页内容用多个页显示时,网页抓取程序DataScraper需要翻页,抓取当前网页信息的过程中,还需要在关于“翻页”的链接上抓取一个线内(in-thread)线索,该线索存放在上下文容器中。DataScraper循环调度所有处理器,在每一轮循环,该处理器一般放在工作流的第一个处理器位置上,它将检查上下文容器,如果存在上次爬行期间产生的inthread线索,DataScraper将爬行该线索,而不是从DataStore服务器上获取新的线索。
FetchSpiderClue 首先尝试从上下文容器中获取inthread线索,如果没有获得,将从DataStore服务器上获取状态是start的新网页抓取线索。
LoadHtmlPage 加载线索指向的Web网页
LoadDelayedPage 加载Ajax/javascript动态生成页面内容的网页
FindDataSchema_Plain 利用MetaStudio生成的信息结构识别规则文件(DSD文件)检验目标页面是否可抓取,也就是说信息结构是否符合网页内容语义结构。如果不符合,当前线索的状态将改成unknownschema,如果符合,将加载相关的网页抓取指令文件。
ExtractWebNodeData_Simp 利用MetaStudio生成的网页数据抓取指令文件(MAP文件)从目标网页上抓取数据,并转换成XML文档,存储在上下文容器中
ValidateExtraction 利用MetaStudio生成的信息结构识别规则文件(DSD文件)检验网页抓取到的内容是否正确,如果不是,当前线索的状态将改成unknownschema
SaveFile_Simp 将网页抓取结果文件从上下文容器中取出来转换成XML格式,存储在本地计算机文件系统中。
ExtractSpiderClue_Simp 利用MetaStudio生成的线索提取指令文件(SCE文件)从目标网页上抓取线索并发送到DataStore服务器上。
ConfirmSpiderClue_Simp 在DataStore服务器上,将当前线索的状态改成extracted,表示该线索已经被抓取了
CleanWorksBucket 清理上下文容器,如果在当前页面上抓取到了inthread线索,本处理器将妥善保存该信息,以便在下一轮工作流循环中使用该线索

你可能感兴趣的:(网页抓取程序常用的工作流处理器)