hadoop正式学习之redis---网络数据爬虫

一:项目描述
  该项目的主要目的是抓取京东、易迅、国美、苏宁等电商网站的商品信息。主要获取商品的标题,价格以及规格参数等信息,在前台界面为用户提供商品查询和商品比价等功能,帮助用户购买到物美价廉的商品。这个项目主要分为四个模块:页面下载模块。页面解析模块。解析内容存储模块以及系统监控模块
  1:页面下载模块:主要负责爬取指定电商网站的数据,在这里我们不能直接连上浏览器,所以我们使用httpclient工具模拟流浪器访问页面,从而对页面进行下载
  2:页面解析模块:主要负责对抓取过来的数据进行解析 ,使用htmlcleaner工具和xpath规则来对关键性数据进行解析提取
  3:解析数据存储模块:主要负责对解析过后的关键性数据进行存储,以便后期的使用。由于其中的商品详细信息数据量大,且改动较小,所以存储到hbase中(由于这里还没有学习hbase先使用mysql)。我们需要循环抓取数据的时候,就需要对页面url进行存储,这一部分数据,数据量比较小、增删频繁并且我们要提高爬虫的效率,对于这一部分数据,将之存储到redis数据库中。
  4:系统监控模块:主要负责监控爬虫的生命周期以及服务器硬件的使用情况(运维人员的工作),监控爬虫的生命周期使用zookeeper中的临时节点来实现,监控服务器硬件使用情况使用ganglia进行监控


二:项目实现
  1:页面下载模块
hadoop正式学习之redis---网络数据爬虫_第1张图片

  2:页面解析模块
hadoop正式学习之redis---网络数据爬虫_第2张图片

  3:解析内容存储
hadoop正式学习之redis---网络数据爬虫_第3张图片

 4:系统监控


hadoop正式学习之redis---网络数据爬虫_第4张图片


你可能感兴趣的:(hadoop正式学习之redis---网络数据爬虫)