python爬虫总结: 网页内容需要分类爬取

自学爬虫中...........

有个在一爬虫公司上班的朋友,今天和他聊了一会,给了我一个小项目,在这里给大家分享一下

项目需求:

      在一个政府网站上爬取该市的环境处理公告

  1. 分类爬取 受理, 审批, 批复页面的表格内容以及发布时间

     2.要是用代理ip,24小时不间断爬取

这里出现第一个问题: 怎么把首页中的有用链接分类提取呢, 这是我想到了正则,对 就是 Beautiful的 find_all('a', text=re.compile(r'受理'))

步骤分析:

  1. 拼接基础页面url, 这里的网站的首页和其他页面的url有所不同, 需要单独处理, 也就是加一个if单独判断即可
  2. 使用 Beautiful中find_all('a', text=re.compile(r'受理')) 把3中链接 分类保存到列表中
  3. 分别发送请求
  4. 解析页面
  5. 注意: 在解析页面时遇到了不少坑: 每个页面的html标签不同, 但是好在大体相同,这时只需要把相同的html选择器写出来, 直接text即可
  6. 保存为json格式的文件

 

你可能感兴趣的:(技术)