关于爬虫分页问题 - 自我总结

最近跟着老师学习,写了几个爬虫。写爬虫不可能只爬取一个页面,往往涉及到分页爬取。本文对自己在写爬虫的过程中关于分页爬取做一次小小的总结。

一、静态加载

如糗事百科,美股吧。这种网页url一般都带有页码信息,翻页的时候url会发生变化,页面内容全部刷新,分页爬取比较容易实现。

关于爬虫分页问题 - 自我总结_第1张图片
糗事百科

关于爬虫分页问题 - 自我总结_第2张图片
美股吧

  • 方法一: 取得页码总数,根据url的结构来构造一个url列表,然后遍历列表中的url分别爬取信息即可。参考代码(来自Python爬虫—糗事百科@loading_miracle)如下:
#总页码
    def totalUrl(self):
        urls = [self.url+'page/{}/?s=4985075'.format(i) for i in range(1,36)]
        for url in urls:
            print u'正在获取:'+url.split('/')[-2]+u'页'
            self.getInfo(url)
  • 获取页码数
    1. HTML页面中直接提取(页面中有最大页码数/共22页这些信息(如图图糗事百科、美股吧),或者提取``末页/>>`的标签的href属性(如BT蚂蚁))
      关于爬虫分页问题 - 自我总结_第3张图片
      BT蚂蚁

      参考代码如下:
page_data = soup.find(name='span', class_='pagernums').get('data-pager').split('|')
page_nums = math.ceil(int(page_data[1]) / int(page_data[2]))
 2. 提取到返回信息的总数 / 每页显示的信息条数(如美股吧评论页)
美股吧评论页

参考代码如下:

# script脚本:{var num=40030; }var pinglun_num=105;var xgti="";if(typeof (count) != "undefined"){xgti="相关帖子"+count+"";}
# 正则表达式获取总的评论数
pattern = re.compile(r'var pinglun_num=(.*?);')
# 文章评论数
reply_count = int(re.search(pattern, resp.text).group(1))
page_num = math.ceil(reply_count / 30)
  • 方法二:通过获取页面中下一页href属性构造一个url,然后递归爬取,直到没有下一页为止。参考代码(来自Python作业20170522:素数+糗百+首页@dpkBat)如下:
# 实现分页爬取(递归)
    next_page = soup.find(name='ul', class_='pagination').find_all(name='li')[-1]
    # 递归结束条件:没有找到下一页按钮表示到了最后一页,结束
    if next_page.find(name='span', class_='next'):
        next_page_url = 'http://www.qiushibaike.com' + next_page.find(name='a').get('href')
        parse_html(get_html(next_page_url))

二、异步加载

像中国天气网、。

关于爬虫分页问题 - 自我总结_第4张图片
中国天气网

关于爬虫分页问题 - 自我总结_第5张图片
  • 方法:通过Chrome浏览器的F12的XHR(或JS)检查发送的请求,根据请求的url找到url构造的规律构造一个url列表,遍历列表得到要爬取的信息。如中国天气网爬取一年的天气预报信息,参考代码(来自Python作业20170526:天气预报爬虫@dpkBat)如下:
# 根据年、月的信息生成url列表
def generate_url_list(start_date, end_date, city_id = 101300903):
    weather_url_list = []
    dates = []
    for year  in range(start_date.get('year'), end_date.get('year') + 1):
        if year == end_date.get('year'):
            for month in range(1, start_date.get('month') + 1):
                date = {
                    'year': str(year),
                    'month': str(month).zfill(2)
                }
                dates.append(date)
        else:
            for month in range(start_date.get('month'), 12 + 1):
                date = {
                    'year': str(year),
                    'month': str(month).zfill(2)
                }
                dates.append(date)
    for date in dates:
        weather_url_list.append(
            base_url.format(
                year=date.get('year'), date=date.get('year') + date.get('month'), city_id = city_id)
                )
    return weather_url_list

你可能感兴趣的:(关于爬虫分页问题 - 自我总结)