黑板客闯关的第一关

挑战地址:http://www.heibanke.com/lesson/crawler_ex00/

挑战难度:★☆☆☆☆☆☆☆☆☆

截图:

黑板客闯关的第一关_第1张图片

这个难度不大:

黑板客闯关的第一关_第2张图片

问题分析:

先拿到页面的数字,可以通过正则表达式匹配,然后重新组织url。

直接上代码:

#coding:utf-8
import requests
from bs4 import BeautifulSoup as bf
import re
import time

if __name__ == '__main__':
    header = 'http://www.heibanke.com/lesson/crawler_ex00/'
    url = header
    while url:
        response = requests.get(url)
        html = bf(response.text,'html.parser')
        h3 = html.find('h3').text
        print(h3)
        number = re.search('\d+',h3)
        if number:
            url = header + number[0]
        else:
            break

放结果:

黑板客闯关的第一关_第3张图片

做完收工

黑板客闯关的第一关_第4张图片

 

喜欢折腾代码的加群(群号:822286811)一起交流学习【python、VBA、Shell、Linux、dos、爬虫、拆机、装系统技术交流群】,点击链接加入群聊【计算机技术交流】:https://jq.qq.com/?_wv=1027&k=5V7RB2c

你可能感兴趣的:(python,#,Glidedsky爬虫挑战)