使用Xpath爬取校花网,致敬10年前的校花『和』我们逝去的青春

使用xpath爬取校花网

难点:
1.各个分类栏目下的页码url不统一
2.只取前三页,或者后三页

文章代码仅使用xpath和requests,本来想用scrapy框架的,但是偷了个懒。
所以就…哈哈…
移植到scrapy需要略微修改下。还可以获取校花名称和图片url。

废话不多说,上代码,代码注释很多,欢迎留言交流~
from lxml import etree
import requests

url = 'http://www.521609.com/daxuexiaohua/'
headers = {
     
    "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}

# 第一次获取初始url的网页内容
response = requests.get(url=url, headers=headers)
content = response.content.decode('gbk')
# 创建xpath对象
mytree = etree.HTML(content)
# 网页里取出各个了栏目分类列表,第一个分类和最后一个分类无用,切片去掉
item_li = mytree.xpath('//ul[@class="nav_content"]/li')[1:-1]

# 遍历循环栏目分类列表
for li in item_li:
    item_url = li.xpath('./a/@href')[0]  # 取出栏目分类后半段链接
    item_url = 'http://www.521609.com' + item_url  # 链接拼接,得到完整栏目url
    item_name = li.xpath('./a/span/text()')[0]  # 栏目分类名称
    print(item_url)  # 每个分类第一页的url

    # 第二次获取栏目分类url的网页内容
    response2 = requests.get(url=item_url, headers=headers)
    content2 = response2.content.decode('gbk')
    mytree2 = etree.HTML(content2)
    # 获取栏目网页里面下一页的后半段url
    next_page = mytree2.xpath('//div[@class="listpage"]/ol/li/a[contains(text(),"下一页")]/@href')[0]
    next_page = item_url + next_page  # 通过栏目url和下一页的后半段url拼接,得到完整的下一页url
    print(next_page)  # 每个分类第二页的url

    # 循环获取后面的网页
    for i in range(5):
        # 因为有些分类栏目里页码很少,防止报错
        # 所以做了异常捕获
        try:
            # 第三次获取栏目分类url的网页内容,和第二次类似,主要是写进了循环
            response3 = requests.get(url=next_page, headers=headers)
            content3 = response3.content.decode('gbk')
            mytree3 = etree.HTML(content3)
            next_page = mytree3.xpath('//div[@class="listpage"]/ol/li/a[contains(text(),"下一页")]/@href')[0]
            next_page = item_url + next_page
            print(next_page)  # 每个分类第二页后的url
        # 抛出异常
        except:
            print(f'此分类没有第{i + 3}页,报错了')

你可能感兴趣的:(爬虫,xpath,python,爬虫,html,mysql)