第三章 数据解析(五) 2019-12-15

五、xpath – 实战–爬取瓜子二手车网站(1


注意事项

1、headers

2、编码


示例代码:


import requests

froml xml import etree


headers

= {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36

(KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36','Cookie': '略'}


# 获取详情页面url

def get_detail_urls(url):        #定义函数,用来获取详情页面url

    resp = requests.get(url, headers = headers)

    text = resp.content.decode('utf-8')

    html = etree.HTML(text)

    ul = html.xpath('//ul[@class = "carlist clearfix js-top"]')[0]

    # print(ul)

    lis = ul.xpath('./li')            # 当前节点下用 ./ 来解析

    for li in lis:

        detail_url = li.xpath('./a/@href')

        detail_url = 'https://www.guazi.com' +detail_url[0]         #观察详情页与获取数据的区别,需要拼接

       print(detail_url)


# 第一个url

url ='https://www.guazi.com/cs/buy/o1'


# 获取详情页面url

get_detail_urls(url)


# 解析详情页面内容


# 保存数据


# 详情页url举例:

 https://www.guazi.com/cs/5217eaea382dddc3x.htm#fr_page=list&fr_pos=city&fr_no=4



上一篇文章 第三章 数据解析(四) 2019-12-14 地址: 

https://www.jianshu.com/p/a4bfb1d6c486

下一篇文章 第三章 数据解析(六) 2019-12-16 地址:

https://www.jianshu.com/p/88cb44054ec5




以上资料内容来源网络,仅供学习交流,侵删请私信我,谢谢。

你可能感兴趣的:(第三章 数据解析(五) 2019-12-15)