附录3-爬取58二手房信息,爬取4k图片案例,爬取城市名称,爬取站长素材简历模板(xpath使用案例)

目录

1  爬取58二手房信息

1.1  分析

1.2  代码

2  爬取4k图片案例

2.1  分析

2.2  代码

3  爬取城市名称案例

3.1  分析

3.2  代码

4  爬取站长素材简历模板

4.1  分析

4.2  代码


1  爬取58二手房信息

地址 请输入验证码 ws:121.36.42.44

1.1  分析

我需要标题和价格

附录3-爬取58二手房信息,爬取4k图片案例,爬取城市名称,爬取站长素材简历模板(xpath使用案例)_第1张图片

附录3-爬取58二手房信息,爬取4k图片案例,爬取城市名称,爬取站长素材简历模板(xpath使用案例)_第2张图片

1.2  代码

爬完了写txt里就行了

附录3-爬取58二手房信息,爬取4k图片案例,爬取城市名称,爬取站长素材简历模板(xpath使用案例)_第3张图片

附录3-爬取58二手房信息,爬取4k图片案例,爬取城市名称,爬取站长素材简历模板(xpath使用案例)_第4张图片

2  爬取4k图片案例

地址 4K风景壁纸_高清4K风景图片大全_彼岸图网

2.1  分析

附录3-爬取58二手房信息,爬取4k图片案例,爬取城市名称,爬取站长素材简历模板(xpath使用案例)_第5张图片

2.2  代码

附录3-爬取58二手房信息,爬取4k图片案例,爬取城市名称,爬取站长素材简历模板(xpath使用案例)_第6张图片

3  爬取城市名称案例

地址 PM2.5历史数据_空气质量指数历史数据_中国空气质量在线监测分析平台历史数据

3.1  分析

附录3-爬取58二手房信息,爬取4k图片案例,爬取城市名称,爬取站长素材简历模板(xpath使用案例)_第7张图片

3.2  代码

附录3-爬取58二手房信息,爬取4k图片案例,爬取城市名称,爬取站长素材简历模板(xpath使用案例)_第8张图片

附录3-爬取58二手房信息,爬取4k图片案例,爬取城市名称,爬取站长素材简历模板(xpath使用案例)_第9张图片

4  爬取站长素材简历模板

4.1  分析

项目地址 整套简历-整套简历模板下载

附录3-爬取58二手房信息,爬取4k图片案例,爬取城市名称,爬取站长素材简历模板(xpath使用案例)_第10张图片

有两种页面,一种是下面这种

附录3-爬取58二手房信息,爬取4k图片案例,爬取城市名称,爬取站长素材简历模板(xpath使用案例)_第11张图片

还有一种是这样的

附录3-爬取58二手房信息,爬取4k图片案例,爬取城市名称,爬取站长素材简历模板(xpath使用案例)_第12张图片

4.2  代码

两种页面需要写两种xpath表达式,然后用 或 连接

import requests
from lxml import etree

url = 'https://sc.chinaz.com/jianli/zhengtao.html'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'}
response = requests.get(url=url,headers=headers)
response.encoding = response.apparent_encoding
with open('./test.html','w',encoding='utf-8') as f:
    f.write(response.text)
print(response)

tree = etree.HTML(response.text)
detail_htmls = tree.xpath('//div[@class="box col3 ws_block"]/a/@href')

for i in detail_htmls:
    detail_response = requests.get(url=i, headers=headers)
    detail_response.encoding = detail_response.apparent_encoding
    with open('./sub_test.html', 'w', encoding='utf-8') as f:
        f.write(detail_response.text)

    detail_tree = etree.HTML(detail_response.text)

    download_address = detail_tree.xpath('//div[@id="down"]/div[@class="clearfix mt20 downlist"]/ul[@class="clearfix"]/li/a/@href | //div[@id="saleinfo"]/div[@class="pay-haed"]/a/@href')[0]
    # print(download_address)
    print(i + ' 下载中!')

    file_name = download_address.split('/')[-1]
    download_response = requests.get(url=download_address,headers=headers)

    with open('./result/{}'.format(file_name), 'wb') as fp:
        fp.write(response.content)

    print(i + ' 下载成功!')

运行完毕后会得到下面这些压缩包,随便挑了一个解压发现可以解压,并且里面的word可以打开

附录3-爬取58二手房信息,爬取4k图片案例,爬取城市名称,爬取站长素材简历模板(xpath使用案例)_第13张图片

你可能感兴趣的:(爬虫笔记,爬虫)