2023爬虫学习笔记 -- 使用代理爬取数据

一、正常访问网页,获取本地访问的地址

2023爬虫学习笔记 -- 使用代理爬取数据_第1张图片

二、通过代码实现

1、目标地址及头信息

目标地址="http://202XXXX.com/"
头={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
}

2、获取目标地址网页源码

响应内容 = requests.get(url=目标地址, headers=头)
响应内容.encoding="utf-8"
编码后的内容=响应内容.text
#print(编码后的内容)

3、通过源码解析出本地地址

数据解析=etree.HTML(编码后的内容)
数据列表=数据解析.xpath('/html/body/p[1]/a[1]/text()')
print(数据列表)

4、运行结果

2023爬虫学习笔记 -- 使用代理爬取数据_第2张图片

三、利用代理访问网页,在请求代码出添加一个proxies信息

响应内容 = requests.get(url=目标地址, headers=头,proxies={'http':'58.20.235.231:9002'})

四、测试源代码

目标地址="http://2023.XXX.com/"
头={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
}
响应内容 = requests.get(url=目标地址, headers=头,proxies={'http':'58.20.235.231:9002'})
响应内容.encoding="utf-8"
编码后的内容=响应内容.text
#print(编码后的内容)
数据解析=etree.HTML(编码后的内容)
数据列表=数据解析.xpath('/html/body/p[1]/a[1]/text()')
print(数据列表)

五、运行结果

2023爬虫学习笔记 -- 使用代理爬取数据_第3张图片

你可能感兴趣的:(2023爬虫逆向,python,爬虫,图片,网络爬虫,学习笔记)