以前记录的维护一个ip池
如果你爬的为https://www.xxxxx这类那么proxies里面的https内容有效
。如果你爬的是http://biggsai.com这种,那么proxies就http有效
。import requests
from bs4 import BeautifulSoup
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
proxies = {'http': '120.236.128.201:8060',
'https': '120.236.128.201:8060'
}
url="http://www.overlove.xin/html/"
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
req=requests.get(url,headers=header,proxies=proxies,timeout=5)
html=req.text
soup=BeautifulSoup(html,'lxml')
print(soup.text)
如果通过购买的代理ip,就需要先解析格式,提取ip和端口构造ip池,详情可以参考我的刷票小程序
和代理ip爬虫。