python3.X 爬虫针对拉钩,直聘,大街等招聘网站的简历爬虫遇到的ip代理的总结四( pycharm运行,代码篇)

这里面主要讲解的是两个大方向的代码:

一个是selenium+chrome中的ip代理:

      

from selenium import webdriver
chromeOptions = webdriver.ChromeOptions()

# 设置代理
chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152")
browser = webdriver.Chrome(chrome_options = chromeOptions)
 

  

一个是requests中的ip代理:

import requests
proxies = {
    "https" : "https://111.155.124.78:8123" # 代理ip
}
http_url = "http://www.xicidaili.com/nn/1"
res = requests.get(url = http_url, proxies = proxies)

 

个人想法:

        这里面我想说一下我个人对代理的使用方式是利用第三方提供的api接口,进行每次下载100个IP代理,然后放在本地的文件中,每次使用之前对其进行随机的选取,然后对这个ip代理的池子进行定期的维护,我这边采用的方式是一个小时进行覆盖更新这个本地文件(with open(" text ","a",encoding="utf-8") as f: f.write(......)) ,这里面不建议直接进行接口的对接,容易出现:接口过载的现象,当你爬虫爬取的量比较大的时候。

        这个里面还有一个我认为比较的坑就是当你得请求requests中url是https 还是http 的类型时候,你所用的代理其实是不能全部写(这里注意proxies里面的参数,不是http 跟https全部都写,看你的网站是https 就写http的ip代理,反之就用https的IP代理,不要全都写上去)

import requests
proxies = {
    "https" : "https://111.155.124.78:8123" # 代理ip
}
http_url = "http://www.xicidaili.com/nn/1"
res = requests.get(url = http_url, proxies = proxies)

         最后再讲一下selenium中的ip代理的加载方式就是

chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152")   这里面能够变动就是后面的IP地址,访问的url是http你就去找http代理,是https你就去找https代理,但是前面的chromeOptions.add_argument("--proxy-server=http://.......")是不变的

综上只是把这些看法讲出来 如有问题欢迎联系本人微信随时交流

你可能感兴趣的:(python)