Python爬虫:ProxyHandler 处理(代理服务器)

- 使用代理IP,是爬虫的常用手段
- 获取代理服务器的地址:
    - www.xicidaili.com
    - www.goubanjia.com
- 代理用来隐藏真实访问,代理也不允许频繁访问某一个固定网站,所以代理一定要很多很多
- 基本使用代理步骤
    - 设置代理地址
    - 创建ProxyHandler
    - 创建Opener
    - 安装Opener

下面实例代码:

# 使用代理访问百度网站
from urllib import request,error


if __name__=='__main__':
    url = 'http://www.baidu.com'
    #使用代理步骤
    #- 设置代理地址
    proxy = {'http':'111.26.9.26:80'}
    #- 创建ProxyHandler
    proxy_handler=request.ProxyHandler(proxy)
    #- 创建Opener
    opener = request.build_opener(proxy_handler)
    #- 安装Opener
    request.install_opener(opener)

    # 现在如果访问网页,可以使用代理
    try:
        rsp = request.urlopen(url)
        html = rsp.read().decode()
        print(html)
    except error.URLError as e:
        print(e)
    except error.HTTPError as e:
        print(e)
    except Exception as e:
        print(e)

打开以上给出的两个网站,里面会有公开的代理服务器IP

你可能感兴趣的:(python爬虫)