Python数据爬虫学习笔记(9)爬虫防屏蔽之代理服务器

一、代理服务简介:

所谓代理服务器,是一个处于我们与互联网中间的服务器,如果使用代理服务器,我们浏览信息的时候,先向代理服务器发出请求,然后由代理服务器向互联网获取信息,再返回给我们。使用代理服务器进行信息爬取,可以很好的解决IP限制的问题。

二、代码:

import urllib.request

def use_proxy(url,proxy_addr):
    proxy=urllib.request.ProxyHandler({"http":proxy_addr})
    opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
    urllib.request.install_opener(opener)
    data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
    return data
#代理服务器ip地址
proxy_addr="218.60.8.99:3129"
url="http://www.baidu.com"
data=use_proxy(url,proxy_addr)
print(len(data))

补充:
    获取代理服务器ip的常用网站:http://www.xicidaili.com/
常见错误:
(1)urllib.error.URLError:
     解决方法:

         1)打开windows网络设置,找到代理选项卡,将自动检测设置打开。

Python数据爬虫学习笔记(9)爬虫防屏蔽之代理服务器_第1张图片

        2)打开Internet选项,找到“连接”选项卡,点击“局域网设置”按钮,在弹出的窗口中将“为LAN使用代理服务器(这些设置不用于拨号或VPN连接)”的对勾去掉。

Python数据爬虫学习笔记(9)爬虫防屏蔽之代理服务器_第2张图片
(2)urllib.error.URLError:
    解决方法:换一个代理ip地址。

 

你可能感兴趣的:(Python)