python爬虫http代理

1，代理类别

1，FTP代理服务器：主要用于访问FTP服务器，一般有上传、下载以及缓存功能，端口一般为21、2121等。

2，HTTP代理服务器：主要用于访问网页，一般有内容过滤和缓存功能，端口一般为80、8080、3128等。

3，SSL/TLS代理：主要用于访问加密网站，一般有SSL或TLS加密功能（最高支持128位加密强度），端口一般为443。

4，RTSP代理：主要用于访问Real流媒体服务器，一般有缓存功能，端口一般为554。

5，Telnet代理：主要用于telnet远程控制（黑客入侵计算机时常用于隐藏身份），端口一般为23。

6，POP3/SMTP代理：主要用于POP3/SMTP方式收发邮件，一般有缓存功能，端口一般为110/25。

7，SOCKS代理：只是单纯传递数据包，不关心具体协议和用法，所以速度快很多，一般有缓存功能，端口一般为1080。SOCKS代理协议又分为SOCKS4和SOCKS5，前者只支持TCP，而后者支持TCP和UDP，还支持各种身份验证机制、服务器端域名解析等。简单来说，SOCK4能做到的SOCKS5都可以做到，但SOCKS5能做到的SOCK4不一定能做到。

2，爬虫代理

对于爬虫来说，由于爬虫爬取速度过快，在爬取过程中可能遇到同一个IP访问过于频繁的问题，此时网站就会让我们输入验证码登录或者直接封锁IP，这样会给爬取带来极大的不便。

使用代理隐藏真实的IP，让服务器误以为是代理服务器在请求自己。这样在爬取过程中通过不断更换代理，就不会被封锁，可以达到很好的爬取效果。

3，什么是HTTP代理

，HTTP代理本质上是一个Web应用，它和其他普通Web应用没有根本区别。HTTP代理收到请求后，根据Header中Host字段的主机名和Get/POST请求地址综合判断目标主机，建立新的HTTP请求并转发请求数据，并将收到的响应数据转发给客户端。

4，python使用代理访问服务器

python使用代理访问服务器主要有一下3个步骤：

1.创建一个代理处理器ProxyHandler：

proxy_support = urllib.request.ProxyHandler()，ProxyHandler是一个类，其参数是一个字典：{ '类型':'代理ip:端口号'}

什么是Handler？Handler也叫作处理器，每个handlers知道如何通过特定协议打开URLs，或者如何处理URL打开时的各个方面，例如HTTP重定向或者HTTP cookies。

2.定制、创建一个opener：

opener = urllib.request.build_opener(proxy_support)

什么是opener？python在打开一个url链接时，就会使用opener。其实，urllib.request.urlopen()函数实际上是使用的是默认的opener，只不过在这里我们需要定制一个opener来指定handler。

3a.安装opener

urllib.request.install_opener(opener)

install_opener 用来创建（全局）默认opener，这个表示调用urlopen将使用你安装的opener。

3b.调用opener

opener.open(url)

该方法可以像urlopen函数那样直接用来获取urls：通常不必调用install_opener，除了为了方便。

proxy = {u'https':u'14.118.253.99:6666'}

proxy_support = urllib2.ProxyHandler(proxy)# 注册代理

opener = urllib2.build_opener(proxy_support)

urllib2.install_opener(opener)

opener.open(url) #url 是你要访问的地址

5，从代理ip列表中随机使用某ip去访问URL的例子

import urllib.request

import random

url = 'http://www.whatismyip.com.tw'

iplist = ['115.32.41.100:80','58.30.231.36:80','123.56.90.175:3128']

proxy_support = urllib.request.ProxyHandler({'http':random.choice(iplist)})

opener = urllib.request.build_opener(proxy_support)

opener.addheaders = [('User-Agent','Test_Proxy_Python3.5_maminyao')]

urllib.request.install_opener(opener)

response = urllib.request.urlopen(url)

html = response.read().decode('utf-8')

print(html)