初识爬虫基础

ProxyHandler处理器以及认识cookie

常见的代理有:
西刺免费代理IP:http://www.xicidaili.com/

快代理(内有免费):http://www.kuaidaili.com/
初识爬虫基础_第1张图片
代理云:http://www.dailiyun.com/

ProxyHandler处理器(代理):
1.代理的原理:在请求目的网站之前,先请求代理服务器,然后让代理服务器去请求目的网站,代理服务器拿到目的网站的数据后,再转发给我们的代码。

2.http://httpbin.org :这个网站可以方便的查看http请求的一些参数

3.在代码中使用代理:

  • 使用’urllib.request.ProxyHandler’,传入一个代理,这个代理是一个字典,字典的key依赖于代理服务器能够接受的类型,一般是’http’或者’https’,值是’ip:port’

  • 使用上一步创建的’handler’,以及’request.build_opener’创建一个’opener’

  • 使用上一步创建的’opener’,调用’open’函数,发起请求。
    示例代码如下:

from urllib import request


url = 'http://httpbin.org/ip'
#1.使用ProxyHandler,传入代理构建一个handler
handler = request.ProxyHandler({'http':'171.35.171.246:8010'})

# 2.使用上面创建的handler构建一个opener**
opener = request.build_opener(handler)

# 3.使用opener去发送一个请求**
resp = opener.open(url)
print(resp.read())

了解了什么是COOKIE:
在网站中,http请求是无状态的。也就是说即使第一次和服务器连接后并且登录成功后,第二次请求服务器依然不会知道当前请求是哪个用户。
cookie的出现就是为了解决这个问题,第一次登录后服务器返回一些数据(cookie)给浏览器,然后浏览器保存在本地,当地用户发送第二次请求的时候,就会自动的把上次请求储存的 COOKIE 数据自动的携带给服务器,服务器通过浏览器携带的数据就可以判断用户是哪个了。
cookie存储的数据量有限,不同的浏览器有不同的存储大小,但一般不会超过4kb,因此cookie只能存储一些小量的数据
cookie的格式:

Set-Cookie: NAME=VALUE;Expires/Max-age=DATE;Path=Path;Domain=DOMAIN_NAME;SECURE

参数意义

NAME:COOKIE的名字

value : cookie的值

Expires: cookie的过期时间(一般需要传入一个时间值,比如传入一个小时,系统就一个小时后失效)

Path:cookie作用的路径

Domain:cookie作用的域名

SECURE:是否只是在https协议下起作

今日总结。
爬虫学的好····
加油。

你可能感兴趣的:(Python100天)