python3.x爬虫 urllib和requests实现模拟登陆的具体步骤详解

对于为什么用模拟登陆不用我多说,有些网站只有你登陆进去之后才可以看到内容,而没登录的话爬下来的网页一般只有登陆界面的那一点,所以对于这种网站,就需要能够模拟登陆的状态去爬取页面信息

实现模拟登陆总体来说有两种大方向的方法,一种是利用自带的urllib库,另外一种是使用requests库,下面来分别讲解一下这两种方法具体是如何实现的。

一、使用urllib

首先要明确具体的思路是什么,才能动手编码实现。

我们的目的是为了能够模拟登陆的状态去爬取网页内容,那么只要我们得到了服务器返回的登陆用户的cookie,就可以在之后的请求中将cookie加进去。

为了获得服务器返回的cookie,我们第一次需要模拟登陆过程,并保存返回的cookie,这时候就需要确定如下信息:

登陆界面的url是什么?请求包中的信息是什么?cookie应该如何获取和保存?

下面就是我们实现的具体步骤:

一、cookie的处理

  • 声明一个cookieJar的对象来保存cookie
  • 使用HTTPCookieProcessor来创建cookie处理器
  • 通过此处理器来构建opener
cookie_object = cookiejar.CookieJar()
handler = request.HTTPCookieProcessor(cookie_object)
opener = request.build_opener(handler)

二、构造登陆请求信息data

即登陆所需要的用户名以及登陆密码等,这个登陆信息的构造取决于你要登陆的网站是什么,所以具体情况要具体分析

data={
'username':"your name"
'password':"your psword"
}

三、利用opener和登陆请求信息打开登陆链接,获得cookie(loginurl 取决于你的登陆链接

req=urllib.request.Request(loginurl,data=data)
respon=opener.open(req)

四、利用带cookie的opener打开其他需要登陆才能操作的界面,爬取信息(myrequrl为你要爬取的网页)

res=opener.open(myrequrl)

具体的实例请参看我写的这篇文章:人人网模拟登陆

二、使用requests

使用requests就比较简单了,几行代码就可以搞定

import requests

#登录人人网的url
url0 = "http://www.renren.com/PLogin.do"
#登录到个人主页的url
url1 = "http://www.renren.com"
data = {'email':"yourname",
	'password':'yourpw'}
#进行登录,并保存cookie
req = requests.Session()

response = req.post(url0,data=data)
#可以直接访问个人主页了

zhuye = req.get(url1)
print(zhuye.text)

 

你可能感兴趣的:(python)