实验室项目结题需要爬取新浪微博的内容做实验,师兄提供了一份已实现的微博爬虫系统。本身可以轻松愉快的完成语聊收集这一部分,然而自己的微博账号始终登录失败。究其原因,结果是登录时需要验证码。而系统对于需要验证码登录的账号只能GG了,谷歌“新浪微博爬虫”相关内容后,发现多数文章(主要参考了豆瓣,百度空间,博客园)都是重复讨论模拟登录的过程。网上的文章并没有提到解决需要验证码登录的问题,或许是因为api没有返回相关的信息,但自己发现最新的微博登录api确实返回了验证码相关的信息,故实现了通过人工输入验证码的方式进行模拟登录。
为了给大家一个对新浪微博登录过程完整的认识,本文也会重复已有文章的内容。
我们知道,对于需要登录验证的网站,当用户第一次登录后,浏览器通过保存该网站服务器返回的cookie值,以便用户再次访问的时候无需登录即可访问。因此,爬虫也是通过模拟一次登录获取cookie值,并保存,然后就能以此登录状态进行资源获取。
接下来开始解析新浪微博登录的过程。
当输入用户名后,通过Chrome的工具可以看到,此时网站向服务器发送了一个请求。
http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=dXNlciU0MGV4YW1wbGUuY29t&rsakt=mod&checkpin=1&client=ssologin.js(v1.4.18)&_=1414332319589
返回的结果如下:
这是一个js的回调函数,里面包含了一些服务器返回的信息(图中pubkey的信息因截断未显示完全)。此时,我们可能并不知道这些信息的含义,对该url请求的参数也不清晰。通过查看网站的js脚本文件,格式化代码后定位prelogin函数,见下图。从中,我们可以看出,prelogin请求中的su是base64加密后的用户名,callback是请求返回后应执行的回调函数,rsakt、entry、client都是固定值,_
很容易猜到是当前的时间戳(其实没有此参数的情况下,也能登录),而checkpin比较重要,与验证码认证有关,在以前的prelogin请求中没有此参数。经验证,当checkpin=1的时候,服务器返回信息中会有一个字段showpin=0|1代表是否需要验证码认证。在preloginCallBack函数中可以看到,将服务器返回的servertime,nonce,pubkey,rsakv,pcid等信息保存,从代码中可以发现与rsa加密有关,其实新浪微博目前正是采用了rsa算法对密码进行加密操作。
如果showpin的值为1,此时会产生一个新的请求。这个请求返回的结果就是登录需要的验证码图片。
http://login.sina.com.cn/cgi/pin.php?r=87514507&s=0&p=xd-9b5b5d8096a1990aff860ac408eb7dbf7e29
依然查看网站js代码,参数p其实就是prelogin返回的pcid值,而r是一个随机数,a等于0。
到这里,登录的准备工作就完成了。当输入完密码(及验证码)后,点击登录,网站将post一些数据至以下url。其中client参数只是简单指明登录api的版本。
http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.18)
通过Chrome的调试工具可以看到post数据主要包括以下字段。主要的参数已有prelogin返回,在需要输入验证码的时候,则会有door
字段,它的值就是从服务器获取的验证码图片的值,su
和sp
分别代表加密后的用户名和密码。
通过查看相关js代码,可以知道用户名和密码的加密过程。这里,用户名同样是base64加密,而密码则是根据loginType
的值进行相应算法加密。不过,由于代码全局设置了this.loginType = rsa;
,目前的登录均采用的是rsa加密。从代码中可以看到,密码的加密过程确实使用了prelogin返回的servertime,nonce,pubkey等数据。
这一步请求返回的结果是包含了网站跳转的html文档。
上图是登录失败的结果,跳转的url是:
http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack&sudaref=weibo.com&retcode=2070&reason=%CA%E4%C8%EB%B5%C4%D1%E9%D6%A4%C2%EB%B2%BB%D5%FD%C8%B7
其中retcode(=0时表示成功)是错误代码,reason是错误提示信息。(自己实现登录的时候,当retcode!=0时可以直接输出错误信息,无需跳转。)
在账号信息正确的情况下,请求返回的结果如下图。其中包含了真实登录的跳转链接。当请求此链接时,服务器会返回用于认证的cookie值,此链接请求一次后便失效,该请求成功后则代表此次登录成功。因此,自己实现模拟登录的时候,需要在这一步保存cookie信息,然后就可以利用获取的cookie信息访问登录后的资源。
以上就是微博登录整个过程。下面提供一个用Python实现的微博登录供大家参考。
# coding=utf8
import base64
import binascii
import cookielib
import json
import os
import random
import re
import rsa
import time
import urllib
import urllib2
import urlparse
from pprint import pprint
__client_js_ver__ = 'ssologin.js(v1.4.18)'
class Weibo(object):
""""Login assist for Sina weibo."""
def __init__(self, username, password):
self.username = self.__encode_username(username).rstrip()
self.password = password
cj = cookielib.LWPCookieJar()
self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
@staticmethod
def __encode_username(username):
return base64.encodestring(urllib2.quote(username))
@staticmethod
def __encode_password(password, info):
key = rsa.PublicKey(int(info['pubkey'], 16), 65537)
msg = ''.join([
str(info['servertime']),
'\t',
str(info['nonce']),
'\n',
str(password)
])
return binascii.b2a_hex(rsa.encrypt(msg, key))
def __prelogin(self):
url = ('http://login.sina.com.cn/sso/prelogin.php?'
'entry=weibo&callback=sinaSSOController.preloginCallBack&rsakt=mod&checkpin=1&'
'su={username}&_={timestamp}&client={client}'
).format(username=self.username, timestamp=int(time.time() * 1000), client=__client_js_ver__)
resp = urllib2.urlopen(url).read()
return self.__prelogin_parse(resp)
@staticmethod
def __prelogin_parse(resp):
p = re.compile('preloginCallBack\((.+)\)')
data = json.loads(p.search(resp).group(1))
return data
@staticmethod
def __process_verify_code(pcid):
url = 'http://login.sina.com.cn/cgi/pin.php?r={randint}&s=0&p={pcid}'.format(
randint=int(random.random() * 1e8), pcid=pcid)
filename = 'pin.png'
if os.path.isfile(filename):
os.remove(filename)
urllib.urlretrieve(url, filename)
if os.path.isfile(filename): # get verify code successfully
# display the code and require to input
from PIL import Image
import subprocess
proc = subprocess.Popen(['display', filename])
code = raw_input('请输入验证码:')
os.remove(filename)
proc.kill()
return dict(pcid=pcid, door=code)
else:
return dict()
def login(self):
info = self.__prelogin()
login_data = {
'entry': 'weibo',
'gateway': '1',
'from': '',
'savestate': '7',
'useticket': '1',
'pagerefer': '',
'pcid': '',
'door': '',
'vsnf': '1',
'su': '',
'service': 'miniblog',
'servertime': '',
'nonce': '',
'pwencode': 'rsa2',
'rsakv': '',
'sp': '',
'sr': '',
'encoding': 'UTF-8',
'prelt': '115',
'url': 'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack',
'returntype': 'META'
}
if 'showpin' in info and info['showpin']: # need to input verify code
login_data.update(self.__process_verify_code(info['pcid']))
login_data['servertime'] = info['servertime']
login_data['nonce'] = info['nonce']
login_data['rsakv'] = info['rsakv']
login_data['su'] = self.username
login_data['sp'] = self.__encode_password(self.password, info)
return self.__do_login(login_data)
def __do_login(self, data):
url = 'http://login.sina.com.cn/sso/login.php?client=%s' % __client_js_ver__
headers = {
'User-Agent': 'Weibo Assist'
}
req = urllib2.Request(
url=url, data=urllib.urlencode(data), headers=headers)
resp = urllib2.urlopen(req).read()
return self.__parse_real_login_and_do(resp)
def __parse_real_login_and_do(self, resp):
p = re.compile('replace\(["\'](.+)["\']\)')
url = p.search(resp).group(1)
# parse url to check whether login successfully
query = urlparse.parse_qs(urlparse.urlparse(url).query)
if int(query['retcode'][0]) == 0: # successful
self.opener.open(url) # log in and get cookies
print u'登录成功!'
return True
else: # fail
print u'错误代码:', query['retcode'][0]
print u'错误提示:', query['reason'][0].decode('gbk')
return False
def urlopen(self, url):
return self.opener.open(url)
if __name__ == '__main__':
weibo = Weibo('[email protected]', 'password')
if weibo.login():
print weibo.urlopen('http://weibo.com').read()
# with open('weibo.html', 'w') as f:
# print >> f, weibo.urlopen('http://weibo.com/kaifulee').read()
#-----------------------------------------------------------
转载于:http://blog.youcanlove.me/xin-lang-wei-bo-deng-lu-fen-xi/