python模拟登陆网站

  上次写了一个C++的小爬虫,能够爬一些网站上的图片,但是有些网站需要登陆后才能访问内容,用C++的话需要openSSL,配置起来好像挺麻烦的,所以选择了python,以及使用reques网络库。

  模拟登陆,也就是我们要知道登陆的过程,以及我们在网页中发出的请求是什么,比如,账号、密码、验证码,等等,当我们得到以上的数据,然后POST出去后,我们要记录下cookie(用于辨识用户身份以及存储一些数据),然后通过加载这个cookie去访问网站内的其他网址。
  本来想爬取知乎来着,但是知乎现在改版,加入了挺多要提交的数据,我是不知道怎么弄了,而豆瓣的话,我在查看网页代码的时候,发现验证码的地址是每次都在变化,而知乎的验证码就是一个地址,只是返回的结果不同,而豆瓣的每次都不一样,所以无从下手,下面的代码是从加载cookie访问的。

  运行douban()函数后会加载captcha,然后用opencv的打开图片功能打开,然后输出图片的内容,然后把数据POST到服务器,测试是否成功,则通过去请求一个网站内只有用户的访问的网址,若成功则返回内容,否则返回登陆的内(目前验证码无从下手,只试了一下加载cookie)

代码:

from http import cookiejar
import requests
import cv2
import re

def downLoadCaptcha(url):
    captcha=requests.get(url)
    image=open('captcha.jpg','wb')
    image.write(captcha.content)
    image.close()

def printCaptcha():
    img=cv2.imread('captcha.jpg')
    cv2.imshow('yzm',img)
    cv2.waitKey()
    str=input('输入验证码:')
    print('输入的验证码为:%s'%str)
    return str
def getCaptchaUrlAndId(url):
    login=requests.get(url)
    tmp=str(login.content.decode('utf_8'))
    ruler=re.compile(r'name="captcha-id"(.*)value="(.*)"')
    match=ruler.search(tmp)
    if match:
        #豆瓣captcha格式
        temp='https://www.douban.com/misc/captcha?id='+match.group(2)+'&size=s'
        mlist=[match.group(2),temp]
        return mlist

def readCookie(cookieName):
    f=open(cookieName,'r')
    temp=f.read()
    f.close()
    cookie={}
    for i in temp.split('\n'):
        key,value=i.split(':',1)
        cookie[key]=value
    print(cookie)
    return cookie
#豆瓣爬取
def douban():
    username='******@qq.com'
    password='*****'
    data={
        'form_email':username,
        'form_password':password,
        'redir':'http://www.douban.com',
        'captcha-solution':'',    
        'captcha-id':'',
        'source':'index_nav',
    }
    url='https://accounts.douban.com/login'
    #afturl为测试数据,登陆后可见
    afturl='https://www.douban.com/people/172618226'
    #首先获取登陆界面的验证码
    captcha=getCaptchaUrlAndId(url)
    captcha_id=captcha[0]
    print('captcha url :%s'%captcha[1])
    #验证码显示及输入
    downLoadCaptcha(captcha[1])
    yzm=printCaptcha()
    data['captcha-solution']=str(yzm)
    data['captcha-id']=str(captcha_id)
    print(data)
    print('验证码:%s'%yzm)
    #post请求
    login=requests.post(url,data=data)
    loginafter=requests.get(afturl,cookies=login.cookies)
    #记录内容
    f=open('text.txt','wb')
    f.write(loginafter.content)
    f.close()

#main为加载cookie访问
def main():
    url='https://accounts.douban.com/login'
    cookie=readCookie('cookies.txt')
    loginafter=requests.get('https://www.douban.com/people/172618226',cookies=cookie)
    f=open('text1.txt','wb')
    f.write(loginafter.content)
    f.close()
main()

你可能感兴趣的:(Python)