爬取巴比特快讯遇到状态码“521”

最近在爬区块链相关的快讯,上周巴比特改版后重写了爬虫,跑了一天就挂了。原来是网站使用了加速乐的服务,爬虫每次都返回521的状态码。

浏览器访问网站时:
第一次请求:返回521状态码和一段js代码。js会生成一段cookie并重新请求访问。
第二次请求:带着第一次得到的cookie去请求然后正确返回状态码200

而爬虫不能像浏览器一样执行js所以一直报错521
解决办法:

让爬虫模拟浏览器的行为:
将返回的js代码放在一个字符串中,然后利用execjs对这段代码进行解密,得到cookie放入下一次访问请求的头部中。

具体过程:

直接请求

将返回的这段js代码整理下:



 


然后存为html文件用Chrome打开调试,在eval处打上断点。可以看到变量po的值:"document.cookie='_ydclearance=5640fae72a12f756938d88c1-60c4-4c28-a629-8da9e99d65cc-1534755025; expires=Mon, 20-Aug-18 08:50:25 GMT; domain=.8btc.com; path=/'; window.document.location=document.URL"
而字符串po的前半段的意思是给浏览器添加Cooklie,后半段window.document.location=document.URL是刷新当前页面。


所以我们的关键点是要获得cookie。python中可以用execjs执行js:

import requests
import re
import execjs

headers = {
        'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/65.0.3325.181 Chrome/65.0.3325.181 Safari/537.36',
    }

def get_html(url):
    first_html = requests.get(url=url,headers=headers).content.decode('utf-8')
    return first_html


def executejs(first_html):
    # 提取其中的JS加密函数
    js_string = ''.join(re.findall(r'(function .*?)', first_html))

    # 提取其中执行JS函数的参数
    js_arg = ''.join(re.findall(r'setTimeout\(\"\D+\((\d+)\)\"', first_html))
    js_name = re.findall(r'function (\w+)',js_string)[0]

    # 修改JS函数,使其返回Cookie内容
    js_string = js_string.replace('eval("qo=eval;qo(po);")', 'return po')

    func = execjs.compile(js_string)
    return func.call(js_name,js_arg)

def parse_cookie(string):
    string = string.replace("document.cookie='", "")
    clearance = string.split(';')[0]
    return {clearance.split('=')[0]: clearance.split('=')[1]}



def return_cookie(url):
    first_html = get_html(url)
    # 执行JS获取Cookie
    cookie_str = executejs(first_html)

    # 将Cookie转换为字典格式
    cookie = parse_cookie(cookie_str)
    print('cookies = ',cookie)
    return cookie


return_cookie(url='https://www.8btc.com/flash')

#结果:
cookies =  {'_ydclearance': '8c83e7fe9d6bd359e1eedc40-b55a-4ab5-98e2-22eb9b2ea9a7-1534917111'}
[Finished in 2.0s]

你可能感兴趣的:(爬取巴比特快讯遇到状态码“521”)