猿人学web端爬虫攻防大赛赛题解析_第四题:雪碧图、样式干扰

第四题:雪碧图 - 样式干扰

  • 1、前言
  • 2、题目理解
  • 3、解析过程
    • 3.1、初窥门径
    • 3.2、深入探究
      • 3.2.1、确定原理
      • 3.2.2、逆向破解
    • 3.2、代码实现
  • 4、结语

1、前言

久违的第四题终于要出炉了,这篇博客比我预想的完成时间要快,主要是没想到这次解题过程还比较顺利,竟然在没有参考其他大佬答案的前提下,自己摸索出来了,对我来说算是一个可喜可贺的小突破啊,虽然是道简单级别的题,但凭自己实力破解还是有点成就感的,算是逆向之路的一个小里程碑。好,那就不扯犊子了,进入主题!

2、题目理解

猿人学的题好就好在每道题都告诉你是什么类型的加密,这样我们开局就知道大致的破解方向,省去了前期的摸索阶段。题目类型很明确写了是css加密,也就是通过设置网页样式的形式来进行加密,所以我们突破口就是看看是用了什么形式的css加密。
图片描述

3、解析过程

3.1、初窥门径

按常规套路,首先还是先打开页面看看数据形式,这里可以观察到这些数字的显示样式很明显有点怪异:
猿人学web端爬虫攻防大赛赛题解析_第四题:雪碧图、样式干扰_第1张图片这里可以看出,跟之前的其他题目的都不一样,鼠标放上去背景会白底高亮显示,而且发现数字排列看起来有些不均匀,也没法复制。
猿人学web端爬虫攻防大赛赛题解析_第四题:雪碧图、样式干扰_第2张图片
对准数字,点击右键,发现提示在新标签页中打开图片,也就是说这些数字是以图片形式呈现的!另外在地址栏可以看到这个图片的url跟以前访问其他资源明显不一样,这串路径里有个很明显的字眼:base64,难道是某种给图片地址加密的骚操作?
猿人学web端爬虫攻防大赛赛题解析_第四题:雪碧图、样式干扰_第3张图片搜一搜谷歌百度啥的,发现所谓的data:image/png;base64其实是一种经过base64编码后的内联图像,通过将图片直接嵌入到网页中,从而不用再从外部文件载入,也就是浏览器不必单独向服务器查询图像数据,可以使页面加载更快。总而言之这是一种有别于传统加载形式,将图片嵌入html的方法。

猿人学web端爬虫攻防大赛赛题解析_第四题:雪碧图、样式干扰_第4张图片好的,那么既然知道了它是把图片加密了,那么我们肯定能把图片还原回来,这里我试了下找个图片编码在本地base64解码,并另存为图片,发现果然可以还原回来,然而这并没有什么卵用,题目要的是数字加和结果,只有数字对应的图片还是没法解决根本问题。于是机智的我想到了ocr,这种简单的图片那还不是分分钟给识别出来!直到想起来参赛注意事项里明确规定了只有第八题可以用ocr,这就有点尴尬。

# 图片还原
ha='iVBORw0KGgoAAAANSUhEUgAAABQAAAAdCAYAAACqhkzFAAAAAXNSR0IArs4c6QAAAARnQU1BAACxjwv8YQUAAAAJcEhZcwAADsQAAA7EAZUrDhsAAAMTSURBVEhLrZY/TBNRHMe/bY82LeGA0Dp4NTGYqO1gdKEMwmQcGh38M5CQlGDSwWiMAwwYg2iCJsZJQ9CJ0ETsQMJgwuagLIUFXIAFXNoYcqDloLRXrq3v7v3aXktbSPCTXO77fZRvf/feu9+r5dz5iwX8R+oESigMPka6/wb2vSJUBx+1QoVD3kTz7DScb+f4YBVHA6U+ZKLPsON1IE9DtbDLP9AxEIawRgOEle4cKYSD+ZeQq8IcKquMXTbyOllPL7aiEWgSDRCmQAnahyHsiGQZruUvkIKXcObyFeM62zcOd1ylvwJ5MYDkuxA5Tjlw8A2S12iyGM7YODrujsFqfqTFCJw9L+CWyTPS3QPIBMgwKFBC9n4AaW4AdQVtQxEy1czBObkIJznAi9TDO6SLgVIYqt9QBq5YFEKCTC2momg2VXngD5bmnAc+uIqUIXQUOL/X3hJl5mHfUEgzPJ04pMUxAnN+CYeG1UlAmCLZANtqAk2kARG5m1zxQI9paWUZAsmGsArLnxOh0ZSxwCBypjwo2zQPxzCTgJ2kTtbbZ9zZ/7pRKO8WOOWqrX9iePyJiqnNGgTTuhRhgT5o5kc+JaeosDYssHbpx+OtXEziSIWqx0fqOFpg7ns2Zd24s8B1WE0V5h2mJW/ELTc0kjo2Zcm4s8ClikCIlR+si59tZpL66yosc2U8clM8bhgDkfVFUzuqR569rqXOqG7CPsOlEWiJJSraUaa/i3Q9upC94CHNCtr4WXoN+aJMzcFlakd73eGG5wnuhZHykmZ1tnx9TboYqDfNWLxoWDvqhfK+h0w1Pcg87cUBOavMmu1HMoxShuXJNNpNi7N3ewLJTyEUzIdQIIT0wgQ7EcmzxWifZMcEOZ3KY3Qwgp3RQOnbOfqJx5XGtlSOS4aK1tlHEIcXyHNsrW0dY6SBFX0ufShc70S21OwE5AR+lb+ZVfb5OVpGviGTTkHeSmBfScJqtdX55SAFoY0OsMXxISM6SvvNrshwrS7A9WoENupyv+O/oGm831sslno/RU6OsvsHu3+3yQH/AOyW6SvqnweCAAAAAElFTkSuQmCC'
print(base64.b64decode(ha))
with open('D:\yuan_8.png','wb') as f:
    f.write(base64.b64decode(ha))

虽然上面一同分析只是解锁了一个新的小知识点,但还是要相信他对后面的分析还是有点作用的。

3.2、深入探究

3.2.1、确定原理

继续往下走,发现我们还没观察过xhr请求呢,先看看返回的数据到底是什么样的再说,可以看到通过http://match.yuanrenxue.com/api/match/4这个接口,我们顺利的拿到了返回的数据,观察一下发现这里的info字段里包含了请求的所有对应的数字图片,另外还包含了key、value等字段,想来有可能在图片渲染的过程中用到。
猿人学web端爬虫攻防大赛赛题解析_第四题:雪碧图、样式干扰_第5张图片首选还是分析一下info里的这串html代码是什么形式的,这里我把他复制出来,粘贴到编译器了并格式化看了一下,可以看出这里每个td节点内应该都是包含了一组图片,也就是页面时最后对应的那串数字:
猿人学web端爬虫攻防大赛赛题解析_第四题:雪碧图、样式干扰_第6张图片这里试着运行一下这段html,发现最后显示的是这么一串鬼东西,无论是从上面的代码,还是最后浏览器渲染返回的结果都跟我们在题目数据请求渲染页面的看到的不太一样,一个是数字位数,另一个是数字顺序,比如我这里第一个区域的数字应该是6081,但很明显这里掺杂了其他的干扰数字。
在这里插入图片描述那么这里有必要搞清楚是通过什么形式改变了数字显示的顺序以及内容?这里我试着选中图片,并通过右键检查元素,想看看原始网页里图片是以什么形式嵌入展示的,不得不说chrome浏览器用着确实比较顺手!在Elements中一下就看到了所有图片样式设置。
猿人学web端爬虫攻防大赛赛题解析_第四题:雪碧图、样式干扰_第7张图片一眼可以明显看到有些图片节点的style属性设置为display: none,这就很好理解了,通过对照这些参数设置,明显发现这十几个图片节点中只有6081这四个图片节点没有该属性,此外left: 11.5px这个属性就是控制图片坐标偏移的参数,经过几次调试观察,发现px为正的图片向右偏移,为负的是向左偏移,为零的则位置不变!

3.2.2、逆向破解

以上基本确定了这个css加密的原理,但现在还有两个问题没搞清,那就是网页到底是通过什么来判断某些图片style属性为display: none的呢,其次是图片跟数字对应的关系是否有相应的关联逻辑?

首先对于第一点,回头再观察一下之前请求数据接口返回的info里,每个图片对应的除了压缩编码、样式偏移设置以外,还有个class="img_number "的属性节点,这里也是在一番观察后,发现在所有图片列表里,img_number的值只有两类,其中一类对应的是在网页中display属性为none的图片,另一类则是正常显示出来的图片。
猿人学web端爬虫攻防大赛赛题解析_第四题:雪碧图、样式干扰_第8张图片
那么接下来就要找一下这个img_number的生成逻辑,这里题目没有设置比较复杂,通过设置xhr断点,并在调用栈里往下逐层查看

猿人学web端爬虫攻防大赛赛题解析_第四题:雪碧图、样式干扰_第9张图片最终在网页源码里的 request函数这里找到了这个叫j_key的变量,同时这里出现了之前请求数据接口是返回的key,value字段,看这里的逻辑主要是将二者之和做了个base64编码,并替换掉=号,最后又做了个MD5加密,这里取了keyvalue的值在Python环境下试了一下这个逻辑,发现img_number果然是这样生成的!。
猿人学web端爬虫攻防大赛赛题解析_第四题:雪碧图、样式干扰_第10张图片
现在基本上已经把所有的逻辑分析完毕,还剩最后一个问题,图片个数字要怎么对应上?这里我思考了良久,硬是没能找到可能存在的数字转图片的代码片段,于是最后用了个笨办法,把所有图片对应的编码字符串手动复制下来,并通过人工形式和对应的数字关联起来,因为图片的编码是固定的,所以可以直接这样做。

猿人学web端爬虫攻防大赛赛题解析_第四题:雪碧图、样式干扰_第11张图片一通分析与操作,总算把这题的面貌扒拉的七七八八,接下来就是最终的实战环节,把思路转换成代码跑它一遍!

3.2、代码实现

完整解析代码如下,这段代码还有很多可以完善和优化的地方,这里仅以第一页为例,输出了第一页的十组数字:

# -*- coding: utf-8 -*-
import base64
import hashlib
import requests
from pyquery import PyQuery as pq
import re
# 图片还原
ha='iVBORw0KGgoAAAANSUhEUgAAABQAAAAdCAYAAACqhkzFAAAAAXNSR0IArs4c6QAAAARnQU1BAACxjwv8YQUAAAAJcEhZcwAADsQAAA7EAZUrDhsAAAMTSURBVEhLrZY/TBNRHMe/bY82LeGA0Dp4NTGYqO1gdKEMwmQcGh38M5CQlGDSwWiMAwwYg2iCJsZJQ9CJ0ETsQMJgwuagLIUFXIAFXNoYcqDloLRXrq3v7v3aXktbSPCTXO77fZRvf/feu9+r5dz5iwX8R+oESigMPka6/wb2vSJUBx+1QoVD3kTz7DScb+f4YBVHA6U+ZKLPsON1IE9DtbDLP9AxEIawRgOEle4cKYSD+ZeQq8IcKquMXTbyOllPL7aiEWgSDRCmQAnahyHsiGQZruUvkIKXcObyFeM62zcOd1ylvwJ5MYDkuxA5Tjlw8A2S12iyGM7YODrujsFqfqTFCJw9L+CWyTPS3QPIBMgwKFBC9n4AaW4AdQVtQxEy1czBObkIJznAi9TDO6SLgVIYqt9QBq5YFEKCTC2momg2VXngD5bmnAc+uIqUIXQUOL/X3hJl5mHfUEgzPJ04pMUxAnN+CYeG1UlAmCLZANtqAk2kARG5m1zxQI9paWUZAsmGsArLnxOh0ZSxwCBypjwo2zQPxzCTgJ2kTtbbZ9zZ/7pRKO8WOOWqrX9iePyJiqnNGgTTuhRhgT5o5kc+JaeosDYssHbpx+OtXEziSIWqx0fqOFpg7ns2Zd24s8B1WE0V5h2mJW/ELTc0kjo2Zcm4s8ClikCIlR+si59tZpL66yosc2U8clM8bhgDkfVFUzuqR569rqXOqG7CPsOlEWiJJSraUaa/i3Q9upC94CHNCtr4WXoN+aJMzcFlakd73eGG5wnuhZHykmZ1tnx9TboYqDfNWLxoWDvqhfK+h0w1Pcg87cUBOavMmu1HMoxShuXJNNpNi7N3ewLJTyEUzIdQIIT0wgQ7EcmzxWifZMcEOZ3KY3Qwgp3RQOnbOfqJx5XGtlSOS4aK1tlHEIcXyHNsrW0dY6SBFX0ufShc70S21OwE5AR+lb+ZVfb5OVpGviGTTkHeSmBfScJqtdX55SAFoY0OsMXxISM6SvvNrshwrS7A9WoENupyv+O/oGm831sslno/RU6OsvsHu3+3yQH/AOyW6SvqnweCAAAAAElFTkSuQmCC'
print(base64.b64decode(ha))
with open('D:\yuan_8.png','wb') as f:
    f.write(base64.b64decode(ha))

#手动匹配数字与对应的图片编码
def relateImgToNum():
    array={}
    array[0]=""
    array[1]=""
    array[2]=""
    array[3]=""
    array[4]=""
    array[5]=""
    array[6]=""
    array[7]=""
    array[8]=""
    array[9]=""
    return array

#找到display属性为none的img_number值
def getNoneClassNumber(key,value):
    # key="f0vINpsazd"
    # value="x3ye9ilIFa"
    s=key+value
    #base64编码
    byte_btoa=base64.b64encode(s.encode('utf-8'))

    #转为字符串形式
    str_btoa=str(byte_btoa,'utf-8')
    print (str_btoa)

    #替换“=”字符
    sub_equal=str_btoa.replace("=", '')
    print(sub_equal)

    #MD5编码,得到最终的j_key
    hex_md5=hashlib.md5(sub_equal.encode())
    img_number=hex_md5.hexdigest()
    print(img_number)
    return img_number

#请求数据接口的信息
def getImgInfo():
    headers = {
        'Proxy-Connection': 'keep-alive',
        'Accept': 'application/json, text/javascript, */*; q=0.01',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
        'X-Requested-With': 'XMLHttpRequest',
        'Referer': 'http://match.yuanrenxue.com/match/4',
        'Accept-Language': 'zh-CN,zh;q=0.9',
    }

    response = requests.get('http://match.yuanrenxue.com/api/match/4', headers=headers, verify=False)
    print(response.json())
    return  response.json()

#解析最终的数字
def parseImgToNum():
    imglist=relateImgToNum()
    json_info=getImgInfo()

    key=json_info['key']
    value=json_info['value']
    none_img_number=getNoneClassNumber(key,value)

    html=json_info['info']
    doc=pq(html)
    for item in doc('td').items():#遍历每一组图片信息
        num=[]
        for img in item('img').items():#遍历该组图片内的单个图片信息:提取图片编码、显示格式字符串和坐标偏移量
            src=img.attr('src')
            img_number=img.attr('class').split(' ')[-1]
            style=re.findall(":(.*?)px",img.attr('style'),re.S)[0]
            if img_number!=none_img_number:
                for key,value in imglist.items():#key为数值,value为对应图片编码
                    if value==src:#图片编码对应,则提取对应数值
                        num.append([key,float(style)])
        
        #坐标偏移操作
        new_num=num.copy()
        for i,tup in enumerate(num):
            # print(i,tup)
            index=int(tup[1]/11.5)
            if index!=0:
                # print(index+i,index)
                new_num[i+index]=num[i]

        num_str=''.join([str(num[0]) for num in new_num])
        print(num_str)

parseImgToNum()

运行后输出结果如下:
猿人学web端爬虫攻防大赛赛题解析_第四题:雪碧图、样式干扰_第12张图片
原始页面数值显示如下:
在这里插入图片描述
至此,大功告成,喜大普奔!

4、结语

赶在十二月中旬前完成了这道题,不得不说比我预料中的要快点,当然可能主要原因还是这题比较简单,但起码还是通过它找回了点信心,同时也明白学好DOM知识对于破解某些加密的重要性,总之就是且战且成长,希望年底前能把自己这段时间所学熟练运用,初具一定知识体系,能更畅快的在互联网的汪洋里遨游!

你可能感兴趣的:(爬虫,Web,Python,python,html,css,dom,爬虫)