最新猫眼电影反爬虫解密

一、背景

  • 看了网上很多的博客教程基本都已经失效了,截止2019年12月23日亲测是可行的,以后猫眼可能会修改策略
    最新猫眼电影反爬虫解密_第1张图片
           查看网页源码会发现是这些字母组成了它的实时票房,并且每次刷新都会变化,是因为每次动态刷新了class=stonefont对应的woff字体静态文件造成的
    最新猫眼电影反爬虫解密_第2张图片
            因为woff文件会变,所以猜想每个woff文件之间应该有一定的关联性

二、解密步骤

1)、手工制作基本字典

  • 先用python把woff文件转化成xml文件
#!/usr/bin/python
# coding:utf-8
from fontTools.ttLib import TTFont
font=TTFont('./base.woff') #读取woff文件
font.saveXML('./base.xml') #转成xml
  • 查看部分base.xml 代码, 可以发现 TTGlyph 标签的name属性值可以对上页面html中的源码,这样可以手工把base.xml做成一个字典
<TTGlyph name="uniEC4C" xMin="0" yMin="-27" xMax="525" yMax="707">
      <contour>
        <pt x="323" y="-26" on="1"/>
        <pt x="331" y="140" on="1"/>
        <pt x="7" y="146" on="1"/>
        <pt x="24" y="232" on="1"/>
        <pt x="337" y="707" on="1"/>
        <pt x="421" y="707" on="1"/>
        <pt x="419" y="232" on="1"/>
        <pt x="524" y="224" on="1"/>
        <pt x="512" y="144" on="1"/>
        <pt x="421" y="155" on="1"/>
        <pt x="424" y="-13" on="1"/>
        <pt x="331" y="-22" on="1"/>
      contour>
      <contour>
        <pt x="322" y="241" on="1"/>
        <pt x="333" y="563" on="1"/>
        <pt x="92" y="232" on="1"/>
        <pt x="341" y="232" on="1"/>
      contour>
      <instructions/>
    TTGlyph>

2)、解析最新的woff文件和手工字典做比对

假设新的woff文件是test1.woff ,直接用第一步的python脚本转化为test1.xml 文件,然后查看test1.xml文件部分代码

<TTGlyph name="uniF13C" xMin="0" yMin="-36" xMax="521" yMax="713">
     <contour>
       <pt x="322" y="-26" on="1"/>
       <pt x="316" y="158" on="1"/>
       <pt x="28" y="146" on="1"/>
       <pt x="13" y="221" on="1"/>
       <pt x="347" y="712" on="1"/>
       <pt x="434" y="695" on="1"/>
       <pt x="426" y="237" on="1"/>
       <pt x="505" y="232" on="1"/>
       <pt x="520" y="149" on="1"/>
       <pt x="419" y="149" on="1"/>
       <pt x="435" y="-35" on="1"/>
       <pt x="331" y="-26" on="1"/>
     contour>
     <contour>
       <pt x="331" y="232" on="1"/>
       <pt x="331" y="572" on="1"/>
       <pt x="96" y="227" on="1"/>
       <pt x="339" y="240" on="1"/>
     contour>
     <instructions/>
   TTGlyph>

页面截取的base.xml中的代码和test1.xml中的代码都是同一个数字4,仔细观察可以看出它们的字形很相近, base.xml中的x轴及y轴位置和test1.xml中x轴及y轴的位置很相近,绝对值误差在80以内,但也有部分超过了80,此时我们只需要从test1.xml中求出和base.xml中最相近的字体就可以了,即求test1.xml中的TTGlyph元素在base.xml手工字典中字形相似度最高就是base.xml中的哪个数字了

  • 伪代码如下(自己是用python转化成xml文件之后使用java实现的,具体代码太多了就不贴出来了)
int weight = 0 
ifabs(base[i][0] - test1[i][0]) <80andabs(base[i][1] - test1[i][1]) <80:
++weight
  • 核心思想就是求字形的相似度weight, 权重最高的数字就是最终的答案。

你可能感兴趣的:(最新猫眼电影反爬虫解密)