一次成功的JS逆向--Python爬虫

仅供参考!

网址:

看着有点简单的网站截图:(通过年份筛选,获取指定年份的数据)
一次成功的JS逆向--Python爬虫_第1张图片

  1. 打开网页,Ctrl U查看网页源代码,发现没有数据。没错,数据是异步传输的。一次成功的JS逆向--Python爬虫_第2张图片
  2. 直接F12 进入调试模式,选择network
    一次成功的JS逆向--Python爬虫_第3张图片
    因经常遇到有价值的数据使用异步传输,所以直接快速查找异步请求的包:
    1. 先清空当前网站返回的数据包
    2. 更改日期,点搜索。主要是为了再次触发异步请求
    3. 在返回的数据包里可以看到,返回了三个数据包。通过观察,第二、三个请求貌似和png/GIF有关,所以考虑先查看第一个
      一次成功的JS逆向--Python爬虫_第4张图片
      因为长期复制请求头,随便一瞅,嗯,这个参数应该不好搞。
      经过代码测试,该请求头的UA、referer、mcode为必要参数,无需登录,cookie可考虑使用requests.session()
      UA /Referer可继续复制。mcode也可以复制使用,但后面经测试,mcode的有效期为10分钟左右,所以需要破解该参数。

正式进入js逆向阶段:
首先发现了陌生的key-value,且是请求头里必要的参数mocde: Mxxxxxx==

  1. 考虑先把mcode的值在全局中搜索一次成功的JS逆向--Python爬虫_第5张图片
    可以发现该参数只在这个请求头中出现过,所以可能是通过 某个函数最终 生成的一个值
  2. mcode的值不行,那就在全局中搜这个key:mcode一次成功的JS逆向--Python爬虫_第6张图片
  3. 终于,看到了一点希望,搜索到的mcode都指向这个js函数indexcode.getResCode(),所以在全局里继续搜索我们看到的indexcode函数
    一次成功的JS逆向--Python爬虫_第7张图片
  4. 在搜索结果中,出现了一个与众不同的结果,var indexcode- -js命名函数的一种格式!
    一次成功的JS逆向--Python爬虫_第8张图片
    到这儿就要开始分析js函数,努力分析js函数的处理逻辑,最终用python代码生成mcode值。
  5. js代码简单解析
    一次成功的JS逆向--Python爬虫_第9张图片
    5.1 Console窗口中运行js代码。
    一次成功的JS逆向--Python爬虫_第10张图片

你可能感兴趣的:(#,Python_爬虫,JS逆向,python)