content-static.cctvnews的千层套路如何破解?

最近*CTV的客户端更新了一种域名,前缀是content-static。按照一般的套路请求数据,很难获取。因为它不仅密文传输,前端还层层加密。破解虚微会有些复杂。具体思路如下:

首先, 要确定能够请求到数据的地址。以这条url为例,很明显,内容藏在这个地址里:

image.png

但是看preview的时候,没有办法立即发现相关数据:

image.png

当然,106kB的数据量,出卖了秘密:内容在此,被加密了。展开加密后的数据,明显感觉这是base64加密的。放到解码网站上一查,果然:

image.png

真实数据就在这里。

但是,当你仿照请求头,请求数据的时候,会发现有两个关键参数,填不正确,绝无可能取到数据:

image.png

这两个参数会因为时间、articleId改变。查询前面的response headers,里面没有相关条目。基本可以确定,这两个参数是前端生成的了。

展开页面的js文件,很容易就能在名为"dee...."的文件中,找到这两个关键参数的生成方式。


image.png

其中,"x-emas-gw-t"这个参数比较简单,就是当前时间/1000再取整:

image.png

"x-emas-gw-sign"就比较复杂了。 "x-emas-gw-sign",是变量 l 根据变量 d 生成的,而变量 d 又是通过变量 h、c、t、e生成的……只有弄清楚这些参数是怎么来的,才能顺利破解:

image.png

整个页面渲染过程中,生成 "x-emas-gw-sign"的函数会被反复调用。经过多次测试,真正能请求到内容数据时,变量们都长这样:

image.png

关键变量 e、t 是固定值。c即"x-emas-gw-t"。需要解决的只剩下两步:h怎么来的,d怎么变成l的。

image.png

可以看出,h是通过传变量f到函数o() 生成的。f很简单,是文章编号拼接固定字符串而来。返回结果是一个object。不过,既然h最后会和字符串拼接,那么h拼接成字符串的形态,才是比较重要的。直接打印结果如下:

image.png

从结果来看,h可能是md5加密后的产物。在线加密工具一测,果然是32位加密的结果:


image.png

h得到以后,d就已知。最后一步,就是把d变成l。分别打印结果如下:


image.png

明显,l也是通过某种方式加密d后的结果。另外,从l生成调用的函数来看,传入的参数秒只有d,还有"emasgatewayh5":

image.png

推测"emasgatewayh5"应该是加密时,需要的密钥。反复测试,发现HmacSHA256加密后,完全符合结果:

image.png

如此,请求头的关键参数,就彻底解决啦!

示例python代码:

import time,base64,hashlib,requests
from hashlib import sha256
import hmac

def md5_encode(str,key=''): #MD5解密
  md= hashlib.md5(key.encode(encoding='utf-8'))# 创建md5对象
  md.update(str.encode(encoding='utf-8'))
  return md.hexdigest()


def get_sign(data, key): #HmacSHA256解密
    key = key.encode('utf-8')
    message = data.encode('utf-8')
    sign = base64.b64encode(hmac.new(key, message, digestmod=sha256).digest())
    sign = str(sign, 'utf-8')
    return sign


def cscctv(url):
  articleId =  re.findall('item_id=([0-9]*)',url)[0]
  request_url = "https://emas-api.cctvnews.cctv.com/h5/emas.feed.article.server.getArticle/1.0.0?articleId=%s"%articleId

  c = round(time.time()/1000)#

  f2 = "articleId=%s"%articleId

  key  = 'emasgatewayh5'

  byte_key = bytes(key, 'UTF-8')

  final3 = "&&&20000009&" + md5_encode(f2) + "&%d"%c + "&" + "emas.feed.article.server.getArticle" + "&" + "1.0.0" + "&&&&&"

  sign = hmac.new( byte_key,final3.encode(), hashlib.sha256).hexdigest() 


  request_headers ={
      "accept": "application/json, text/plain, */*",
      "accept-language": "zh-CN,zh;q=0.9",
      "cache-control": "no-cache",
      "origin": "https://content-static.cctvnews.cctv.com",
      "pragma": "no-cache",
      "referer": "https://content-static.cctvnews.cctv.com/",
      "sec-ch-ua": "\"Google Chrome\";v=\"95\", \"Chromium\";v=\"95\", \";Not A Brand\";v=\"99\"",
      "sec-ch-ua-mobile": "?0",
      "sec-ch-ua-platform": "Windows",
      "sec-fetch-dest": "empty",
      "sec-fetch-mode": "cors",
      "sec-fetch-site": "same-site",
      "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36",
      "x-emas-gw-appkey": "20000009",
      "x-emas-gw-pv": "6.1",
     "x-emas-gw-sign": sign,
      "x-emas-gw-t": str(c),# Math.round((new Date).getTime() / 1e3)
}



  body =requests.get(request_url,headers=request_headers)
  body = json.loads(body.text)['response']
  body = base64.b64decode(body).decode("utf-8")
  body = json.loads(body)['data']
  return body

你可能感兴趣的:(content-static.cctvnews的千层套路如何破解?)