2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析

郑重声明:本项目的所有代码和相关文章, 仅用于经验技术交流分享,禁止将相关技术应用到不正当途径,因为滥用技术产生的风险与本人无关。

这篇文章是公众号《云爬虫技术研究笔记》的《2019年末逆向复习系列》的第四篇:《今日头条WEB端_signature、as、cp参数逆向分析》

本次案例的代码都已上传到Review_Reverse上面,后面会持续更新,大家可以Fork一波。
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第1张图片

逆向背景

今日头条算是新闻聚合领域的霸主了,它首创的推荐算法也是被后续的新闻聚合平台争相模仿,虽然现在今日头条平台逐渐下沉,面向的读者群也越来越“俗化”,它的自媒体红利期也渐渐过去。但是毕竟作为第一大资讯平台,它的流量以及内容时效性都会不可小觑的。
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第2张图片
上一次分析头条的时候大概是今年年初的时候,那时候为了做自然语言处理采集了他们的文章做语料。现在重新来分析他们的参数,看看他们的加密方式是不是改变了。

分析流程与逆向破解

如题所示,我们这次需要分析的是它的_signatureascp参数,也就是来自于他们获取新闻的接口
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第3张图片

2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第4张图片
可以看到,这个接口很明显是首页Feed流数据的接口,我们具体看看这里面的参数

min_behot_time: 0
category: __all__
utm_source: toutiao
widen: 1
tadrequire: true
as: A1C50D8EF357F93
cp: 5DE387EF3933DE1
_signature: ICnfJAAgEBpV2FR6HfGzUCAp3zAAH3S

比较重要的我们猜大概就是ascp_signature,而min_behot_time的值是0
我们在看看之后的Feed流数据的接口是什么样的
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第5张图片

max_behot_time: 1575190175
category: __all__
utm_source: toutiao
widen: 1
tadrequire: true
as: A1D5FD3ED317EE1
cp: 5DE3678E8E41AE1
_signature: YzovjgAgEB0Wy6TQXOBj3mM6L5AAD7d

大部分上看是相同的,但是min_behot_time换成了max_behot_time字段,而且这个值看上去是从之前的首页Feed流中返回回来的
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第6张图片
整体流程大致就是这样,我们下面去分析它的几个参数

1. 寻找加密参数的加密方法位置

首先,我们现在需要分析三个加密参数,ascp_signature,从参数的常见性来说,我们选择搜索_signature参数,因为它相比于其他两个参数来说,match的代码块会少点,我们比较好找,我们可以对比下。
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第7张图片
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第8张图片
恐怖的151处和3处,而且这3处还是在同一个js文件,那我们直接选择这个index.2c1dc950e325e1470bb8.js这个文件跟进去,一共就5处,我们直接在这个文件搜索_signature字符,找到了这个地方比较像加密的地方
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第9张图片
我们仔细看看这块代码段,看看ascp参数是不是也在这里生成

{
  key: "_getData",  //K,V结构的Js,看来这段代码是获取数据的接口的参数配置
  value: function(t, e, i) {
      var n = this;
      if (!this.lock) { //估计是控制并发的,并发锁?
          this.lock = !0,
          this._setParams(t); //设置参数?难道是as、cp?
          var a = function() {
              n.lock = !1,
              i && i()
          }
            , o = this._getSignature(this.url, this.params); //可以看到,这个地方加密了_signature参数
          (0,
          d.default)({
              url: this.url,
              data: (0,
              s.default)({}, this.params, {
                  _signature: o
              }),
              success: function(i) {
                  var s = i || {}
                    , o = s.data || []
                    , r = o.length
                    , l = s.next && s.next.max_behot_time;
                  "success" === s.message && r && (n._qihuAdInsert(o),
                  o = n._dataPreHandle(o),
                  "refresh" === t ? (n._refreshItem = {
                      refresh_mode: !0,
                      behot_time: l,
                      time_ago: (0,
                      p.timeAgo)(l),
                      _index: o.length
                  },
                  n.list = o.concat(n.list)) : n.list = n.list.concat(o),
                  e && e(n.getList(), r)),
                  a()
              },
              error: function() {
                  a()
              }
          })
      }
  }
}

初步静态分析是这样,我们调试一下,看看具体的值
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第10张图片
看看用来计算_signature的值,是urlparams,看来ascp在这之前已经计算好值了,推测是this._setParams,我们在那里打个断点试试
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第11张图片

2. 分析as、cp加密算法

我们跳到this._setParams这个方法,可以看到确实是这个方法产生了ascp,而且如果t的值是refresh,就说明是刷新,需要从min_behot_time这个参数开始请求,如果不是,那就继续根据max_behot_time继续往下请求。
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第12张图片
我们继续往下跳
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第13张图片
可以看到这里是具体的加密方法,之后的话就是扣具体的js代码,算法比较简单,大家可以继续往下扣
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第14张图片
类似这样
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第15张图片
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第16张图片

3. 分析_signature加密算法

在今年年初分析的时候,_signature的加密算法是可以从这里得出,也就是Tac.sign的算法
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第17张图片
算法类似于

Function(function(t) {
    return '�e(e,a,r){�(b[e]||(b[e]=t("x,y","�x "+e+" y"�)(r,a)}�a(e,a,r){�(k[r]||(k[r]=t("x,y","�new x[y]("+Array(r+1).join(",x[�y]")�(1)+")"�)(e,a)}�r(e,a,r){�n,t,s={},b=s.d=r?r.d+1:0;for(s["$"+b]=s,t=0;t>>0�65:h=�,y=�,�[y]=h�66:u(e(t[b�],�,���67:y=�,d=�,u((g=�).x===c?r(g.y,y,k):g.apply(d,y��68:u(e((g=t[b�])<"<"?(b--,f�):g+g,�,���70:u(!1)�71:�n�72:�+f��73:u(parseInt(f�,36��75:if(�){b��case 74:g=�<<16>>16�g�76:u(k[�])�77:y=�,u(�[y])�78:g=�,u(a(v,x-=g+1,g��79:g=�,u(k["$"+g])�81:h=�,�[f�]=h�82:u(�[f�])�83:h=�,k[�]=h�84:�!0�85:�void 0�86:u(v[x-1])�88:h=�,y=�,�h,�y�89:u(��{�e�{�r(e.y,arguments,k)}�e.y=f�,e.x=c,e}�)�90:�null�91:�h�93:h=��0:��;default:u((g<<16>>16)-16)}}�n=this,t=n.Function,s=Object.keys||�(e){�a={},r=0;for(�c in e)a[r�]=c;�a�=r,a},b={},k={};�r'.replace(/[�-�]/g, function(e) {
        return t[15 & e.charCodeAt(0)]
    })
}("v[x++]=�v[--x]�t.charCodeAt(b++)-32�function �return �))�++�.substr�var �.length�()�,b+=�;break;case �;break}".split("�")))()('gr$Daten Иb/s!l y͒yĹg,(lfi~ah`{mv,-n|jqewVxp{rvmmx,&eff�kx[!cs"l".Pq%widthl"@q&heightl"vr*getContextx$"2d[!cs#l#,*;?|u.|uc{uq$fontl#vr(fillTextx$$龘ฑภ경2<[#c}l#2q*shadowBlurl#1q-shadowOffsetXl#$$limeq+shadowColorl#vr#arcx88802[%c}l#vr&strokex[ c}l"v,)}eOmyoZB]mx[ cs!0s$l$Pb>>s!0s%yA0s"l"l!r&lengthb&l!l Bd>&+l!l &+l!l 6d>&+l!l &+ s,y=o!o!]/q"13o!l q"10o!],l 2d>& s.{s-yMo!o!]0q"13o!]*Ld>>b|s!o!l q"10o!],l!& s/yIo!o!].q"13o!],o!]*Jd>>b|&o!]+l &+ s0l-l!&l-l!i\'1z141z4b/@d

我们看看现在它的算法有没有改变,我们打断点再跳到_getSignature这个方法看看
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第18张图片
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第19张图片
可以看出,主要加密部分是g.sign部分,看看g.sign究竟是什么算法
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第20张图片
是个jsanonymous算法,展开算法看看
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第21张图片
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第22张图片
这段代码使用了我们之前说的控制流平坦化,把代码逻辑变成统一的入口管理,我们不细抠这段js,
我们换个思路来查看这个方法,之前我们定位的是g.sign,这次我们换换思路,定位g对象试试,我们在刚才的g.sign处往上找,看看有没有g对象

2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第23张图片
找到g对象了,我们往下跳,到了这个位置
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第24张图片
下面这段代码中,涉及函数调用的是e[a].call,我们可以看看e[a]是什么东西?

function(e) {
                function t(a) {
                    if (o[a])
                        return o[a].exports;
                    var r = o[a] = {
                        exports: {},
                        id: a,
                        loaded: !1
                    };
                    return e[a].call(r.exports, r, r.exports, t),
                    r.loaded = !0,
                    r.exports
                }

2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第25张图片
可以看到e[a]是个anonymous方法,和我们之前看到的sign加密方法很像,我们进去看看
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第26张图片
看到这段熟悉的代码,心里一热,算法还是没变,和之前的一样,那我们就可以直接拿来用了,照着之前那个t方法改写下

var o ={};
var e = function(a) {
  var r = {
      exports: {},
      id: a,
      loaded: !1
  };
  return x.call(r.exports, r, r.exports, e),
      r.loaded = !0,
      r.exports
};

var x = function(t, e) {
  Function(function(t) {
      return 'e(e,a,r){(b[e]||(b[e]=t("x,y","x "+e+" y")(r,a)}a(e,a,r){(k[r]||(k[r]=t("x,y","new x[y]("+Array(r+1).join(",x[y]")(1)+")")(e,a)}r(e,a,r){n,t,s={},b=s.d=r?r.d+1:0;for(s["$"+b]=s,t=0;t>>065:h=,y=,[y]=h66:u(e(t[b],,67:y=,d=,u((g=).x===c?r(g.y,y,k):g.apply(d,y68:u(e((g=t[b])<"<"?(b--,f):g+g,,70:u(!1)71:n72:+f73:u(parseInt(f,3675:if(){bcase 74:g=<<16>>16g76:u(k[])77:y=,u([y])78:g=,u(a(v,x-=g+1,g79:g=,u(k["$"+g])81:h=,[f]=h82:u([f])83:h=,k[]=h84:!085:void 086:u(v[x-1])88:h=,y=,h,y89:u({e{r(e.y,arguments,k)}e.y=f,e.x=c,e})90:null91:h93:h=0:;default:u((g<<16>>16)-16)}}n=this,t=n.Function,s=Object.keys||(e){a={},r=0;for(c in e)a[r]=c;a=r,a},b={},k={};r'.replace(/[-]/g, function(e) {
          return t[15 & e.charCodeAt(0)]
      })
  }("v[x++]=v[--x]t.charCodeAt(b++)-32function return ))++.substrvar .length(),b+=;break;case ;break}".split("")))()('gr$Daten Иb/s!l y͒yĹg,(lfi~ah`{mv,-n|jqewVxp{rvmmx,&effkx[!cs"l".Pq%widthl"@q&heightl"vr*getContextx$"2d[!cs#l#,*;?|u.|uc{uq$fontl#vr(fillTextx$$龘ฑภ경2<[#c}l#2q*shadowBlurl#1q-shadowOffsetXl#$$limeq+shadowColorl#vr#arcx88802[%c}l#vr&strokex[ c}l"v,)}eOmyoZB]mx[ cs!0s$l$Pb>>s!0s%yA0s"l"l!r&lengthb&l!l Bd>&+l!l &+l!l 6d>&+l!l &+ s,y=o!o!]/q"13o!l q"10o!],l 2d>& s.{s-yMo!o!]0q"13o!]*Ld>>b|s!o!l q"10o!],l!& s/yIo!o!].q"13o!],o!]*Jd>>b|&o!]+l &+ s0l-l!&l-l!i\'1z141z4b/@d

我们运行之后会发现,报错如下
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第27张图片
缺少userAgent的属性,那我们全局定义一个

global.navigator = {
  userAgent: 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
}

得到了正确的结果

4. 总结思路

综上所分析的思路,我们可以画出下面的ascp_signature参数获取流程
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第28张图片

代码实战

有了上面这个分析流程,我们就可以开始Coding了,首先是ascp的加密方法
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第29张图片
然后是_signature的加密方法,ua参数是我们传入的
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第30张图片
最后使用python汇总一下
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第31张图片
结合采集场景
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第32张图片

复习要点

从这个复习的案例我们可以总结下思路:

  1. 当加密参数有多个的时候,观察哪个参数是不常见的,代码Match尽量少的去全局搜索、分析。
  2. 当加密方法混淆程度高,迭代深的时候,换个方法去寻找最后的加密方法,比如刚才的g.sign变成去寻找g参数。
  3. 运行js加密方法的时候,真理就是缺啥补啥,如同我们刚才运行方法的时候缺少了ua参数,我们就定义个全局的ua参数,或者我们缺少某个对象的时候,补充就好了。

作者相关

号主介绍

多年反爬虫破解经验,AKA“逆向小学生”,沉迷数据分析和黑客增长不能自拔,虚名有CSDN博客专家和华为云享专家。

私藏资料

呕心沥血从浩瀚的资料中整理了独家的“私藏资料”,公众号内回复“私藏资料”即可领取爬虫高级逆向教学视频以及多平台的中文数据集

小学生都推荐的好文

2019年末逆向复习系列之百度指数Data加密逆向破解

2019年末逆向复习系列之努比亚Cookie生成逆向分析

2019年末逆向复习系列之淘宝M站Sign参数逆向分析

2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析_第33张图片

你可能感兴趣的:(2019年末逆向复习系列)