最近研究了一下js加密,发现今日头条比较适合练手,在头条获取数据的XHR中request参数有一项_signature参数,这个是就是经过js加密的数据。解决方案在最后。
复制js代码进本地运行
先说寻找逻辑,叫顺藤摸瓜,藤是params中的key,瓜是js函数,在哪里摸,我用的是chrome F12,全局查找,就是在网址ctrl+f,注意看结果,前面有url这种一般都是在headers之类带着没什么价值,要看出来具体数据的。
然后在preview里,格式化看得清楚,还是查找signature。
这样就成功一大半了。顺便还找到了as和cp
as: e.as,cp: e.cp,
这个e也在前面定义了var e = ascp.getHoney(),然后在搜索getHoney,就找到了。
function() {
var t = Math.floor((new Date).getTime() / 1e3)
, e = t.toString(16).toUpperCase()
, i = md5(t).toString().toUpperCase();
if (8 != e.length)
return {
as: "479BB4B7254C150",
cp: "7E0AC8874BB0985"
};
for (var n = i.slice(0, 5), a = i.slice(-5), s = "", o = 0; 5 > o; o++)
s += n[o] + e[o];
for (var r = "", c = 0; 5 > c; c++)
r += e[c + 3] + a[c];
return {
as: "A1" + s + e.slice(-3),
cp: e.slice(0, 3) + r + "E1"
}
把这段复制进pycharm的zhu.js文件里,然后新建一个python文件来运行,nodejs直接运行也行。
import execjs
f2 = open('zhu.js','r')
js = f2.read()
ctx = execjs.compile(js)
can =ctx.call('getHoney')
print(can)
额,报错了,execjs._exceptions.ProgramError: ReferenceError: md5 is not defined
赶紧查了一下md5是个加密模块,nodejs安装MD5,然后改装了改装一下,增加了var md5 = require('md5-node');运行成功。
然后就到了signature, _signature: i,i = TAC.sign("refresh" === t ? 0 : r.params.max_behot_time_tmp))
params.max_behot_time_tmp应该是在回传的数据里的max_behot_time了。
首次请求是0,后来的是根据前一次请求的后传数据继续请求。
TAC.sign(),还是ctrl+f大法,发现在这里
("v[x++]=�v[--x]�t.charCodeAt(b++)-32�function �return �))�++�.substr�var �.length�()�,b+=�;break;case �;break}".split("�")))()('gr$Daten Иb/s!l y͒yĹg,(lfi~ah`{mv,-n|jqewVxp{rvmmx,&eff�kx[!cs"l".Pq%widthl"@q&heightl"vr*getContextx$"2d[!cs#l#,*;?|u.|uc{uq$fontl#vr(fillTextx$$龘ฑภ경2<[#c}l#2q*shadowBlurl#1q-shadowOffsetXl#$$limeq+shadowColorl#vr#arcx88802[%c}l#vr&strokex[ c}l"v,)}eOmyoZB]mx[ cs!0s$l$Pb>>s!0s%yA0s"l"l!r&lengthb&l!l Bd>&+l!l &+l!l 6d>&+l!l &+ s,y=o!o!]/q"13o!l q"10o!],l 2d>& s.{s-yMo!o!]0q"13o!]*Ld>>b|s!o!l q"10o!],l!& s/yIo!o!].q"13o!],o!]*Jd>>b|&o!]+l &+ s0l-l!&l-l!i\'1z141z4b/@d
不知所云,但还是按照老办法试试看能不能运行。
execjs._exceptions.ProgramError: TypeError: Cannot read property 'userAgent' of undefined。
这回我参考一下别人怎么办
原来要加useagent,
global.navigator={};
global.navigator.userAgent=
然后变成这样
function tac(){
Function(function(t) {
global.navigator={};
global.navigator.userAgent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36";
return '�e(e,a,r){�(b[e]||(b[e]=t("x,y","�x "+e+" y"�)(r,a)}�a(e,a,r){�(k[r]||(k[r]=t("x,y","�new x[y]("+Array(r+1).join(",x[�y]")�(1)+")"�)(e,a)}�r(e,a,r){�n,t,s={},b=s.d=r?r.d+1:0;for(s["$"+b]=s,t=0;t>>0�65:h=�,y=�,�[y]=h�66:u(e(t[b�],�,���67:y=�,d=�,u((g=�).x===c?r(g.y,y,k):g.apply(d,y��68:u(e((g=t[b�])<"<"?(b--,f�):g+g,�,���70:u(!1)�71:�n�72:�+f��73:u(parseInt(f�,36��75:if(�){b��case 74:g=�<<16>>16�g�76:u(k[�])�77:y=�,u(�[y])�78:g=�,u(a(v,x-=g+1,g��79:g=�,u(k["$"+g])�81:h=�,�[f�]=h�82:u(�[f�])�83:h=�,k[�]=h�84:�!0�85:�void 0�86:u(v[x-1])�88:h=�,y=�,�h,�y�89:u(��{�e�{�r(e.y,arguments,k)}�e.y=f�,e.x=c,e}�)�90:�null�91:�h�93:h=��0:��;default:u((g<<16>>16)-16)}}�n=this,t=n.Function,s=Object.keys||�(e){�a={},r=0;for(�c in e)a[r�]=c;�a�=r,a},b={},k={};�r'.replace(/[�-�]/g, function(e) {
return t[15 & e.charCodeAt(0)]
})
}("v[x++]=�v[--x]�t.charCodeAt(b++)-32�function �return �))�++�.substr�var �.length�()�,b+=�;break;case �;break}".split("�")))()('gr$Daten Иb/s!l y͒yĹg,(lfi~ah`{mv,-n|jqewVxp{rvmmx,&eff�kx[!cs"l".Pq%widthl"@q&heightl"vr*getContextx$"2d[!cs#l#,*;?|u.|uc{uq$fontl#vr(fillTextx$$龘ฑภ경2<[#c}l#2q*shadowBlurl#1q-shadowOffsetXl#$$limeq+shadowColorl#vr#arcx88802[%c}l#vr&strokex[ c}l"v,)}eOmyoZB]mx[ cs!0s$l$Pb>>s!0s%yA0s"l"l!r&lengthb&l!l Bd>&+l!l &+l!l 6d>&+l!l &+ s,y=o!o!]/q"13o!l q"10o!],l 2d>& s.{s-yMo!o!]0q"13o!]*Ld>>b|s!o!l q"10o!],l!& s/yIo!o!].q"13o!],o!]*Jd>>b|&o!]+l &+ s0l-l!&l-l!i\'1z141z4b/@d
调用发现又有错误:
好像说的是var data = TAC.sign(0);之前出现了一个不该出现的逗号,把它改成分号,果然成功了,
满怀欣喜的把signature,cp,as找到拼接成url发送,结果并不能返回数据。
selenium执行js函数获取
有些忧郁的又看看别人怎么办,用selenium获取参数,phantomjs不维护了,听说chrome headless可以替代之,别人家说这么用,chrome还是打开窗口了,后来发现chromedriver.exe版本与chrome有严格的对应关系。官网这样说
总算是chrome是无头的了,现在只差跟着up主把参数弄出来就行了,因为有了前面的查找,selenium执行的函数名称也很清楚,
signature = brower.execute_script('return TAC.sign(0)')
果然出来一个参数,开心的拼接url发送请求还是没数据回来。。。
解决方案:
忧伤的想了好久,尝试了多次,终于在手机版里发现可以不用cp和as参数,用哪里生成的signature都能拼接出结果,只是max_behot_time是藏在前一页最后一项的信息里
用requests的session或者scrapy都能连续爬取了。不过m站将返回数量20写进了js里,更改params的参数也不能控制一次的爬取量还是很是遗憾。
import requests
import execjs
import requests
import json
import pandas as pd
def getsig():
f1 = open('tac.js', 'r')
js = f1.read()
ctx = execjs.compile(js)
sig = ctx.call('tac')
return sig
url ='https://m.toutiao.com/list/?tag=news_hot&ac=wap&count=20&format=json_raw&as={}&cp={}&max_behot_time={}&_signature={}&i={}'
param={'time':0}
head={
'user-agent':"Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Mobile Safari/537.36",
'cookie':'Cookie: UM_distinctid=165b34a27731a-08af091a67ebb9-671c1574-1fa400-165b34a2774314; tt_webid=6598406814755440135; uuid="w:e754d55bfb6b4ef4a244960648cbf340"; csrftoken=8b1b549b8c31e14cefe16aa97d1e1662; _ga=GA1.2.1697010536.1536392799; _ba=BA0.2-20180908-51225-5rMin5u1sdxabGk6hoSE; tt_track_id=8e9db579e8a4f11af8d2271a01968604; W2atIF=1; _gid=GA1.2.1176989525.1536566954; __tasessionId=80wif3va21536569183902'
}
article_url =[]
keywords =[]
for _ in range(3):
print(param['time'])
sig = getsig()
can =getas()
se = requests.Session()
res = se.get(url.format(param['time'],sig,param['time']),headers =head)
# cookies = res.cookies.get_dict()
resp= json.loads(res.text)
for data in resp['data']:
article_url.append(data['article_url'])
keywords.append(data['title'])
pa = resp['data'][-1]
param['time'] = pa['behot_time']
df =pd.DataFrame([article_url,keywords]).T
print(df)
结果
好像必须带着cookie才能爬取后续的,不然永远都只能爬取第一页的内容,获取cookie用request的session都不行可能只能用selenium获取cookie之后再来。忧伤。。。