php phantomj,射手网复活攻略:用百度快照和phantomjs让射手网起死回生

php phantomj,射手网复活攻略:用百度快照和phantomjs让射手网起死回生_第1张图片

牢骚

射手网关门了,声讨的话网上已经铺天盖地,我不想多啰嗦,我只说一句:某些部门的老爷有折腾字幕组的闲工夫,不如去整治一下铺天盖地的电视购物骗子广告,我会给你们烧香感谢的。

正题

射手网关站之后,网上流传一个射手下载器,简单研究了一下,发现这东西调用的是射手播放器的api,一部电影只能获取一个字幕,无法选择,而且很多字幕都不匹配。

那么问题来了,既然射手播放器仍然可以获取字幕,那么证明字幕文件仍然存在于射手的服务器上。因为它们是同一个来源,我们能不能用其他方法也从服务器上得到字幕呢?也就是说,射手网只是关闭了前台页面,我们只要获取字幕的文件名索引,仍然可以下载到字幕文件,于是我想到了百度快照。

只需在百度里输入site:shooter.cn 电影名称,就会出现很多结果,这些结果现在直接打开,会跳转到射手首页,可是我们可以点击快照:

php phantomj,射手网复活攻略:用百度快照和phantomjs让射手网起死回生_第2张图片

有的快照是结果页的,有的快照打开会出现字幕列表,如果出现列表,打开其中的任意一项仍然会跳转到首页,怎么办呢?好办,我们先去看列表里任意一项的链接,链接的最后是一个xml文件,我们用这个xml文件名做关键字继续搜索,就能得到它的结果页快照:

php phantomj,射手网复活攻略:用百度快照和phantomjs让射手网起死回生_第3张图片

php phantomj,射手网复活攻略:用百度快照和phantomjs让射手网起死回生_第4张图片

好了,第一步已经完成了,百度快照几乎保存了所有射手字幕的索引,只要用一定的技巧,都可以搜出来,那么接下来,我们就要获取字幕。

通过分析快照结果页中的射手源码,我发现了一个猫腻,即,射手的每一个字幕文件都有一个唯一的id,而这个id以下载次数的形式显示在每个字幕的页面中,也就是说,页面中显示的下载次数,并不是真正的次数,而是字幕的id号:

php phantomj,射手网复活攻略:用百度快照和phantomjs让射手网起死回生_第5张图片

有了这个id,一切好办,射手现在还能访问的页面,除了那个告别首页,还有一个字幕上传页面 http://shooter.cn/sub/upload.html,网站都关了还留着上传页面干嘛?一定有问题,那么打开这个页面,查看一下里面所有的js代码:

php phantomj,射手网复活攻略:用百度快照和phantomjs让射手网起死回生_第6张图片

终于,在loadmain.js里面我发现了这样的代码:function shtgdownfile(g, j, f, d) {

var a = makeXmlReq();

try {

g.target = ""

} catch (c) {

alert(c)

}

a.open("GET", "/files/file3.php?hash=" + shtg_filehash + "&fileid=" + j, false);

a.send("");

if (a.status == 200 || a.status == 304) {

var b = a.responseText;

if (b && b.indexOf("ERR:") 

showcounter("downcounter", j, "file", "total", 1);

b = (shtg_calcfilehash(b));

var h = "http://file1.shooter.cn" + b;

if (!d) {

g.href = h;

g.target = "_blank"

}

if (f) {

location.href = h

}

return true

}

}

alert("文件获取失败:" + a.status + " _ " + b)

}

一切一目了然,我们只需照做即可

首先,在浏览器里面输入:http://www.shooter.cn/files/file3.php?hash=duei7chy7gj59fjew73hdwh213f&fileid=所要下载的字幕文件的id

(其中,duei7chy7gj59fjew73hdwh213f就是上面代码中的shtg_filehash,它是个常量,值同样来自于loadmain.js),会返回如下的结果。注意这里的编码要用utf8,否则显示乱码:

807a71569797e2fe2710de1df001bac4.png

这是一段经过变换的post参数,要变换回去,我们按照上面代码中所写,利用射手自身的一个函数

shtg_calcfilehash,先用浏览器访问http://shooter.cn/sub/upload.html,然后让浏览器执行:javascript:var address=shtg_calcfilehash('刚才得到的字符串');alert(address);

php phantomj,射手网复活攻略:用百度快照和phantomjs让射手网起死回生_第7张图片

非常好,直接弹出了正确的post参数,在这段参数的前面加上http://file1.shooter.cn,直接访问,bingo!!!,字幕终于成功下载了!

神器:自动化下载脚本

上面的下载过程实在太繁琐,如果有很多字幕要下载,每个都这样来一遍,不得累死啊,所以,一个下载脚本是必须的。

在这里我要介绍一个强大的爬虫引擎:phantomjs,它可以用javascript做开发,只有一个可执行文件却非常强大,实际上它是一个没有界面的webkit引擎浏览器,而且是跨平台的,它的好处一个是脚本语言直接使用js,这样页面中很多js函数它可以直接使用和修改,另一个是它可以方便的抓取到用ajax异步生成的页面。

好了,介绍结束,脚本代码如下:/*

Name: phantomjs射手字幕下载脚本

File: shooter.js

Author: b41k3r

*/

var system = require('system')

var fileid = system.args[1];

var page = require('webpage').create();

var execFile = require("child_process").execFile

var fs = require("fs");

var filename = "address.txt";

if (!fs.exists(filename)) {

var file = fs.open(filename, 'a');

}else{

fs.remove(filename);

var file = fs.open(filename, 'a');

}

var url = "http://www.shooter.cn/files/file3.php?hash=duei7chy7gj59fjew73hdwh213f&fileid="+fileid;

page.open(url, function (status) {

if (status !== 'success') {

console.log('Unable to post!');

} else {

if (page.injectJs('filehash.js')) {

var address = 'http://file1.shooter.cn' + page.evaluate(function(post_parameter) {return shtg_calcfilehash(post_parameter);},page.plainText);

console.log(address);

file.write(address);

file.close();

execFile("wget", ["-O", fileid + ".rar","-i", "address.txt"], null, function (err, stdout, stderr) {

console.log("execFileSTDOUT:", JSON.stringify(stdout))

console.log("execFileSTDERR:", JSON.stringify(stderr))

})

}

}

setTimeout(function () { phantom.exit(0) }, 2000)

});

phantomjs没有下载功能,这里的下载直接调用了wget,另外注意上面的page.injectJs('filehash.js'),这个包含进来的filehash.js文件的内容实际上就是射手的变换函数shtg_calcfilehash,我把它放在了本地执行,phantomjs的好处在这里完全体现。

‍在命令行执行: phantomjs shooter.js 字幕文件的id :‍

php phantomj,射手网复活攻略:用百度快照和phantomjs让射手网起死回生_第8张图片

脚本成功的下载了字幕。一切大功告成,射手网复活了。

phantomjs以及脚本源码和wget打包下载

[本文由作者b41k3r撰写并投稿FreeBuf,版权属于b41k3r,转载须注明来自FreeBuf.COM]

你可能感兴趣的:(php,phantomj)