爬虫还能这么玩-防采集?MSUP阿里加密视频沦陷!

AnyProxy,springboot,ffmpeg珠联璧合,下载msup大会阿里加密视频,学习大牛打怪招式。

文末有福利~

程序执行流程图

爬虫还能这么玩-防采集?MSUP阿里加密视频沦陷!_第1张图片

MSUP 是做什么的?

麦思博(msup)有限公司是一家面向软件研发团队的培训咨询机构,专注于软件研发中心的快速成长,服务于软件开发团队的技能提升、软件工程的实际应用和软件品质的创新与超越。强调人员、技术、流程和管理的有机结合,注重个体的技能提升与职业发展,研发团队的管理与协作。分享世界级软件研发团队最佳管理实践,这正是msup的精髓所在!

爬虫还能这么玩-防采集?MSUP阿里加密视频沦陷!_第2张图片

AnyProxy 简介

AnyProxy是一个开放式的HTTP代理服务器。

Github主页:https://github.com/alibaba/an...

主要特性包括:

  • 基于Node.js,开放二次开发能力,允许自定义请求处理逻辑
  • 支持Https的解析
  • 提供GUI界面,用以观察请求

作为全局模块

这里以Windows为例

npm install -g anyproxy

启动

  • 命令行启动AnyProxy,默认端口号8001
anyproxy
  • 启动后将终端http代理服务器配置为127.0.0.1:8001即可
  • 访问http://127.0.0.1:8002 ,web界面上能看到所有的请求信息

代理HTTPS

  • AnyProxy默认不对https请求做处理,如需看到明文信息,需要配置CA证书
解析https请求的原理是中间人攻击(man-in-the-middle),用户必须信任AnyProxy生成的CA证书,才能进行后续流程
  • 生成证书并解析所有https请求
anyproxy-ca #生成rootCA证书,生成后需要手动信任
anyproxy --intercept #启动AnyProxy,并解析所有https请求

证书生成后会自动打开生成证书的目录,默认位置:{userhome}\.anyproxy\certificates,双击打开证书,根据提示安装。

rule模块简介

AnyProxy提供了二次开发的能力,你可以用js编写自己的规则模块(rule),来自定义网络请求的处理逻辑。

规则模块的能力范围包括:

  • 拦截并修改正在发送的请求

    • 可修改内容包括请求头(request header),请求体(request body),甚至是请求的目标地址等
  • 拦截并修改服务端响应

    • 可修改的内容包括http状态码(status code)、响应头(response header)、响应内容等
  • 拦截https请求,对内容做修改

    • 本质是中间人攻击(man-in-the-middle attack),需要客户端提前信任AnyProxy生成的CA
anyproxy --rule ./rule.js

我们使用到的脚本示例

module.exports = {
    * beforeSendResponse(requestDetail, responseDetail) {
        // 这里可能需要根据自己所在地区切换下URL,看下请求替换就可以了
        if (requestDetail.url.indexOf('vod.cn-shanghai.aliyuncs.com') > -1) {
            const newResponse = responseDetail.response;
            const body = newResponse.body;
            let result = JSON.parse(body.toString());
            let res = result.PlayInfoList.PlayInfo;
            let hdInfo;
            for (var i = 0; i < res.length; i++) {
                var r = res[i];
                if (r.Definition == 'HD') {
                    hdInfo = r;
                    break;
                }
            }
            if (!hdInfo) {
                hdInfo = res[res.length - 1];
            }
            let url = hdInfo.PlayURL;
            let vid = result.VideoBase.VideoId;
            console.log(url);
            console.log(vid);

            return {
                response: newResponse
            };
        }
    },
};

启动脚本

这里不在赘述如何获取全部视频和如何获取视频播放地址,有心的人自然知道怎么处理
anyproxy --intercept --rule rule.js  

msup-any-start

打开浏览器输入地址 chrome://settings/ 展开 高级选项 - 打开您计算机的代理设置
配置代理地址和端口为 127.0.0.1 8001 点击保存即可

爬虫还能这么玩-防采集?MSUP阿里加密视频沦陷!_第3张图片

浏览器输入视频地址 https://case.msup.com.cn/play?id=165&videoId=0 观察控制台,发现可以打印出我们需要的视频地址信息

msup-any-console

拷贝地址使用 ffplay 播放确认是否可用

ffplay url

爬虫还能这么玩-防采集?MSUP阿里加密视频沦陷!_第4张图片

控制台有日志输出,并且开始播放,binggo~,地址对了,接下来就是如何保存视频。

ffmpeg 简介

ffmpeg -i  [url] [test.mp4]  

springboot

使用springboot的目的是把整个流程脚本化执行批量下载,关于所有视频信息的获取,有兴趣的自行研究吧,这里只介绍如何根据得到的视频信息自动下载。

我们需要借助 anyproxyrule 脚本的能力 拦截 response 把视频地址发送到我们的程序,然后自动下载。接口请求使用 axios 库。

发送视频信息到服务端

// 我是个java程序猿,不要吐槽我的前端代码!
if (vid && url) {
    axios.get('http://127.0.0.1:8081/msup/item/vid?vid=' + vid + '&url=' + url).then(function (response) {
        const data = response.data;
        if (data.id) {
            axios.get('http://127.0.0.1:8081/msup/down?id=' + data.id + '&url=' + data.url);
        } else {
            console.log('>>>>>>>>>>>>>>>>>>>>')
        }
    });
}

服务端根据视频信息进行下载

public static String ffmpeg(String id, String url) {
    return execute("sh", "-c", "cd /root/msup/ && nohup ffmpeg -i " + url + " " + id + ".mp4  > " + id + ".log 2>&1 &");
}

展示下成果

爬虫还能这么玩-防采集?MSUP阿里加密视频沦陷!_第5张图片

msup-ppt

关注公众号,回复 msup 获取所有ppt资料

一个程序猿的异常

关注公众号,回复 msup 获取所有ppt资料

你可能感兴趣的:(网页爬虫,node.js,spring)