- 1:这篇文件仅仅是技术分析,不提供任何工具进行试用。
- 2:这篇文件是针对于对编程有一定基础的同学
- 3:实现本文章的方法需要下载chrome浏览器源码并且编译。
- 4:本文提到的下载其实您完全可以用录屏来解决,这里只是对于技术的追求和讨论
来句振奋人心的:重剑无锋,大巧不工。
看到html5下载,一般大家都会去找m3u8,得到对应的key,然后根据KEY计算偏移。复杂点的搞个算法,藏到js里面,让你找不到key,或者干脆给一个加过密的,于是解密变成了对于js的阅读理解。
而且您可以分析出一个网站的key生成方式,但是换了另外一个网站,基本上还要从头搞起。
这里提供一个方法,从根本上搞定html5的播放,因为这个方法太危险,基本上可以扫清市面上所有的加密方式,我自己也怕了,所以这里只说一下思路,不提供源码,不提供源码,不提供源码。
首先html5是采用的浏览器内部的播放和解码程序,firefox我没有研究,我研究是chrome。对于chrome来说,在之前版本用的是ffmpeg做的媒体解码,我最近下载源码时,已经在往mojo切换了,这些都不重要,重要的是,您可以知道,
无论那些加密视频怎么玩花样,最后一定是需要输出音频流,视频流到播放器的,这里的播放器就是ffmpeg,或者是mojo,他们是chrome这个box和外界设备的交互。
答案现在很显而易见,只要可以得到音视频流,基本上可以为所欲为了。
事实上,这个音视频流想要得到并不难,你要知道firefox和chrome可是开源的浏览器,这些代码就是明明白白的放在那里。
这里给大家讲三个思路,分别是难,中,易:
- 1:最难的,也是基本上无法防范的,直接修改底层播放器代码,分别得到音频流和视频流。主要关系到的文件应该是:
chromiumsrcmediamojoclientsmojo_audio_decoder.cc,
chromiumsrcmediamojoclientsmojo_video_decoder.cc
这里又有很多做法,可以直接攫取frame,然后做同步,或者重写decode。 不展开,估计用的同学比较少,但是这种方法的好处是,即使采用最高级别的CDM加密,也是不能阻挡你的步伐。
- 2:中等难度:
Pipeline里面重写read。 这里简单多说两句,网页开始播放多媒体时,会生成一个media::WebMediaPlayerImpl对象,它包含media::PipelineController,这个controller负责管理media::DataSource, media::Demuxer, and media::Renderer
其中datasource是用来提供数据给demuxer进行音视频流解码或者同步的。从这里入手的好处是:不需要自行去做frame的音视频同步,不好的地方是,如果采用playready和widevine方式加密的话,这个地方拿到的可能是没有经过解密的数据。
BTW:既然说到这个地方,就顺便再说两句,这里datasource有两种数据读取的方式,一种是Media Source Extensions (MSE),一种是直接从network读取。如果在这一层解决,可以handle到这两种方式。
需要注意的是readcb这个方法。
- 3:最低难度:
大部分市面上的m3u8可以再浏览器上看的,都是采用的MSE进行数据传输的,他们绝大多数都是通过html5提供的方法把数据传递给浏览器进行播放,而且根据html5规定,传递给浏览器解码器的数据必须按照顺序提交。解码器是不给你进行排序的。
所以其实只要针对浏览器的接口,把响应的数据直接导出,合并后就是传给你的媒体文件。
这里多说一句,有的网站上会有一个动态的logo,是你的会员名称或者和登录身份有关的显示出来,防止录屏,这其实是MSE中的一路视频流,干掉他就得到无水印的版本。
浏览器的接口是addSourceBuffer。 怎么去hook有很多种方法,我这里只说和浏览器直接相关的。
在chrome 源文件目录下有个chromiumsrcthird_partyblinkrenderermodulesmediasourcesource_buffer.cc ,这个文件里面有几个方法,方法名叫做:appendBuffer, AppendBufferAsyncPart。
其中appendbuffer函数里面的参数NotShared data 和AppendBufferAsyncPart函数里面有一句:
bool append_success = web_source_buffer_->Append(append_data, append_size, ×tamp_offset_);
在这里的append_data, append_size 就是MSE传递进来的数据。这两个地方可以对照着看。
这两个地方就是原原本本的解密数据,其实直接把这两个地方的数据转存出来,就是当前网络视频播放的小东西了。根本无需去研究什么key,什么加密方式。
一般来说用最低难度的方法去做,市面上已经可以横扫了。因为当前的主流都是HLS+key 都是在js层的方法,我们用底层方式去搞真是杀鸡用牛刀,不过我恰恰是最喜欢杀鸡用牛刀的。哈哈
我还有几个没有讲到的地方,简单列一下:
当视频没有从第一帧开始播放时,如何处理。 其实是有个文件叫做resource_fetcher.cc,他会告诉你当前load的是哪个文件,可以根据文件排序,然后点击最开头,让视频开始播放。这样就可以更方便一些。
如何多线程下载,嗯。。。这个需要好好想想,可以做一下快进。默认快速播放,强迫缓冲区刷新。这样可以快速下载,多线程有点麻烦。
有的网站会检测是不是标准浏览器(目前为止只遇到一个),这个没有继续研究,其实想想,浏览器在你手里,源码都有了,返回啥不行呀。
我测试时直接用的log输出数据到文件,通过读取log文件生成MP4证明思路可行,附上一个python代码,可以从十六进制转换成十进制写文件。作为文章的结尾吧。
with open("ChromeHTML5\chrome_debug.log",'r',encoding='UTF-8') as file:
with open("D:\\lesson4.mp4",'wb') as g:
for line in file.readlines():
key_str = "this is data source:"
if line.find(key_str) != -1:
key_str = key_str
ifind =line.find(key_str)
if ifind > 0:
ifind = ifind + len(key_str)
str_line = line[ifind : ]
str_line = str_line.strip()
g.write(bytes.fromhex(str_line))
else:
continue