要点:1.js加密就是麻烦,只能百度寻找了!设计的加密模块binascii、Crypto、base64
2.requests.Session的用法,可以指定headers、cookies
3.可以用scrapy.selector 替代beautiful 搜索
4.requests 可以直接json()得到json文本
5.用自己加到requests模块的urlretrieve 下载文件
说干就干,先打开charles,然后进入歌单页面
这时在看看charles,先从code是206(歌曲mp3的网址)开始分析,最后找到歌单
mp3文件
复制mp3的url,看看哪个网站出现
直接找到了包含歌曲url信息的网址,不过蛋疼的是这得POST,再看看post的参数
CTRL+F 了下,完全找不到这2个参数从哪里来,百度了下,特么需要解码,算了,先跳过,先说说歌单
看来很简单的了,歌名前面就是id了,但是特么没有歌手信息啊,还得再折腾
得把’song?id=64006‘ 提取出来,进入每一首歌的页面,再汇总
import requests,os,json,re from scrapy.selector import Selector class wangyiyun(): def __init__(self): self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36', 'Referer': 'http://music.163.com/'} self.main_url='http://music.163.com/' self.session = requests.Session() self.session.headers.update(self.headers) def get_songurls(self,playlist): '''进入所选歌单页面,得出歌单里每首歌各自的ID 形式就是“song?id=64006"''' url=self.main_url+'playlist?id=%d'% playlist re= self.session.get(url) #直接用session进入网页,懒得构造了 sel=Selector(text=re.text) #用scrapy的Selector,懒得用BS4了 songurls=sel.xpath('//ul[@class="f-hide"]/li/a/@href').extract() return songurls #所有歌曲组成的list def get_songinfos(self,songurls): '''根据songid进入每首歌对应的url,拿到歌手名字,url就是:"http://music.163.com/song?id=64006"''' for songurl in songurls: url=self.main_url+songurl re=self.session.get(url) sel=Selector(text=re.text) song_id = url.split('=')[1] song_name = sel.xpath("//em[@class='f-ff2']/text()").extract_first() singer= '&'.join(sel.xpath("//p[@class='des s-fc4']/span/a/text()").extract()) print(song_id,song_name,singer) def work(self,playlist): songurls=self.get_songurls(playlist) self.get_songinfos(songurls) d=wangyiyun() d.work(2214059025)
结果如下:
好了!,终于到了最难搞的部分,解码!!
老实说,我是不太看得明,我把我所参考的3位大神的URL贴上来,大家不妨深入研究!
C语言:https://www.zhanghuanglong.com/detail/csharp-version-of-netease-cloud-music-api-analysis-(with-source-code)
Python单纯的解码部分:https://segmentfault.com/a/1190000012818254?utm_source=tuicool&utm_medium=referral
@Jack-Cherish 老哥的完整代码:https://github.com/Jack-Cherish/python-spider
刚才已经由歌单得到歌曲的ID、歌名、歌手
接着就是如何根据歌曲ID得到MP3的URL了,很明显,中间得经过这个网址
就能得出歌曲的真实地址了,可是,需要post2个参数params跟encSecKey
这2个参数params跟encSecKey哪里来的呢,就是要解码!!
点击歌曲所在页面的控制台(F12) Sources
,可以看到有很多请求的数据,这里包含 js
css
image
以及页面,基本上大的公司加密的方法都是放在一个单独的js文件中,所以我们可以每一个个展开只选择js文件 然后搜索参数 params
或者 encSecKey
其中一个即可
可以看到图中这个core.js
http://s3.music.126.net/sep/s/2/core.js?51c175b69f779986b5f2b7445b85c7b1含有encSecKey
有三个,那应该就是他了,最后再点击红色箭头所指的就可以美化一下代码啦,不然你就只能看着一坨坨的
通过搜索就可以看到这里有我们需要的两个参数,那么接下来就只需要研究这两个参数所在的上面一部分代码即可,其他代码都无需再管。
var bBj9a = window.asrsea(JSON.stringify(j3x), bwA8s(["流泪", "强"]), bwA8s(Uf9W.md), bwA8s(["爱心", "女孩", "惊恐", "大笑"])); e3x.data = k3x.cC4G({ params: bBj9a.encText, encSecKey: bBj9a.encSecKey
这是JS了,我完全不懂,看了大神们的解说,也一知半解,我还是尝试着跟着他们去搞吧
先把window.asrsea 这个函数代码,ctrl+f 搜索window.asrsea,只有2个,一个是上面的,另外一个就是下面的代码
!function() { function a(a) { var d, e, b = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", c = ""; for (d = 0; a > d; d += 1) e = Math.random() * b.length, e = Math.floor(e), c += b.charAt(e); return c } function b(a, b) { var c = CryptoJS.enc.Utf8.parse(b) , d = CryptoJS.enc.Utf8.parse("0102030405060708") , e = CryptoJS.enc.Utf8.parse(a) , f = CryptoJS.AES.encrypt(e, c, { iv: d, mode: CryptoJS.mode.CBC }); return f.toString() } function c(a, b, c) { var d, e; return setMaxDigits(131), d = new RSAKeyPair(b,"",c), e = encryptedString(d, a) } function d(d, e, f, g) { var h = {} , i = a(16); return h.encText = b(d, g), h.encText = b(h.encText, i), h.encSecKey = c(i, e, f), h } function e(a, b, d, e) { var f = {}; return f.encText = c(a + e, b, d), f } window.asrsea = d, window.ecnonasr = e }();
注意了,window.asrsea = d,意思就是这个window.asrsea函数就是d!!!
function d(d, e, f, g) { var h = {} , i = a(16); return h.encText = b(d, g), h.encText = b(h.encText, i), h.encSecKey = c(i, e, f), h }
回头看看window.asrsea,有4个参数,其实就是对应上面的d,e,f,g,把这4个参数代入后,返回的
h.encText---------->params: bBj9a.encText, h.encSecKey-------->encSecKey: bBj9a.encSecKey
所以破解了这个d函数就能得到我们想要的2个参数了,
先是调用a函数得到i---------->i = a(16)
接着h.encTect,调用了2次b函数,h.encText = b(d, g)---------->h.encText = b(h.encText, i)
最后h.encSecKey, 调用了c函数,---------->h.encSecKey = c(i, e, f)
开始破解!
1.好了,那么先破解i,搞懂a函数
function a(a) { var d, e, b = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", c = ""; for (d = 0; a > d; d += 1) e = Math.random() * b.length, e = Math.floor(e), c += b.charAt(e); return c }
大佬们都说a方法是产生16位随机字符串,其实可以用固定的,但是我还是用Jack的吧!
好像很简单,i=binascii.hexlify(os.urandom(16))[:16]
分析:binascii.hexlify() 就是把字符串每一个字节的数据转换成相应的2位十六进制表示
os.urandom(n) 是一种随机生成n个字节字符串的方法
特么真的其实就是随机搞个16位的字符串,而且是bytes
b'40c9505f1d021439'
2.接着,就是把h.encTect搞出来,b函数
h.encText = b(d, g)---------->h.encText = b(h.encText, i)
function b(a, b) {
var c = CryptoJS.enc.Utf8.parse(b)
, d = CryptoJS.enc.Utf8.parse("0102030405060708")
, e = CryptoJS.enc.Utf8.parse(a)
, f = CryptoJS.AES.encrypt(e, c, {
iv: d,
mode: CryptoJS.mode.CBC
});
return f.toString()
}
很明显,看不懂,先看看大佬们怎写:
from Crypto.Cipher import AES import base64 def aes_encrypt(text, key): iv = "0102030405060708" pad = 16 - len(text) % 16 text = text + pad * chr(pad) encryptor = AES.new(key, AES.MODE_CBC, iv) result = encryptor.encrypt(text) result_str = base64.b64encode(result) return result_str
很明显,也看不懂。反正这样写就行了。
3.最后,就是把h.encSecKey搞出来,c函数
function c(a, b, c) {
var d, e;
return setMaxDigits(131),
d = new RSAKeyPair(b,"",c),
e = encryptedString(d, a)
}
大佬们的写法:
def rsa_encrpt(text, pubKey, modulus): text = text[::-1] rs = pow(int(binascii.hexlify(text), 16), int(pubKey, 16), int(modulus, 16)) return format(rs, 'x').zfill(256)OK,现在把函数都搞清楚了,再回头看整个原函数:
var bBj9a = window.asrsea(JSON.stringify(j3x), bwA8s(["流泪", "强"]), bwA8s(Uf9W.md), bwA8s(["爱心", "女孩", "惊恐", "大笑"])); e3x.data = k3x.cC4G({ params: bBj9a.encText, encSecKey: bBj9a.encSecKey输入的4个参数到底是什么东东呢?
关于这个,大佬们说可以像pycharm可以设断点,就能看这4个参数的值了,我也折腾了很久,终于搞懂了!!
设置断点,然后按播放
还得按多记下右上角的resume,再选中参数,就能看到参数的值了!!
第一个参数明显跟歌曲的id有关,其余3个都是常量,现在可以把这个解码给写出来了!!
import os,shutil,json,requests from binascii import hexlify from Crypto.Cipher import AES import base64 class Encrypyed(): def __init__(self): self.pub_key = '010001' self.modulus = '00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7' self.nonce = '0CoJUm6Qyw8W8jud' def create_secret_key(self, size): return hexlify(os.urandom(size))[:16].decode('utf-8') def aes_encrypt(self,text, key): iv = '0102030405060708' pad = 16 - len(text) % 16 text = text + pad * chr(pad) encryptor = AES.new(key, AES.MODE_CBC, iv) result = encryptor.encrypt(text) result_str = base64.b64encode(result).decode('utf-8') return result_str def rsa_encrpt(self,text, pubKey, modulus): text = text[::-1] rs = pow(int(hexlify(text.encode('utf-8')), 16), int(pubKey, 16), int(modulus, 16)) return format(rs, 'x').zfill(256) def work(self,text): text = json.dumps(text) i=self.create_secret_key(16) encText =self.aes_encrypt(text, self.nonce) encText=self.aes_encrypt(encText,i) encSecKey=self.rsa_encrpt(i,self.pub_key,self.modulus) data = {'params': encText, 'encSecKey': encSecKey} return data do=Encrypyed() data=do.work(64006) url='http://music.163.com/weapi/song/enhance/player/url?csrf_token=' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36', 'Referer': 'http://music.163.com/'} session = requests.Session() session.headers=headers re=session.post(url,data=data) print(re.text)
OK!!!成功了,现在就把代码整合下,根据歌单下载网易云的歌曲
完整代码:
import requests,os,json,base64 from scrapy.selector import Selector from binascii import hexlify from Crypto.Cipher import AES class Encrypyed(): '''传入歌曲的ID,加密生成'params'、'encSecKey 返回''' def __init__(self): self.pub_key = '010001' self.modulus = '00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7' self.nonce = '0CoJUm6Qyw8W8jud' def create_secret_key(self, size): return hexlify(os.urandom(size))[:16].decode('utf-8') def aes_encrypt(self,text, key): iv = '0102030405060708' pad = 16 - len(text) % 16 text = text + pad * chr(pad) encryptor = AES.new(key, AES.MODE_CBC, iv) result = encryptor.encrypt(text) result_str = base64.b64encode(result).decode('utf-8') return result_str def rsa_encrpt(self,text, pubKey, modulus): text = text[::-1] rs = pow(int(hexlify(text.encode('utf-8')), 16), int(pubKey, 16), int(modulus, 16)) return format(rs, 'x').zfill(256) def work(self,text): text = json.dumps(text) i=self.create_secret_key(16) encText =self.aes_encrypt(text, self.nonce) encText=self.aes_encrypt(encText,i) encSecKey=self.rsa_encrpt(i,self.pub_key,self.modulus) data = {'params': encText, 'encSecKey': encSecKey} return data class wangyiyun(): def __init__(self): self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36', 'Referer': 'http://music.163.com/'} self.main_url='http://music.163.com/' self.session = requests.Session() self.session.headers=self.headers self.ep=Encrypyed() def get_songurls(self,playlist): '''进入所选歌单页面,得出歌单里每首歌各自的ID 形式就是“song?id=64006"''' url=self.main_url+'playlist?id=%d'% playlist re= self.session.get(url) #直接用session进入网页,懒得构造了 sel=Selector(text=re.text) #用scrapy的Selector,懒得用BS4了 songurls=sel.xpath('//ul[@class="f-hide"]/li/a/@href').extract() return songurls #所有歌曲组成的list ##['/song?id=64006', '/song?id=63959', '/song?id=25642714', '/song?id=63914', '/song?id=4878122', '/song?id=63650'] def get_songinfo(self,songurl): '''根据songid进入每首歌信息的网址,得到歌曲的信息 return:'64006','陈小春-失恋王''' url=self.main_url+songurl re=self.session.get(url) sel=Selector(text=re.text) song_id = url.split('=')[1] song_name = sel.xpath("//em[@class='f-ff2']/text()").extract_first() singer= '&'.join(sel.xpath("//p[@class='des s-fc4']/span/a/text()").extract()) songname=singer+'-'+song_name return str(song_id),songname def get_url(self,ids,br=128000): '''self.ep.work输入歌曲ID,解码后返回data,{params 'encSecKey} 然后post,得出歌曲所在url''' text = {'ids': [ids], 'br': br, 'csrf_token': ''} data=self.ep.work(text) url = 'http://music.163.com/weapi/song/enhance/player/url?csrf_token=' req = self.session.post(url, data=data) song_url=req.json()['data'][0]['url'] return song_url def download_song(self, songurl, dir_path): '''根据歌曲url,下载mp3文件''' song_id, songname = self.get_songinfo(songurl) #根据歌曲url得出ID、歌名 song_url = self.get_url(song_id) #根据ID得到歌曲的实质URL path = dir_path + os.sep + songname + '.mp3' #文件路径 requests.urlretrieve(song_url, path) #下载文件 def work(self,playlist): songurls=self.get_songurls(playlist) #输入歌单编号,得到歌单所有歌曲的url dir_path=r'C:\Users\Administrator\Desktop' for songurl in songurls: self.download_song(songurl,dir_path) #下载歌曲 if __name__ == '__main__': d=wangyiyun() d.work(2214059025)
OK,完成,收工!!