python爬取网易云音乐百强榜单

#引用第三方库,re,requests库
import requests  #用来提取
import re	#用来正则
#对网页进行提取,把里面的信息提取出来
def html(url):
    try:#看到headers别慌,这都是复制来的
        headers = {
            'authority': 'music.163.com',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36',
            'sec-fetch-dest': 'iframe',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
            'sec-fetch-site': 'same-origin',
            'sec-fetch-mode': 'navigate',
            'referer': 'https://music.163.com/',
            'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8',
            'cookie': '_ga=GA1.2.1412864897.1553836840; _iuqxldmzr_=32; _ntes_nnid=b757609ed6b0fea92825e343fb9dfd21,1568216071410; _ntes_nuid=b757609ed6b0fea92825e343fb9dfd21; WM_TID=Pg3EkygrDw1EBAVUVRIttkwA^%^2Bn1s1Vww; P_INFO=183605463^@qq.com^|1581593068^|0^|nmtp^|00^&99^|null^&null^&null^#not_found^&null^#10^#0^|^&0^|^|183605463^@qq.com; mail_psc_fingerprint=d87488b559a786de4942ad31e080b75f; __root_domain_v=.163.com; _qddaz=QD.n0p8sb.xdhbv8.k75rl6g4; __oc_uuid=2f4eb790-6da9-11ea-9922-b14d70d91022; hb_MA-BFF5-63705950A31C_source=blog.csdn.net; UM_distinctid=171142b7a6d3ba-0fbb0bf9a78375-4313f6a-144000-171142b7a6e30b; vinfo_n_f_l_n3=6d6e1214849bb357.1.0.1585181322988.0.1585181330388; JSESSIONID-WYYY=jJutWzFVWmDWzmt2vzgf6t5RgAaMOhSIKddpHG9mTIhK8fWqZndgocpo87cjYkMxKIlF^%^2BPjV^%^2F2NPykYHKUnMHkHRuErCNerHW6DtnD8HB09idBvHCJznNJRniCQ9XEl^%^2F7^%^2Bovbwgy7ihPO3oJIhM8s861d^%^2FNvyRTMDjVtCy^%^5CasJPKrAty^%^3A1585279750488; WM_NI=SnWfgd^%^2F5h0XFsqXxWEMl0vNVE8ZjZCzrxK^%^2F9A85boR^%^2BpV^%^2BA9J27jZCEbCqViaXw6If1Ecm7okWiL^%^2BKU2G8frpRB^%^2BRRDpz8RNJnagZdXn6KNVBHwK2tnvUL^%^2BxWQ^%^2BhGf2aeWE^%^3D; WM_NIKE=9ca17ae2e6ffcda170e2e6ee84b64f86878d87f04fe9bc8fa3c84f878f9eafb65ab59498cccf48f7929fb5e72af0fea7c3b92a91b29987e670edeba8d1db4eb1af9899d64f8fb40097cd5e87e8968bd949baaeb8acae3383e8fb83ee5ae9b09accc4338aeef98bd94987be8d92d563a388b9d7cc6ef39bad8eb665a989a7adaa4197ee89d9e57ab48e8eccd15a88b0b6d9d1468ab2af88d9709cb2faaccd5e8298b9acb180aeaa9badaa74958fe589c66ef2bfabb8c837e2a3; playerid=67583529',
        }#看到headers别慌,这都是复制来的

        res= requests.get(url, headers=headers)
        res.encoding=res.apparent_encoding
        res.raise_for_status()
        return res.text
    except:
        print("网页提取出现问题")

#提取信息了
def tiqu(text):
    try:
        list = []#  提取文章中的所用信息,然后封装成一个列表,方便后续使用
        all=re.findall(r'
    (.*?)
'
,text,re.I) str=all[0] strlist=re.findall(r'">(.*?)',str) print("排名\t\t\t歌名") j=1 for i in strlist: print("排名:{:<4} 歌名:{:<29} \t".format(j,i)) j=j+1 except: print("提取文章出错") url='https://music.163.com/discover/toplist' htmltext =html(url) tiqu(htmltext) print('2222222@@@@@@@@@@@@@@@@@') print(list)

输出结果如下:

排名 歌名
排名:1 歌名:★kiss me baby☆(吻我,宝)
排名:2 歌名:雾里
排名:3 歌名:各自快乐
排名:4 歌名:科斯迪
排名:5 歌名:花,太阳,彩虹,你
排名:6 歌名:慢热
排名:7 歌名:不舍
排名:8 歌名:嘉宾
排名:9 歌名:给你呀(又名:for ya)
排名:10 歌名:爱情慢慢来
排名:11 歌名:鱼缸
排名:12 歌名:静止 (!歌手) (()歌手)
排名:13 歌名:Dive Back In Time
排名:14 歌名:恋爱画板
排名:15 歌名:身后 (-歌手) (@歌手)
排名:16 歌名:大雾
排名:17 歌名:所爱隔山海
排名:18 歌名:蝴蝶泉边
排名:19 歌名:完美降落
排名:20 歌名:溯 (Reverse) (Live)
排名:21 歌名:红马 (女版)
排名:22 歌名:沉沦与遐想
排名:23 歌名:十平米 (//歌手) (+歌手)
排名:24 歌名:鱼缸【女版】
排名:25 歌名:踏山河
排名:26 歌名:狐狸的童话
排名:27 歌名:Promise
排名:28 歌名:西楼别序
排名:29 歌名:OverThink
排名:30 歌名:溯Reverse (Live)
排名:31 歌名:茫
排名:32 歌名:明明可以爱很久
排名:33 歌名:日不落(温柔版)
排名:34 歌名:best(prod.thatbossevan)
排名:35 歌名:会不会 (&歌手) (℃歌手)
排名:36 歌名:She
排名:37 歌名:Stare at the shadow
排名:38 歌名:沦陷
排名:39 歌名:一分钟恋人
排名:40 歌名:狮子座
排名:41 歌名:Our Song
排名:42 歌名:关机又关机
排名:43 歌名:哪里都是你
排名:44 歌名:有没有人告诉你 (=歌手)
排名:45 歌名:你的轮廓
排名:46 歌名:1987我不知会遇见你 (、歌手) (⊥歌手)
排名:47 歌名:一格格
排名:48 歌名:失联日志
排名:49 歌名:只身
排名:50 歌名:Celebrity
排名:51 歌名:Stitches
排名:52 歌名:万拒(吉他版)
排名:53 歌名:会不会(吉他版)
排名:54 歌名:星星在唱歌(官方女声版)
排名:55 歌名:爱 (…歌手) (:歌手)
排名:56 歌名:回信
排名:57 歌名:四季予你
排名:58 歌名:百变酒精
排名:59 歌名:伯虎说 (feat.唐伯虎Annie)
排名:60 歌名:Calling My Phone
排名:61 歌名:一个人的房间
排名:62 歌名:挽回
排名:63 歌名:不负韶光
排名:64 歌名:失控
排名:65 歌名:听书
排名:66 歌名:天外来物
排名:67 歌名:宇宙警备队
排名:68 歌名:三号线(吉他版)
排名:69 歌名:当爱来临的时候
排名:70 歌名:Wake
排名:71 歌名:克制Restrainer
排名:72 歌名:如果呢
排名:73 歌名:我在等
排名:74 歌名:如一
排名:75 歌名:坠
排名:76 歌名:分你一半
排名:77 歌名:万疆
排名:78 歌名:猫的向日葵
排名:79 歌名:晚风
排名:80 歌名:有你的世界
排名:81 歌名:what that means ?
排名:82 歌名:小时光
排名:83 歌名:Anatomy (Original Mix)
排名:84 歌名:我就是想你
排名:85 歌名:投げキッス
排名:86 歌名:Dope Lovers
排名:87 歌名:蓝
排名:88 歌名:Summertime Sadness (Bttn Remix)
排名:89 歌名:虞兮叹
排名:90 歌名:巴赫旧约
排名:91 歌名:秋
排名:92 歌名:不是每盏灯都能为你而亮
排名:93 歌名:起床后就想起你
排名:94 歌名:梦
排名:95 歌名:沈园外
排名:96 歌名:Leave The Door Open
排名:97 歌名:GASMAN
排名:98 歌名:我都明白
排名:99 歌名:虚构人设
排名:100 歌名:outro
2222222@@@@@@@@@@@@@@@@@

可以自定义保存成txt文件。略。

你可能感兴趣的:(python2021,列表,suse,zip,爬虫)