python爬取网易云音乐歌单

获取网易云音乐的某个分类下的歌单的详细页地址、歌单标题、歌单播放量、歌单贡献者、歌单索引信息等。并保存到csv文件中去。

用到的模块:requests、time、BeautifulSoup

python爬取网易云音乐歌单_第1张图片

 

选择不同类别的歌曲,我们发现只是url中cat位置发生变化,因此想要爬取其他分类,只需更改url即可。

python爬取网易云音乐歌单_第2张图片

这里以爬取流行类为例:

 观察各个页码对应的url。python爬取网易云音乐歌单_第3张图片

python爬取网易云音乐歌单_第4张图片我们可以发现一些规律,每翻到下一页,url中offset增加35,我们在看最后一页:

python爬取网易云音乐歌单_第5张图片 

这样我们就可以成功的拼接每一页的网址了:

for i in range(0,1295,35):
    url = 'https://music.163.com/discover/playlist/?cat=流行&order=hot&limit=35&offset=' + str(i)

查找歌单元素的位置:在id=“m-pl-container”的li标签下 

python爬取网易云音乐歌单_第6张图片

每个li标签下有我们想要的信息:

python爬取网易云音乐歌单_第7张图片

 

 

代码:

import requests
import time
from bs4 import BeautifulSoup

headers={
    "user-agent":"Mozilla / 5.0(Windows NT 10.0;WOW64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 75.0.3770.100Safari / 537.36"
}

for i in range(0,1295,35):
    url = 'https://music.163.com/discover/playlist/?cat=流行&order=hot&limit=35&offset=' + str(i)
    response = requests.get(url=url, headers=headers)
    html = response.text
    soup = BeautifulSoup(html, 'html.parser')
    # 获取包含歌单详情页网址的标签
    ids = soup.select('.dec a')
    # 获取包含歌单索引页信息的标签
    lis = soup.select('#m-pl-container li')
    print(len(lis))
    for j in range(len(lis)):
        # 获取歌单详情页地址
        url = ids[j]['href']
        # 获取歌单标题,替换英文分割符
        title = ids[j]['title'].replace(',', ',')
        # 获取歌单播放量
        play = lis[j].select('.nb')[0].get_text()
        # 获取歌单贡献者名字
        user = lis[j].select('p')[1].select('a')[0].get_text()
        # 输出歌单索引页信息
        print(url, title, play, user)
        # 将信息写入CSV文件中
        with open('playlist.csv', 'a+', encoding='utf-8') as f:
            f.write(url + ',' + title + ',' + play + ',' + user + '\n')
    time.sleep(2)

运行结果:

python爬取网易云音乐歌单_第8张图片

python爬取网易云音乐歌单_第9张图片

你可能感兴趣的:(python爬虫,网易云音乐,python)