Python网络爬虫实践(1):爬取网易云音乐播放量大于1000万的歌单

Python网络爬虫实践(1)

一、需求分析

爬取网易云音乐播放量大于1000万的歌单。

二、实施步骤

1.安装selenium

selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样。这里我们只需打开CMD,输入

pip install selenium=2.48.0

即可自动下载安装成功。
注:如果不写明版本号,将会自动下载最新版本,最新版的Selenium 已经弃用 PhantomJS ,那就只能使用火狐或者谷歌无界面浏览器。

2.安装PhantomJS

PhantomJS可以把网站加载到内存并执行页面上的JavaScript,但是它不会向用户展示网页的图形界面。Python可以使用selenium执行javascript,selenium可以让浏览器自动加载页面,获取需要的数据。selenium自己不带浏览器,这里为了提高效率,使用headless浏览器如PhantomJS在后台执行。
PhantomJS需要我们到官网下载,然后将其解压,只需将执行文件移动到Python安装目录的Scripts文件夹内即可,如图:
Python网络爬虫实践(1):爬取网易云音乐播放量大于1000万的歌单_第1张图片

3.确定要爬取的数据

首先,我们进入网易云音乐歌单首页:http://music.163.com/#/discover/playlist/?order=hot&cat=%E5%85%A8%E9%83%A8&limit=35&offset=0,通过谷歌浏览器,按F12,找到我们要爬取的数据,如下图:
Python网络爬虫实践(1):爬取网易云音乐播放量大于1000万的歌单_第2张图片
播放数:class = “nb” 封面:class=”msk” ,有标题(title)和链接(“msk”)

4.实现代码

from selenium import webdriver
import csv
#网易云音乐歌单首页的url
url = 'http://music.163.com/#/discover/playlist?order=hot&cat=%E5%85%A8%E9%83%A8&limit=35&offset=0'
#用PhantomJS接口创建一个Selenium的Webdriver
driver = webdriver.PhantomJS()
#创建储存歌单的文件
csv_file = open("playlist.csv","w",newline='')
writer = csv.writer(csv_file)
writer.writerow(['标题','播放数','链接'])
#解析每一页,直到下一页为空
while url != 'javascript:void(0)':
    # 用WebDriver加载页面
    driver.get(url)
    # 切换到内容的iframe
    driver.switch_to.frame("contentFrame")
    # 定位歌单标签
    data = driver.find_element_by_id("m-pl-container").find_elements_by_tag_name("li")
    #解析每一页的所有歌单
    for i in range(len(data)):
        #获取播放数
        nb = data[i].find_element_by_class_name("nb").text
        if '万' in nb and int(nb.split("万")[0]) > 1000:
            #获取播放数大于1000万的歌单封面
            msk = data[i].find_element_by_css_selector("a.msk")
            #把封面标题,连接,播放数写到文件
            writer.writerow([msk.get_attribute('title'),nb,msk.get_attribute('href')])
    #定位下一页的url
    url = driver.find_element_by_css_selector("a.zbtn.znxt").get_attribute('href')
csv_file.close()

运行结束后,我们可在程序目录看到所生成的.csv文件,打开可看到所爬取的数据。如下图所示:
Python网络爬虫实践(1):爬取网易云音乐播放量大于1000万的歌单_第3张图片
Python网络爬虫实践(1):爬取网易云音乐播放量大于1000万的歌单_第4张图片
参考资料:
1. 手把手教你写网络爬虫
2. selenium + PhantomJS使用时 PhantomJS报错解决
3.Selenium + PhantomJS + python 简单实现爬虫的功能

你可能感兴趣的:(Python爬虫)