Python利用selenium简单的爬取网易云歌曲排行榜

最近学习了一下selenuim和XPath,技术还很菜,简单的爬取了一下网易云歌曲的排行榜信息,最后保存到mongodb里面

要爬取的部分如下图所示:
Python利用selenium简单的爬取网易云歌曲排行榜_第1张图片
爬取每个歌曲的排名,名称,时长,歌手。

创建mongodb连接对象,指定数据库和集合

# 创建mongodb连接对象
client = pymongo.MongoClient(host='localhost',port = 27017)
# 指定数据库
db = client.test
# 指定集合
collection = db.songList

创建Chrome浏览器对象,调用get()方法访问页面。

# 导入包
from selenium import webdriver
# 创建浏览器对象
driver = webdriver.Chrome()
# 访问页面
driver.get('https://music.163.com/')

然后在网易云音乐首页点击排行榜进入要爬取的页面,利用selenium查找节点和点击的功能可以完成这些操作。

# 利用find_element_by_xpath()方法找到排行榜按钮的节点,click()完成点击操作。
driver.find_element_by_xpath('//*[@id="g_nav2"]/div/ul/li[2]/a/em').click()

到了排行榜页面需要注意的是,歌曲的信息在子Frame里面,光查找节点是找不到的,需要先切换到Frame里面,利用switch_to.frame()方法切换。
Python利用selenium简单的爬取网易云歌曲排行榜_第2张图片

# 括号中的参数可以输入iframe标签的id值或者name值
driver.switch_to.frame('contentFrame')

后面的就是数据的提取,

# 获取所有的歌曲信息的节点
# 括号中的xpath路径写法有多种,看自己习惯
divs = driver.find_elements_by_xpath('//*[@class="g-wrap12"]//tr[contains(@id,"1")]')
# 依次遍历每一首歌曲提取信息
for div in divs:
    # 名称
    # 在xpath路径中要注意的一点是,最前面需要加上一个. 这样才能选取到当前要遍历的节点,要不然最终是匹配不到的,只能永远匹配到第一个歌曲的信息
    name = div.find_element_by_xpath('.//div[@class="ttc"]//b').get_attribute('title')
    # 排名
    rank = div.find_element_by_xpath('.//span[@class="num"]').text
    # 时长
    times = div.find_element_by_xpath('.//span[@class="u-dur "]').text
    # 歌手
    singer = div.find_element_by_xpath('./td/div[@class="text"]/span').get_attribute('title')
    # 提取完每一个歌曲的信息保存到mongodb里面
    song = {
     
            'rank':rank,
            'name':name,
            'time':times,
            'singer':singer
        }
     collection.insert_one(song)

保存到mongodb结果如下:
Python利用selenium简单的爬取网易云歌曲排行榜_第3张图片

最后源代码如下:

from selenium import webdriver
import pymongo
import time

def main():
    driver.find_element_by_xpath('//*[@id="g_nav2"]/div/ul/li[2]/a/em').click()

    driver.switch_to.frame('contentFrame')

    time.sleep(2)
    divs = driver.find_elements_by_xpath('//*[@class="g-wrap12"]//tr[contains(@id,"1")]')
    for div in divs:
        # 名称
        name = div.find_element_by_xpath('.//div[@class="ttc"]//b').get_attribute('title')
        # 排名
        rank = div.find_element_by_xpath('.//span[@class="num"]').text
        # 时长
        times = div.find_element_by_xpath('.//span[@class="u-dur "]').text
        # 歌手
        singer = div.find_element_by_xpath('./td/div[@class="text"]/span').get_attribute('title')
        song = {
     
            'rank':rank,
            'name':name,
            'time':times,
            'singer':singer
        }
        collection.insert_one(song)

if __name__ == '__main__':
    client = pymongo.MongoClient(host='localhost',port = 27017)
    db = client.test
    collection = db.songList
    driver = webdriver.Chrome()
    driver.get('https://music.163.com/')
    main()

你可能感兴趣的:(Python利用selenium简单的爬取网易云歌曲排行榜)