最近学习了一下selenuim和XPath,技术还很菜,简单的爬取了一下网易云歌曲的排行榜信息,最后保存到mongodb里面
要爬取的部分如下图所示:
爬取每个歌曲的排名,名称,时长,歌手。
创建mongodb连接对象,指定数据库和集合
# 创建mongodb连接对象
client = pymongo.MongoClient(host='localhost',port = 27017)
# 指定数据库
db = client.test
# 指定集合
collection = db.songList
创建Chrome浏览器对象,调用get()方法访问页面。
# 导入包
from selenium import webdriver
# 创建浏览器对象
driver = webdriver.Chrome()
# 访问页面
driver.get('https://music.163.com/')
然后在网易云音乐首页点击排行榜进入要爬取的页面,利用selenium查找节点和点击的功能可以完成这些操作。
# 利用find_element_by_xpath()方法找到排行榜按钮的节点,click()完成点击操作。
driver.find_element_by_xpath('//*[@id="g_nav2"]/div/ul/li[2]/a/em').click()
到了排行榜页面需要注意的是,歌曲的信息在子Frame里面,光查找节点是找不到的,需要先切换到Frame里面,利用switch_to.frame()方法切换。
# 括号中的参数可以输入iframe标签的id值或者name值
driver.switch_to.frame('contentFrame')
后面的就是数据的提取,
# 获取所有的歌曲信息的节点
# 括号中的xpath路径写法有多种,看自己习惯
divs = driver.find_elements_by_xpath('//*[@class="g-wrap12"]//tr[contains(@id,"1")]')
# 依次遍历每一首歌曲提取信息
for div in divs:
# 名称
# 在xpath路径中要注意的一点是,最前面需要加上一个. 这样才能选取到当前要遍历的节点,要不然最终是匹配不到的,只能永远匹配到第一个歌曲的信息
name = div.find_element_by_xpath('.//div[@class="ttc"]//b').get_attribute('title')
# 排名
rank = div.find_element_by_xpath('.//span[@class="num"]').text
# 时长
times = div.find_element_by_xpath('.//span[@class="u-dur "]').text
# 歌手
singer = div.find_element_by_xpath('./td/div[@class="text"]/span').get_attribute('title')
# 提取完每一个歌曲的信息保存到mongodb里面
song = {
'rank':rank,
'name':name,
'time':times,
'singer':singer
}
collection.insert_one(song)
最后源代码如下:
from selenium import webdriver
import pymongo
import time
def main():
driver.find_element_by_xpath('//*[@id="g_nav2"]/div/ul/li[2]/a/em').click()
driver.switch_to.frame('contentFrame')
time.sleep(2)
divs = driver.find_elements_by_xpath('//*[@class="g-wrap12"]//tr[contains(@id,"1")]')
for div in divs:
# 名称
name = div.find_element_by_xpath('.//div[@class="ttc"]//b').get_attribute('title')
# 排名
rank = div.find_element_by_xpath('.//span[@class="num"]').text
# 时长
times = div.find_element_by_xpath('.//span[@class="u-dur "]').text
# 歌手
singer = div.find_element_by_xpath('./td/div[@class="text"]/span').get_attribute('title')
song = {
'rank':rank,
'name':name,
'time':times,
'singer':singer
}
collection.insert_one(song)
if __name__ == '__main__':
client = pymongo.MongoClient(host='localhost',port = 27017)
db = client.test
collection = db.songList
driver = webdriver.Chrome()
driver.get('https://music.163.com/')
main()