推荐本人书籍《Python网络爬虫入门到实战》 ,详细介绍见: 《Python网络爬虫入门到实战》 书籍介绍
# 使用selenium爬取热榜
# 热榜地址:https://blog.csdn.net/rank/list
# 获取标题、浏览量、评论数量、收藏数量
from selenium import webdriver
import time
import csv
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
def get_data(url):
driver = webdriver.Chrome()
driver.get(url)
# 添加等待
wait = WebDriverWait(driver, 10)
try:
# 等待直到页面加载完成
wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, "div.hostitem.floor")))
# 滚动页面以加载更多数据
for _ in range(4):
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(5)
# 获取所有的文章元素