爬虫项目(九):实时抓取csdn热榜数据

一、书籍推荐

推荐本人书籍《Python网络爬虫入门到实战》 ,详细介绍见: 《Python网络爬虫入门到实战》 书籍介绍

二、完整代码

# 使用selenium爬取热榜
# 热榜地址:https://blog.csdn.net/rank/list
# 获取标题、浏览量、评论数量、收藏数量


from selenium import webdriver
import time
import csv
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

def get_data(url):
    driver = webdriver.Chrome()
    driver.get(url)
    # 添加等待
    wait = WebDriverWait(driver, 10)
    try:
        # 等待直到页面加载完成
        wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, "div.hostitem.floor")))

        # 滚动页面以加载更多数据
        for _ in range(4):
            driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
            time.sleep(5)


        # 获取所有的文章元素
       

你可能感兴趣的:(爬虫,python,开发语言)