爬虫学习-4

selenium+BeautifulSoup爬取腾讯新闻
基本步骤:

  1. 导入库
  2. 打开浏览器
  3. 获取页面源代码
  4. 解析内容
#导入库
import time
from bs4 import BeautifulSoup
from selenium import webdriver
#打开浏览器
driver = webdriver.Chrome()
driver.get('https://news.qq.com/')
#加载更多内容
for i in range(1,100):
    time.sleep(2)
   
    driver.execute_script("window.scrollTo(window.scrollx,%d);"%(i*200))
#获取页面源代码
html = driver.page_source
#创建BeautifulSoup实例
soup = BeautifulSoup(html,'html.parser')
information = soup.find_all("div",{"class":"jx-tit"})[0]\
    .find_next_sibling().find_all("li")

for i,item in enumerate(information):
    print(type(item))
    print(item)
   #错误处理,因为有的热点是没有图片的
    try:
        text = item.find_all("img")[0]["alt"]
        url = item.find_all('a')[0]["herf"]
    except Exception as e:
        print(e)
    print(i+1,",",text)

你可能感兴趣的:(爬虫学习-4)