今日头条的街拍下载实现 python

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from time import sleep
import requests
import threading
import os
import re


def gethtml(url):

    chrome_options = Options()
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--disable-gpu')
    #上面是设置无界浏览器用的,不用打开浏览器也可以爬取数据!
    chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
    #对chrome开启开发者模式
    driver = webdriver.Chrome(options=chrome_options)
    # 设置无头浏览器,就是隐藏界面后台运行
    driver.get(url)
    driver.refresh()# 有验证码,刷新一下,就好了
    sleep(3)
    #等浏览器反应3秒钟,设置沉睡,否则加载不到我们想要的数据!

    soup = driver.page_source
    driver.close()
    driver.quit()

    return soup

def parserurl(soup):
    tapm = re.compile('
') htmldata=re.findall(tapm,soup) return htmldata def geturls(html): temp = re.compile('

你可能感兴趣的:(爬虫)