python selenium和xpath实现控制谷歌浏览器爬取小说

标题下载谷歌浏览器版本对应的控制驱动

查看自己的谷歌浏览器驱动,找到浏览器>>设置>>帮助>>关于chrome。
在浏览器驱动下载地址上下载对应的版本。
解压,然后将exe文件放在python的安装目录下的script目录下。(这里注意你当前pycharm的python解释器环境也在这个目录)

标题安装selenium三方库

命令行安装
pip install selenium

标题实现selenium和xpath结合控制浏览器下载小说

from time import sleep
from selenium import webdriver
#实例化一个浏览器驱动
chrome = webdriver.Chrome()
def getText(url):
    url=chrome.get(url)
    content = chrome.find_elements_by_xpath("//div[@class='title_txtbox']")
    text = chrome.find_elements_by_xpath("//div[@class='content']/p")
    with open("read.txt",mode="a+") as f:
        for i in content:
            f.write(i.text+'\n')
        for i in text:
            f.writelines(i.text+'\n')
    sleep(1)
    next_chapter = chrome.find_elements_by_xpath("//a[@class='nextchapter']")
    if next_chapter:
        next_chapters = next_chapter[0].get_attribute('href')
        chrome.find_elements_by_xpath("//a[@class='nextchapter']")[0].click()
        getText(next_chapters)
    else:
        chrome.close()
        return 0
    chrome.close()

getText("http://book.zongheng.com/chapter/189169/3431546.html")

你可能感兴趣的:(python selenium和xpath实现控制谷歌浏览器爬取小说)