Python+Selenium-5-driver.page_source获取页面源码

driver.page_source

selenium的page_source方法可以获取到页面源码

跟爬虫有点相似,获取到页面资源,提取出我们需要的信息

 

案例

以煎蛋网为例,获取首页的全部title(获取页面源码 -- 使用re正则提取需要的title)

代码

#coding:utf-8
from selenium import webdriver
import re
class JianDan():
    def __init__(self):
        self.browser = webdriver.Chrome()
        self.browser.get("http://jandan.net/")
        self.browser.maximize_window()
        self.browser.implicitly_wait(3)

    def get_page_title(self):
        self.page = self.browser.page_source
        # 非贪婪匹配,匹配所有满足'target="_blank">....'格式的信息,结果显示是一个列表
        self.titles = re.findall(r'target="_blank">(.*?)',self.page)
        for title in self.titles:
            print(title)

if __name__ == '__main__':
    jian_dan = JianDan()
    jian_dan.get_page_title()

结果

Python+Selenium-5-driver.page_source获取页面源码_第1张图片

 

 

你可能感兴趣的:(Python+Selenium-5-driver.page_source获取页面源码)