荣仔！最靓的仔！

「Python爬虫系列讲解」十二、基于图片爬取的 Selenium 爬虫

本专栏是以杨秀璋老师爬虫著作《Python网络数据爬取及分析「从入门到精通」》为主线、个人学习理解为主要内容，以学习笔记形式编写的。
本专栏不光是自己的一个学习分享，也希望能给您普及一些关于爬虫的相关知识以及提供一些微不足道的爬虫思路。
专栏地址：Python网络数据爬取及分析「从入门到精通」
更多爬虫实例详见专栏：Python爬虫牛刀小试

前文回顾：
「Python爬虫系列讲解」一、网络数据爬取概述
「Python爬虫系列讲解」二、Python知识初学
「Python爬虫系列讲解」三、正则表达式爬虫之牛刀小试
「Python爬虫系列讲解」四、BeautifulSoup 技术
「Python爬虫系列讲解」五、用 BeautifulSoup 爬取电影信息
「Python爬虫系列讲解」六、Python 数据库知识
「Python爬虫系列讲解」七、基于数据库存储的 BeautifulSoup 招聘爬取
「Python爬虫系列讲解」八、Selenium 技术
「Python爬虫系列讲解」九、用 Selenium 爬取在线百科知识
「Python爬虫系列讲解」十、基于数据库存储的 Selenium 博客爬虫
「Python爬虫系列讲解」十一、基于登录分析的 Selenium 微博爬虫

1 图片爬虫框架

2 图片网站分析

2.1 图片爬取方法

2.1.1 urlretrieve() 函数

2.1.2 文件写入操作

2.2 全景网爬取分析

2.2.1 分析自己的需求，寻找主题的超链接

2.2.2 分析全景网首页，获取各图集详情页面的超链接

2.2.3 分别到各图集详情页面批量循环定位图片超链接

2.2.4 调用 loadPicture(url, path) 函数下载图片

3 代码实现

4 本文小结

图片作为网站的重要元素之一，在 HTML 中采用标签表示，它具有重要的应用价值，可以同于图片分类，图片监测、知识图谱等。前三篇讲述的 Selenium 技术爬取的都是文本信息，本文将讲解利用 Selenium 技术爬取图片的实例，从网站定位分析、代码实现两方面来讲解爬取全景网各个主题图片的过程，最后讲解代码优化方案。

1 图片爬虫框架

图片爬取框架定义如下图所示，由此可知，整个爬虫是采用 Python 环境下的 Selenium 技术实现的，共分为 3 部分：

第一部分，定义主函数循环获取图片的主题名称和图片性详细页面的超链接，调用 Selenium 进行 DOM 树分析，利用 find_elements_by_xpath() 函数定位元素。其中，主题名称用于命名文件夹或图集，图集超链接用于进一步爬取图片。

第二部分，调用 getPic() 自定义函数创建图集文件夹，并且进入图片详情页面分析定位图片的 HTML 源码，再获取每张图片的超链接，通常位于节点。

第三部分，调用 loadPicture() 自定义函数分别下载每张图片，将其保存至本地。其中，该函数包括两个参数——URL（图片超链接）和 path（图片存储路径）。

事实上，实际应用中大部分图片爬虫都涉及这三个步骤。各种图片爬虫之间是存在区别的，常见的区别如下：

为了提高爬虫效率，修改为分布式或多线程爬虫；
为了规整图片格式，采用自定义的方式命名图片；
为了获取动态加载的图片，采用动态页面分析技术进行爬取。

下面将详细讲解爬取全景网（https://www.quanjing.com/）的具体流程。

2 图片网站分析

本节主要讲解全景网图片爬取过程，首先讲解常见的图片爬取方法，接着详细的逆袭全景网图片爬虫。

2.1 图片爬取方法

常见的图片爬取方法包括两种：urlretrieve() 函数和文件写入操作。

2.1.1 urlretrieve() 函数

urlretrieve() 方法直接将远程数据下载到本地，属于 urllib 模块，函数原型如下：

urllib.urlretrieve(url,filename=None,reporehook=None,data=None)

其中，参数 url 是下载文件的超链接；参数 filename 指定保存到本地的路径（如果未指定该参数，那么 urllib 会生成一个临时文件夹来保存数据）；参数 reporthook 是一个回调函数，打枊链接上服务器以及相应的数据块传输完毕时会触发回调，我们可以利用这个回调函数来显示当前的下载进度；参数 data 是指上传到服务器的数据。该方法返回一个包含两个元素的元组（filename, headers），其中，filename 表示保存到本地的路径，headers 参数表示服务器的响应头。

下面通过一个例子来演示如何使用该方法。将百度首页的 Logo 保存到本地文件夹中，然后命名为 “baidu.png” 同时显示下载进度，具体代码如下：

from urllib.request import urlretrieve

# 回调函数：a-已下载数据块；b-数据块大小；c-远程文件大小
def cbk(a, b, c):
    per = 100.0 * a * b / c
    if per > 100:
        per = 100
    print('%.2f%%' % per)

url = 'https://www.baidu.com/img/flexible/logo/pc/index.png'
urlretrieve(url, "baidu.png", cbk)

2.1.2 文件写入操作

通过文件写入操作来爬取图片。调用 urllib.request.urlopen() 函数打开图片，然后读取文件，写入数据，保存至本地。代码如下：

import urllib.request

# 自定义函数读/写图片，也可以保存任意格式的文件
def saveImg(imageURL, fileName):
    u = urllib.request.urlopen(imageURL)
    data = u.read()
    f = open(fileName, 'wb')
    f.write(data)
    print('图片保存为：', fileName)
    f.close()

url = 'https://www.baidu.com/img/flexible/logo/pc/index.png'
name = 'baidu_file.png'
saveImg(url, name)

2.2 全景网爬取分析

全景网是中国领先的图片库和正版图片素材网站，为个人提供正版的图片素材、图片搜索、高清图片下载，为企业提供正版图片素材和影像传播解决方案。网站首页如下图所示：

2.2.1 分析自己的需求，寻找主题的超链接

在爬取一个网站之前需要先分析自己的需求，这里需要爬取全景网各个主题下的图集，定位到一个包含各主题的页面（https://www.quanjing.com/category/129-1.html），网页返回的搜索结果图下图所示：

例如“科技”、“城市”、“家庭”等主题，单击相印主题可进入相应主题的详情页面。例如 “建筑”，可以看到各种以建筑为主题的图片，如下图所示：

2.2.2 分析全景网首页，获取各图集详情页面的超链接

接下来定位各个图集详情页面的超链接和主题。按下键盘 F12 键，使用 “元素选择器” 查看指定主题的 HTML 源码，比如，定位 “建筑” 主题的源码如下图所示，图集主题位于

...

目录下，在

... 节点中采用多个

...

列表节点布局。

利用 friver.find_elements_by_xpath() 函数定位到 id 属性为 “divImgHolder” 的

布局，再定位

节点，即可获取图集主题和超链接的内容，核心代码如下：
```
# 打开全景网
url = 'https://www.quanjing.com/category/129-1.html'
driver.get(url)

elems = driver.find_elements_by_xpath('//*[@id="divImgHolder"]/ul/li/span[2]/a')
for elem in elems:
    name = elem.text
    url = elem.get_attribute('href')
    print(name, url)
```
2.2.3 分别到各图集详情页面批量循环定位图片超链接

例如点击 “建筑” 主题详情页面，按下键盘 F12 键，使用 “元素选择器” 查看某一具体图片的 HTML 源码，，如下图所示：

该主题下的图片超链接都是位于
路径下的，并且具体实在标签下的 src 路径里，因此，使用 find_elements_by_xpath() 函数定位到该路径下，返回多个元素即为图片位置，再循环调用 get_attirbute('src') 函数就可以获取图片源地址，代码如下：
```
# 打开全景网"建筑"主题
url = 'https://www.quanjing.com/category/1295001.html'
driver.get(url)

elems = driver.find_elements_by_xpath('//*[@id="demo2"]/a/img')
for elem in elems:
    url = elem.get_attribute('src')
    print(url)
```
值得注意的是，我们有时候需要通过 class 属性类确定具体路径，在 HTML 中 class 属性用于标明标签的类名，同一类型的标签名可能相同。为了防止出现其他 class 属性相同的 div 布局，可以通过上一个 div 节点定位，至此达到取值唯一的目的。
同时，由于这里分布了多个不同的主题，所以需要为每个主题图集创建一个文件夹，该文件夹下为安排去对的同一主题的数张图片。创建并命名文件夹是通过调用 os.makedirs() 函数来实现的。创建之前应判断文件夹是否存在，若存在则替换，否则创建。

2.2.4 调用 loadPicture(url, path) 函数下载图片

自定义函数 loadPicture(url, pic_path) 包括两个参数——url 和 path，其中，url 表示需要下载图片的超链接，path 表示图片保存的路径。在该函数中，主要调用 urllib 扩展库的 urlretrieve() 函数下载图片，代码如下：
```
def loadPicture(pic_url, pic_path):
    pic_name = pic_url.split('/')[-2] + ".jpg"
    print(pic_path + pic_name)
    urlretrieve(pic_url, pic_path+pic_name)
```
由于图片地址都是采用超链接形式，通过斜杠（/）进行分割，所以这里获取其中最后一个参数和倒数第二个参数来命名图片，对应代码为： pic_url.split('/')[-2] + ".jpg"。

至此，全景网各个主体图集的爬虫代码分析完毕。

3 代码实现

爬取全景网整个分析流程对应的完整代码如下：
```
import os
import shutil
from urllib.request import urlretrieve
from selenium import webdriver

# 打开 Chrome 浏览器，这顶等待加载时间
chromedriver = 'E:/software/chromedriver_win32/chromedriver.exe'
os.environ["webdriver.chrome.driver"] = chromedriver
driver = webdriver.Chrome(chromedriver)

# 打开全景网
url = 'https://www.quanjing.com/category/129-1.html'
driver.get(url)

# 下载图片
def loadPicture(pic_url, pic_path):
    pic_name = pic_url.split('/')[-2] + ".jpg"
    print(pic_path + pic_name)
    urlretrieve(pic_url, pic_path+pic_name)

# 爬取图片
def getPic(name, url):
    print(name)
    path = "F:\\Pic3\\" +name + "\\"
    if os.path.isfile(path):    # Delete file
        os.remove(path)
    elif os.path.isdir(path):   # Delete dir
        shutil.rmtree(path, True)
    os.makedirs(path)           # create the file directory

    driver.get(url)
    elems = driver.find_elements_by_xpath('//*[@id="demo2"]/a/img')
    i = 0
    for elem in elems:
        url = elem.get_attribute('src')
        print(url)
        loadPicture(url, path)
        if i >= 10:
            break
        i = i + 1

# 主函数，同于获取主题超链接
if __name__ == '__main__':
    urls = []
    titles = []
    elems = driver.find_elements_by_xpath('//*[@id="divImgHolder"]/ul/li/span[2]/a')
    for elem in elems:
        name = elem.text
        url = elem.get_attribute('href')
        print(name, url)
        titles.append(name)
        urls.append(url)

    i = 0
    while i < len(urls):
        getPic(titles[i], urls[i])
        i = i + 1
```
运行结果如下图所示，可以看到爬取到的所有对应的各个主题：

这里对每个主题图集只爬取了 10 张照片，比如打开 “东方” 文件夹，将显示如下图所示的图片，每张图片的命名方式均对应图片 URL 中的命名。

虽然上述代码已经将各个主体的图片都爬取到了本地，但是仍有几个可以优化的地方如下：
- 网站图片涉及翻页技术。
  当网站内容过多时就会涉及翻页技术，通常爬虫会分析翻页的超链接，寻找其中的规律并进行循环爬取。
- 提升爬取速度的各种技术。
  在爬取过程中，可能会因为图片众多，有翻页可能等，导致爬取图片时间太长，那么就可以采用并行技术来提高爬虫的效率，其中包括多进程和分布式集群技术。爬取图片慢的主要原因是发送给网站的请求和返回的响应阻塞等待，此时 CPU 不会分配资源给其他进程，爬虫处理时间会相应增加；而采用多进程可以高效利用 CPU，采用集群分而治之的爬取办法可以减少网络阻塞。
关于上述这些待优化问题，将在下一讲文章的 Scrapy 技术中得以很好的解决。

4 本文小结

随着数据分析的快速发展，目前已不局限于分析数字、文本等内容了，图像、声音、视频等信息的分析也成为研究的热点，随之而来的问题就是如何得到这些数据。本文利用 Selenium 技术爬取网站图集，其分析和定位方法与爬取文本的方法一样，不同之处在于，当定位得到了图片的 URL 时，还需要利用图片爬取方法来下载每一张图片，常见的爬取方法有 urlretrieve() 函数和文件写入操作。

欢迎留言，一起学习交流~

感谢阅读

END

你可能感兴趣的:(Selenium,selenium,webdriver,python,Py天虹,爬虫,Python,爬虫)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
从《哪吒 2》看个人IP的破局之道|创客匠人
《哪吒2》以破竹之势登顶中国影史票房榜，不到9天票房突破62亿，观众自发为其“冲百亿”的热情，揭示了一个朴素却深刻的商业逻辑：IP的真正生命力，不在于短暂曝光，而在于用户愿意用行动投票的长期信任。这种逻辑，同样适用于2025年个人IP的增长突围。流量失效的真相：用户体验断层终结增长如今的IP运营者常陷入一个误区：疯狂追逐流量，却留不住用户。短视频投流成本翻倍，内容越做越多粉丝却不涨，好不容易成交的
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

「Python爬虫系列讲解」十二、基于图片爬取的 Selenium 爬虫

1 图片爬虫框架

2 图片网站分析

2.1 图片爬取方法

2.1.1 urlretrieve() 函数

2.1.2 文件写入操作

2.2 全景网爬取分析

2.2.1 分析自己的需求，寻找主题的超链接

2.2.2 分析全景网首页，获取各图集详情页面的超链接

2.2.3 分别到各图集详情页面批量循环定位图片超链接

2.2.4 调用 loadPicture(url, path) 函数下载图片

3 代码实现

4 本文小结

欢迎留言，一起学习交流~

END

你可能感兴趣的:(Selenium,selenium,webdriver,python,Py天虹,爬虫,Python,爬虫)