Eastmount

[Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解（定位元素、常用方法、键盘鼠标操作）

欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智能40篇、Python安全20篇、其他技巧10篇。您的关注、点赞和转发就是对秀璋最大的支持，知识无价人有情，希望我们都能在人生路上开心快乐、共同成长。

前一篇文章讲述了数据库操作知识，包括MySQL安装、SQL语句和Python操作数据库知识，这将为后续网络爬虫存储至数据库奠定基础。本文详细介绍Selenium基础技术，涉及基础入门、元素定位、常用方法和属性、鼠标操作、键盘操作和导航控制。基础性文章，希望对您有所帮助。

文章目录

一.初识Selenium
- 1.安装Selenium
- 2.安装浏览器驱动
- 3.Phantomjs
二.快速开始Selenium解析
三.定位元素
- 1.通过ID定位元素
- 2.通过Name定位元素
- 3.通过XPath定位元素
- 4.通过连接文本定位超链接
- 5.通过标签名定位元素
- 6.通过类名定位元素
- 7.通过CSS选择器定位元素
四.常用方法和属性
- 1.操作元素方法
- 2.WebElement常用属性
五.键盘和鼠标自动化操作
- 1.键盘操作
- 2.鼠标操作
六.导航控制
- 1.下拉菜单交互操作
- 2.Window和Frame间对话框移动
七.总结

下载地址：

https://github.com/eastmountyxz/Python-zero2one

前文赏析：

第一部分基础语法

[Python从零到壹] 一.为什么我们要学Python及基础语法详解
[Python从零到壹] 二.语法基础之条件语句、循环语句和函数
[Python从零到壹] 三.语法基础之文件操作、CSV文件读写及面向对象

第二部分网络爬虫

[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例
[Python从零到壹] 五.网络爬虫之BeautifulSoup基础语法万字详解
[Python从零到壹] 六.网络爬虫之BeautifulSoup爬取豆瓣TOP250电影详解
[Python从零到壹] 七.网络爬虫之Requests爬取豆瓣电影TOP250及CSV存储
[Python从零到壹] 八.数据库之MySQL基础知识及操作万字详解
[Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解（定位元素、常用方法、键盘鼠标操作）

作者新开的“娜璋AI安全之家”将专注于Python和安全技术，主要分享Web渗透、系统安全、人工智能、大数据分析、图像识别、恶意代码检测、CVE复现、威胁情报分析等文章。虽然作者是一名技术小白，但会保证每一篇文章都会很用心地撰写，希望这些基础性文章对你有所帮助，在Python和安全路上与大家一起进步。

Selenium是一款用于测试Web应用程序的经典工具，它直接运行在浏览器中，仿佛真正的用户在操作浏览器一样，主要用于网站自动化测试、网站模拟登陆、自动操作键盘和鼠标、测试浏览器兼容性、测试网站功能等，同时也可以用来制作简易的网络爬虫。

本文主要介绍Selenium Python API技术，它以一种非常直观的方式来访问Selenium WebDriver的所有功能，包括定位元素、自动操作键盘鼠标、提交页面表单、抓取所需信息等。

一.初识Selenium

Selenium是ThoughtWorks公司专门为Web应用程序编写的一个验收测试工具，它提供的API支持多种语言，包括Python、Java、C#等，本书主要介绍Python环境下的Selenium技术。Python语言提供了Selenium扩展包，它是使用Selenium WebDriver（网页驱动）来编写功能、验证测试的一个API接口。

通过Selenium Python API，读者能够以一种直观的方式来访问Selenium WebDriver的所有功能。Selenium Python支持多种浏览器，诸如Chrome、火狐、IE、360等浏览器，也支持PhantomJS特殊的无界面浏览器引擎。

Selenium WebDriver API接口提供了一种定位网页中元素（Locate Elements）的策略，本书将使用Selenium Python讲解网络数据爬取知识，本章主要介绍Selenium技术的基础知识，后面的章节结合实例讲解如何利用Selenium定位网页元素、自动爬取、设计爬虫等。

类似于BeautifulSoup技术，Selenium制作的爬虫也是先分析网页的HTML源码和DOM树结构，再通过其所提供的方法定位到所需信息的结点位置，并获取其文本内容。

同时，推荐读者阅读官网提供的《Selenium with Python Bindings》开源技术文档，本文也汲取了它很多精彩的知识，再结合自己的理解和实际爬虫实例进行介绍的。下面从Selenium安装、驱动安装、PhantomJS三部分知识进行介绍，让我们开始吧！

1.安装Selenium

读者可以访问PyPI网站来下载Selenium扩展包，例如图2所提供的selenium 3.4.3，对应的网址为：

https://pypi.python.org/pypi/selenium

我们点击“Downloads”按钮下载该Selenium扩展包，解压下载的文件后，在解压目录下执行下面的命令进行安装Selenium包。

C:\selenium\selenium3.4.3> python3 setup.py install

PyPI全称是Python Package Index，是Python官方的第三方库的仓库，所有人都可以下载第三方库或上传自己开发的库到PyPI。

同时，作者更推荐大家使用pip工具来安装Selenium库，PyPI官方也推荐使用pip管理器来下载第三方库。Python3.6标准库中自带pip，Python2.x需要自己单独安装。前文介绍了pip工具的安装过程及基础用法。安装好pip工具后，直接调用命令即可安装Selenium：

pip install selenium

调用命令“pip install selenium”安装Selenium包如图3所示。

安装过程中的会显示安装配置相关包的百分比，直到出现“Successfully installed selenium-2.47.1”提示，表示安装成功，如图4所示。

此时的Selenium包已经安装成功，接下来需要调用浏览器来进行定位或爬取信息，而使用浏览器的过程中需要安装浏览器驱动。作者推荐使用Firefox浏览器、Chrome浏览器或PhantomJS浏览器，下面将结合实例讲解三种浏览器驱动的配置过程。

2.安装浏览器驱动

Selenium需要安装浏览器驱动，才能调用浏览器进行自动爬取或自动化测试，常见的包括Chrome、Firefox、IE、PhantomJS等浏览器。表1是部分浏览器驱动下载页面。

表1 浏览器驱动下载页面

注意：驱动下载解压后，将chromedriver.exe、geckodriver.exe、Iedriver.exe置于Python的安装目录下，例如Python的安装目录为“C:\python”，则将驱动文件放置于该文件夹下；然后将Python的安装目录添加到系统环境变量路径（Path）中，打开Python IDLE输入不同的代码来启动不同的浏览器。

Firefox浏览器
加载火狐浏览器的核心代码如下：

from selenium import webdriver
driver = webdriver.Firefox()
driver.get('http://www.baidu.com/')

输出结果如下图所示：

chrome浏览器
加载谷歌览器的核心代码如下，其中驱动置于chrome浏览器目录下，如代码所示。

import os 
from selenium import webdriver
chromedriver = "C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe"  
os.environ["webdriver.chrome.driver"] = chromedriver 
browser = webdriver.Chrome(chromedriver)
browser.get('http://www.baidu.com/')

IE浏览器
加载微软IE览器的核心代码如下：

from selenium import webdriver
browser = webdriver.Ie()
browser.get('http://www.baidu.com/')

3.Phantomjs

PhantomJS是一个服务器端的 JavaScript API 的开源的浏览器引擎（WebKit）。它支持各种Web标准，包括DOM树分析、CSS选择器、JSON和SVG等。PhantomJS常用于页面自动化、网络监测、网页截屏以及无界面测试等。在官网http://phantomjs.org/下载PhantomJS解压后如图5所示。

调用时如果报错“Unable to start phantomjs with ghostdriver”，则需要设置PhantomJS的路径，或者配置到Scripts目录环境下。当Selenium安装成功并且PhantomJS下载配置好后，下面这代代码是调用方法。其中executable_path参数设置PhantomJS的路径。

from selenium import webdriver
driver = webdriver.PhantomJS(executable_path="F:\phantomjs-1.9.1-windows\phantomjs.exe")
driver.get("http://www.baidu.com")
data = driver.title
print(data)

代码含义为：

首先导入Selenium.webdriver扩展包，它提供了webdriver实现方法。
然后创建driver实例，调用webdriver.PhantomJS方法配置路径。
通过driver.get(“http://www.baidu.com”) 代码打开百度网页，webdriver会等待网页元素加载完成之后才把控制权交回脚本。
最后获取文章标题（title）并赋值给data变量输出，其值为“百度一下，你就知道”。

运行结果如图6所示，Python3效果一样。

注意，webdriver中提供的save_sceenshot()函数可以对网页进行截图，代码如下：

from selenium import webdriver
driver = webdriver.Firefox()
driver.get("http://www.baidu.com")
data = driver.title
driver.save_screenshot('baidu.png')

二.快速开始Selenium解析

网页通常采用文档对象模型树结构进行存储，并且这些节点都是成对出现的，如“< html >”对应“”、“< table >”对应“”、“< div >”对应“”等。Selenium技术通过定位节点的特定属性，如class、id、name等，可以确定当前节点的位置，再获取相关网页的信息。

下面代码是定位百度搜索框并进行自动搜索，它作为我们的快速入门代码。

#-*- coding:utf-8 -*-
#By:Eastmount 2021-05-29
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

#启动驱动
driver = webdriver.Firefox()
driver.get("http://www.baidu.com")
assert "百度" in driver.title
print(driver.title)

#查找元素并输入内容
elem = driver.find_element_by_name("wd")
elem.send_keys("数据分析")
elem.send_keys(Keys.RETURN)

#截图并退出
time.sleep(10)
driver.save_screenshot('baidu.png')
driver.close()
driver.quit()

运行结果如下图所示，调用Firefox浏览器并搜索“数据分析”关键词，最后对浏览的网页进行截图操作。所以，Selenium常用于自动化测试领域。

下面对这部分代码进行详细讲解。

from selenium import webdriver
导入Selenium.webdriver模板，它提供了webdriver的实现方法，目前支持这些方法的浏览器有Firefox、Chrome、IE和Remote等。
from selenium.webdriver.common.keys import Keys
导入Keys类，它提供了操作键盘的快捷键，如回车键、空格键、ctrl键等操作。
driver = webdriver.Firefox()
创建Firefox webdriver实例，定义火狐浏览器（Firefox）驱动，其他浏览器如Chrome可能还需要设置驱动参数和配置路径。
driver.get(“http://www.baidu.com”)
接下来通过driver.get()函数打开百度url网页，webdriver会等待网页元素加载完成之后才把控制权交回脚本。
assert “百度” in driver.title
接下来使用断言（assert）判断文章的标题title是否包含了“百度”字段。对应爬取的标题是“百度一下，你就知道”，所以包含了“百度”，否则会出现断言报错。断言主要用于判断结果是否成功返回，从而更好地执行下一步定位操作。
elem = driver.find_element_by_name(“wd”)
webdriver提供了很多形如“find_element_by_*”的方法来匹配要查找的元素。如利用name属性来查找的方法是find_element_by_name，这里通过该方法来定位百度输入框，即审查元素name为“wd”的节点。

图8是百度首页审查元素的反馈结果，其中输入框input元素对应属性name为“kw”，所以定位其节点代码为：

driver.find_element_by_id(“kw”)

elem.send_keys(“数据分析”)
send_keys()方法可以用来模拟键盘操作，相当于是在搜索框中输入“数据分析”字段。
elem.send_keys(Keys.RETURN)
调用send_keys()函数输入回车键操作，其中Keys类提供了常见的键盘按键，如Keys.RETURN表示回车键。但在引用Keys类及其方法之前，需要注意先导入Keys类，即使用“from selenium.webdriver.common.keys import Keys”代码导入。
driver.save_screenshot(‘baidu.png’)
调用save_screenshot()函数进行截图，并将截图保存至本地，名称为为“baidu.png”。
driver.close()
调用close()方法关闭驱动。
driver.quit()
调用quit()方法退出驱动。它与close()方法的区别在于：quit()方法会退出浏览器，而close()方法只是关闭页面，但如果只有一个页面被打开，close()方法同样会退出浏览器。

三.定位元素

Selenium Python提供了一种用于定位元素（Locate Elements）的策略，你可以根据所爬取网页的HTML结构选择最适合的方案，表8.2是Selenium提供的各种方法。定位多个元素时，只需将方法“element”后加s，这些元素将会以一个列表的形式返回。

表2 Selenium元素定位的方法

本节将结合下面这段关于李白简介的HTML代码（blog09.html）进行讲解。

<html>
	<head>
		<title>李白简介title>
	head>
	<body>
	<p class="title"><b>静夜思b>p>
	<p class="content">
		窗前明月光，<br />
		疑似地上霜。 <br />
		举头望明月，<br />
		低头思故乡。 <br />
	p>
	<div class="other" align="left" name="d1" id="nr">
		李白（701年－762年），字太白，号青莲居士，又号“谪仙人”，
		唐代伟大的浪漫主义诗人，被后人誉为“诗仙”，与
	  <a href="http://test.com/dufu" class="poet" id="link" name="dufu">
杜甫a>
		并称为“李杜”，为了与另两位诗人
	  <a href="http://test.com/lsy" class="poet" id="link" name="lsy">
李商隐a>、
	  <a href="http://test.com/dumu" class="poet" id="link" name="dumu">
杜牧a>
即“小李杜”区别，杜甫与李白又合称“大李杜”。
		其人爽朗大方，爱饮酒...
    div>
	<p class="story">...p>
body>
html>

该网页打开运行如下图9所示。

下面结合这个实例分别介绍各种元素定位方法，并以定位单个元素为主。

1.通过ID定位元素

该方法是通过网页标签的id属性定位元素，它将返回第一个用id属性值匹配定位的元素。如果没有元素匹配id值，将会返回一个NoSuchElementException异常。
假设需要通过id属性定位页面中的杜甫、李商隐、杜牧三个超链接，HTML核心代码如下：

如果需要获取div布局，则使用如下代码：

test_div = driver.find_element_by_id(‘nr’)
print(test_div.text)

如果写成如下代码，则返回第一个诗人的信息。

test_poet = driver.find_element_by_id(‘link’)
print(test_poet.text)
杜甫

其中test_poet是获取的值，通常为“”形式，而text是获取其文本内容，即“杜甫”。如果想通过id元素获取多个链接，比如杜甫、李商隐、杜牧三位诗人对应的超链接，则需要使用：

find_elements_by_id()

注意“elements”表示获取多个值。三个超链接都使用同一个id名称“link”，通过find_elements_by_id()函数定位获取之后，再调用for循环输出结果，如下所示：

#-*- coding:utf-8 -*-
#By:Eastmount 2021-05-29
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

#启动驱动
driver = webdriver.Firefox()
driver.get("file://C:/Users/xiuzhang/Desktop/09.selenium/blog09.html")
print(driver.title)

#查找元素并输入内容
test_div = driver.find_elements_by_id('link')
for t in test_div:
    print(t.text)

输出结果如下图所示：

2.通过Name定位元素

该方法是通过网页标签的name属性定位元素，它将返回第一个用name属性值匹配定位的元素。如果没有元素匹配name值，将会返回一个NoSuchElementException异常。

下面介绍通过name属性定位页面中的杜甫、李商隐、杜牧三个超链接的方法，HTML源码如下：

<div class="other" align="left" name="d1" id="nr">
<a href="http://test.com/dufu" class="poet" id="link" name="dufu">杜甫a>
	<a href="http://test.com/lsy" class="poet" id="link" name="lsy">李商隐a>
	<a href="http://test.com/dumu" class="poet" id="link" name=”dumu”>杜牧a>
div>

如果需要分别获取杜甫、李商隐、杜牧三个超链接，则使用代码如下：

test_poet1 = driver.find_element_by_name('dufu')
test_poet2 = driver.find_element_by_name('lsy')
test_poet3 = driver.find_element_by_name('dumu')

此时不能调用find_elements_by_name()函数获取多个元素，因为三位诗人对应超链接的name属性都是不同的，即“dufu”、“lsy”、“dumu”，如果name属性相同，则该方法可以获取同一name属性的多个元素。

3.通过XPath定位元素

XPath是用于定位XML文档中节点的技术，HTML\XML都采用网页DOM树状标签的结构进行编写的，所以可以通过XPath方法分析其节点信息。Selenium Python也提供了类似的方法来跟踪网页中的元素。

XPath定位元素方法不同于按照ID或Name属性的定位方法，前者更加的灵活、方便。 比如想通过ID属性定位第三个诗人“杜牧”的超链接信息，但是三位诗人的ID属性值都是相同的，即“link”，如果没有其他属性，那我们怎么实现呢？此时可以借助XPath方法进行定位元素。这也体现了XPath方法的一个优点：

当没有一个合适的ID或Name属性来定位所要查找的元素时，你可以使用XPath去定位这个绝对元素（但作者不建议定位绝对元素），或者定位一个有ID或Name属性的相对元素位置。

XPath方法也可以通过除了ID和Name属性以外的其他属性进行定位元素，其完整函数为：

find_element_by_xpath()
find_elements_by_xpath()

下面开始通过实例进行讲解，HTML代码如下：

<html>
	<head>
		<title>李白简介title>
	head>
	<body>
	<div class="other" align="left" name="d1" id="nr">
		李白（701年－762年），字太白，号青莲居士，又号“谪仙人”，
		唐代伟大的浪漫主义诗人，被后人誉为“诗仙”，与
	  <a href="http://test.com/dufu" class="poet" id="link1" namd="dufu">
杜甫a>
		并称为“李杜”，为了与另两位诗人
	  <a href="http://test.com/lsy" class="poet" id="link2" namd="lsy">
李商隐a>、
	  <a href="http://test.com/dumu" class="poet" id="link3" name=”dumu”>
杜牧a>
即“小李杜”区别，杜甫与李白又合称“大李杜”。
		其人爽朗大方，爱饮酒...
    div>
body>
html>

这个div布局可能通过如下三种XPath方法定位：

test_div = driver.find_element_by_xpath("/html/body/div[1]")
test_div = driver.find_element_by_xpath("//div[1]")
test_div = driver.find_element_by_xpath("//div[@id='nr']")

第一句是使用绝对路径定位，从HTML代码的根节点开始定位元素，但如果HTML代码有稍微的改动，其结果就会被被破坏，此时可以通过后面两种方法进行定位。
第二句是获取HTML代码中的第一个div布局元素。但是如果所要爬取的div节点位置太深，难道我们从第一个div节点数下去吗？显然不是的。此时我们可以通过寻找附近一个元素的ID或Name属性进行定位，从而追踪到所需要的元素。
第三句是调用find_element_by_xpath()方法，定位ID属性值为“nr”的div布局元素，此时可以定位介绍三位著名诗人的简介信息。

三个语句输出test_div.text内容，都如下所示：

李白（701年－762年），字太白，号青莲居士，又号“谪仙人”，唐代伟大的浪漫主义诗人，被后人誉为“诗仙”，与杜甫并称为“李杜”，为了与另两位诗人李商隐、杜牧即“小李杜”区别，杜甫与李白又合称“大李杜”。其人爽朗大方，爱饮酒…

如需定位第三位诗人“杜牧”超链接的内容，则使用如下所示的三种方法。

username = driver.find_element_by_xpath("//div[a/@name='dumu']")
username = driver.find_element_by_xpath("//div[@id='nr']/a[3]")
username = driver.find_element_by_xpath("//a[@name='dumu']")

第一句是定位div节点下的一个超链接a元素，且a元素的name属性为“dumu”。
第二句是定位“id=nr”的div元素，再找到它的第三个超链接a子元素。
第三句是定位name属性为“dumu”的第一个超链接a元素。

同时，如果是按钮控件且name属性相同，假设HTML代码如下：

<form id="loginForm">
	<input name="continue" type="submit" value="Login" />
	<input name="continue" type="button" value="Clear" />
form>

则定位value值为“Clear”按钮元素的方法如下：

clearb = driver.find_element_by_xpath("//input[@name='continue'][@type='button']")
clearb = driver.find_element_by_xpath("//form[@id='loginForm']/input[2]")

第一句是定位属性name为“continue”且属性type为“button”的input控件。
第二句是定位属性“id=loginForm”的form节点下的第二个input子元素。

XPath定位方法作为最常用的定位元素方法之一，后面章节的实例中将会被反复利用，而本小节只是介绍了些基础知识，更多知识请读者在W3Schools XPath Tutorial、W3C XPath Recommendation或Selenium官方文档中学习。

4.通过连接文本定位超链接

当你需要定位一个锚点标签内的链接文本（Link Text）时就可以使用该方法。该方法将返回第一个匹配这个链接文本值的元素。如果没有元素匹配这个链接文本，将抛出一个NoSuchElementException异常。下面介绍调用该方法定位页面中的杜甫、李商隐、杜牧三个超链接，假设HTML源码如下：

blog09_02.html

<html>
	<body>
      <div class="other" align="left" name="d1" id="nr">
	  <a href="dufu.html" class="poet" id="link" name="dufu">
Dufu</a>
	  <a href="lsy.html" class="poet" id="link" name="lsy">
LiShangYing</a>
	  <a href="dumu.html" class="poet" id="link" name=”dumu”>
DuMu</a>
      </div>
</body>
</html>

如果需要分别获取杜甫、李商隐、杜牧三个超链接，则使用如下代码。

#-*- coding:utf-8 -*-
#By:Eastmount 2021-05-29
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

#启动驱动
driver = webdriver.Firefox()
driver.get("file://C:/Users/xiuzhang/Desktop/09.selenium/blog09_02.html")
print(driver.title)

#分别定位三个超链接
test_poet1 = driver.find_element_by_link_text('Dufu')
print(test_poet1.text)
test_poet2 = driver.find_element_by_link_text('LiShangYing')
print(test_poet2.text)
test_poet3 = driver.find_element_by_link_text('DuMu')
print(test_poet3.text)

#定位超链接部分元素
test_poet4 = driver.find_element_by_partial_link_text('Du')
print(test_poet4.text)

#定位超链接部分元素且定位多个元素
test_poet5 = driver.find_elements_by_partial_link_text('Du')
for t in test_poet5:
    print(t.text)

其中，find_element_by_link_text()函数是使用锚点标签的链接文本进行定位的，partial表示部分匹配，获取多个元素的方法则使用：

find_elements_by_partial_link_text()

代码运行截图如图10所示，其中地址也可以为放在本地Apache服务器中的blog09_02.html文件，内容为上面的HTML源码。

http://localhost:8080/blog09_02.html

5.通过标签名定位元素

该方法是通过标签名（Tag Name）定位元素，它将返回第一个用Tag Name匹配定位的元素。如果没有元素匹配，将会返回一个NoSuchElementException异常。假设HTML源码如下：

blog09_03.html

<html>
	<head>
		<title>李白简介title>
	head>
	<body>
      <h1>静夜思h1>
      <p class='content'>窗前明月光，疑是地上霜。举头望明月，低头思故乡。p>
body>
html>

定位元素h1和段落p的方法如下：

test1 = driver.find_element_by_tag_name(‘h1’)
test2 = driver.find_element_by_tag_name(‘p’)

6.通过类名定位元素

该方法是通过类属性名（Class Attribute Name）定位元素，它将返回第一个用类属性名匹配定位的元素。如果没有元素匹配，将会返回一个NoSuchElementException异常。

blog09_03.html代码中通过class属性值定位段落p元素的方法如下：

test1 = driver.find_element_by_class_name(‘content’)

7.通过CSS选择器定位元素

该方法是通过CSS选择器（CSS Selectors）定位元素，它将返回第一个与CSS选择器匹配的元素。如果没有元素匹配，将会返回一个NoSuchElementException异常。blog09_03.html代码中通过CSS选择器定位段落p元素的方法如下：

test1 = driver.find_element_by_css_selector(‘p.content’)

如果存在多个相同class值得content标签，则可以使用下面方法进行定位获取：

test1 = driver.find_element_by_css_selector(*.content)
test2 = driver.find_element_by_css_selector(.content)

CSS选择器定位方法是比较难的一个方法，推荐读者下来自行研究，同时作者更推荐大家使用ID、Name、XPath等常用定位方法。

四.常用方法和属性

1.操作元素方法

讲述完定位元素（Locate Elements）之后，我们需要对已经定位好的对象进行操作，这些操作的交互行为通常需要通过WebElement接口来实现，常见操作元素方法如表3所示。

表3 常用操作元素方法

下面作者举一个自动登录百度首页的示例讲解常用的操作元素方法，包括clear()、send_keys()、click()、submit()等方法。

首先我们通过火狐浏览器打开百度首页，找到“登录”按钮，并右键鼠标点击“审查元素”，可以看到百度首页“登录”按钮对应的HTML源代码如图11所示。

“登录”按钮节点其实是一个name值为“tj_login”的超链接，我们可以通过下面的代码定位到该节点，再调用click()函数自动点击它，并跳转到登录页面。

新版百度又增加了“用户名登录”的选择，我们需要进一步捕获该位置并点击。

点击按钮后弹出界面如图13所示，接下来需要分析用户名和密码的HTML源码，并找到其节点位置后实现自动登录操作。

接着再审查登录页面，获取“用户名”和“密码”元素，对应HTML核心代码如下：

<input id="TANGRAM__PSP_10__userName" type="text" value="" 
	autocomplete="off" class="pass-text-input pass-text-input-userName"
	name="userName" placeholder="手机/邮箱/用户名">input>
<input id="TANGRAM__PSP_10__password" type="password" value="" 
	class="pass-text-input pass-text-input-password"  
	name="password" placeholder="密码">input>

通过find_element_by_name()定位元素，调用函数clear()清除输入框默认内容，如“请输入密码”等提示，并调用send_keys()函数输入正确的用户名和密码后点击登录。核心代码如下：

name = driver.find_element_by_name("userName")
name.send_keys("admin")  
pwd = driver.find_element_by_name("password")
pwd.send_keys("123456")
pwd.send_keys(Keys.RETURN)

错误提示
在自动登录百度首页时，可能会提示错误“selenium.common exceptions ElementNotInteractable Exception: could not be scrolled into view”，这是因为某些情况下，元素的visibility为hidden或者display属性为none，我们在页面上看不到但是实际是存在页面的一些隐藏元素，这时候用 is_displayed() 来判断并设置时间等待。

完整代码如下：

#-*- coding:utf-8 -*-
#By:Eastmount CSDN 2021-05-29
import time
from selenium import webdriver  
from selenium.webdriver.common.keys import Keys  
from selenium.webdriver.common.action_chains import ActionChains

#打开浏览器
driver = webdriver.Firefox()  
driver.get("https://www.baidu.com/")
time.sleep(1)

#点击登录链接
logins = driver.find_elements_by_name("tj_login")
for login in logins:
    print(login.text)
    print(login.get_attribute('href'))
    if login.is_displayed():
        login.click()
time.sleep(1)

#通过二次定位寻找用户名登录按钮
uesrlogins = driver.find_elements_by_xpath("//div[@class='tang-pass-footerBar']/p")
for uesrlogin in uesrlogins:
    print(uesrlogin.text)
    if uesrlogin.is_displayed():
        uesrlogin.click()

#输入密码并登陆
name = driver.find_element_by_name("userName")
name.clear
name.send_keys("Eastmount")     
pwd = driver.find_element_by_name("password")
pwd.clear
pwd.send_keys("12345678")

#暂停输入验证码 按回车键登录
time.sleep(5)
pwd.send_keys(Keys.RETURN)
driver.close()

注意：如果登录过程中需要输入验证码，则使用time.sleep(5)暂停函数，手动输入验证码“报表”后，程序会执行send_keys(Keys.RETURN)函数，输入回车键实现百度网自动登录。

最终，该部分代码会自动输入指定的用户名和密码，然后输入回车键实现登录操作。但需要注意，由于部分页面是动态加载的，而实际操作时可能无法捕获其节点，同时百度网页的HTML源码也会不定期变化，但是其原理知识更为重要，希望读者掌握类似的分析方法，在后面爬取微博、知乎、B站等案例时，也会再结合实例详细讲解自动登录爬虫。

2.WebElement常用属性

通过WebElement接口可以获取常用的值，其中常见属性值如下表所示。

表4 常用属性

该部分代码如下：

#-*- coding:utf-8 -*-
#By:Eastmount CSDN 2021-05-29
import time
from selenium import webdriver  
from selenium.webdriver.common.keys import Keys 

driver = webdriver.Firefox()  
driver.get("https://www.baidu.com/")

print(driver.title)
print(driver.current_url)
# 百度一下，你就知道
# https://www.baidu.com/

news = driver.find_element_by_xpath("//div[@id='u1']/a[1]")
print(news.text)
print(news.get_attribute('href'))
print(news.location)
# 新闻
# http://news.baidu.com/
# {'y': 19.0, 'x': 456.0}

输出结果如下图所示：

driver.title是输出网页的标题“百度一下，你就知道”，driver.current_url输出当前页面的超链接；
再通过find_element_by_xpath("//div[@id=‘u1’]/a[1]")函数定位百度首页右上角“新闻”链接；
然后调用news.text代码输出其内容；
最后get_attribute(‘href’)函数是获取超链接，news.location是输出其网页坐标位置。

五.键盘和鼠标自动化操作

Selenium技术另一个特点就是可以自动化操作鼠标和键盘，所以它更多的应用是自动化测试领域，通过自动操作网页，反馈响应的结果从而检测网站的健壮性和安全性。

1.键盘操作

在Selenium提供的Webdriver库中，其子类Keys提供了所有键盘按键操作，比如回车键、Tab键、空格键，同时也包括一些常见的组合按键操作，如Ctrl+A（全选）、Ctrl+C（复制）、Ctrl+V（粘贴）等。常用键盘操作如下：

send_keys(Keys.ENTER)：按下回车键，最常用按键操作
send_keys(Keys.TAB)：按下Tab制表键
send_keys(Keys.SPACE)：按下空格键Space
send_keys(Kyes.ESCAPE)：按下回退键Esc
send_keys(Keys.BACK_SPACE)：按下删除键BackSpace
send_keys(Keys.SHIFT)：按下Shift键
send_keys(Keys.CONTROL)：按下Ctrl键
send_keys(Keys.CONTROL,‘a’)：按下组合键全选Ctrl+A
send_keys(Keys.CONTROL,‘c’)：按下组合键复制Ctrl+C
send_keys(Keys.CONTROL,‘x’)：按下组合键剪切Ctrl+X
send_keys(Keys.CONTROL,‘v’)：按下组合键粘贴Ctrl+V

下面举一个百度自动搜索“Python”关键字的简单示例，代码如下：

#-*- coding:utf-8 -*-
#By:Eastmount CSDN 2021-05-29
from selenium import webdriver  
from selenium.webdriver.common.keys import Keys 

driver = webdriver.Firefox()  
driver.get("https://www.baidu.com/")
elem = driver.find_element_by_id("kw")
elem.send_keys("Python")
elem.send_keys(Keys.RETURN)

首先需要定位百度搜索框的HTML源代码，分析结果如图14所示，百度搜索框对应的HTML标签为input且其ID属性为“kw”，故定位代码为：

driver.find_element_by_id(“kw”)

然后调用elem.send_keys(“Python”)输入关键字“Pyhon”，elem.send_keys(Keys.RETURN)代码表示输入回车键，相当于点击“百度一下”按钮，反馈结果如图15所示。

同样可以自动搜索作者“Eastmount”的信息，哈哈~

2.鼠标操作

Selenium操作鼠标技术也常用于自动化测试中，它位于ActionChains类中，最常用的是click()函数，该函数表示单击鼠标左键操作。常见的鼠标操作如下：

click()：点击鼠标左键一次
context_click(elem)：右击鼠标点击元素elem，比如在弹出的快捷键菜单中选择“另存为”等命令
double_click(elem)：击鼠标点击元素elem
drag_and_drop(source,target)：鼠标拖动操作。在源元素source位置下按下鼠标左键，并移动至目标元素target释放鼠标
send_keys(Keys.BACK_SPACE)：按下删除键BackSpace
move_to_element(elem)：将鼠标光标移动到元素elem上
click_and_hold(elem)：按下鼠标左键并悬停在元素elem上
perform()：执行ActionChains类中的存储操作，弹出对话框

下面的示例代码是定位百度的logo图片，再执行鼠标右键另存为图片操作。

弹出对话框如下图所示，新版本尝试输入k键也能另存为网页。

六.导航控制

前一小节讲述了Python操作键盘和鼠标，建议读者一定要自己去实现该部分代码，从而更好地应用到实际项目中去。本小节主要介绍Selenium的导航控制操作，包括页面交互、表单操作和对话框间移动。

1.下拉菜单交互操作

前面讲述的百度搜索案例就是一个页面交互的过程，包括：

调用driver.find_element_by_xpath()函数定位元素。
调用send_keys(key)输入关键词或键盘按键，如输入Keys.RETURN回车键。
调用click()函数点击左键，右键点击“另存为图片”等。

这里我们将补充页面交互的切换下拉菜单的实例。定位“name”下拉菜单标签之后，我们调用SELECT类选中选项，同时select_by_visible_text()用于显示选中菜单，也可以提交Form表单。

from selenium.webdriver.support.ui import Select
name = driver.find_element_by_name('name')
select = Select(name)
select.select_by_index(index)
select.select_by_visible_text("text")
select.select_by_value(value)

如果读者想取消已经选中的选项，则使用如下代码：

from selenium.webdriver.support.ui import Select
name = driver.find_element_by_name('name')
select = Select(name)
all_selected_options = select.all_selected_options

获取所有的可用选项则调用select.options即可，当读者填写完表单后，可以通过submit()函数提交，或者找到提交按钮后调用下面函数提交表单。

driver.find_element_by_id(“submit”).click()

2.Window和Frame间对话框移动

网站通常都是由多个窗口组成的，称为多帧Web应用，WebDriver提供了方法switch_to_window来支持命名窗口间的移动切换。比如：

driver.switch_to_window(“windowName”)

现在driver的所有操作将会针对特定的窗口。但是怎么才能知道窗口的名字呢？可以通过定位其HTML源码中的超链接，或者给switch_to_window()方法传递一个“窗口句柄”，常用的方法是循环遍历所有的窗口，再获取指定的句柄进行定位操作，核心代码如下：

for handle in driver.window_handles:
    driver.switch_to_window(handle)

在帧与帧（Iframe）之间切换使用driver.switch_to_frame(“frameName”)函数。对于弹出式对话框，Selenium WebDriver提供了内建支持，通过switch_to_alert()函数将返回当前打开的alert对象，通过该对象您可以进行确认同意或反对操作，也可以读取它的内容。

alert = driver.switch_to_alert()

更多知识推荐读者阅读官方文档，下面是捕获弹出式对话框内容的核心代码。

#获取当前窗口句柄
now_handle = driver.current_window_handle 
print(now_handle)

#获取所有窗口句柄
all_handles = driver.window_handles 
for handle in all_handles:
    if handle!=now_handle:
        #输出待选择的窗口句柄
        print(handle)
        driver.switch_to_window(handle)
        time.sleep(1)
        #具体操作
        elem_bt = driver.find_element_by_xpath("...")
        driver.close() #关闭当前窗口

#输出主窗口句柄
print(now_handle)
driver.switch_to_window(now_handle) #返回主窗口

后续实例也会介绍一种窗口句柄转义的方法。

七.总结

Selenium库分析和定位节点的方法和BeautifulSoup库类似，它们都能够利用类似于XPath技术来定位标签，都拥有丰富的操作函数来爬取数据。但不同之处在于：

Selenium能方便的操控键盘、鼠标以及切换对话框、提交表单等，当我们的目标网页需要验证登录之后才能爬取、所爬取的数据位于弹出来的对话框中或者所爬取的数据通过超链接跳转到了新的窗体时，Selenium技术的优势就体现出来了，它通过控制鼠标模拟登录或提交表单从而爬取数据，但其缺点是爬取效率较低，BeautifulSoup速度更快些。

Selenium用得更广泛的领域是自动化测试，它直接运行在浏览器中（如Firefox、Chrome、IE等），就像真实用户操作一样，对开发的网页进行各式各样的测试，它更是自动化测试方向的必备工具。希望读者能掌握这种技术的爬取方法，尤其是目标网页需要验证登录等情形。

该系列所有代码下载地址：

https://github.com/eastmountyxz/Python-zero2one

感谢在求学路上的同行者，不负遇见，勿忘初心。这周的留言感慨～

(By:娜璋之家 Eastmount 2021-05-29 夜于武汉 https://blog.csdn.net/Eastmount )

参考文献

[1] [译]Selenium Python文档：目录 - Tacey Wong - 博客园
[2] Baiju Muthukadan Selenium with Python Selenium Python Bindings 2 documentation
[3] https://github.com/baijum/selenium-python
[4] http://blog.csdn.net/Eastmount/article/details/47785123
[5] Selenium实现自动登录163邮箱和Locating Elements介绍 - Eastmount
[6] Selenium常见元素定位方法和操作的学习介绍 - Eastmount
[7]《Python网络数据爬取及分析从入门到精通（爬取篇）》Eastmount

你可能感兴趣的:(Python从零到壹,知识图谱,web数据挖掘及NLP,Python网络爬虫,Selenium,Python,网络爬虫,基础原理,鼠标操作)

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动李蕾1229
为促进我校教师专业发展，发挥骨干教师的引领带头作用，11月6日下午，我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动。图片发自App会议由教师发展处李蕾主任主持，首先，由范校长宣读新老教师结对名单及双方承担职责。随后，两位新调入教师陈玉萍、莫正杰分别和他们的师傅鲍元美、刘召彬老师签订了师徒结对协议书。图片发自App图片发自App师徒拥抱、握手。有了师傅就有了目标有了方向，相信两位新教师在师
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
第一场雪岁月静好_nx
早晨起来，外面白茫茫的一片，总算是下雪了，这还是今年第一场雪呢！走在路上，踩着雪“咯吱咯吱”的，空气很湿润。树上、草坪上、屋顶上都落了白白的一层，天上还零星漂着几点雪。慢慢走在路上，呼吸着清新的空气，感受着冬天的美好，心情也好多了。
开心蒋泳频
从无比抗拒来上课到接受，感动，收获～看着波哥成长，晶晶幸福笑容满面。感觉自己做的事情很有意义，很开心！还有3个感召目标就是还有三个有缘人，哈哈。明天感召去明日计划：8：30-11：00小公益11：00-21点上班，感召图片发自App图片发自App图片发自App
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文