退役小学生呀

章节十：Selenium

章节十：Selenium
- 1. selenium是什么
- 2. 怎么用
  - 2.1 设置浏览器引擎
  - 2.2 获取数据
  - 2.3 解析与提取数据
  - 2.4 自动操作浏览器
- 3. 实操运用
  - 3.1 确认目标
  - 3.2 分析过程
  - 3.3 代码实现
- 4. 本关总结
- 5. 习题练习
  - 5.1 习题一
    - 5.1.1 练习介绍
    - 5.1.2 要求：
    - 5.1.3 目的：
    - 5.1.4 前期准备(手动)：
    - 5.1.5 代码实现：
  - 5.2 习题二
    - 5.2.1 第一种方法：selenium
    - 5.2.2 第二种方法：selenium 与 BeautifulSoup配合

Hi，又见面啦，上一关，我们认识了cookies和session。

分别学习了它们的用法，以及区别。

还做了一个项目：带着小饼干登录，然后在博客中发表评论。

除了上一关所讲的登录问题，在爬虫过程中，我们还可能会遇到各种各样棘手的问题——

有的网站登录很复杂，验证码难以破解，比如大名鼎鼎的12306。

有的网站页面交互复杂，所使用的技术难以被爬取，比如，腾讯文档。

还有的网站，对URL的加密逻辑很复杂，比如，第4关爬过的QQ音乐歌曲评论，URL的参数变量找起来挺费劲的。

以上这些情况，想要攻破这些网站的反爬虫技术会有一些难度。

不过，你也不用担心，在本关，我将为你传授一个终极武器——selenium，通过它，可以解决以上所有问题。

1. selenium是什么

selenium是什么呢？它是一个强大的Python库。

它可以做什么呢？它可以用几行代码，控制浏览器，做出自动打开、输入、点击等操作，就像是有一个真正的用户在操作一样。

来看一小段录屏吧，文字在视频面前会显得苍白。

点击这里

这就是我用selenium写的脚本，让浏览器自动打开网页，然后输入文字，点击提交按钮。这里用到的代码我都会在后面讲到。

这里要表扬一个我之前教过的用户，他们公司内网的登录和操作很繁琐，登录之后的操作又机械重复，他学会了selenium之后，就去写了一个Python程序。

他每天上班的第一件事，就是打开电脑运行自己写的脚本，让浏览器自动打开公司内网完成登录，那些重复的工作也紧跟着一起完成。而他自己，则是坐在那里悠闲地喝茶。

selenium能控制浏览器，这对解决我们刚刚提出的那几个问题，有什么帮助呢？

首先，当你遇到验证码很复杂的网站时，selenium允许让人去手动输入验证码，然后把剩下的操作交给机器。

而对于那些交互复杂、加密复杂的网站，selenium问题简化，爬动态网页如爬静态网页一样简单。

什么是动态网页，什么又是静态网页呢？其实两种网页你都已经接触过了。

第1关教你用html写出的网页，就是静态网页。我们使用BeautifulSoup爬取这类型网页，因为网页源代码中就包含着网页的所有信息，因此，网页地址栏的URL就是网页源代码的URL。

后来，你开始接触更复杂的网页，比如QQ音乐，要爬取的数据不在HTML源代码中，而是在json中，你就不能直接使用网址栏的URL了，而需要找到json数据的真实URL。这就是一种动态网页。

不论数据存在哪里，浏览器总是在向服务器发起各式各样的请求，当这些请求完成后，它们会一起组成开发者工具的Elements中所展示的，渲染完成的网页源代码。

点击这里

在遇到页面交互复杂或是URL加密逻辑复杂的情况时，selenium就派上了用场，它可以真实地打开一个浏览器，等待所有数据都加载到Elements中之后，再把这个网页当做静态网页爬取就好了。

说了这么多优点，使用selenium时，当然也有美中不足之处。

由于要真实地运行本地浏览器，打开浏览器以及等待网渲染完成需要一些时间，selenium的工作不可避免地牺牲了速度和更多资源，不过，至少不会比人慢。

知道了它的优缺点，我们就开始学习如何使用selenium吧。

2. 怎么用

首先，和其它所有Python库一样，selenium需要安装，方法也很简单，使用pip安装。

pip install selenium # Windows电脑安装selenium
pip3 install selenium # Mac电脑安装selenium

selenium的脚本可以控制所有常见浏览器的操作，在使用之前，需要安装浏览器的驱动。

我推荐的是Chrome浏览器，打开下面的链接，就可以下载Chrome的安装包了，Windows和Mac都有。

https://localprod.pandateacher.com/python-manuscript/crawler-html/chromedriver/ChromeDriver.html

在正式开始知识的讲解之前，我想首先让你体验一下selenium脚本程序在你的本地终端运行的效果。因为在学习selenium之初，如果能亲自看到浏览器自动弹出后的操作效果，对你后续的学习会有很大帮助。

下面的代码就是本节课开头动图的代码。你现在不需要去理解具体的意思，等会儿就会学到每一行的用法。

现在只需要把这段代码复制到本地的代码编辑器中运行，体验一下你的浏览器为你自动工作的效果。当然，前提是你已经安装好了selenium库以及Chrome浏览器驱动。

# 本地Chrome浏览器设置方法
from selenium import  webdriver 
import time

driver = webdriver.Chrome() 
driver.get('https://localprod.pandateacher.com/python-manuscript/hello-spiderman/') 
time.sleep(2)

teacher = driver.find_element_by_id('teacher')
teacher.send_keys('必须是吴枫呀')
assistant = driver.find_element_by_name('assistant')
assistant.send_keys('都喜欢')
time.sleep(1)
button = driver.find_element_by_class_name('sub')
time.sleep(1)
button.click()
time.sleep(1)
driver.close()

除了看程序运行，不如手动打开这个网站看看，做一遍和程序中一样的操作，URL给你：

https://localprod.pandateacher.com/python-manuscript/hello-spiderman/

首先引入眼帘的是【你好，蜘蛛侠！】几个大字，一秒之后，它会自动跳转到一个新的页面，请你输入最喜欢的老师和助教，你点击提交之后，它又会跳转到Python之禅的中英对照页面。

仔细看，你会发现，在这个过程中，网页URL一直没有变化，可见【你好，蜘蛛侠！】是个动态网页。

体验了selenium之后，我们接下来正式开始代码的讲解。

2.1 设置浏览器引擎

和以前一样，使用一个新的Python库，首先要调用它。selenium有点不同，除了调用，还需要设置浏览器引擎。

# 本地Chrome浏览器设置方法
from selenium import webdriver #从selenium库中调用webdriver模块
driver = webdriver.Chrome() # 设置引擎为Chrome，真实地打开一个Chrome浏览器

以上就是浏览器的设置方式：把Chrome浏览器设置为引擎，然后赋值给变量driver。driver是实例化的浏览器，在后面你会总是能看到它的影子，这也可以理解，因为我们要控制这个实例化的浏览器为我们做一些事情。

# 本地Chrome浏览器设置方法
from selenium import webdriver #从selenium库中调用webdriver模块
driver = webdriver.Chrome() # 设置引擎为Chrome，真实地打开一个Chrome浏览器

chrome_options = Options() # 实例化Option对象
chrome_options.add_argument('--headless') # 对浏览器的设置
driver = RemoteWebDriver("http://chromedriver.python-class-fos.svc:4444/wd/hub", chrome_options.to_capabilities()) # 设置浏览器引擎

配置好了浏览器，就可以开始让它帮我们干活啦！

接下来，我们学习selenium的具体用法，这个部分的知识讲解，都会以你已经见到好几次的，【你好蜘蛛侠！】这个网站为例：

https://localprod.pandateacher.com/python-manuscript/hello-spiderman/

我们还是按照爬虫四步来讲解selenium的用法，看看selenium如何获取、解析与提取数据。由于本关中提取出的数据都不太复杂，直接在终端打印就好，不会涉及到储存数据这一步。

2.2 获取数据

首先看一下获取数据的代码怎么写吧。

import time

# 本地Chrome浏览器设置方法
from selenium import webdriver #从selenium库中调用webdriver模块
driver = webdriver.Chrome() # 设置引擎为Chrome，真实地打开一个Chrome浏览器

driver.get('https://localprod.pandateacher.com/python-manuscript/hello-spiderman/') # 打开网页
time.sleep(1)
driver.close() # 关闭浏览器

前面三行代码都是你学过的，调用模块，并且设置浏览器，只有后两行代码是新的。

get(URL)是webdriver的一个方法，它的使命是为你打开指定URL的网页。

刚才说过driver在这里是一个实例化的浏览器，因此，就是通过这个浏览器打开网页。

当一个网页被打开，网页中的数据就加载到了浏览器中，也就是说，数据被我们获取到了。

driver.close()是关闭浏览器驱动，每次调用了webdriver之后，都要在用完它之后加上一行driver.close()用来关闭它。

就像是，每次打开冰箱门，把东西放进去之后，都要记得关上门，使用selenium调用了浏览器之后也要记得关闭浏览器。

把上面的代码复制粘贴在你的本地电脑中运行，你可以看到，一个浏览器自动启动，并为你打开一个网页，停留一秒之后，浏览器关闭。

点击这里

下一步，我们要让浏览器解析并提取数据，然后打印出来，让我们看到返回的运行结果。

2.3 解析与提取数据

我们在前面花两个关卡学习了使用BeautifulSoup解析网页源代码，然后提取其中的数据。

selenium库同样也具备解析数据、提取数据的能力。它和BeautifulSoup的底层原理一致，但在一些细节和语法上有所出入。

首先明显的一个不同即是：selenium所解析提取的，是Elements中的所有数据，而BeautifulSoup所解析的则只是Network中第0个请求的响应。

本关开头我说过，用selenium把网页打开，所有信息就都加载到了Elements那里，之后，就可以把动态网页用静态网页的方法爬取了。

selenium是如何解析与提取数据的呢？我们现在来试试提取【你好蜘蛛侠！】网页中，元素的内容吧。

代码我写好了，点击运行看看吧：

# 本地Chrome浏览器设置方法
from selenium import webdriver #从selenium库中调用webdriver模块
driver = webdriver.Chrome() # 设置引擎为Chrome，真实地打开一个Chrome浏览器
import time

driver.get('https://localprod.pandateacher.com/python-manuscript/hello-spiderman/') # 访问页面
time.sleep(2) # 等待2秒
label = driver.find_element_by_tag_name('label') # 解析网页并提取第一个标签
print(label.text) # 打印label的文本
driver.close() # 关闭浏览器

从运行结果中可以看到，我们提取出了(提示：吴枫)中的文本(提示：吴枫)。

上面这段代码只有最后几行代码是新增的，第7行：等待2秒；第8行：然后解析网页并提取网页中第一个标签；第9行：打印label的文本内容。

用time.sleep(2)等待两秒，是由于浏览器缓冲加载网页需要耗费一些时间，以及我在这个网页中设置了一秒之后才从首页跳转到输入页面，所以，等待两秒再去解析和提取比较稳妥。

这样来看，解析与提取数据，在这里其实只用了一行代码：

label = driver.find_element_by_tag_name('label') # 解析网页并提取第一个标签中的文字

你能否看出，是哪部分在做解析，哪部分在做提取？

先回想下，使用BeautifulSoup解析提取数据时，首先要把Response对象解析为BeautifulSoup对象，然后再从中提取数据。

而在selenium中，获取到的网页存在了driver中，而后，解析与提取是同时做的，都是由driver这个实例化的浏览器完成。

所以，上个问题的答案是：解析数据是由driver自动完成的，提取数据是driver的一个方法。

清楚了解析与提取的本质，我们接下来详细讲解析数据的方法。

selenium当然不光能通过标签来提取数据，还有很多查找和提取元素的方法，都是非常直截了当的方法。

你可以看出，提取数据的方法都是英文直译的意思。举例给你看看它们的用法，请仔细阅读下面代码的注释：

# 以下方法都可以从网页中提取出'你好，蜘蛛侠！'这段文字

find_element_by_tag_name：通过元素的名称选择
# 如你好，蜘蛛侠！ 
# 可以使用find_element_by_tag_name('h1')

find_element_by_class_name：通过元素的class属性选择
# 如你好，蜘蛛侠！
# 可以使用find_element_by_class_name('title')

find_element_by_id：通过元素的id选择
# 如你好，蜘蛛侠！ 
# 可以使用find_element_by_id('title')

find_element_by_name：通过元素的name属性选择
# 如你好，蜘蛛侠！ 
# 可以使用find_element_by_name('hello')

#以下两个方法可以提取出超链接

find_element_by_link_text：通过链接文本获取超链接
# 如你好，蜘蛛侠！
# 可以使用find_element_by_link_text('你好，蜘蛛侠！')

find_element_by_partial_link_text：通过链接的部分文本获取超链接
# 如你好，蜘蛛侠！
# 可以使用find_element_by_partial_link_text('你好')

以上就是提取单个元素的方法了。

那么，我们提取出的元素是什么类呢？这种对象有什么属性和方法呢？我们现在就来看看。请阅读下面的代码，然后点击运行：

# 本地Chrome浏览器设置方法
from selenium import webdriver #从selenium库中调用webdriver模块
driver = webdriver.Chrome() # 设置引擎为Chrome，真实地打开一个Chrome浏览器
import time

driver.get('https://localprod.pandateacher.com/python-manuscript/hello-spiderman/') # 访问页面
time.sleep(2) # 等待2秒

label = driver.find_element_by_tag_name('label') # 解析网页并提取第一个标签中的文字
print(type(label)) # 打印label的数据类型
print(label.text) # 打印label的文本
print(label) # 打印label
driver.close() # 关闭浏览器

运行结果有3行，分别是：

、label的文本(提示：吴枫)、以及label本身。

可见，提取出的数据属于WebElement类对象，如果直接打印它，返回的是一串对它的描述。

而它与BeautifulSoup中的Tag对象类似，也有一个属性.text，可以把提取出的元素用字符串格式显示。

还想补充的是，WebElement类对象与Tag对象类似，它也有一个方法，可以通过属性名提取属性的值，这个方法是.get_attribute()。

我们来举个例子：

我们试试，通过class="teacher"定位到上图中标亮的元素，然后提取出type这个属性的值text。

# 本地Chrome浏览器设置方法
from selenium import webdriver #从selenium库中调用webdriver模块
driver = webdriver.Chrome() # 设置引擎为Chrome，真实地打开一个Chrome浏览器
import time

driver.get('https://localprod.pandateacher.com/python-manuscript/hello-spiderman/') # 访问页面
time.sleep(2) # 等待两秒

label = driver.find_element_by_class_name('teacher') # 根据类名找到元素
print(type(label)) # 打印label的数据类型
print(label.get_attribute('type')) # 获取type这个属性的值
driver.close() # 关闭浏览器

因此，我们可以总结出，selenium解析与提取数据的过程中，我们操作的对象转换：

刚才，我们做的都是提取出网页中的第一个符合要求的数据，接下来，我们就看看提取多个元素的方法吧。

find_element_by_与BeautifulSoup中的find类似，可以提取出网页中第一个符合要求的元素；既然BeautifulSoup有提取所有元素的方法find_all，selenium也同样有方法。

方法也一样很简单，把刚才的element换成复数elements就好了。

我们来试试提取出【你好,蜘蛛侠！】的所有label标签中的文字。

# 本地Chrome浏览器设置方法
from selenium import webdriver #从selenium库中调用webdriver模块
driver = webdriver.Chrome() # 设置引擎为Chrome，真实地打开一个Chrome浏览器
from bs4 import BeautifulSoup
import time

driver.get('https://localprod.pandateacher.com/python-manuscript/hello-spiderman/') # 访问页面
time.sleep(2) # 等待两秒

labels = driver.find_elements_by_tag_name('label') # 根据标签名提取所有元素
print(type(labels)) # 打印labels的数据类型
print(labels) # 打印labels
driver.close() # 关闭浏览器

从运行结果可以看到，提取出的是一个列表，。而列表的内容就是WebElements对象，这些符号是对象的描述，我们刚才学过，需要用.text才能返回它的文本内容。

既然得到了列表，就可以和find_all返回的结果类似，同样用for循环遍历列表就可以提取出列表中的每一个值了。

那么，请你写一下这个代码吧：

提取出网页你好,蜘蛛侠！中，所有label标签中的文字。

URL: https://localprod.pandateacher.com/python-manuscript/hello-spiderman/

# 本地Chrome浏览器设置方法
from selenium import webdriver #从selenium库中调用webdriver模块
driver = webdriver.Chrome() # 设置引擎为Chrome，真实地打开一个Chrome浏览器
import time
from bs4 import BeautifulSoup

driver.get('https://localprod.pandateacher.com/python-manuscript/hello-spiderman/') # 访问页面
time.sleep(2)

labels = driver.find_elements_by_tag_name('label') # 根据标签名提取所有元素
print(type(labels))  # 打印labels的数据类型
for label in labels: # 循环，遍历labels这个列表
    print(label.text) # 打印labe的文本
driver.close() # 关闭浏览器

以上就是selenium的解析与提取数据的方法了。

除了用selenium解析与提取数据，还有一种解决方案，那就是，使用selenium获取网页，然后交给BeautifulSoup解析和提取。

接下来，我们就看看，selenium与BeautifulSoup如何快乐地合作。

我们回顾一下BeautifulSoup的工作方式吧。

BeautifulSoup需要把字符串格式的网页源代码解析为BeautifulSoup对象，然后再从中提取数据。

selenium刚好可以获取到渲染完整的网页源代码。

如何获取呢？也是使用driver的一个方法：page_source。

HTML源代码字符串 = driver.page_source

我们现在就来实操一下，获取【你好，蜘蛛侠！】的网页源代码：

# 本地Chrome浏览器设置方法
from selenium import webdriver #从selenium库中调用webdriver模块
driver = webdriver.Chrome() # 设置引擎为Chrome，真实地打开一个Chrome浏览器
import time

driver.get('https://localprod.pandateacher.com/python-manuscript/hello-spiderman/') # 访问页面
time.sleep(2) # 等待两秒，等浏览器加缓冲载数据

pageSource = driver.page_source # 获取完整渲染的网页源代码
print(type(pageSource)) # 打印pageSource的类型
print(pageSource) # 打印pageSource
driver.close() # 关闭浏览器

跟我抄写一遍这段代码吧，设置浏览器的部分我已经帮你写好了：

我们成功获取并打印出了网页源代码O(∩_∩)O~~而且它的数据类型是。

你还记不记得，用requests.get()获取到的是Response对象，在交给BeautifulSoup解析之前，需要用到.text的方法才能将Response对象的内容以字符串的形式返回。

而使用selenium获取到的网页源代码，本身已经是字符串了。

获取到了字符串格式的网页源代码之后，就可以用BeautifulSoup解析和提取数据了，这是我留给你的一个课后作业。

到这里，解析与提取数据的方法就讲解完了。

关于selenium的用法，还有什么没有讲呢？对！就是我们在本关开头演示的功能，控制浏览器自动输入文本，并且点击提交。

点击这里

网页URL再给你一次：

https://localprod.pandateacher.com/python-manuscript/hello-spiderman/

我现在就为你解开这个谜底。

2.4 自动操作浏览器

其实，要做到上面动图中显示的效果，你只需要新学两个方法就好了：

.send_keys() # 模拟按键输入，自动填写表单
.click() # 点击元素

用这两行代码，再搭配刚才所讲的解析提取数据的方法，就可以完成操作浏览器的效果了。

学到这里，我们就可以写下全部代码了，这也正是我在开头给你的，让你复制到本地运行过的代码。

# 本地Chrome浏览器设置方法
from selenium import webdriver # 从selenium库中调用webdriver模块
import time # 调用time模块
driver = webdriver.Chrome() # 设置引擎为Chrome，真实地打开一个Chrome浏览器

driver.get('https://localprod.pandateacher.com/python-manuscript/hello-spiderman/') # 访问页面
time.sleep(2) # 暂停两秒，等待浏览器缓冲

teacher = driver.find_element_by_id('teacher') # 找到【请输入你喜欢的老师】下面的输入框位置
teacher.send_keys('必须是吴枫呀') # 输入文字
assistant = driver.find_element_by_name('assistant') # 找到【请输入你喜欢的助教】下面的输入框位置
assistant.send_keys('都喜欢') # 输入文字
button = driver.find_element_by_class_name('sub') # 找到【提交】按钮
button.click() # 点击【提交】按钮
time.sleep(1)
driver.close() # 关闭浏览器

重点关注最后的8行代码，这段代码所做的是两次输入以及一次点击的操作，然后等待一秒，关闭浏览器驱动。

跟我抄一遍这个代码作为练习吧！我把它改为了课程系统中的浏览器设置，这部分代码已经为你准备好，你只需要从访问页面的命令开始写就好。

由于这个代码的命令都是控制浏览器做一些操作，因此终端不会返回任何结果。

你在抄写的时候，有没有发现，最后的6行代码是两两对应的，在每一次输入和点击之前，都要先定位到对应的位置，查找定位用的方法就是前面学过的，解析与提取数据的方法。

比如，在输入你喜欢的老师之前，首先要在网页源代码中找到输入框的位置，方法还是我们之前学过的方法，点击开发者工具左上角的小箭头，然后把鼠标放在网页的空格处。

从网页源代码可以看出，可以根据id="teacher"，或者class="teacher"查找定位到这里。

把提取到的位置信息赋值给teacher，然后再用teacher.send_keys()的方法输入你想填到这个空里的文本。

这样就完成了一个完整的操作，后面的两个操作，方法都是类似的。由此，整个代码也就写出来了。

还想补充一个小知识，除了输入和点击的两个方法，经常配合它们会用到的，还有一个方法.clear()，用于清除元素的内容。

假如，在刚才的空格中，已经输入了【蜘蛛侠】，如果你想改成【吴枫】，就需要先用.clear()清除掉【蜘蛛侠】这几个文字，再填写新的文字。

到这里，本关知识讲解的部分就全部完成了，我们接下来一起做一个项目吧~

每次学到新知识，都要及时通过实操练习，巩固所学的知识，这样才能对知识形成更深的理解和记忆。

3. 实操运用

3.1 确认目标

我们这次试试用selenium爬取QQ音乐的歌曲评论，我选的歌是《甜甜的》。

https://y.qq.com/n/yqq/song/000xdZuV2LcQ19.html

不知道你还有没有印象，在第6关学json时，爬过QQ音乐的歌曲最新评论，我们这次来爬精彩评论，两种评论的爬取方法本质是一样的。

现在带你用selenium再做一次之前做过的项目，当然不是我偷懒拍脑袋的决定，而是经过了深思熟虑，因为，同一个项目可以做两次，甚至可以做很多次。

使用不同的路径，到达相同的目的，这种学习和训练方法，会帮你把知识搞得更加透彻。

确认了目标，我们就开始行动吧！照旧，在写代码之前，要先分析思路。

3.2 分析过程

依旧按照爬虫的四个步骤来分析。

首先是获取数据：

通过第6关的学习，你已经知道，网页源代码中没有我们想要的评论，而是存在了Json中，需要通过查看XHR，找到每一页评论的Json数据真实URL，才能获取到数据。

我们这次是用selenium，就不需要花费精力去查找和破解URL了，因为，通过selenium打开浏览器的操作，数据就被加载到elements中了。

获取更多的评论的方法，也变得非常简单，直接使用selenium控制浏览器点击【点击加载更多】的按钮，评论数据自然就都加载到elements中了，简直完美：

点击这里

接下来是解析与提取数据：

第一种解决思路是使用selenium提取数据的方法。

第二种解决思路是，先获取到完整网页源代码，然后用BeautifulSoup抓取。这两种方法都能完成解析提取的工作。

最后的存储数据这一步我们跳过不做了，直接在终端打印。

梳理清楚了全部过程，就可以开始写！代！码！啦！

3.3 代码实现

首先，调用所有需要的模块，设置好Chrome浏览器引擎，访问网页，获取数据。

# 本地Chrome浏览器设置方法
from selenium import webdriver #从selenium库中调用webdriver模块
driver = webdriver.Chrome() # 设置引擎为Chrome，真实地打开一个Chrome浏览器

driver.get('https://y.qq.com/n/yqq/song/000xdZuV2LcQ19.html') # 访问页面

然后，用selenium的解析提取方法，获取歌曲评论并打印。

需要注意的是，在获取到网页之后，解析与提取之前，要加上time.sleep(2)，因为网页的加载需要零点几秒的时间，保险起见，我们等待2秒。

提取数据的时候，首先需要知道数据存在了网页的什么位置，还是老办法，【右键-检查】，把鼠标放在歌曲精彩评论那里，找到Elements中对应的位置：

这里要注意的是，这个网页源代码中，评论所在的元素中，class属性就有好多个，而使用selenium时，只能用其中一个属性来提取数据。

通过分析网页结构，我们选择用class_name与tag_name来提取数据。获取这首歌曲第一页精彩评论的代码就可以写出来了：

# 本地Chrome浏览器设置方法
from selenium import webdriver #从selenium库中调用webdriver模块
driver = webdriver.Chrome() # 设置引擎为Chrome，真实地打开一个Chrome浏览器
import time

driver.get('https://y.qq.com/n/yqq/song/000xdZuV2LcQ19.html') # 访问页面
time.sleep(2)

comments = driver.find_element_by_class_name('js_hot_list').find_elements_by_class_name('js_cmt_li') # 使用class_name找到评论
print(len(comments)) # 打印获取到的评论个数
for comment in comments: # 循环
    sweet = comment.find_element_by_tag_name('p') # 找到评论
    print ('评论：%s\n ---\n'%sweet.text) # 打印评论
driver.close() # 关闭浏览器

这次提取出了15个评论，下一步，我们要获取更多评论。点击网页中的【点击加载更多】，就会加载出新的15个评论的数据。

点击这里

这时候，写代码的方法就很明朗了，首先找到【点击加载更多】在网页源代码中的位置，点击它，等待源代码加载完成之后就可以把全部30个评论提取出来了。

我为你写下了前半部分代码，请你把后面的补全吧：

在QQ音乐中，获取歌曲《甜甜的》30个精彩评论。 URL： https://y.qq.com/n/yqq/song/000xdZuV2LcQ19.html

tips：网页默认有15个评论，点击加载更多之后，又会出现15个评论。

我为你写下了前面的代码，请你把后面的部分补全吧。

# 本地Chrome浏览器设置方法
from selenium import webdriver #从selenium库中调用webdriver模块
driver = webdriver.Chrome() # 设置引擎为Chrome，真实地打开一个Chrome浏览器
import time

driver.get('https://y.qq.com/n/yqq/song/000xdZuV2LcQ19.html') # 访问页面
time.sleep(2)

button = driver.find_element_by_class_name('js_get_more_hot') # 根据类名找到【点击加载更多】
button.click() # 点击
time.sleep(2) # 等待两秒

comments = driver.find_element_by_class_name('js_hot_list').find_elements_by_class_name('js_cmt_li') #  使用class_name找到评论
print(len(comments)) # 打印获取到的评论个数
for comment in comments: # 遍历列表
    sweet = comment.find_element_by_tag_name('p') # 找到评论
    print ('评论：%s\n ---\n'%sweet.text) # 打印评论
driver.close() # 关闭浏览器

成功获取到了两页的评论，掌声给你~

如果你还想获取更多评论，再加上一个循环，和一个条件判断——能否找到点击翻页的选项，就可以实现啦。代码我在这里就不写了，你可以自己在课后练习，练习的目的是学会方法，而没有必要真的把上千条评论全部获取到。

刚才用的是第一种解析与提取的方法，当然还可以使用第二种方法：selenium和BeautifulSoup结合。

先用selenium获取完整的网页源代码，然后使用你已经熟悉的BeautifulSoup解析和提取数据。

代码我写好了，和刚才的区别就是最后几行代码：

# 本地Chrome浏览器设置方法
from selenium import webdriver #从selenium库中调用webdriver模块
driver = webdriver.Chrome() # 设置引擎为Chrome，真实地打开一个Chrome浏览器
from bs4 import BeautifulSoup
import time

driver.get('https://y.qq.com/n/yqq/song/000xdZuV2LcQ19.html') # 访问页面
time.sleep(2)

button = driver.find_element_by_class_name('js_get_more_hot') # 根据类名找到【点击加载更多】
button.click() # 点击
time.sleep(2) # 等待两秒

pageSource = driver.page_source # 获取Elements中渲染完成的网页源代码
soup = BeautifulSoup(pageSource,'html.parser')  # 使用bs解析网页
comments = soup.find('ul',class_='js_hot_list').find_all('li',class_='js_cmt_li') # 使用bs提取元素
print(len(comments)) # 打印comments的数量

for comment in comments: # 循环
    sweet = comment.find('p') # 提取评论
    print ('评论：%s\n ---\n'%sweet.text) # 打印评论
driver.close() # 关闭浏览器 # 关闭浏览器

到这里，代码就全部写完了。

我们用了与第4关不同的方法，完成了相同的项目。而且，在解析与提取数据的时候，也采用了两种方法去实现。

学会了这么多种方法，以后再遇到类似问题，就可以根据实际情况来评估，用哪些方法可以实现，然后挑选其中一种方法去做项目了。

4. 本关总结

感谢努力的你，学完了全部知识，还做了项目，我们现在又到了关卡快要结束的时刻了。

在这一关，我教你安装了selenium与Chrome驱动，然后介绍了浏览器的两种设置方法：本地的设置方法与教学系统中的方法。本地的设置方法是这样的：

# 本地Chrome浏览器的可视模式设置：
from selenium import webdriver #从selenium库中调用webdriver模块
driver = webdriver.Chrome() # 设置引擎为Chrome，真实地打开一个Chrome浏览器

这种设置方法可以让你看到浏览器的操作过程。我想在这里补充的是，在本地的操作环境中，你还可以把自己电脑中的Chrome浏览器设置为静默模式，也就是说，让浏览器只是在后台运行，并不在电脑中打开它的可视界面。

因为在做爬虫时，通常不需要打开浏览器，爬虫的目的是爬到数据，而不是观看浏览器的操作过程，在这种情况下，就可以使用浏览器的静默模式，

它的设置方法是这样的：

# 本地Chrome浏览器的静默默模式设置：
from selenium import  webdriver #从selenium库中调用webdriver模块
from selenium.webdriver.chrome.options import Options # 从options模块中调用Options类

chrome_options = Options() # 实例化Option对象
chrome_options.add_argument('--headless') # 把Chrome浏览器设置为静默模式
driver = webdriver.Chrome(options = chrome_options) # 设置引擎为Chrome，在后台默默运行

它与教学系统中所采用的浏览器设置方法有些类似，如果你想在本地运行静默模式，就可以这样设置。

与上面浏览器的可视设置相比，5、6、7行代码是新增的，首先调用了一个新的类——Options，然后通过它的方法和属性，给浏览器输入了一个参数——headless。第7行代码中，把刚才所做的浏览器设置传给了Chrome浏览器。

浏览器的可视模式与静默模式的设置，就是以上四行代码的区别。你懂的，这之后所有代码都是一样的。

嘱咐好了所有要讲给你的知识，那就继续每一关结尾例行的总结吧~

我们刚才学习了使用selenium获取数据的方法：.get('URL')。

解析与提取数据的方法：

以及在这个过程中，对象的转换过程：

除了上面的方法，selenium还可以搭配BeautifulSoup解析提取数据，前提是先获取字符串格式的网页源代码。

HTML源代码字符串 = driver.page_source

以及自动操作浏览器的一些方法。

还有，在用完浏览器之后，要记得关闭它，以免资源浪费，在代码的结尾处加一行driver.close()就好。

到这里，你应该能感受到，Selenium是一个强大的网络数据采集工具，它的优势是简单直观，而它当然也有缺点。

由于是真实地模拟人操作浏览器，需要等待网页缓冲的时间，在爬取大量数据的时候，速度会比较慢。

通常情况，在爬虫项目中，selenium都是用在其它方法无法解决，或是很难解决的问题时，才会用到。

当然，除了爬虫，selenium的使用场景还有很多。比如：它可以控制网页中图片文件的显示、控制CSS和JavaScript的加载与执行等等。

我们的课程只是带你入门，讲了一些简单常用的操作，还想进一步学习的话，可以通过selenium的官方文档链，目前只有英文版：

https://seleniumhq.github.io/selenium/docs/api/py/api.html

还可以参考这个中文文档：

https://selenium-python-zh.readthedocs.io/en/latest/

5. 习题练习

5.1 习题一

5.1.1 练习介绍

上一关学cookies的时候，我带你登录了人人都是蜘蛛侠，然后发表了一个评论。

现在又学了selenium，你还可以使用与上一关不同的方式登录博客，并且发表评论。

5.1.2 要求：

首先，手动注册博客注册蜘蛛侠

然后，注册邮箱会收到一份新邮件，邮件含有设置密码的跳转链接，点击链接进行密码设置，别忘了拿出小本本记住密码和账号。

其次，利用代码登录博客人人都是蜘蛛侠。

最后，在文章《未来已来(三)——同九义何汝秀》中，发表一个评论，这个评论中必须要带有“selenium”这个词。

5.1.3 目的：

练习selenium的使用

5.1.4 前期准备(手动)：

1.注册博客注册蜘蛛侠

2.注册邮箱会收到一份新邮件，邮件含有设置密码的跳转链接，点击链接进行密码设置，别忘了拿出小本本记住密码和账号。

博客注册页面：

https://wordpress-edu-3autumn.localprod.oc.forchange.cn/wp-login.php?action=register

博客设置密码页面(注册的邮箱将会收到的密码设置链接的入口邮件)：

5.1.5 代码实现：

1.登录博客人人都是蜘蛛侠。

2.在文章《未来已来(三)——同九义何汝秀》中，发表一个评论，这个评论中必须要带有“selenium”这个词。

博客登录页面:

https://wordpress-edu-3autumn.localprod.oc.forchange.cn/wp-login.php

from selenium import  webdriver # 从selenium模块中调用webdriver模块
import time

driver = webdriver.Chrome() # 声明浏览器为本地的Chrome
driver.get('https://wordpress-edu-3autumn.localprod.oc.forchange.cn/wp-login.php') # 访问页面
time.sleep(1) # 暂停两秒，等待浏览器缓冲

username = driver.find_element_by_id('user_login') # 定位到输入用户名的位置
username.send_keys('spiderman') # 输入用户名
password = driver.find_element_by_id('user_pass') # 定位到输入密码的位置
password.send_keys('crawler334566') # 输入密码
login = driver.find_element_by_id('wp-submit') # 定位到登录按钮的位置
login.click() # 点击登录
time.sleep(2) # 等待两秒

article = driver.find_element_by_partial_link_text('三') # 根据链接的部分文字"三"，定位到这个链接
article.click() # 点击链接
time.sleep(1) # 等待一秒
comment = driver.find_element_by_id('comment') # 定位到评论区
comment.send_keys('蜘蛛侠的selenium评论') # 输入评论内容，随意发挥你的创意，记得带上selenium就行
submit = driver.find_element_by_id('submit') # 定位到"发表评论"的按钮
submit.click() # 点击“发表评论”按钮
driver.close()

5.2 习题二

1.练习介绍
这就是我在关卡中跟你说的，给你留的课后作业。

2.要求：
爬取网页你好，蜘蛛侠！中的Python之禅中英文版本，并且打印。

3.目的：
练习使用selenium爬取动态网页的信息。
练习selenium与BeautifulSoup的搭配使用。

5.2.1 第一种方法：selenium

这次我们要用selenium单独完成这个爬虫。

获取数据、解析数据、提取数据这三个步骤全部都由selenium来完成。

from selenium import  webdriver # 从selenium库中调用webdriver模块
import time

driver = webdriver.Chrome() # 声明浏览器对象
driver.get('https://localprod.pandateacher.com/python-manuscript/hello-spiderman/') # 访问页面
time.sleep(2) # 暂停两秒，等待浏览器缓冲

teacher = driver.find_element_by_id('teacher') # 找到【请输入你喜欢的老师】下面的输入框位置
teacher.send_keys('必须是吴枫呀') # 输入文字
assistant = driver.find_element_by_name('assistant') # 找到【请输入你喜欢的助教】下面的输入框位置
assistant.send_keys('都喜欢') # 输入文字
button = driver.find_element_by_class_name('sub') # 找到【提交】按钮
button.click() # 点击【提交】按钮
time.sleep(1)

contents = driver.find_elements_by_class_name('content') # 定位到Python之禅所在的标签
for content in contents:
    title = content.find_element_by_tag_name('h1').text # 提取标题
    chan = content.find_element_by_tag_name('p').text # 提取正文
    print(title + '\n' + chan + '\n') # 打印标题与正文
driver.close()

5.2.2 第二种方法：selenium 与 BeautifulSoup配合

先用selenium获取到渲染完成的Elements中的网页源代码，然后，BeautifulSoup登场解析和提取数据。

from selenium import  webdriver # 从selenium库总调用webdriver模块
import time
from bs4 import BeautifulSoup

driver = webdriver.Chrome() # 声明浏览器对象
driver.get('https://localprod.pandateacher.com/python-manuscript/hello-spiderman/') # 访问页面
time.sleep(2) # 暂停两秒，等待浏览器缓冲

teacher = driver.find_element_by_id('teacher') # 定位到【请输入你喜欢的老师】下面的输入框位置
teacher.send_keys('必须是吴枫呀') # 输入文字
assistant = driver.find_element_by_name('assistant') # 定位到【请输入你喜欢的助教】下面的输入框位置
assistant.send_keys('都喜欢') # 输入文字
button = driver.find_element_by_class_name('sub') # 定位到【提交】按钮
button.click() # 点击【提交】按钮
time.sleep(1) # 等待一秒

pageSource = driver.page_source # 获取页面信息
soup = BeautifulSoup(pageSource,'html.parser')  # 使用bs解析网页
contents = soup.find_all(class_="content") # 找到源代码Python之禅中文版和英文版所在的元素
for content in contents:  # 遍历列表
    title = content.find('h1').text # 提取标题
    chan = content.find('p').text.replace('  ','') # 提取Python之禅的正文，并且去掉文字前面的所有空格
    print(title + chan + '\n') # 打印Python之禅的标题与正文
driver.close()

你可能感兴趣的:(selenium,python,测试工具,开发语言)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc