墩墩分墩

【Python】WebUI自动化—Selenium的下载和安装、基本用法、项目实战（16）

文章目录

一.介绍
二.下载安装selenium
三.安装浏览器驱动
四.QuickStart—自动访问百度
五.Selenium基本用法
- 1.定位节点
- - 1.1.单个元素定位
  - 1.2.多个元素定位
- 2.控制浏览器
- - 2.1.设置浏览器窗口大小、位置
  - 2.2.浏览器前进、刷新、后退、关闭
  - 3.3.等待
  - 3.4.Frame
  - 3.5.多窗口
  - 3.6.元素定位不到怎么办
- 3.WebDriver常用方法
- 4.Selenium事件处理
- - 4.1.鼠标事件
  - 4.2.键盘事件
- 5.无界面浏览器
- 6.执行JS脚本
- 7.在源码中查找指定的字符串
六.Selenium项目实战
- 1.实现自动搜索
- 2.滚动滑动条
- 3.实现翻页抓取
- 4.完整程序代码

一.介绍

Selenium 是一个用于测试 Web 应用程序的自动化测试工具，它直接运行在浏览器中，实现了对浏览器的自动化操作，它支持所有主流的浏览器，包括 IE，Firefox，Safari，Chrome 等。

-支持所有主流平台（如，Windows、Linux、IOS、Android、Edge、Opera等）
实现了诸多自动化功能，比如软件自动化测试，检测软件与浏览器兼容性，自动录制、生成不同语言的测试脚本，以及自动化爬虫等。

Selenium 提供了一个工具集，包括 Selenium WebDriver（浏览器驱动）、Selenium IDE（录制测试脚本）、Selenium Grid（执行测试脚本）。后面两个主要用于测试脚本的录制、执行，因此不做介绍。我们只对 Selenium WebDriver 做重点讲解。
- 关于 Selenium IDE/Grid 的相关知识可参考官网文档
  - Selenium Grid 用于并行运行多个测试用例在不同的浏览器、操作系统和机器上。
  - Selenium IDE 提供简易的界面，允许用户通过录制和回放操作来创建和执行自动化测试脚本。支持多种浏览器，包括Chrome、Firefox和Safari等，可以在这些浏览器上进行测试。

二.下载安装selenium

Linux、Mac 用户执行以下命令即可：

pip install Selenium

Windows 用户执行以下命令即可实现安装：

python -m pip install selenium

除了命令安装，也可以通过官网下载 Selenium WebDriver 安装包

三.安装浏览器驱动

Selenium 能够调用浏览器，必须通过浏览器驱动来实现。不同的浏览器需要使用不同驱动程序

常见浏览器驱动下载地址如下
- 谷歌浏览器 chromedrive：http://chromedriver.storage.googleapis.com/index.html
- 火狐浏览器 geckodriver：https://github.com/mozilla/geckodriver/releases
- IE 浏览器 IEDriver：http://selenium-release.storage.googleapis.com/index.html
- chromedriver高于114版本的版本如115、116、117、118等，如何下载对应版本
  - python编写的在windows下自动更新下载对应版本chromedriver脚本
需要注意的是：各种浏览器的驱动安装方式基本一致。但安装Chrome、Firefox 驱动时，需要下载与浏览器版本相匹配的驱动程序，否则不能驱动浏览器。而 IE 较为特殊，您需要下载与 Selenium 版本相匹配的驱动文件，如下所示：

以 Windows10 平台 Chrome 浏览器为例。先检查浏览器版本号，并下载相应驱动文件，然后解压文件，将 Chromedriver.exe 文件拷贝到 Python 安装目录的 Scripts 目录下，最后将其添加到系统环境变量中。

查看 Python 安装路径：
```
where python
```
环境变量配置如下

完成上述操作后，命令行启动驱动程序
```
chromedriver
```
- 开启成功后，驱动程序会在后台运行

四.QuickStart—自动访问百度

# 导入seleinum webdriver接口
from selenium import webdriver
import time
# 创建Chrome浏览器对象
browser = webdriver.Chrome()
#访问百度网站
browser.get('http://www.baidu.com/')
#阻塞3秒
time.sleep(3)
# 自动退出浏览器
browser.quit()

如下所示

经过测试，说明安装浏览器驱动可正常工作。Selenium WebDriver 实现了许多操作浏览器功能。比如实现自动点击、自动输入、自动搜索、自动登录等等。
-毫不夸张的说，Selenium 自动化爬虫是一种万能的爬虫程序，它可以仿照人的样子去打开网站，并拿到你想要的数据，因此你无须在意反爬措施。不过它最致命的缺点就是效率很低，因为每次点击、输入等操作都需要花费一定的时间，因此它仅适用于小批量的数据抓取。

五.Selenium基本用法

1.定位节点

1.1.单个元素定位

Selenium 提供了 8 种定位单个节点的方法如下：

from selenium import webdriver
from selenium.webdriver.common.by import By
# 初始化浏览器为谷歌浏览器
chr = webdriver.Chrome()

#通过 xpath 表达式定位
chr.find_element(By.XPATH, "//*[@id='search']")
#通过 class 属性值定位
chr.find_element(By.CLASS_NAME, "element_class_name")
#通过 id 属性值定位
chr.find_element(By.ID,"element_id")
#通过 name 属性值定位
chr.find_element(By.NAME, "element_name")
#通过标签内文本定位，即精准定位。
chr.find_element(By.LINK_TEXT,"element_link_text")
#通过 css 选择器定位
chr.find_element(By.CSS_SELECTOR, "element_css_selector")
#	通过 tag 标签名定位
chr.find_element(By.TAG_NAME, "element_tag_name")
#通过标签内部分文本定位，即模糊定位。
chr.find_element(By.PARTIAL_LINK_TEXT, "element_partial_link_text")



#旧版定位元素方法如下：
#chr.find_element_by_name()	
#chr.find_element_by_class_name()	
#chr.find_element_by_tag_name()
#chr.find_element_by_link_text()	
#chr.find_element_by_partial_link_text()	
#chr.find_element_by_xpath()	
#chr.find_element_by_css_selector()

<html>
<head>
<body link="#cc0916">
  <a id="logo" href="http://www.baidu.com" onclick="">
   <form id="form" class="fm" name="f" action="baidu.com">
    <span class="btn">span>
    <input id="kw" class="s_ipt_wr" name="wd" value="" maxlength="255" autocomplete="off">
body>
head>
html>

使用上面提供方法定位 input 输出框。如下所示：

from selenium import webdriver
from selenium.webdriver.common.by import By
# 创建browser是浏览器对象
browser = webdriver.Chrome()
# 访问某个url得到上述代码片段
browser.get('url')
# 通过id定义输入框
browser.find_element(By.ID, "kw")
# 通过class定义
browser.find_element(By.CLASS_NAME, "s_ipt_wr")
# 通过name定位
browser.find_element(By.NAME, "wd")
# 通过tag name定位:
browser.find_element(By.TAG_NAME, "input")
# 通过xpath定位
browser.find_element(By.XPATH, "//*[@id='kw']")
# 通过css选择器定位
browser.find_element(By.CSS_SELECTOR, "#kw")

通过 a 标签内的文本内容定位节点，如下所示：

<a class="vip" href="http://www.baidu.com">百度123</a>
<a class="search" href="http://www.google.com">谷歌456</a>

#使用全部文本内容定位链接
browser.find_element(By.LINK_TEXT,"百度123")
#使用部分文本内容定位链接
browser.find_element(By.PARTIAL_LINK_TEXT,"456")

1.2.多个元素定位

与单个元素的定位方式类似，把find_element改成find_elements即可，返回值是一个列表，您可以使用 for 循环拿到所有的元素节点。

from selenium import webdriver
from selenium.webdriver.common.by import By
# 初始化浏览器为谷歌浏览器
chr = webdriver.Chrome()

chr.find_elements(By.CLASS_NAME, "element_class_name")
chr.find_elements(By.ID,"element_id")

2.控制浏览器

Selenium 可以操控浏览器的窗口大小、刷新页面，以及控制浏览器的前进、后退等

2.1.设置浏览器窗口大小、位置

from selenium import webdriver

driver1 = webdriver.Chrome()
driver1.get("http://www.baidu.com")

#参数数字为像素点
driver1.set_window_size(480, 800)
#设置窗口位置
driver1.set_window_position(100,200)
#同时设置窗口的大小和坐标
driver1.set_window_rect(450,300,32,50)
#退出浏览器
driver1.quit()

2.2.浏览器前进、刷新、后退、关闭

from selenium import webdriver
driver2 = webdriver.Chrome()

# 访问C语言中文网首页
first_url= 'http://c.biancheng.net'
driver2.get(first_url)

# 访问c语言教程
second_url='http://c.biancheng.net/c/'
driver2.get(second_url)

# 返回（后退）到c语言中文网首页
driver2.back()
# 前进到C语言教程页
driver2.forward()
# 刷新当前页面相当于F5
driver2.refresh()
# 退出/关闭浏览器
driver2.quit()

3.3.等待

什么是等待？

代码执行过程中，第一次未找到元素，先不抛出异常。激活等待时间，在等待过程中如果找到元素就执行。

为什么要等待？

由于网络或配置原因，导致元素未加载出来，而代码已执行，会触发异常。

元素等待类型

隐式等待
显式等待
强制等待—>time.slepp（秒）

隐式等待（针对全部元素生效）

定位元素时,如果能定位到元素则直接返回该元素, 不触发等待;
- 如果不能定位到该元素,则间隔一段时间后再去定位元素;
- 如果在达到最大时长时还没有找到指定元素,则抛出元素不存在的的异常NoSuchElementException
方法：driver.implicitly_wait(秒)

提示：在项目中，如果未封装自动化框架时，推荐使用。

显示等待(`针对单个元素生效``)

说明：针对单个元素生效，可以修改查找频率和超时时间。
特点：查找并返回元素。

用法

from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.common.by import By
#显式等待：返回查找到的元素
el = WebDriverWait(driver, 10, 0.5).until(lambda x: x.find_element(By.XPATH, "/html/body/div[4]/div/div[2]/div[2]/ul/li[1]/div/div[1]/a/img"))
el.click()

3.4.Frame

1.什么是frame框架？

在当前页面的指定区域显示另外一个页面的内容。

2.frame表单切换的方法

一般利用·id或name属性值切换·，有时frame标签没有id和name，则考虑·下标index和元素定位切换·。
切换到指定frame
- 方法： driver.switch_to.frame(frame_reference) ： frame_reference可以为frame框架的name、id或者定位到的frame元素
  - 通过id切换：driver.switch_to.frame(“id”)
  - 通过name切换：driver.switch_to.frame(“name”)
  - 通过index下标切换：driver.switch_to.frame(0)----第一个下标是0
  - 通过元素切换：
```
element = driver.find_element(By.XPATH,'iframe')
driver.switch_to.frame(element)
```
切换回默认页面
- 方法：driver.switch_to.default_content()
- 注意：必须先切换回默认页面，才可以继续在默认页面进行操作

代码示例

#获取注册A iframe元素
element_A = driver.find_element(By.CSS_SELECTOR,"#idframe1")
#1、切换到A
driver.switch_to.frame(element_A)
#2、注册A操作
driver.find_element(By.CSS_SELECTOR,"#userA").send_keys("admin")

#3、回到默认目录
driver.switch_to.default_content()

#4、获取注册B iframe元素
element_B = driver.find_element(By.CSS_SELECTOR,"#idframe2")
#5、切换到B
driver.switch_to.frame(element_B)
#6、注册B操作
driver.find_element(By.CSS_SELECTOR,"#userB").send_keys("admin")

3.5.多窗口

为什么要切换？

selenium默认启动时，所有焦点在启动窗口，无法操作其他窗口

如何切换？

driver.current_window_handle   #获取当前窗口句柄
driver.window_handles  # 获取所有窗口句柄
driver.switch_to.window(handle[n])  #切换指定句柄窗口

注意：窗口句柄是一个唯一的标识符，可以用来定位浏览器的窗口。每次你打开一个新的窗口或标签，Selenium会为其创建一个新的窗口句柄.

示例

# 1、获取浏览器（创建浏览器驱动对象）
driver = webdriver.Chrome()
# 2、输入URL，打开web页面
driver.get("http://hmshop-test.itheima.net/Home/Goods/goodsList/id/5.html")
driver.implicitly_wait(3)
print("操作之前所有的窗口句柄：", driver.window_handles)
driver.find_element(By.XPATH, "/html/body/div[4]/div/div[2]/div[2]/ul/li[1]/div/div[1]/a/img").click()
handles = driver.window_handles
print("操作之后所有的窗口句柄：", handles)
# 切换窗口
driver.switch_to.window(handles[1])
# 将商品加入购物车
driver.find_element(By.XPATH, "/html/body/div[3]/div/form/div/div[8]/div/a[2]").click()
time.sleep(2)
# 4、关闭浏览器驱动
driver.quit()

执行结果：

多窗口之间的切换工具封装：

'''
思路：
1、获取所有窗口句柄
2、切换窗口
3、获取当前所在窗口title
4、判断title是否为需要的窗口
5、执行代码
'''


def switch_window(title):
    # 1、获取所有窗口句柄
    handles = driver.window_handles
    # 2、遍历句柄进行切换
    for handle in handles:
        driver.switch_to.window(handle)
        # 获取当前窗口title并且判断是否为自己需要的窗口
        if driver.title == title:
            # 操作代码
            return "已找到{}窗口，并且已切换成功".format(title)


# 1、获取浏览器（创建浏览器驱动对象）
driver = webdriver.Chrome()
# 2、输入URL，打开web页面
driver.get("http://hmshop-test.itheima.net/Home/Goods/goodsList/id/5.html")
driver.implicitly_wait(3)
title_B = "77"
driver.find_element(By.XPATH, "/html/body/div[4]/div/div[2]/div[2]/ul/li[1]/div/div[1]/a/img").click()
switch_window(title_B)
# 将商品加入购物车
driver.find_element(By.XPATH, "/html/body/div[3]/div/form/div/div[8]/div/a[2]").click()

3.6.元素定位不到怎么办

3.WebDriver常用方法

定位元素节点只是第一步，定位之后还需要对这个元素进行操作，比如单击按钮，或者在输入框输入文本 ，下面介绍 WebDriver 中的最常用方法：

# 请求url
get(url)
# 模拟键盘输入文本
send_keys (value)
# 清除已经输入的文本
clear()
# 单击已经定位的元素
click()
# 用于提交表单，比如百度搜索框内输入关键字之后的“回车” 操作
submit()
#返回属性的属性值，返回元素的属性值，可以是id、name、type 或其他任意属性
get_attribute(name)
# 返回布尔值，检查元素是否用户可见，比如 display属性为hidden或者none
is_displayed()

from selenium import webdriver

# 不自动关闭浏览器
option = webdriver.ChromeOptions()
option.add_experimental_option("detach", True)

# 由于版本迭代，新版的selenium已经不再使用find_element_by_id方法。
driver3 = webdriver.Chrome(option)
driver3.get("https://www.baidu.com")
#休眠
time.sleep(3)

# 模拟键盘，输出文本
driver3.find_element(By.ID, 'kw').send_keys("CSDN")
#休眠
time.sleep(3)

# 单击“百度”一下查找
driver3.find_element(By.ID, 'su').click()
#休眠
time.sleep(3)
# 退出/关闭浏览器
driver3.quit()

WebDriver 还有一些常用属性，如下所示：

from selenium.webdriver.common.by import By
from selenium import webdriver

driver = webdriver.Chrome()
driver.get("https://www.baidu.com")
#模拟键盘，输出文本
driver.find_element(By.ID,"kw").send_keys("CSDN")

# 在源码中查找指定的字符串
driver.page_source.find('字符串')
# 获取输入框的尺寸
size = driver.find_element(By.ID, 'kw').size
print(size)
#{'height': 38, 'width': 391}

4.Selenium事件处理

4.1.鼠标事件

Selenium WebDriver 将鼠标的操作封装在 ActionChains 类中，使用时需要引入 ActionChains 类

from selenium.webdriver.common.action_chains import ActionChains

常用方法：

ActionChains(driver)	构造 ActionChains 鼠标对象。
click()					单击
click_and_hold(on_element=None) 	单击鼠标左键，不松开
context_click()			右击
double_click()			双击
drag_and_drop()			拖动
move_to_element(above)	执行鼠标悬停操作
context_click()			用于模拟鼠标右键操作， 在调用时需要指定元素定位。
perform()				将所有鼠标操作提交执行。

如下示例

import time
from selenium import webdriver
#导入 ActionChains 类
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
driver.get("https://blog.csdn.net/qq877728715")

# 通过xpath表达式定位到要悬停的元素
above = driver.find_element(By.XPATH,'//div[@class="extension_official"]')

# 对定位到的元素执行鼠标悬停操作
ActionChains(driver).move_to_element(above).perform()
#单击悬停元素
driver.find_element(By.XPATH,'//div[@class="extension_official"]').click()

time.sleep(5)
driver.quit()

4.2.键盘事件

Selenium WebDriver 的 Keys 模块提供了操作键盘的方法，如复制、粘贴，使用时需要引入 Keys 类

from selenium.webdriver.common.keys import Keys

常用方法：

send_keys(Keys.BACK_SPACE)	删除键（BackSpace）
send_keys(Keys.SPACE)	空格键(Space)
send_keys(Keys.TAB)	制表键(Tab)
send_keys(Keys.ESCAPE)	回退键（Esc）
send_keys(Keys.ENTER)	回车键（Enter）
send_keys(Keys.CONTROL,'a'）	全选（Ctrl+A）
send_keys(Keys.CONTROL,'c')	复制（Ctrl+C）
send_keys(Keys.CONTROL,'x')	剪切（Ctrl+X）
send_keys(Keys.CONTROL,'v'）	粘贴（Ctrl+V）
send_keys(Keys.F1…Fn)	键盘 F1…Fn
keys.down(value,element=None)	按下键盘上的某个键
keys.up(value,element=None)	松开键盘上的某个键

如何调用方法

from selenium.webdriver import Keys
from selenium.webdriver.common.by import By
# 初始化浏览器为谷歌浏览器
driver = webdriver.Chrome()

driver.find_element(By.ID,"element_id").send_keys("Python教程")#输入指定内容
driver.find_element(By.ID,"element_id").send_keys(Keys.SPACE)#空格键(Space)
driver.find_element(By.ID,"element_id").send_keys(Keys.TAB)#制表键(TAB)
driver.find_element(By.ID,"element_id").send_keys(Keys.ESCAPE)#回退键(ESCAPE)
driver.find_element(By.ID,"element_id").send_keys(Keys.ENTER)#回车键(ENTER)

# ctrl+x 剪切输入框内容
driver.find_element(By.ID,"element_id")send_keys(Keys.CONTROL, 'x')
# ctrl+v 粘贴内容到输入框
driver.find_element(By.ID,"element_id")send_keys(Keys.CONTROL, 'v')
# 使用回车键来代替单击操作click
driver.find_element(By.ID,"element_id")send_keys(Keys.ENTER)

示例如下：

import time
from selenium import webdriver
#导入 ActionChains 类
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.by import By
# 引入 Keys 模块
from selenium.webdriver.common.keys import Keys
driver = webdriver.Chrome()
driver.get("https://blog.csdn.net/qq877728715")


#单击元素，弹出隐藏框
driver.find_element(By.XPATH,'//div[@class="m-search-input"]').click()
time.sleep(1)

# 输入框输入内容
driver.find_element(By.ID,"mSearchInput").send_keys("【Python】从入门到上头— 多线程（9）1")
time.sleep(1)

# 删除多输入的"1"
driver.find_element(By.ID,"mSearchInput").send_keys(Keys.BACK_SPACE)
time.sleep(1)

#单击搜索按钮
driver.find_element(By.CLASS_NAME,"m-search-sure").click()
time.sleep(3)

driver.quit()

5.无界面浏览器

Chromedriver 每一次运行都要打开浏览器，并执行相应的输入、搜索等操作，这样会导致浏览器交互能力变差，浪费许多时间。

Selenium 为了增强浏览器的交互能力，允许您使用无头浏览器模式，也就是无界面浏览器，它被广泛的应用于爬虫和自动化测试中。通过以下代码可以设置无头浏览器模式：

import time
from selenium import webdriver
from selenium.webdriver.common.by import By

options = webdriver.ChromeOptions()
options.add_argument('--headless')  # 无界面浏览
driver = webdriver.Chrome(options=options)

driver.get("https://blog.csdn.net/qq877728715/article/details/127575556")

# 单击元素，弹出隐藏框
text = driver.find_element(By.XPATH, '//h1[@id="articleContentId"]').text
print(text)

time.sleep(3)
# 关闭当前界面，只有一个窗口
driver.close()
# 关闭所有界面
driver.quit()

设置无头界面之外，Selenium 还支持其他一些浏览器参数设置

opption.add_argument('--window-size=600,600') #设置窗口大小
opption.add_argument('--incognito') #无痕模式
opption.add_argument('--disable-infobars') #去掉chrome正受到自动测试软件的控制的提示
opption.add_argument('user-agent="XXXX"') #添加请求头
opption.add_argument("--proxy-server=http://200.130.123.43:3456")#代理服务器访问
opption.add_experimental_option('excludeSwitches', ['enable-automation'])#开发者模式
opption.add_argument('blink-settings=imagesEnabled=false')  #禁止加载图片
opption.add_argument('lang=zh_CN.UTF-8') #设置默认编码为utf-8
opption.add_extension(create_proxyauth_extension(
           proxy_host='host',
           proxy_port='port',
           proxy_username="username",
           proxy_password="password"
       ))# 设置有账号密码的代理
opption.add_argument('--disable-gpu')  # 这个参数可以规避谷歌的部分bug
opption.add_argument('--disable-javascript')  # 禁用javascript
opption.add_argument('--hide-scrollbars')  # 隐藏滚动条

6.执行JS脚本

WebDriver 提供了 execute_script() 方法来执行 JavaScript 代码，比如控制浏览器的滚动条。

步骤如下

1、方法：脚本名 = “window.scrollTo(x,y)”
	              x：左边距，控制左右滚动条
	              y：上边距，控制上下滚动条
	              单位：像素
	              边距数值：估算，不需要精确值
2、执行脚本：driver.execute_script(脚本名)


例如： 
#js->向下滚动
#document.body.scrollHeight：动态获取浏览器页面布局大小
js_down = "window.scrollTo(0,document.body.scrollHeight)"
driver.execute_script(js_down)

#js->向上滚动
js_top = "window.scrollTo(0,0)"
driver.execute_script(js_top)

实例如下

import time

from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
driver.get("https://blog.csdn.net/qq877728715/article/list/1")

# 最大化浏览器窗口
driver.maximize_window()
i = 1

while True:
    # 将页面滚动条拖到底部
    # 执行js语句，拉动进度条件
    driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
    # 给页面元素加载时预留时间
    time.sleep(2)

    # 判断是否是最一页(1说明没找到,不是最后一页,执行点击 “下一页” 操作)
    if driver.page_source.find('js-page-next js-page-action ui-pager ui-pager-disabled') == -1:
        i += 1
        driver.find_element(By.CLASS_NAME, 'js-page-next').click()
        # 预留元素加载时间
        time.sleep(1)
    else:
        print('数量', i)
        break

time.sleep(5)
# 关闭当前界面，只有一个窗口
driver.close()
# 关闭所有界面
driver.quit()

7.在源码中查找指定的字符串

from selenium.webdriver import Keys
from selenium.webdriver.common.by import By
# 初始化浏览器为谷歌浏览器
chr = webdriver.Chrome()

chr.page_source.find('kw')
# # 获取输入框的尺寸
size = chr.find_element(By.ID,'kw').size
print(size)

六.Selenium项目实战

任务：抓取京东（https://www.jd.com/）商品名称、商品价格、评论数量，以及商铺名称。比如输入搜索“裹胸”，则抓取如下数据：

1.实现自动搜索

实现自动输出、自动搜索是最基础的一步。首先定位输入框的的节点，其次定位搜索按钮节点，这与实现百度自动搜索思路一致，最关键就是要正确定位元素节点。

通过开发者调试工具检查相应的的位置，可得如下 Xpath 表达式：

输入框表达式：  //*[@id="key"]
搜索按钮表达式：//*[@class='form']/button

代码如下所示：

from selenium import webdriver
broswer=webdriver.Chrome()
broswer.get('https://www.jd.com/')
self.browser.find_element(By.XPATH, '//*[@id="key"]').send_keys('裹胸')
self.browser.find_element(By.XPATH, "//*[@class='form']/button").click()

2.滚动滑动条

实现了自动搜索后，接下来就是要抓取页面中的商品信息，而您会发现只有将滑动条滚动至底部，商品才会全部加载完毕。滚动滑轮操作的代码如下：

# scrollTo(xpos,ypos)
# execute_script()执行js语句，拉动进度条件
#scrollHeight属性，表示可滚动内容的高度
self.browser.execute_script(
      'window.scrollTo(0,document.body.scrollHeight)'#拉动进度条至底部
)

之后在通过 Xpath 表达式匹配所有商品，并将它们放入一个大列表中，通过循环列表取出每个商品，最后提取出想要的信息。

# 用 xpath 提取每页中所有商品，最终形成一个大列表
li_list = self.browser.find_elements(By.XPATH, '//*[@id="J_goodsList"]/ul/li')
print("li_list_size",len(li_list))
for li in li_list:
	 # 构建空字典
	item = {}
	item['name'] = li.find_element(By.XPATH, './/div[contains(@class,"p-name")]').text.strip()
	item['price'] = li.find_element(By.XPATH, './/div[@class="p-price"]/strong').text.strip()
	item['count'] = li.find_element(By.XPATH, './/div[@class="p-commit"]/strong').text.strip()
	item['shop'] = li.find_element(By.XPATH, './/div[@class="p-shop"]').text.strip()
	print(item)
	self.i += 1

3.实现翻页抓取

如何实现翻页抓取数据，并判断数据数据已经抓取完毕呢？这其实并不难想到，我们可以先跳至终止页（即最后一页）。此时最后一页的“下一页”处于不可用状态，其元素节点如下：

终止页下一页class属性：<a class="pn-next disabled"><em>下一页</em><i> > </i></a>
其他页下一页class属性：<a class="pn-next" onclick="SEARCH.page(3, true)" ...><em>下一页</em><i> > </i></a>

如果页面源码中有上述代码存在，则证明此页是最后一页，若没有则不是。因此通过 if …else 语句即可实现上述需求，如下所示：
纯文本复制

#-1说明没找到,不是最后一页,执行点击 “下一页” 操作
if self.browser.page_source.find('pn-next disabled') == -1:
  self.browser.find_element(By.CLASS_NAME, 'pn-next').click()

4.完整程序代码

# coding:utf8
from selenium import webdriver
import time
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.by import By
# 引入 Keys 模块
from selenium.webdriver.common.keys import Keys


class JdSpider(object):
    def __init__(self):
        self.url = 'http://www.jd.com/'
        self.options = webdriver.ChromeOptions()  # 无头模式
        self.options.add_argument('--headless')
        self.browser = webdriver.Chrome(options=self.options)  # 创建无界面参数的浏览器对象
        self.i = 0  # 计数，一共有多少件商品

        # 输入地址+输入商品+点击按钮，切记这里元素节点是京东首页的输入栏、搜索按钮
    def get_html(self):
        self.browser.get(self.url)
        self.browser.find_element(By.XPATH, '//*[@id="key"]').send_keys('裹胸')
        self.browser.find_element(By.XPATH, "//*[@class='form']/button").click()

        #滚动滑动条
        # 把滚动条拉倒最底部+提取商品信息
    def get_data(self):
        # 执行js语句，拉动进度条件
        self.browser.execute_script(
            'window.scrollTo(0,document.body.scrollHeight)'
        )
        # 给页面元素加载时预留时间
        time.sleep(2)
        # 用 xpath 提取每页中所有商品，最终形成一个大列表
        li_list = self.browser.find_elements(By.XPATH, '//*[@id="J_goodsList"]/ul/li')
        print("li_list_size",len(li_list))
        for li in li_list:
            # 构建空字典
            item = {}
            item['name'] = li.find_element(By.XPATH, './/div[contains(@class,"p-name")]').text.strip()
            item['price'] = li.find_element(By.XPATH, './/div[@class="p-price"]/strong').text.strip()
            item['count'] = li.find_element(By.XPATH, './/div[@class="p-commit"]/strong').text.strip()
            item['shop'] = li.find_element(By.XPATH, './/div[@class="p-shop"]').text.strip()
            print(item)
            self.i += 1

    def run(self):
        # 搜索出想要抓取商品的页面
        self.get_html()
        # 循环执行点击“下一页”操作
        while True:
            # 获取每一页要抓取的数据
            self.get_data()
            # 判断是否是最一页(1说明没找到,不是最后一页,执行点击 “下一页” 操作)
            if self.browser.page_source.find('pn-next disabled') == -1:
                self.browser.find_element(By.CLASS_NAME, 'pn-next').click()
                # 预留元素加载时间
                time.sleep(1)
            else:
                print('数量', self.i)
                break


if __name__ == '__main__':
    spider = JdSpider()
    spider.run()
    #Selenium 自动化爬虫让你无须关心网站的类型（静态或者动态），只需您按部就班的寻找元素节点，并依此点击，即可实现数据抓取。不过  Selenium 最大的缺点就是效率低，因此它只适合做小规模的数据采集工作。

你可能感兴趣的:(Python,python,自动化,selenium,webui自动化,自动化测试)

Python基础和高级【抽取复习】斟的是酒中桃 python 学习
1.Python的深拷贝和浅拷贝有什么区别？浅拷贝【ls.copy()】：将列表的不可变对象【值】复制一份，同时引用其中的可变对象【列表】，共用一个内存地址深拷贝【ls=copy.deepcopy(list)】：完全的复制原可变对象，生成新的可变对象，两个对象互相独立2.列表和元组的区别是什么？1.列表概念：有序序列，使用[]定义，元素之间用，隔开有序序列增删改操作：可以增删改列表的任意元素不可变
[Python]Python中if-else的语法，用法示例 LN花开富贵 Python python 学习笔记嵌入式单片机 opencv
Python中多条件判断通过if-elif-else结构实现，elif是elseif的缩写。一、基础语法结构if条件1:#条件1为真时执行的代码块elif条件2:#条件2为真时执行的代码块elif条件3:#条件3为真时执行的代码块else:#所有条件均不满足时执行的代码块顺序判断，当第一个条件满足时其对应的代码块会被执行，后续elif的条件不在检查，如果都是if语句，那么执行完第一个if后后面的i
python源码下载
python源码下载(2010-12-1823:11)不知道python.org一直被堵在墙外…1、http://ftp.python.org/ftp/python/2、http://www.python.org/ftp/python/
Python接地气入门。
欢迎来到"鑫哆哆"编程角世界上最好的语言PYTHON?鑫哆哆跟python的机缘为什么选择python合理的设计学习计划，有助于攻略的成功合理驯服自己脑子合理骗过自己脑子合理安排反馈鑫哆哆的学习python计划基础语法缩进语句规则控制语句规则表达式规则函数规则对象规则类型规则数学运算直接觉醒！鑫哆哆的课程选取迈出第一步恭喜大家成功入门python！总结世界上最好的语言PYTHON?新的一年祝大家心
Python镜像源染诗 python
https://www.cnblogs.com/songzhixue/p/11296720.html
python设置国内源 twilightdream python
mkdir.pipcd.piptouchpip.confnanopip.conf贴上[global]trusted-host=mirrors.aliyun.comindex-url=http://mirrors.aliyun.com/pypi/simple
华为OD机考 2025C卷 - 围棋的气 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试2025C卷华为OD机考2025C卷华为OD2025C卷
围棋的气华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述围棋棋盘由纵横各19条线垂直相交组成，棋盘上一共19x19=361个交点，对弈双方一方执白棋，一方执黑棋，落子时只能将棋子置于交点上。“气”是围棋中很重要的一个概念，某个棋子有几口气，是指其上下左右方向四个相邻的交叉点中，有几个交叉点没有棋子，由此可知：在棋
华为OD机考 2025C卷 - 对称美学 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试2025C卷华为OD2025C卷华为OD机考2025C卷
对称美学华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述对称就是最大的美学，现有一道关于对称字符串的美学。已知：第1个字符串：R第2个字符串：BR第3个字符串：RBBR第4个字符串：BRRBRBBR第5个字符串：RBBRBRRBBRRBRBBR相信你已经发现规律了，没错！就是第i个字符串=第i-1号字符串取反+第
华为OD机试 2025 B卷 - We are a Team (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机考2025B卷华为OD机试2025B卷华为OD机试
WeareaTeam华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：消息构成为abc，整数a、b分别代表两个人的标号，整数c代表指令c==0代表a和b在一个团队内c==1
Python中if-else判断语句、while循环语句以及for循环语句的使用总结 bentou_
1.if-esle流程判断语句我们来直接看一个例子，如下，判断我们定义的用户名和用户输入的用户名是否一致。代码当中有几个注意点：判断的时候用双等号表示判断是否一致（三个等号表示赋值）你有没有注意到这里不是用的大括号而是用的冒号！python3对父级和子级的写法是极为严格的，就像这里的if跟else，都是父级，需要顶格写；下面的两个子级（print那里）就需要缩进一个tab。_username="b
Python库安装国内源奔跑的石头_ python python AI编程
关注公众号“码字读书会”，了解最新消息。Python国内源包括企业和高校机构打不得开源软件包资源。著名的有阿里云、华为云、清华。个人常用的有清华源临时使用命令如下：pipinstall-ittps://pypi.tuna.tsinghua.edu.cn/simple包名
Android高级技能(一)：CI/CD与自动化构建半夜偷你家裤衩子 Android android ci/cd 自动化
摘要当应用开发进入成熟阶段，手动进行构建、测试和发布将变得效率低下且容易出错。持续集成(CI)和持续部署(CD)是现代化软件开发的标准实践，能极大地提升开发效率和应用质量。本文将深入探讨如何在Android项目中实施CI/CD流程，内容涵盖Git工作流、Gradle高级自动化以及如何利用Jenkins或GitHubActions搭建自动化流水线。目录CI/CD核心理念什么是持续集成(Continu
基于51单片机电机测速显示电路系统方案创新电子设计单片机 51单片机嵌入式硬件单片机
**单片机设计介绍，基于51单片机电机测速显示电路系统方案文章目录一概要二、功能设计设计思路三、软件设计原理图五、程序六、文章目录一概要基于51单片机的电机测速显示电路系统方案概要如下：一、引言本设计旨在通过51单片机为核心控制器，结合测速电路和显示电路，实现对电机转速的精确测量和实时显示。该系统可以广泛应用于需要电机转速监控的各类设备和系统中，如自动化设备、机器人、电动车等。二、系统组成51
Python从入门到荒废-配置国内下载源 zrhsmile Python python
为提升Python包安装速度，配置国内下载源是常见需求。以下是主流方法汇总，结合稳定性和易用性推荐：一、pip永久配置国内源（推荐）通过修改配置文件实现“一次配置，长期生效”：创建/修改配置文件Windows：路径：%APPDATA%\pip\pip.ini（如C:\Users\用户名\AppData\Roaming\pip\pip.ini）内容：[global]index-url=https:/
《精雕细琢 Python 对象：深入理解 __slots__ 的性能魔法与实战应用》
《精雕细琢Python对象：深入理解slots的性能魔法与实战应用》引言：探索Python的对象管理机制在Python中，一切皆对象。然而，每一个对象背后都隐藏着复杂的运行机制。尤其在类设计中，我们往往忽略了对象属性的存储方式。今天，我们将深入剖析一个常被高级开发者使用的“利器”——__slots__，它能有效减少内存占用、提升性能，但也伴随着一些权衡和陷阱。本文旨在回答三个核心问题：__slot
3D TOF 安全防护传感器 Laurel Vision 3D TOF 3d 安全计算机视觉
背景3DTOF安全防护传感器是一种先进的传感器技术，主要用于工业自动化、物流仓储、机器人应用等领域。基于3DToF原理，即飞行时间法的传感器，通过测量光脉冲从发射到接收的时间来计算物体与传感器之间的距离，从而获取三维空间信息，实现立体成像。立体安全传感器功能特性：空间安全防护：相比传统二维区域防护，三维立体具有更高安全性和灵活性。高精度：相比激光雷达精度更高，重复精度可达毫米级。简便软件设置
LeetCode第337题_打家劫舍III @蓝莓果粒茶算法 leetcode 算法职场和发展 c#学习
LeetCode第337题：打家劫舍III文章摘要本文详细解析LeetCode第337题"打家劫舍III"，这是一道中等难度的二叉树动态规划问题。文章提供了基于深度优先搜索和动态规划的解法，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合想要提升二叉树和动态规划能力的程序员。核心知识点：二叉树、动态规划、深度优先搜索难度等级：中等推荐人群：具有基础数据结构知识，想要提
python：numpy分享（保姆级教程）苏苏susuus python numpy 开发语言
目录一、概念二、相关属性三、ndarray及其实例创建（一）ndarray介绍（二）zeros（）、ones（）、empty（）函数（三）**arange(),**类似python的range()，创建一个一维ndarray数组。（四）**matrix()**,是ndarray的子类，只能生成2维的矩阵（五）rand（）、randn（）、randint（）、uniform（）（都是numpy.ra
物流3D工业相机：解锁自动化物流新纪元
在当今工业4.0浪潮中，物流自动化已成为企业提升效率、降低成本的战略核心。作为工业自动化领域的先锋，迁移科技凭借其先进的3D工业视觉技术，正重塑物流场景的运作模式。本文将从品牌介绍出发，深入剖析物流3D工业相机的应用价值，结合真实案例，揭示其如何从基础功能延伸至产业价值，助力企业实现智能化转型。迁移科技，工业视觉的引领者迁移科技成立于2017年，作为行业领先的3D工业相机和3D视觉系统供应商，已累
Gin框架路由 TZX_0710
介绍Gin是一个golang的微框架，封装比较优雅，API友好，源码注释比较明确，具有快速灵活，容错方便等特点对于golang而言，web框架的依赖要远比Python，Java之类的要小。自身的net/http足够简单，性能也非常不错借助框架开发，不仅可以省去很多常用的封装带来的时间，也有助于团队的编码风格和形成规范安装1.安装Gingoget-ugithub.com/gin-gonic/gin2
学习日志15 python im_AMBER 学习 python
1filter()函数filter(function,iterable)filter函数是python中的高阶函数,第一个参数是一个筛选函数,第二个参数是一个可迭代对象,返回的是一个生成器类型,可以通过next获取值。filter()函数是Python内置的高阶函数，其主要功能是对可迭代对象中的每个元素运用筛选函数进行判断，然后把符合条件的元素以生成器的形式返回。下面为你详细介绍它的用法和特性：基
Python爬虫热点项目之实现代理IP池（IP proxy pool）薛定谔的猫96 Python 爬虫
代理池概述代理池就是由多个稳定可用代理IP组成的池子。用来应对ip反爬，而网上的免费代理稳定可用的极少，更有甚者连收费的也不都是稳定可用。开发环境：windous，python3，sublimetext使用的主要模块：requests，lxml，pymongo，Flask完整源码请前往我的github仓库查看：https://github.com/R2h1/ProxyPool欢迎star哦！！！代
python基础练习题：超市收银系统不爱说话的分院帽 python 开发语言
这个超市收银系统包含以下功能：商品管理：支持添加和显示商品信息（ID、名称、价格、库存）购物车功能：可以添加、移除商品，查看购物车和计算总价结算功能：生成收据、处理支付、计算找零并更新库存数据模型：使用面向对象设计，包含商品、购物车和超市类系统运行后会显示菜单，用户可以通过数字选择不同操作，整个流程不需要图形界面，通过命令行交互完成购物和结算过程。importdatetimeclassProduc
Python零基础入门：魔法方法详解
一、什么是魔法方法？魔法方法（MagicMethods）是Python中一种特殊的方法，它们以双下划线(__)开头和结尾（如__init__、__str__等）。魔法方法允许你定义类在特定情况下的行为，例如初始化、字符串表示、运算符重载等。二、常见的魔法方法分类1.构造和初始化__new__(cls,[...]):创建实例时调用的第一个方法__init__(self,[...]):实例初始化方法_
Python文件与流处理：高效读写数据的艺术不爱说话的分院帽 python快速入门 python 数据库开发语言
引言作为一名程序员，我们每天都需要与文件打交道——无论是读取配置文件、处理日志文件，还是存储程序生成的数据。Python提供了强大而灵活的文件处理能力，让这些操作变得简单高效。本文将深入探讨Python中的文件与流处理，帮助你掌握这一核心技能。、一、文件操作基础1.打开文件Python使用内置的open()函数来打开文件：#基本语法file=open('example.txt','r')#打开文件
Python 计算月头月尾一本正经胡说八道的猫
一本正经胡说八道的猫#!/usr/bin/envpython#-*-coding:utf-8-*-importdatetimeimportcalendartime=datetime.date(2022,1,20)#年，月，日#求该月第一天first_day=datetime.date(time.year,time.month,1)print('该月第一天:%s'%(first_day))#求前一个
python学生成绩管理系统【完整版】，Python开发基础面试题
name=self.username.get()password=self.password.get()ifname==‘hacker707’andpassword==‘admin’:self.page.destroy()MenuPage(self.root)else:showinfo(title=‘错误’,message=‘账号或密码错误！’)db.pyimportjsonclassStuden
【深度强化学习】MIP-DQN 实现案例（完整Python代码）
目录MIP-DQN算法概述建模基础训练阶段（Training）部署阶段（OnlineExecution）DNN网络转化为MIP表达式性能指标完整Python代码实现主函数：random_generator_battery模型函数：MIP_DQN基础/专用库包安装模型运行（完整Python代码）参数设置函数：Parameters参考本博客根据论文《Optimalenergysystemschedul
Go与Python在数据管道与分析项目中的抉择：性能与灵活性的较量真智AI 人工智能 python go
你正在设计一个全新数据管道或启动一个分析项目，此时你或许正在思考该选择Python还是Go。五年前，这甚至不是个值得讨论的问题——你会毫不犹豫地选择Python，故事到此为止。然而，近年来Go在数据领域，尤其是在数据基础设施和实时处理方面，正逐渐被更多人采用。实际上，这两种语言都已在现代数据技术栈中找到了各自的定位。Python依然非常适合机器学习和数据分析，而Go则逐步成为高性能数据基础设施的首
Redis-py 实战指南：从安装到向量索引，Python 操作 Redis 全解析佑瞻数据库与知识图谱 redis python 数据库人工智能
在Python开发中，操作Redis数据库是很多场景下的刚需，而redis-py作为Redis官方推荐的Python客户端，更是我们绕不开的工具。但你是否在安装时踩过版本兼容的坑？是否在连接集群或配置TLS时犯过难？甚至想尝试向量索引却不知从何下手？今天我们就从基础到进阶，手把手带你玩转redis-py，让Python操作Redis变得简单又高效。一、redis-py安装：避坑指南首先，我们需要安
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring