Java 语言的 XPath API

从 Java 程序中查询 XML

Elliotte Harold ([email protected]), 副教授, Polytechnic University

简介： XPath 表达式比繁琐的文档对象模型（DOM）导航代码要容易编写得多。如果需要从 XML 文档中提取信息，最快捷、最简单的办法就是在 Java™ 程序中嵌入 XPath 表达式。Java 5 推出了 javax.xml.xpath 包，这是一个用于 XPath 文档查询的独立于 XML 对象模型的库。

如果要告诉别人买一加仑牛奶，您会怎么说？“请去买一加仑牛奶回来” 还是 “从前门出去，向左转，走三个街区向右转，再走半个街区向右转进入商店。走向四号通道，沿通道走五米向左，拿一瓶一加仑装的牛奶然后到收银台付款。再沿原路回家。” 简直太可笑了。只要在 “请去买一加仑牛奶回来” 的基础上稍加指示，多数成人都能自己买回牛奶来。

查询语言和计算机搜索与此类似。直接说 “找一个 Cryptonomicon 的副本” 要比编写搜索某个数据库的详细逻辑容易得多。由于搜索操作的逻辑非常相似，可以发明一种通用语言让您使用 “找到 Neal Stephenson 的所有著作” 这样的命令，然后编写对特定数据存储执行此类查询的引擎。

XPath

在众多查询语言之中，结构化查询语言（SQL）是一种针对查询特定类型的关系库而设计和优化的语言。其他不那么常见的查询语言还有对象查询语言（OQL）和 XQuery。但本文的主题是 XPath，一种为查询 XML 文档而设计的查询语言。比如，下面这个简单的 XPath 查询可以在文档中找到作者为 Neal Stephenson 的所有图书的标题：

//book[author="Neal Stephenson"]/title

作为对照，查询同样信息的纯 DOM 搜索代码如清单 1 所示：

清单 1. 找到 Neal Stephenson 所有著作 title 元素的 DOM 代码

ArrayList result = new ArrayList();

NodeList books = doc.getElementsByTagName("book");

for (int i = 0; i < books.getLength(); i++) {

Element book = (Element) books.item(i);

NodeList authors = book.getElementsByTagName("author");

boolean stephenson = false;

for (int j = 0; j < authors.getLength(); j++) {

Element author = (Element) authors.item(j);

NodeList children = author.getChildNodes();

StringBuffer sb = new StringBuffer();

for (int k = 0; k < children.getLength(); k++) {

Node child = children.item(k);

// really should to do this recursively

if (child.getNodeType() == Node.TEXT_NODE) {

sb.append(child.getNodeValue());

}

if (sb.toString().equals("Neal Stephenson")) {

stephenson = true;

break;

}

if (stephenson) {

NodeList titles = book.getElementsByTagName("title");

for (int j = 0; j < titles.getLength(); j++) {

result.add(titles.item(j));

}

不论您是否相信，清单 1 中的 DOM 显然不如简单的 XPath 表达式通用或者健壮。您愿意编写、调试和维护哪一个？我想答案很明显。

但是虽然有很强的表达能力，XPath 并不是 Java 语言，事实上 XPath 不是一种完整的编程语言。有很多东西用 XPath 表达不出来，甚至有些查询也无法表达。比方说，XPath 不能查找国际标准图书编码（ISBN）检验码不匹配的所有图书，或者找出境外帐户数据库显示欠帐的所有作者。幸运的是，可以把 XPath 结合到 Java 程序中，这样就能发挥两者的优势了：Java 做 Java 所擅长的，XPath 做 XPath 所擅长的。

直到最近，Java 程序执行 XPath 查询所需要的应用程序编程接口（API）还因形形色色的 XPath 引擎而各不相同。Xalan 有一种 API，Saxon 使用另一种，其他引擎则使用其他的 API。这意味着代码往往把您限制到一种产品上。理想情况下，最好能够试验具有不同性能特点的各种引擎，而不会带来不适当的麻烦或者重新编写代码。

于是，Java 5 推出了 javax.xml.xpath 包，提供一个引擎和对象模型独立的 XPath 库。这个包也可用于 Java 1.3 及以后的版本，但需要单独安装 Java API for XML Processing (JAXP) 1.3。Xalan 2.7 和 Saxon 8 以及其他产品包含了这个库的实现。

回页首

一个简单的例子

我将举例说明如何使用它。然后再讨论一些细节问题。假设要查询一个图书列表，寻找 Neal Stephenson 的著作。具体来说，这个图书列表的形式如清单 2 所示：

清单 2. 包含图书信息的 XML 文档

<title>Snow Crash</title>

<author>Neal Stephenson</author>

<publisher>Spectra</publisher>

</book>

<title>Burning Tower</title>

<author>Larry Niven</author>

<author>Jerry Pournelle</author>

<publisher>Pocket</publisher>

<book>

<title>Zodiac</title>

<author>Neal Stephenson<author>

<publisher>Spectra</publisher>

<book>

</inventory>

抽象工厂

XPathFactory 是一个抽象工厂。抽象工厂设计模式使得这一种 API 能够支持不同的对象模型，如 DOM、JDOM 和 XOM。为了选择不同的模型，需要向XPathFactory.newInstance() 方法传递标识对象模型的统一资源标识符（URI）。比如 http://xom.nu/ 可以选择 XOM。但实际上，到目前为止 DOM 是该 API 支持的惟一对象模型。

查找所有图书的 XPath 查询非常简单：//book[author="Neal Stephenson"]。为了找出这些图书的标题，只要增加一步，表达式就变成了 //book[author="Neal Stephenson"]/title。最后，真正需要的是title 元素的文本节点孩子。这就要求再增加一步，完整的表达式就是//book[author="Neal Stephenson"]/title/text()。

现在我提供一个简单的程序，它从 Java 语言中执行这个查询，然后把找到的所有图书的标题打印出来。首先，需要将文档加载到一个 DOMDocument 对象中。为了简化起见，假设该文档在当前工作目录的 books.xml 文件中。下面的简单代码片段解析文档并建立对应的Document 对象：

清单 3. 用 JAXP 解析文档

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();

factory.setNamespaceAware(true); // never forget this!

DocumentBuilder builder = factory.newDocumentBuilder();

Document doc = builder.parse("books.xml");

到目前为止，这仅仅是标准的 JAXP 和 DOM，没有什么新鲜的。

接下来创建 XPathFactory：

XPathFactory factory = XPathFactory.newInstance();

然后使用这个工厂创建 XPath 对象：

XPath xpath = factory.newXPath();

XPath 对象编译 XPath 表达式：

PathExpression expr = xpath.compile("//book[author='Neal Stephenson']/title/text()");

直接求值

如果 XPath 表达式只使用一次，可以跳过编译步骤直接对XPath 对象调用 evaluate() 方法。但是，如果同一个表达式要重复使用多次，编译可能更快一些。

最后，计算 XPath 表达式得到结果。表达式是针对特定的上下文节点计算的，在这个例子中是整个文档。还必须指定返回类型。这里要求返回一个节点集：

Object result = expr.evaluate(doc, XPathConstants.NODESET);

可以将结果强制转化成 DOM NodeList，然后遍历列表得到所有的标题：

NodeList nodes = (NodeList) result;

for (int i = 0; i < nodes.getLength(); i++) {

System.out.println(nodes.item(i).getNodeValue());

}

清单 4 把上述片段组合到了一个程序中。还要注意，这些方法可能抛出一些检查异常，这些异常必须在 throws 子句中声明，但是我在上面把它们掩盖起来了：

清单 4. 用固定的 XPath 表达式查询 XML 文档的完整程序

import java.io.IOException;

import org.w3c.dom.*;

import org.xml.sax.SAXException;

import javax.xml.parsers.*;

import javax.xml.xpath.*;

public class XPathExample {

public static void main(String[] args)

throws ParserConfigurationException, SAXException,

IOException, XPathExpressionException {

DocumentBuilderFactory domFactory = DocumentBuilderFactory.newInstance();

domFactory.setNamespaceAware(true); // never forget this!

DocumentBuilder builder = domFactory.newDocumentBuilder();

Document doc = builder.parse("books.xml");

XPathFactory factory = XPathFactory.newInstance();

XPath xpath = factory.newXPath();

XPathExpression expr

= xpath.compile("//book[author='Neal Stephenson']/title/text()");

Object result = expr.evaluate(doc, XPathConstants.NODESET);

NodeList nodes = (NodeList) result;

for (int i = 0; i < nodes.getLength(); i++) {

System.out.println(nodes.item(i).getNodeValue());

}

XPath 数据模型

每当混合使用诸如 XPath 和 Java 这样两种不同的语言时，必定会有某些将两者粘合在一起的明显接缝。并非一切都很合拍。XPath 和 Java 语言没有同样的类型系统。XPath 1.0 只有四种基本数据类型：

node-set
number
boolean
string

当然，Java 语言有更多的数据类型，包括用户定义的对象类型。

多数 XPath 表达式，特别是位置路径，都返回节点集。但是还有其他可能。比如，XPath 表达式 count(//book) 返回文档中的图书数量。XPath 表达式 count(//book[@author="Neal Stephenson"]) > 10 返回一个布尔值：如果文档中 Neal Stephenson 的著作超过 10 本则返回 true，否则返回 false。

evaluate() 方法被声明为返回 Object。实际返回什么依赖于 XPath 表达式的结果以及要求的类型。一般来说，XPath 的

number 映射为 java.lang.Double
string 映射为 java.lang.String
boolean 映射为 java.lang.Boolean
node-set 映射为 org.w3c.dom.NodeList

XPath 2

前面一直假设您使用的是 XPath 1.0。XPath 2 大大扩展和修改了类型系统。Java XPath API 支持 XPath 2 所需的主要修改是为返回 XPath 2 新数据类型增加常量。

在 Java 中计算 XPath 表达式时，第二个参数指定需要的返回类型。有五种可能，都在 javax.xml.xpath.XPathConstants 类中命名了常量：

XPathConstants.NODESET
XPathConstants.BOOLEAN
XPathConstants.NUMBER
XPathConstants.STRING
XPathConstants.NODE

最后一个 XPathConstants.NODE 实际上没有匹配的 XPath 类型。只有知道 XPath 表达式只返回一个节点或者只需要一个节点时才使用它。如果 XPath 表达式返回了多个节点并且指定了 XPathConstants.NODE，则 evaluate() 按照文档顺序返回第一个节点。如果 XPath 表达式选择了一个空集并指定了 XPathConstants.NODE，则 evaluate() 返回 null。

如果不能完成要求的转换，evaluate() 将抛出 XPathException。

回页首

名称空间上下文

若 XML 文档中的元素在名称空间中，查询该文档的 XPath 表达式必须使用相同的名称空间。XPath 表达式不一定要使用相同的前缀，只需要名称空间 URI 相同即可。事实上，如果 XML 文档使用默认名称空间，那么尽管目标文档没有使用前缀，XPath 表达式也必须使用前缀。

但是，Java 程序不是 XML 文档，因此不能用一般的名称空间解析。必须提供一个对象将前缀映射到名称空间 URI。该对象是javax.xml.namespace.NamespaceContext 接口的实例。比如，假设图书文档放在 http://www.example.com/books 名称空间中，如清单 5 所示：

清单 5. 使用默认名称空间的 XML 文档

<title>Snow Crash</title>

<author>Neal Stephenson</author>

<publisher>Spectra</publisher>

</book>

查找 Neal Stephenson 全部著作标题的 XPath 表达式就要改为 //pre:book[pre:author="Neal Stephenson"]/pre:title/text()。但是，必须将前缀 pre 映射到 URI http://www.example.com/books。NamespaceContext 接口在 Java 软件开发工具箱（JDK）或 JAXP 中没有默认实现似乎有点笨，但确实如此。不过，自己实现也不难。清单 6 对一个名称空间给出了简单的实现。还需要映射xml 前缀。

清单 6. 绑定一个名称空间和默认名称空间的简单上下文

import java.util.Iterator;

import javax.xml.*;

import javax.xml.namespace.NamespaceContext;

public class PersonalNamespaceContext implements NamespaceContext {

public String getNamespaceURI(String prefix) {

if (prefix == null) throw new NullPointerException("Null prefix");

else if ("pre".equals(prefix)) return "http://www.example.org/books";

else if ("xml".equals(prefix)) return XMLConstants.XML_NS_URI;

return XMLConstants.NULL_NS_URI;

}

// This method isn't necessary for XPath processing.

public String getPrefix(String uri) {

throw new UnsupportedOperationException();

}

// This method isn't necessary for XPath processing either.

public Iterator getPrefixes(String uri) {

throw new UnsupportedOperationException();

}

使用映射存储绑定和增加 setter 方法实现名称空间上下文的重用也不难。

创建 NamespaceContext 对象后，在编译表达式之前将其安装到 XPath 对象上。以后就可以像以前一样是用这些前缀查询了。比如：

清单 7. 使用名称空间的 XPath 查询

XPathFactory factory = XPathFactory.newInstance();

XPath xpath = factory.newXPath();

xpath.setNamespaceContext(new PersonalNamespaceContext());

XPathExpression expr

= xpath.compile("//pre:book[pre:author='Neal Stephenson']/pre:title/text()");

Object result = expr.evaluate(doc, XPathConstants.NODESET);

NodeList nodes = (NodeList) result;

for (int i = 0; i < nodes.getLength(); i++) {

System.out.println(nodes.item(i).getNodeValue());

}

回页首

函数求解器

有时候，在 Java 语言中定义用于 XPath 表达式的扩展函数很有用。这些函数可以执行用纯 XPath 很难或者无法执行的任务。不过必须是真正的函数，而不是随意的方法。就是说不能有副作用。（XPath 函数可以按照任意的顺序求值任意多次。）

通过 Java XPath API 访问的扩展函数必须实现 javax.xml.xpath.XPathFunction 接口。这个接口只声明了一个方法 evaluate：

public Object evaluate(List args) throws XPathFunctionException

该方法必须返回 Java 语言能够转换到 XPath 的五种类型之一：

String
Double
Boolean
Nodelist
Node

比如，清单 8 显示了一个扩展函数，它检查 ISBN 的校验和并返回 Boolean。这个校验和的基本规则是前九位数的每一位乘上它的位置（即第一位数乘上 1，第二位数乘上 2，依次类推）。将这些数加起来然后取除以 11 的余数。如果余数是 10，那么最后一位数就是 X。

清单 8. 检查 ISBN 的 XPath 扩展函数

import java.util.List;

import javax.xml.xpath.*;

import org.w3c.dom.*;

public class ISBNValidator implements XPathFunction {

// This class could easily be implemented as a Singleton.

public Object evaluate(List args) throws XPathFunctionException {

if (args.size() != 1) {

throw new XPathFunctionException("Wrong number of arguments to valid-isbn()");

}

String isbn;

Object o = args.get(0);

// perform conversions

if (o instanceof String) isbn = (String) args.get(0);

else if (o instanceof Boolean) isbn = o.toString();

else if (o instanceof Double) isbn = o.toString();

else if (o instanceof NodeList) {

NodeList list = (NodeList) o;

Node node = list.item(0);

// getTextContent is available in Java 5 and DOM 3.

// In Java 1.4 and DOM 2, you'd need to recursively

// accumulate the content.

isbn= node.getTextContent();

}

else {

throw new XPathFunctionException("Could not convert argument type");

}

char[] data = isbn.toCharArray();

if (data.length != 10) return Boolean.FALSE;

int checksum = 0;

for (int i = 0; i < 9; i++) {

checksum += (i+1) * (data[i]-'0');

}

int checkdigit = checksum % 11;

if (checkdigit + '0' == data[9] || (data[9] == 'X' && checkdigit == 10)) {

return Boolean.TRUE;

}

return Boolean.FALSE;

}

下一步让这个扩展函数能够在 Java 程序中使用。为此，需要在编译表达式之前向 XPath 对象安装javax.xml.xpath.XPathFunctionResolver。函数求解器将函数的 XPath 名称和名称空间 URI 映射到实现该函数的 Java 类。清单 9是一个简单的函数求解器，将扩展函数 valid-isbn 和名称空间 http://www.example.org/books 映射到清单 8 中的类。比如，XPath 表达式 //book[not(pre:valid-isbn(isbn))] 可以找到 ISBN 校验和不匹配的所有图书。

清单 9. 识别 valid-isbn 扩展函数的上下文

iimport javax.xml.namespace.QName;

import javax.xml.xpath.*;

public class ISBNFunctionContext implements XPathFunctionResolver {

private static final QName name

= new QName("http://www.example.org/books", "valid-isbn");

public XPathFunction resolveFunction(QName name, int arity) {

if (name.equals(ISBNFunctionContext.name) && arity == 1) {

return new ISBNValidator();

}

return null;

}

由于扩展函数必须有名称空间，所以计算包含扩展函数的表达式时必须使用 NamespaceResolver，即便查询的文档没有使用任何名称空间。由于 XPathFunctionResolver、XPathFunction 和 NamespaceResolver 都是接口，如果方便的话可以将它们放在所有的类中。

回页首

结束语

用 SQL 和 XPath 这样的声明性语言编写查询，要比使用 Java 和 C 这样的命令式语言容易得多。但是，用 Java 和 C 这样的图灵完整语言编写复杂的逻辑，又比 SQL 和 XPath 这样的声明性语言容易得多。所幸的是，通过使用 Java Database Connectivity (JDBC) 和javax.xml.xpath 之类的 API 可以将两者结合起来。随着世界上越来越多的数据转向 XML，javax.xml.xpath 将与 java.sql 一样变得越来越重要。

你可能感兴趣的:(xpath)

Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML代码，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML中提取出所需的数据，如文
BeautifulSoup 和 Xpath 的性能比较木语沉心
一些说明:其实这篇文章并不是为了比较出结论，因为结论是显而易见的.性能比较Xpath必然是要比BeautifulSoup在时间和空间上都要性能更好一些。其中理由有很多，其中一个很明显的是BeautifulSoup在构建一个对象的时候需要传入一个参数以指定解析器，而在它支持的众多的解析器中，lxml是性能最佳的，那么BeautifulSoup对象的各种方法可以理解为是对lxml的封装，换句话说，Be
JDom解析xml文件的java.lang.NoClassDefFoundError问题轻口味常见问题 xml exception encoding class list thread
java代码为：importjava.io.IOException;importjava.util.List;importorg.jdom.Document;importorg.jdom.Element;importorg.jdom.JDOMException;importorg.jdom.input.SAXBuilder;importorg.jdom.xpath.XPath;publicclas
第五章 SqlSession 的创建过程 flying jiang MyBatis 3源码深度解析 java tomcat mybatis
在MyBatis3中，SqlSession的创建过程涉及到对MyBatis配置文件的解析，这通常是通过XPath（XMLPathLanguage）来完成的。XPath是一种在XML文档中查找信息的语言，MyBatis使用它来解析配置文件（如mybatis-config.xml）中的元素和属性。以下是SqlSession创建过程中XPath使用的简要概述：读取配置文件：MyBatis首先需要读取其配
【语句】如何将列表拼接成字符串并截取20个字符后面的青龙摄影 javascript html 前端
base_info="".join(tree.xpath('/html/head/script[4]/text()'))[20:]以下是对这个语句的详细讲解：tree.xpath('/html/head/script[4]/text()')部分：tree：通常是一个已经构建好的HTML文档树对象，它是通过相关的HTML解析库（比如lxml）对HTML文档进行解析后得到的。/html/head/sc
基础爬虫 requests selenium aiohttp BeautifulSoup pyQuery Xpath&CssSelector 肯定是疯了
http://47.101.52.166/blog/back/python/%E7%88%AC%E8%99%AB.html请求requestsseleniumaiohttp*处理BeautifulSouppyQueryXpath&CssSelector*存储pymysqlPyMongoredisaiomysql*Scrapy
python web自动化 gaoguide2015 自动化脚本 web html
1.python爬虫之模拟登陆csdn(登录、cookie)http://blog.csdn.net/yanggd1987/article/details/52127436?locationNum=32、xml解析：Python网页解析：BeautifulSoup与lxml.html方式对比（xpath）lxml库速度快，功能强大，推荐。http://blog.sina.com.cn/s/blog
【Python报错】已解决FileNotFoundError: [Errno 2] No such file or directory: PosixPath(‘xxx‘) 云天徽上 python chrome numpy pandas 机器学习
解决Python报错：FileNotFoundError:[Errno2]Nosuchfileordirectory:PosixPath(‘xxx’)在Python编程中，处理文件和目录是一项常见的任务。然而，当你尝试打开一个不存在的文件时，可能会遇到FileNotFoundError:[Errno2]Nosuchfileordirectory:PosixPath('xxx')的错误。本文将介绍这
python爬虫面试真题及答案_Python面试题爬虫篇(附答案) 朴少 python爬虫面试真题及答案
0|1第一部分必答题注意：第31题1分，其他题均每题3分。1，了解哪些基于爬虫相关的模块？-网络请求：urllib，requests，aiohttp-数据解析：re，xpath，bs4，pyquery-selenium-js逆向：pyexcJs2，常见的数据解析方式？-re、lxml、bs43，列举在爬虫过程中遇到的哪些比较难的反爬机制？-动态加载的数据-动态变化的请求参数-js加密-代理-coo
python爬亚马逊数据_python爬虫----（6. scrapy框架，抓取亚马逊数据） weixin_39628342 python爬亚马逊数据
利用xpath()分析抓取数据还是比较简单的，只是网址的跳转和递归等比较麻烦。耽误了好久，还是豆瓣好呀，URL那么的规范。唉，亚马逊URL乱七八糟的....可能对url理解还不够.amazon├──amazon│├──__init__.py│├──__init__.pyc│├──items.py│├──items.pyc│├──msic││├──__init__.py││└──pad_urls.p
Swift Cell重用池机制以及UINib 司南_01b7
functableView(_tableView:UITableView,cellForRowAtindexPath:IndexPath)->UITableViewCell{letreuseID="taskCell5555555"//务必填写模版nib名（此处仅限于有cell模版，若无可忽略）letnib=UINib(nibName:"test5TableViewCell",bundle:nil)
技术分享 | app自动化测试（Android）--元素定位方式与隐式等待霍格沃兹测试开发学社测试人社区软件测试技能自动化运维
本文节选自霍格沃兹测试开发学社内部教材元素定位是UI自动化测试中最关键的一步，假如没有定位到元素，也就无法完成对页面的操作。那么在页面中如何定位到想要的元素，本小节讨论Appium元素定位方式。Appium的元素定位方式定位页面的元素有很多方式，比如可以通过ID、accessibility_id、XPath等方式进行元素定位，还可以使用Android、iOS工作引擎里面提供的定位方式。隐式等待设置
XPath和BeautifulSoup4 优秀的人A
什么是XPath？XPath(XMLPathLanguage)是一门在XML文档中查找信息的语言，可用来在XML文档中对元素和属性进行遍历什么是XML?XML指可扩展标记语言XML是一种标记语言，很类似HTMLXML的设计宗旨是传输数据，而非显示数据XML的标签需要我们自行定义XML被设计为具有自我描述性XML是W3C的推荐标准XML和HTML的区别XML是可扩展标记语言，被设计为传输和存储数据，
爬虫实战：一键爬取指定网站所有图片（二）老童聊AI python 明哥陪你学Python python
前言：上一篇已经提到了实现单网页下载图片，本篇将继续讲解如何通过爬虫来实现全网站的下载。任务分析：1、已实现指定某一网页的图片下载2、通过获取页面的url，进行href元素值的读取，并写入到下一个Job当中，并执行读出。直接进入题：这次的功能其实比较简单，只用通过xml的值，采用xpath的方式进入读取就行了。上一篇我们定义了一个DownloadImage类，这次我们新建一个download_im
Python 爬虫框架 BugLovers python
Python中有许多强大且主流的爬虫框架，这些框架提供了更高级的功能，使得开发和维护爬虫变得更加容易。以下是一些常用的爬虫框架：1.Scrapy-简介:Scrapy是Python最流行的爬虫框架之一，设计用于快速、高效地从网站中提取数据。它支持各种功能，如处理请求、解析HTML、处理分页、去重、以及保存数据等。-特点:-支持多线程，性能高效。-内置支持XPath、CSS选择器。-具有丰富的扩展插件
collectionViewCell防止复用的两种方法 suiyuechenglao collectionView iOS collectionView 复用
collectionView防止cell复用的方法一：//在创建collectionView的时候注册cell（一个分区）UICollectionViewCell*cell=[collectionViewdequeueReusableCellWithReuseIdentifier:@“cell"forIndexPath:indexPath];for(UIView*viewincell.conten
Unable to evaluate expression using this context java丶小虫 java Xpath XML
UnabletoevaluateexpressionusingthiscontextJAVA语言使用Xpath解析XML格式字符串publicStringxmlText(Stringxml){Documentdoc=null;try{doc=DocumentHelper.parseText(xml);//转为xmlXPathFactoryfactory=XPathFactory.newInstan
python爬取豆瓣电影信息_Python|简单爬取豆瓣网电影信息 weixin_39528525 python爬取豆瓣电影信息
前言：在掌握一些基础的爬虫知识后，就可以尝试做一些简单的爬虫来练一练手。今天要做的是利用xpath库来进行简单的数据的爬取。我们爬取的目标是电影的名字、导演和演员的信息、评分和url地址。准备环境：Pycharm、python3、爬虫库request、xpath模块、lxml模块第一步：分析url,理清思路先搜索豆瓣电影top250，打开网站可以发现要爬取的数据不止存在单独的一页，而是存在十页当中
Windows自动化2️⃣元素定位分析+图片视频上传等唐古乌梁海测试 python windows 自动化
windows自动化,难点元素定位XPath轴(XPathAxes)可定义某个相对于当前节点的节点集：preceding-sibling选取当前节点之前的所有同级节点following-sibling选取当前节点之后的所有同级节点preceding选取文档中当前节点的开始标签之前的所有节点following选取文档中当前节点的结束标签之后的所有节点preceding-sibling，选取当前节点之
java selenium 元素点击不了马达马达达 selenium 测试工具
最近做了一个页面爬取，很有意思被机缘巧合下解决了。这个元素很奇怪，用xpath可以定位元素，但是就是click()不了。试过了网上搜的一些办法：//尝试一WebElementa_tag=driver.findElement(By.xpath("xxx"));a_tag.click();//点击不了，卡住//尝试二WebDriverWaitwait=newWebDriverWait(driver,1
xpath的使用走到哪，爬到哪 python python chrome selenium xml
XPath是xml的路径语言，也是一门在xml文档中查找信息的语言。一、xpath常用规则表达式描述nodename选取此节点的所有节点/从当前节点选取子节点（从根节点开始定位）//从当前节点选取子孙节点.选取当前节点..选取当前节点的父节点@选取属性
XPATH表达式定位页面元素 qq_41075467 #RIDE--元素定位自动化软件测试 Xpath表达式 RIDE元素定位
XPATH表达式定位页面元素XPATH表达式语法1.选取节点2.谓语：用来查找某个特定的节点或者包含某个制定的值的节点，嵌在[]中3.选取未知节点4.选取若干路径轴：可定义相对于当前节点的节点集运算符常用功能函数1.关于节点的函数2.类型转换函数3.布尔函数4.字符串函数自动化测试学习过程中会用到一些页面元素的定位方法，常见的有id定位，name定位，css定位，以及Xpath定位，这里介绍的是X
【iPhone16】iPhone16抢购脚本苹果官网抢购 iPhone16 pro max 腹有诗书气自华777 chrome python
fromseleniumimportwebdriverimporttimedefclick_element(driver,xpath):element=driver.find_element_by_xpath(xpath)driver.execute_script("arguments[0].click();",element)defmain():#设置浏览器驱动路径driver_path="./
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML文档，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML文档中提取出所需的数据，
python爬虫常用的库一剑丶飘香 python 爬虫
Python爬虫常用的库包括但不限于以下几种：请求库：`urllib`：Python3自带的库，用于发送HTTP请求，但现在可能被`requests`替代。1`requests`：第三方库，功能强大，使用简单，是当前最常用的请求库。2`Selenium`：自动化测试工具，用于模拟用户操作浏览器，适用于复杂页面。解析库：`lxml`：第三方库，支持HTML和XML的解析，支持XPath的解析方
appium定位xpath报错的解决办法（亲测有效）error“:“invalid argument“,“message“:“Exception while reading JSON“ 空城雀 appium json
通过weditor定位xpath的元素，确定存在，但是代码运行就是报错：error":“invalidargument”,“message”:“ExceptionwhilereadingJSON”解决办法如下：进到python的安装目录python311\Lib\site-packages\selenium\common有个文件：exceptions.py编辑该文件，加入类classInvalid
Xpath和BeautifulSoup4 骚X
什么是Xpath?Xpath(XMLPathLanguage)是一门在XML文档中查找信息的语音,可用来在XML文档对元素和属性进行遍历什么是XML?XML指可扩展标记语音XML是一种标记语音,很类似HTMLXML的设计宗旨是传输数据,而非显示数据XML的标签需要我们自行定义XML被设计为具有自我描述性XML是W3C推荐标准XML和HTML的区别XML是可扩展标记语音,被设计为传输和存储数据,其焦
Jmeter基本使用 weixin_43973848 工具的使用 jmeter python 开发语言
jmeter用法一、环境信息了解二、jmeter的使用基本元件重要的三个组件基础页面功能介绍配置元件介绍参数化方式csv注意断言接口关联1.正则表达式2.xpath提取器3.json提取器jmeter连接数据库逻辑控制器1.if控制器2.循环控制器3.foreach控制器4.吞吐量控制器定时器断言&监听器几种查看结果的方式三、jmeter脚本编写脚本录制四、跨线程的变量调用方法1：设置全局属性调用
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，