朝兮暮兮

一步一步学爬虫（3）网页解析之xpath语法

3.1 网页解析之xpath语法
- 3.1 .1 xpath概览
- 3.1.2 xpath常用规则
- 3.1.3 准备工作
- 3.1.4 实例引入
- 3.1.5 所有节点
- 3.1.6 子节点
- 3.1.7 父节点
- 3.1.8 属性匹配
- 3.1.9 文本获取
- 3.1.10 属性获取
- 3.1.11 属性多值匹配
- 3.1.12 多属性匹配
- 3.1.13 按序选择
- 3.1.14 节点轴选择
- 3.1.15 总结

3.1 网页解析之xpath语法

XPath，全称是 XML Path Language，即 XML 路径语言，它是一门在 XML 文档中查找信息的语言。它最初是用来搜寻 XML 文档的，但是它同样适用于 HTML 文档的搜索。

所以在做爬虫时，我们完全可以使用 XPath 来做相应的信息抽取。本节我们就来了解下 XPath 的基本用法。

3.1 .1 xpath概览

XPath 的选择功能十分强大，它提供了非常简洁明了的路径选择表达式。另外，它还提供了超过 100 个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等。几乎所有我们想要定位的节点，都可以用 XPath 来选择。

XPath 于 1999 年 11 月 16 日成为 W3C 标准，它被设计为供 XSLT、XPointer 以及其他 XML 解析软件使用，更多的文档可以访问其官方网站：https://www.w3.org/TR/xpath/。

3.1.2 xpath常用规则

表 XPath 常用规则

表　达　式	描　　述
nodename	选取此节点的所有子节点
/	从当前节点选取直接子节点
//	从当前节点选取子孙节点
.	选取当前节点
..	选取当前节点的父节点
@	选取属性

以上列出了 XPath 的常用匹配规则，示例如下：
//title[@lang='eng']
这就是一个 XPath 规则，它代表选择所有名称为 title，同时属性 lang 的值为 eng 的节点。后面会通过 Python 的 lxml 库，利用 XPath 进行 HTML 的解析。

3.1.3 准备工作

使用之前，首先要确保安装好 lxml 库。如尚未安装，可以使用 pip3 来安装：
pip3 install lxml

3.1.4 实例引入

现在通过实例来感受一下使用 XPath 对网页进行解析的过程，相关代码如下：

from lxml import etree
text = '''

    
         first item
         second item
         third item
         fourth item
         fifth item
     
 
'''
# 创建一个HTML实例
html = etree.HTML(text)
result = etree.tostring(html)
print(result.decode('utf-8'))

这里首先导入 lxml 库的 etree 模块，然后声明了一段 HTML 文本，调用 HTML 类进行初始化，这样就成功构造了一个 XPath 解析对象。这里需要注意的是，HTML 文本中的最后一个 li 节点是没有闭合的，但是 etree 模块可以自动修正 HTML 文本。
这里我们调用 tostring 方法即可输出修正后的 HTML 代码，但是结果是 bytes 类型。这里利用 decode 方法将其转成 str 类型，结果如下：

<html>
  <body>
    <div>
      <ul>
        <li class="item-0"><a href="link1.html">first itema>li>
        <li class="item-1"><a href="link2.html">second itema>li>
        <li class="item-inactive"><a href="link3.html">third itema>li>
        <li class="item-1"><a href="link4.html">fourth itema>li>
        <li class="item-0"><a href="link5.html">fifth itema>li>
      ul>
    div>
  body>
html>

可以看到，经过处理之后，li 节点标签被补全，并且还自动添加了 body、html 节点。
另外，也可以直接读取文本文件进行解析，示例如下：

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
result = etree.tostring(html)
print(result.decode('utf-8'))

其中 test.html 的内容就是上面例子中的 HTML 代码，内容如下：

<div>
  <ul>
    <li class="item-0"><a href="link1.html">first itema>li>
    <li class="item-1"><a href="link2.html">second itema>li>
    <li class="item-inactive"><a href="link3.html">third itema>li>
    <li class="item-1"><a href="link4.html">fourth itema>li>
    <li class="item-0"><a href="link5.html">fifth itema>li>
  ul>
div>

这次的输出结果略有不同，多了一个 DOCTYPE 声明，不过对解析无任何影响，结果如下：

DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
<html>
  <body>
    <div>
      <ul>
        <li class="item-0"><a href="link1.html">first itema>li>
        <li class="item-1"><a href="link2.html">second itema>li>
        <li class="item-inactive"><a href="link3.html">third itema>li>
        <li class="item-1"><a href="link4.html">fourth itema>li>
        <li class="item-0"><a href="link5.html">fifth itema>li>
      ul>
    div>
  body>
html>

3.1.5 所有节点

我们一般会用 // 开头的 XPath 规则来选取所有符合要求的节点。这里以前面的 HTML 文本为例，如果要选取所有节点，可以这样实现：

from lxml import etree
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//*')
print(result)

运行结果如下：

[<Element html at 0x10510d9c8>, <Element body at 0x10510da08>, <Element div at 0x10510da48>, <Element ul at 0x10510da88>, <Element li at 0x10510dac8>, <Element a at 0x10510db48>, <Element li at 0x10510db88>, <Element a at 0x10510dbc8>, <Element li at 0x10510dc08>, <Element a at 0x10510db08>, <Element li at 0x10510dc48>, <Element a at 0x10510dc88>, <Element li at 0x10510dcc8>, <Element a at 0x10510dd08>]

这里使用 * 代表匹配所有节点，也就是整个 HTML 文本中的所有节点都会被获取。可以看到，返回形式是一个列表，每个元素是 Element 类型，其后跟了节点的名称，如 html、body、div、ul、li、a 等，所有节点都包含在列表中了。
当然，此处匹配也可以指定节点名称。如果想获取所有 li 节点，示例如下：

from lxml import etree
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li')
print(result)
print(result[0])

这里要选取所有 li 节点，可以使用 //，然后直接加上节点名称即可，调用时直接使用 xpath 方法即可。
运行结果如下：

[<Element li at 0x105849208>, <Element li at 0x105849248>, <Element li at 0x105849288>, <Element li at 0x1058492c8>, <Element li at 0x105849308>]
<Element li at 0x105849208>

这里可以看到，提取结果是一个列表形式，其中每个元素都是一个 Element 对象。如果要取出其中一个对象，可以直接用中括号加索引，如 [0]。

3.1.6 子节点

我们通过 / 或 // 即可查找元素的子节点或子孙节点。假如现在想选择 li 节点的所有直接子节点 a，可以这样实现：

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li/a')
print(result)

这里通过追加 /a 即选择了所有 li 节点的所有直接子节点 a。因为 //li 用于选中所有 li 节点，/a 用于选中 li 节点的所有直接子节点 a，二者组合在一起即获取所有 li 节点的所有直接子节点 a。
运行结果如下：

[<Element a at 0x106ee8688>, <Element a at 0x106ee86c8>, <Element a at 0x106ee8708>, <Element a at 0x106ee8748>, <Element a at 0x106ee8788>]

此处的 / 用于选取直接子节点，如果要获取所有子孙节点，就可以使用 //。例如，要获取 ul 节点下的所有子孙节点 a，可以这样实现：

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//ul//a')
print(result)

运行结果是相同的。

但是如果这里用 //ul/a，就无法获取任何结果了。因为 / 用于获取直接子节点，而在 ul 节点下没有直接的 a 子节点，只有 li 节点，所以无法获取任何匹配结果。

3.1.7 父节点

我们知道通过连续的 / 或 // 可以查找子节点或子孙节点，那么假如我们知道了子节点，怎样来查找父节点呢？这可以用 … 来实现。

比如，现在首先选中 href 属性为 link4.html 的 a 节点，然后获取其父节点，再获取其 class 属性，相关代码如下：

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//a[@href="link4.html"]/../@class')
print(result)

运行结果如下：['item-1']
检查一下结果发现，这正是我们获取的目标 li 节点的 class 属性。

同时，我们也可以通过 parent:: 来获取父节点，代码如下：

from lxml import etree
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//a[@href="link4.html"]/parent::*/@class')
print(result)

3.1.8 属性匹配

在选取的时候，我们还可以用 @ 符号进行属性过滤。比如，这里如果要选取 class 为 item-0 的 li 节点，可以这样实现:

from lxml import etree
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]')
print(result)

这里我们通过加入 [@class=“item-0”]，限制了节点的 class 属性为 item-0，而 HTML 文本中符合条件的 li 节点有两个，所以结果应该返回两个匹配到的元素。结果如下：

<Element li at 0x10a399288>, <Element li at 0x10a3992c8>

3.1.9 文本获取

我们用 XPath 中的 text 方法获取节点中的文本，接下来尝试获取前面 li 节点中的文本，相关代码如下：

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]/text()')
print(result)

运行结果如下：

['\n     ']

奇怪的是，我们并没有获取到任何文本，只获取到了一个换行符，这是为什么呢？因为 XPath 中 text 方法前面是 /，而此处 / 的含义是选取直接子节点，很明显 li 的直接子节点都是 a 节点，文本都是在 a 节点内部的，所以这里匹配到的结果就是被修正的 li 节点内部的换行符，因为自动修正的 li 节点的尾标签换行了。
即选中的是这两个节点：

<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>

其中一个节点因为自动修正，li 节点的尾标签添加的时候换行了，所以提取文本得到的唯一结果就是 li 节点的尾标签和 a 节点的尾标签之间的换行符。
因此，如果想获取 li 节点内部的文本，就有两种方式，一种是先选取 a 节点再获取文本，另一种就是使用 //。接下来，我们来看下二者的区别。
首先，选取 a 节点再获取文本，代码如下：

from lxml import etree
html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]/a/text()')
print(result)

运行结果如下：

['first item', 'fifth item']

可以看到，这里的返回值是两个，内容都是属性为 item-0 的 li 节点的文本，这也印证了前面属性匹配的结果是正确的。
这里我们是逐层选取的，先选取了 li 节点，又利用 / 选取了其直接子节点 a，然后再选取其文本，得到的结果恰好是符合我们预期的两个结果。
再来看下用另一种方式（即使用 //）选取的结果，代码如下：

['first item', 'fifth item', '\n     ']

不出所料，这里的返回结果是 3 个。可想而知，这里是选取所有子孙节点的文本，其中前两个就是 li 的子节点 a 内部的文本，另外一个就是最后一个 li 节点内部的文本，即换行符。
所以说，如果要想获取子孙节点内部的所有文本，可以直接用 // 加 text 方法的方式，这样可以保证获取到最全面的文本信息，但是可能会夹杂一些换行符等特殊字符。如果想获取某些特定子孙节点下的所有文本，可以先选取到特定的子孙节点，然后再调用 text 方法获取其内部文本，这样可以保证获取的结果是整洁的。

3.1.10 属性获取

我们知道用 text 方法可以获取节点内部文本，那么节点属性该怎样获取呢？其实还是用 @ 符号就可以。例如，我们想获取所有 li 节点下所有 a 节点的 href 属性，代码如下：

from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li/a/@href')
print(result)

这里我们通过 @href 即可获取节点的 href 属性。注意，此处和属性匹配的方法不同，属性匹配是中括号加属性名和值来限定某个属性，如 [@href=“link1.html”]，而此处的 @href 指的是获取节点的某个属性，二者需要做好区分。

运行结果如下：

['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']

可以看到，我们成功获取了所有 li 节点下 a 节点的 href 属性，它们以列表形式返回。

3.1.11 属性多值匹配

有时候，某些节点的某个属性可能有多个值，例如：

from lxml import etree
text = '''
first item
'''
html = etree.HTML(text)
result = html.xpath('//li[@class="li"]/a/text()')
print(result)

这里 HTML 文本中 li 节点的 class 属性有两个值 li 和 li-first，此时如果还想用之前的属性匹配获取，就无法匹配了，此时的运行结果如下：

[]

这时就需要用 contains 方法了，代码可以改写如下：

from lxml import etree
text = '''
first item
'''
html = etree.HTML(text)
result = html.xpath('//li[contains(@class, "li")]/a/text()')
print(result)

这样通过 contains 方法，给其第一个参数传入属性名称，第二个参数传入属性值，只要此属性包含所传入的属性值，就可以完成匹配了。
此时运行结果如下：

['first item']

此种方式在某个节点的某个属性有多个值时经常用到，如某个节点的 class 属性通常有多个。

3.1.12 多属性匹配

另外，我们可能还遇到一种情况，那就是根据多个属性确定一个节点，这时就需要同时匹配多个属性。此时可以使用运算符 and 来连接，示例如下：

from lxml import etree
text = '''
first item
'''
html = etree.HTML(text)
result = html.xpath('//li[contains(@class, "li") and @name="item"]/a/text()')
print(result)

这里的 li 节点又增加了一个属性 name。要确定这个节点，需要同时根据 class 和 name 属性来选择，一个条件是 class 属性里面包含 li 字符串，另一个条件是 name 属性为 item 字符串，二者需要同时满足，需要用 and 操作符相连，相连之后置于中括号内进行条件筛选。运行结果如下：

['first item']

这里的 and 其实是 XPath 中的运算符。另外，还有很多运算符，如 or、mod 等，在此总结为表 3-。

表 3- 运算符及其介绍

运算符	描　　述	实　　例	返　回　值
or	或	age=19 or age=20	如果 age 是 19，则返回 true。如果 age 是 21，则返回 false
and	与	age>19 and age<21	如果 age 是 20，则返回 true。如果 age 是 18，则返回 false
mod	计算除法的余数	5 mod 2	1
\|	计算两个节点集	`//book //cd`	返回所有拥有 book 和 cd 元素的节点集
+	加法	6 + 4	10
-	减法	6 - 4	2
*	乘法	6 * 4	24
div	除法	8 div 4	2
=	等于	age=19	如果 age 是 19，则返回 true。如果 age 是 20，则返回 false
!=	不等于	age!=19	如果 age 是 18，则返回 true。如果 age 是 19，则返回 false
<	小于	age<19	如果 age 是 18，则返回 true。如果 age 是 19，则返回 false
<=	小于或等于	<=19	如果 age 是 19，则返回 true。如果 age 是 20，则返回 false
>	大于	age>19	如果 age 是 20，则返回 true。如果 age 是 19，则返回 false
>=	大于或等于	age>=19	如果 age 是 19，则返回 true。如果 age 是 18，则返回 false

3.1.13 按序选择

有时候，我们在选择的时候某些属性可能同时匹配了多个节点，但是只想要其中的某个节点，如第二个节点或者最后一个节点，这时该怎么办呢？
这时可以利用中括号传入索引的方法获取特定次序的节点，示例如下：

from lxml import etree

text = '''

    
         first item
         second item
         third item
         fourth item
         fifth item
     
 
'''
html = etree.HTML(text)
result = html.xpath('//li[1]/a/text()')
print(result)
result = html.xpath('//li[last()]/a/text()')
print(result)
result = html.xpath('//li[position()<3]/a/text()')
print(result)
result = html.xpath('//li[last()-2]/a/text()')
print(result)

第一次选择时，我们选取了第一个 li 节点，中括号中传入数字 1 即可。注意，这里和代码中不同，序号是以 1 开头的，不是以 0 开头。

第二次选择时，我们选取了最后一个 li 节点，中括号中调用 last 方法即可。

第三次选择时，我们选取了位置小于 3 的 li 节点，也就是位置序号为 1 和 2 的节点，得到的结果就是前两个 li 节点。

第四次选择时，我们选取了倒数第三个 li 节点，中括号中调用 last 方法再减去 2 即可。因为 last 方法代表最后一个，在此基础减 2 就是倒数第三个。

运行结果如下：

['first item']
['fifth item']
['first item', 'second item']
['third item']

这里我们使用了 last、position 等方法。在 XPath 中，提供了 100 多个方法，包括存取、数值、字符串、逻辑、节点、序列等处理功能，它们的具体作用可以参考：http://www.w3school.com.cn/xpath/xpath_functions.asp。

3.1.14 节点轴选择

XPath 提供了很多节点轴选择方法，包括获取子元素、兄弟元素、父元素、祖先元素等，示例如下：

from lxml import etree

text = '''

    
         first item
         second item
         third item
         fourth item
         fifth item
     
 
'''
html = etree.HTML(text)
result = html.xpath('//li[1]/ancestor::*')
print(result)
result = html.xpath('//li[1]/ancestor::div')
print(result)
result = html.xpath('//li[1]/attribute::*')
print(result)
result = html.xpath('//li[1]/child::a[@href="link1.html"]')
print(result)
result = html.xpath('//li[1]/descendant::span')
print(result)
result = html.xpath('//li[1]/following::*[2]')
print(result)
result = html.xpath('//li[1]/following-sibling::*')
print(result)

运行结果如下：

[<Element html at 0x107941808>, <Element body at 0x1079418c8>, <Element div at 0x107941908>, <Element ul at 0x107941948>]
[<Element div at 0x107941908>]
['item-0']
[<Element a at 0x1079418c8>]
[<Element span at 0x107941948>]
[<Element a at 0x1079418c8>]
[<Element li at 0x107941948>, <Element li at 0x107941988>, <Element li at 0x1079419c8>, <Element li at 0x107941a08>]

第一次选择时，我们调用了 ancestor 轴，可以获取所有祖先节点。其后需要跟两个冒号，然后是节点的选择器，这里我们直接使用 *，表示匹配所有节点，因此返回结果是第一个 li 节点的所有祖先节点，包括 html、body、div 和 ul。

第二次选择时，我们又加了限定条件，这次在冒号后面加了 div，这样得到的结果就只有 div 这个祖先节点了。

第三次选择时，我们调用了 attribute 轴，可以获取所有属性值，其后跟的选择器还是 *，这代表获取节点的所有属性，返回值就是 li 节点的所有属性值。

第四次选择时，我们调用了 child 轴，可以获取所有直接子节点。这里我们又加了限定条件，选取 href 属性为 link1.html 的 a 节点。

第五次选择时，我们调用了 descendant 轴，可以获取所有子孙节点。这里我们又加了限定条件获取 span 节点，所以返回的结果只包含 span 节点而不包含 a 节点。

第六次选择时，我们调用了 following 轴，可以获取当前节点之后的所有节点。这里我们虽然使用的是 * 匹配，但又加了索引选择，所以只获取了第二个后续节点。

第七次选择时，我们调用了 following-sibling 轴，可以获取当前节点之后的所有同级节点。这里我们使用 * 匹配，所以获取了所有后续同级节点。

以上是 XPath 轴的简单用法，更多轴的用法可以参考：http://www.w3school.com.cn/xpath/xpath_axes.asp。

3.1.15 总结

到现在为止，我们基本上把可能用到的 XPath 选择器介绍完了。XPath 功能非常强大，内置函数非常多，熟练使用之后，可以大大提升 HTML 信息的提取效率。

如果想查询更多 XPath 的用法，可以查看：http://www.w3school.com.cn/xpath/index.asp。

如果想查询更多 Python lxml 库的用法，可以查看 http://lxml.de/。

你可能感兴趣的:(Python爬虫,爬虫,html,python)

Python基础语法7-模块与包安迪小宝 python python 开发语言
Python通过模块（module）和包（package）来实现代码的组织和复用，使得开发者可以将功能拆分到不同的文件中，提高代码的可读性和可维护性。本文将介绍如何导入模块、使用内置模块、自定义模块以及管理第三方库。1.导入模块Python提供了多种方式导入模块：1.1import语句最常见的方式是使用import语句导入整个模块：importmathprint(math.sqrt(16))#输出
python 请求流式 Toky Zhu python 开发语言
python请求非表单流式importrequestsimportjsonimportdatetimeasyncdefllm_qa_generator_stream(text,num_faq):url='http://172.16.2.45:6162/llm_qa_generator_stream'payload={'data':text,'numFaq':num_faq}print("#####
React 各模块相关全面面试及答案解析刺客-Andy 面试 react.js 面试前端
一、核心概念1、什么是React？它的核心特性是什么？答案：React是用于构建UI的JavaScript库。核心特性包括组件化、虚拟DOM、单向数据流和声明式编程。2、解释虚拟DOM的工作原理。答案：虚拟DOM是内存中的轻量DOM表示，React通过Diff算法比较新旧虚拟DOM差异，最小化真实DOM操作。3、JSX是什么？为什么使用它？答案：JSX是语法扩展，允许在JS中写类似HTML的结构。
【Linux】【编译】automake 调试方法小结花神庙码农 automake autoconf debug 调试静默 remake print
作者简介：花神庙码农（专注于Linux、WLAN、TCP/IP、Python等技术方向）博客主页：花神庙码农，地址：https://blog.csdn.net/qxhgd系列专栏：Linux技术如觉得博主文章写的不错或对你有所帮助的话，还望大家三连支持一下呀！！！关注✨、点赞、收藏、评论。如需转载请参考转载须知！！automake调试方法小结非静默输出非静默Automakemake-nSHELLp
Java 中 VO、POJO、DTO 的区别详解 ♢.＊ java 开发语言
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！在Java开发的广阔领域中，准确理解和
Python使用requests库下载文件飞起来fly呀 Python python 开发语言
在编写Python程序时，requests库是一个强大且流行的HTTP请求工具，用于与网络资源进行交互。特别是在下载文件的操作中，充分利用requests库的功能能显著简化工作。下面我们将深入探讨如何使用requests库下载文件。下载文件的基础示例假设我们需要从互联网上下载一个PDF文件。以下是一个简单且实用的代码示例，其中我们将使用Python的requests库：importrequests
Python使用requests库下载文件详解凡客丶 python python 开发语言
Python使用requests库下载文件详解一、引言二、使用requests库下载文件的基本流程三、请求设置和响应处理四、异常处理一、引言在Python编程中，requests库是用于发送HTTP请求和处理HTTP响应的常用库。使用requests库，我们可以轻松地发送GET、POST等请求，并获取响应内容。在下载文件的过程中，requests库提供了一种简便的方法来获取远程服务器上的文件，并将
BERT 模型和 Milvus 向量数据库分步骤讲解如何实现「文本相似度搜索」
结合BERT模型和Milvus向量数据库，通过一个Python示例分步骤讲解如何实现「文本相似度搜索」。整个过程分为：文本向量化→存储到Milvus→相似度搜索。1️⃣环境准备安装必要的库：pipinstallpymilvustransformerstorch2️⃣流程图解BERT模型↓将文本转为向量Milvus数据库（存储所有向量）↓输入问题文本Milvus搜索相似向量→返回最相似的答案3️⃣完
Bootstrap4 导航active状态切换君子……如玉 H5 Bootstrap4
页面HTML代码：首页数据统计用户列表AnotheractionSomethingelsehereSeparatedlinkLinkDisabledjs代码如下：$('.nav-pills').find('a').each(function(){if(this.href==document.location.href||document.location.href.search(this.href
20个被低估的Python性能优化技巧（附实测数据）猿享天开 python从入门到精通 python 性能优化开发语言
20个被低估的Python性能优化技巧（附实测数据）前言通过对比优化前后代码的性能差异（使用timeit模块测量，循环100万次），揭示那些容易被忽视但有效的优化手段。所有测试设备为M1MacBookPro，Python3.11.4。1.利用局部变量加速访问原理：局部变量访问（LOAD_FAST）比全局变量（LOAD_GLOBAL）快3-4倍优化方案：#优化前（耗时0.78秒）defcalcula
Python爬虫实现爬取下载网站数据的几种方法 2301_79698214 python 爬虫 php
使用脚本进行下载的需求很常见，可以是常规文件、web页面、AmazonS3和其他资源。Python提供了很多模块从web下载文件。下面介绍一、使用requestsrequests模块是模仿网页请求的形式从一个URL下载文件示例代码：1234567importrequestsurl='xxxxxxxx'#目标下载链接r=requests.get(url)#发送请求#保存withopen('r.txt
Python requests 下载文件的几种常用方法 microhex python java 前端
1.基础下载：importrequestsdefdownload_file(url,save_path):response=requests.get(url,stream=True)ifresponse.status_code==200:withopen(save_path,'wb')asf:f.write(response.content)returnTruereturnFalse#使用示例ur
python 自动注册模式清水湾的水 python 开发语言
自动注册模式通过自动注册模式，减少if-else使得逻辑更清晰。代码importinspectimportsysfromtypingimportAny,Dict,Callable,Listfromdatetimeimportdatetimedefmessage_handler(msg_type:str,priority:int=0):defdecorator(func:Callable)->Cal
python打印小票_pyqt5 商店小票打印的实现模板 weixin_39789327 python打印小票
说明最近在用pyqt5做商店小票打印，用的是得力DL-581PW(NEW)热敏小票打印机。商店小票打印，属于escpos打印。在网上找了很多实现方法，看了很多相关文章，经历了很多困难，最后终于实现了。这里先分享一下我看过的文章和尝试过的方法，最后分享我的实现套路。一.使用execl打印很多场景，我都是使用win32com模块的execl打印，基本能解决大部分的打印问题。(相关的方法网上也有，可以找
python segmentation fault是什么意思-A Python Segmentation Fault? weixin_37988176
ThisgeneratesaSegmentationFault:11andIhavenocluewhy.BeforeIgetintoit,here'sthecode:importnumpy.randomasnprndimportheapqimportsyssys.setrecursionlimit(10**6)defrlist(size,limit_low,limit_high):for_inxr
一个色条可用于多个散点图潮易 chrome
一个色条可用于多个散点图在Python中，使用matplotlib库绘制多个散点图时，可以使用循环来重复生成相同的图表，然后修改数据以显示不同分布的数据。以下是一个详细步骤的代码示例：```pythonimportmatplotlib.pyplotaspltimportnumpyasnp#创建一个色条对象cax=ax2.inset_axes([0,0,1,0.5])norm=matplotlib.
python数据分析的基础知识—pandas中dataframe()使用 sodaloveer python数据分析基础知识 python数据分析系列 python pandas 数据分析
文章目录前言一、DataFrame创建1、函数创建2、直接创建3、字典创建二、DataFrame属性1、查看列的数据类型2、查看DataFrame的前几行后几行3、查看行名与列名4、查看数据值5、查看行列数三、DataFrame切片与索引1、普通索引2、层次化索引四、DataFrame操作1、转置2、描述性统计3、计算算术运算逻辑运算统计函数累计统计函数相关系数和协方差自定义运算4、新增5、修改6
原生JS和CSS，HTML实现开屏弹窗 QTX18730 css html javascript
开屏弹窗常应用于打开游戏，或者打开网站的时候，跳出来在正中间，来显示一些信息，并可以设置今日不再显示CSS代码如下#box{width:100vw;height:100vh;background-color:rgba(0,0,0,0.2);position:relative;display:none;}.alerts{width:250px;height:400px;background-colo
python打印购物小票美食与你不可或缺学习python的成神必经之路 python
简单的输入和输出danhao='单号：DH20109'time='时间：2020'qian='名称数量单价金额'diyi='金士顿U盘14040'dier='胜创15050'disan='读卡器188'disi='网线155'diwu='''总数：4总额：103折后总额：103实收&#
Python案例--暂停与时间格式化 gabadout Python案例 python 开发语言
在编程中，时间的处理是一个常见的需求。无论是日志记录、任务调度还是数据时间戳的生成，正确地获取和格式化时间都至关重要。Python提供了强大的时间处理模块，其中time模块是基础且广泛使用的工具之一。本文将通过一个简单的示例，深入探讨如何使用Python的time模块来实现暂停程序执行并格式化输出当前时间，并展示其运行结果。一、示例代码解析以下是一个简单的Python脚本，它展示了如何在程序运行过
Python案例--养兔子 gabadout Python案例 python 数学建模开发语言
兔子繁殖问题是一个经典的数学问题，最早由意大利数学家斐波那契在13世纪提出。这个问题不仅在数学领域具有重要意义，还广泛应用于计算机科学、生物学和经济学等领域。本文将通过一个具体的Python程序，深入探讨兔子繁殖问题的建模和实现，并展示程序的运行结果。一、问题描述假设有一对兔子，从出生后第3个月起每个月都生一对兔子，小兔子长到第三个月后每个月又生一对兔子。假设兔子都不会死亡，问每个月的兔子总数是多
Python解决Segmentation Fault错误代码飞翔网络 linux 运维 Python
在Python编程中，有时候你可能会遇到"SegmentationFault"（分段错误）的错误。这通常是由于程序访问了无效的内存地址或者出现了内存访问冲突导致的。本文将向你介绍一些常见的原因和解决方法，帮助你解决Python中的SegmentationFault错误。缓冲区溢出（BufferOverflow）缓冲区溢出是导致SegmentationFault错误的常见原因之一。当你使用数组或者其
python实现的按键精灵亲爱的沸羊羊便捷工具游戏 python
最近玩上了某款游戏，由于游戏中打怪需要一直按键盘上固定的几个键，时间一长手就会很累，为了解放左手，楼主自行实现了一款按键精灵。言归正传，本款按键精灵是用python语言实现的，下面介绍一下实现方法：1.pykeyboard库用来模拟按压键盘的操作2.pynput库用来监听键盘按压事件3.threading库用来抛出线程，实现循环按压4.tkinter库用来实现一个简单的UI界面介绍一下按键精灵的功
按键精灵和python功能对比_python 自动化对比返回结果 weixin_39884100 按键精灵和python功能对比
对比返回结果的code，不是很完善，存在问题，由于多行数据，只有1行可写入excel中：#-*-coding:utf-8-*-importhttplib2,xlrd,xlwt,time,jsonfromxlutils.copyimportcopydefTime():tim=time.strftime('%Y-%m-%d%H:%M:%S',time.localtime(time.time()))re
python代替按键精灵库_Python键鼠操作自动化库PyAutoGUI简介 weixin_39556064 python代替按键精灵库
PyAutoGUI是一个Python语言的键鼠自动化库，简单来说和按键精灵的功能一样。但是因为是Python的类库，所以可以使用Python代码配合一些其他类库完成更加强大的功能。下面让我为大家介绍一下吧。安装从pip安装即可。pipinstallpyautogui稍等一下安装就完毕了。使用介绍简单介绍一下PyAutoGUI的函数以及使用方法。鼠标操作函数操作鼠标点击的函数。函数简单说明move(
按键精灵调用python文件_Python&按键精灵自动化 weixin_39616367 按键精灵调用python文件
最近在项目中需要进行软件的自动化操作。本博文以两种方式介绍如何自动化打开软件（Windows下），对其进行最大化最小化关闭等操作。Python操作：第一次接触自动化。相对比较熟悉Python自然是希望通过Python来操作软件。一般来说，通过程序来操作软件需要获得该软件的句柄，然后通过该句柄给软件发消息来操作该软件。Python中你需要安装Pywin32模块，该模块提供了访问WindowsAPI的
python代替按键精灵游戏内失灵_python游戏脚本之调用按键精灵插件模拟输入（二）... 河星星 python代替按键精灵游戏内失灵
我们准备在python中调用按键精灵的大漠插件来完成模拟驱动的鼠标键盘操作。大漠综合插件(dm.dll)采用vc6.0编写，识别速度超级快！采用COM接口编写，适用于所有语言调用。网上相关教程极少，我们只能一步步自己摸索。首先下载大漠核心组件dm.dll，在win10的新版总是出现闪退bug，为了稳定性，选择比较老的3.2xxx版本了。下载地址下载解压后，将dm.dll复制到C:\Windows\
《Python百炼成仙》11-20章（不定时跟新） Monkey_Jun python 开发语言小说修仙
第十一章条件渡劫·if-else问心武当金顶的云海翻涌着二进制雪暴，七十二峰化作擎天而立的布尔冰柱。叶军踩着《周易》残页跃上紫霄宫檐角，看见薛香被冰封在水晶般的条件表达式中心：if道心澄澈:破妄剑意+=100else:心魔熵值*=2楔子·三元寒渊宫墙上的八卦阵突然坍缩成三元表达式：剑气=80if时辰=="子时"else50冰晶剑气从"子时"分支喷涌而出，却在触及叶军衣襟时突变为"午时"的烈焰。他翻
《Python百炼成仙》21-30章（不定时跟新） Monkey_Jun python 安全 web安全小说修仙
第廿一章列表开天·可变序列初成不周山的擎天玉柱裂开蛛网纹路，山体内部传出数据结构崩塌的轰鸣。叶军踏着《数据结构真解》残页凌空而立，手中薛香的本命玉尺泛起列表操作的幽光：补天石序列=[五色石]*9补天石序列[3]=息壤#引发链式变异楔子·共工之怒山腹深处涌出猩红的append()玄光，共工残魂在岩浆中咆哮：while天穹漏洞数量>0:补天石序列.append(五色石)天穹漏洞数量-=1叶军挥剑斩断失
【Python】OpenCV算法使用案例全解岱宗夫up 教学 opencv 计算机视觉人工智能算法
OpenCV算法使用案例全解前言OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库，它提供了大量的图像和视频处理功能。从简单的图像滤波到复杂的三维重建，OpenCV涵盖了计算机视觉领域的众多算法。本文将详细介绍OpenCV中常见算法的使用案例，帮助读者更好地理解和应用这些强大的工具。一、图像处理基础（一）滤波操作滤波是图像处理中最基
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修