牧羊小董

解析库的使用——学习笔记

一、XPath

全称：XML Path Language，即XML路径语言。

1、XPath概念

XPath提供了非常简洁明了的路径选择表达式。还提供了100个内键函数，用于字符串、数值、时间的匹配以及节点、序列的处理等。

2、XPath常用规则

XPath常用规则

表达式	描述
nodename	选取此节点的所有子节点
/	从当前节点选取直接子节点
//	从当前节点选择子孙节点
.	选取当前节点
…	选取当前节点的父节点
@	选取属性

举例：

//title[@lang='eng']

选择所有名称为title，同时属性lang的值为eng的节点。

3、准备工作

下载lxml库

pip install lxml

4、实例引入

from lxml import etree

text = '''


first item
second item
third item
fourth item
fifth item


'''

# 使用HTML类初始化，构建一个XPath解析对象
html = etree.HTML(text)
# 输出修正后的html代码
result = etree.tostring(html)
print(result.decode('utf-8'))

首先导入lxml库的etree模块，然后声明一个HTML文本，调用etree的HTML类进行初始化，这里就成功构建了一个XPath解析对象。

注意：声明的文本中最后一个li节点是没有闭合的，但是etree模块自动修正了HTML文本。

调用tostring()方法，即可输出修正后的HTML，但是结果是bytes类型。这里利用decode()方法将其转换为str类型。

# 结果
<html><body><div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</li></ul>
</div>
</body></html>

看到结果发现，li节点标签被补全了，而且还自动添加了body、html节点。

另外，还可直接读取文本文件进行解析：

from lxml import etree


html = etree.parse('./test.html', etree.HTMLParser())
# 输出修正后的html代码
result = etree.tostring(html)
print(result.decode('utf-8'))

test.html文件中的代码就是上一个案例声明的代码。

这次输出的结果略有不同，多了一个DOCTYPE的声明，不过对解析无影响。

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
<html><body><div>&#13;
<ul>&#13;
<li class="item-0"><a href="link1.html">first item</a></li>&#13;
<li class="item-1"><a href="link2.html">second item</a></li>&#13;
<li class="item-inactive"><a href="link3.html">third item</a></li>&#13;
<li class="item-1"><a href="link4.html">fourth item</a></li>&#13;
<li class="item-0"><a href="link5.html">fifth item</a></li>&#13;
</ul>&#13;
</div></body></html>

5、所有节点（*）

我们一般会用//开头的XPath规则来选取所有符合要求的节点。

这里以前面的HTML文本为例，如要要选取出所有节点，可以这样实现：

from lxml import etree


html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//*')
print(result)

运行结果如下：

[<Element html at 0x234ab053648>, <Element body at 0x234ab053748>, <Element div at 0x234ab053788>, <Element ul at 0x234ab0537c8>, <Element li at 0x234ab053808>, <Element a at 0x234ab053888>, <Element li at 0x234ab0538c8>, <Element a at 0x234ab053908>, <Element li at 0x234ab053948>, <Element a at 0x234ab053848>, <Element li at 0x234ab053988>, <Element a at 0x234ab0539c8>, <Element li at 0x234ab053a08>, <Element a at 0x234ab053a48>]

这里使用*来匹配所有节点，也就是整个HTML文本中的所有节点都会被获取。可以看到，返回形式是一个列表，每个元素是Element类型，其后跟了节点的名称，如html、body、div、ul、li、a等。

匹配也可以指定节点名称。如果想要获取所有li节点：

from lxml import etree


html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li')
print(result)

这里选取所有li节点，可以使用//加上节点名即可。

[<Element li at 0x2e3ff7d0748>, <Element li at 0x2e3ff7d0788>, <Element li at 0x2e3ff7d07c8>, <Element li at 0x2e3ff7d0808>, <Element li at 0x2e3ff7d0848>]

提取结果是一个列表形式。其中每个元素都是一个Element对象。如果想要取出其中一个对象，可以直接用中括号加索引，例[0]

6、子节点

可以通过/或//查找子节点或子孙节点。

/ 是查找子节点

// 是查找子孙节点

选择 li 节点中的所有直接 a 子节点：

from lxml import etree


html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li/a')
print(result)

要获取 ul 节点下的所有子孙 a 节点：

from lxml import etree


html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//ul//a')
print(result)

如果这里用了//ul/a，就无法获取任何结果了。因为/用于获取直接子节点，而ul节点下没有a节点。

7、父节点

(1)、通过 …

通过 … 来查找父节点。

首先选中href属性为link4.html的a节点，然后在获取其父节点，然后其class属性：

from lxml import etree


html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//a[@href="link4.html"]/../@class')
print(result)

'''
结果：
['item-1']
'''

(2)、通过 parent::

通过parent::来获取父节点：

from lxml import etree


html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//a[@href="link4.html"]/parent::*/@class')
print(result)

'''
结果：
['item-1']
'''

8、属性匹配（@）

使用@符号进行属性过滤

选取class为item-0的 li 节点：

from lxml import etree


html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]')
print(result)

'''
# 结果：
[, ]
'''

我们通过加入[@class=“item-0”]，限制了节点的class属性为item-0。

9、文本获取 (text())

用XPath中的text()方法获取节点中的文本

获取前面li节点中的文本：

from lxml import etree


html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]/text()')
print(result)

'''
结果：
['\r\n']
'''

没有获取到任何文本，只是获取到了回车符和换行符，这是为什么？

因为XPath中text()前面是/，而此处/的含义是选取直接子节点，很明显li的直接子节点都是a节点，文本都是在a节点内部的，所以这里匹配的结果就是被修正的li节点内部的回车符和换行符，因为自动修正的li节点的尾标签换行了。

因此，如想获取li节点内部文本，就有两种方式：一是先选取a节点在获取文本，二是使用//

第一种：先选取a节点在获取文本

from lxml import etree


html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]/a/text()')
print(result)

'''
结果：
['first item', 'fifth item']
'''

第二种：使用//

from lxml import etree


html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]//text()')
print(result)

'''
结果：
['first item', 'fifth item', '\r\n']
'''

根据结果发现，返回的是3个结果。这里是选取子孙节点的文本，其中前两个是li的子节点中a节点内部的文本，最后一个是li节点内部的文本。

10、属性获取 (@)

用@就可以获取属性的值

获取所有li节点下a节点的href值：

from lxml import etree


html = etree.parse('./test.html', etree.HTMLParser())
result = html.xpath('//li/a/@href')
print(result)

'''
结果：
['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']
'''

通过@href获取节点的href属性。

和属性匹配不同，属性匹配是中括号加属性名和值来限定某个属性：[@class=“item-0”]

属性获取的@href指的是获取节点的某个属性。

11、属性多值匹配

通过contains()方法，第一个参数传入属性，第二个参数传入属性值。

text = '''
first item
'''

这里的HTML文本中li节点的class属性有两个值分别是li和li-first

使用contains()方法，匹配class值为li和li-first的li节点：

from lxml import etree

text = '''
first item
'''

html = etree.HTML(text)
result = html.xpath('//li[contains(@class, "li li-first")]')
print(result)


'''
结果：
[]
'''

12、多属性匹配

使用运算符连接

根据多个属性来确定一个节点，可以使用and符号连接

from lxml import etree

text = '''
first item
'''

html = etree.HTML(text)
result = html.xpath('//li[contains(@class, "li") and @name="item"]/a/text()')
print(result)

'''
结果：
['first item']
'''

li节点有增加一个name属性。同时需要根据class属性和name属性来选择，一个条件是class属性里面包含li字符串，另一个条件是name属性为item字符串，二者需要同时满足，需要使用and符号相连，相连之后之置于中括号内进行条件筛选。

运算符及其介绍

运算符	描述
and	与
or	或
mod	计算除法的余数
\|	计算两个节点集
+	加法
-	减法
*	乘法
div	除法
=	等于
!=	不等于
<	小于
<=	小于或等于
>	大于
>=	大于或等于

13、按序选择

在选择的时候某些属性可能同时匹配了多个节点，但是只想要其中的某个节点。

[index] 中括号中传入下标，从1开

result = html.xpath('//li[1]/a/text()')

[last()] 最后一个

result = html.xpath('//li[last()]/a/text()')

[position()❤️] 位置小于3的

result = html.xpath('//li[position()<3]/a/text()')

[last()-2 ] 倒数第三个，last()是最后一个，所以last()-2就是倒数第三个
```
result = html.xpath('//li[last()-2]/a/text()')
```

14、节点轴选择

XPath提供了很多节点轴选择方法，包括获取子元素，兄弟元素、父元素、祖先元素等

ancestor轴，获取祖先节点

result = html.xpath('//li[1]/ancestor::*')
# 获取所有祖先节点

result = html.xpath('//li[1]/ancestor::div')
# 获取祖先节点中的所有div节点

attribute轴，获取所有属性值

result = html.xpath('//li[1]/attribute::*')

child轴，获取所有直接子节点

result = html.xpath('//li[1]/child::a[@href="link1.html"]')

descendat轴，获取所有子孙节点

result = html.xpath('//li[1]/descendant::span')
# 限制必须是span节点

following轴，获取当前节点之后的所有节点

result = html.xpath('//li[1]/following::*[2]')
# 有加了索引选择，所以只获取2个后续节点

flolowing-sibling轴，获取当前节点之后的所有同级节点
```
result = html.xpath('//li[1]/follwing-sibling')
```

二、Beautiful Soup

1、简介

Beautiful Soup 就是Python的一个HTML或XML的解析库

2、准备工作

pip install lxml
pip install beautifulsoup4

3、解析器

Beautiful soup实际上是依赖解解析器的。

它除了支持Python标准库中的HTML解析器外，还支持一些第三方解析器（比如：lxml）。

Beautiful soup支持的解析器

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, “html.parser”)	Python的内置标准库、执行速度适中，文档容错能力强。	Python2.7.3及3.2.2之前的版本文档容错能力差。
lxml HTML解析器	BeautifulSoup(markup, “lxml”)	速度快、文档容错能力强	需要安装C语言库
lxml XML解析器	BeautifulSoup(markup, “xml”)	速度快，唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, “html5lib”)	最好的容错性，以浏览器的方式解析文档，生成HTML5格式的文档	速度慢、不依赖外部扩展

4、基本用法

html = '''
The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were

Lacie
Tillie;
and they lived at the bottom of a well.  
...
'''

# 从bs4中导入BeautifulSoup
from bs4 import BeautifulSoup

# 生成一个BeautifulSoup对象，参数1：html文本，参数2：解析器
soup = BeautifulSoup(html, 'lxml')
# prettify()方法是可以把要解析的字符串格式化
print(soup.prettify())
print(soup.title.string)


'''
结果：

 
  
   The Dormouse's story
  
 
 
  
   
    The Dormouse's story
   
  
  
   Once upon a time there were three little sisters; and their names were
   
    
   
   
    Lacie
   
   
    Tillie
   
   ;
and they lived at the bottom of a well.
  
  
   ...
  
 

The Dormouse's story
'''

首先是声明一个变量html，它是一个HTML字符串。注意，并不是一个完整的HTML字符串，因为body和html节点都没有闭合。

接着将声明的html作为第一个参数传个BeautifulSoup对象，改对象的第二个参数为解析器的类型(这里使用lxml)，此时就完成了BeautifulSoup对象的初始化，并赋值给soup变量。

接下来，就可以调用soup()各个方法和属性解析这串HTML代码了。

首先，使用prettify()方法。这个方法可以把要解析的字符串以标准的缩进格式输出。需要注意的是：不标准的HTML字符串是由BeautifulSoup自动修正的，prettify()方法只是按照缩进标准格式化了代码。

然后调用了soup.title.string，这实际上是输出HTML中title节点的文本内容。所以soup.title可以选出HTML中的title节点，再调用string属性就可以得到里面的文本了。

5、节点选择器

直接调用节点的名称就可以选择节点元素，再调用string属性就可以得到节点内的文本了。这种选择方式速度快。如果单个节点结构层次清晰，可以选用这种方式来解析。

（1）选择元素

html = '''
The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were

Lacie
Tillie;
and they lived at the bottom of a well.  
...
'''

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'lxml')
print(soup.title)
print(type(soup.title))
print(soup.title.string)
print(soup.head)
print(soup.p)


'''
结果：
The Dormouse's story

The Dormouse's story
The Dormouse's story
The Dormouse's story
'''

首先打印输出的是title节点的选择结果，输出的结果是节点加上节点里面的内容。

接下来输出它的类型，是bs4.element.Tag类型，经过选择器后，选择结构都是这种Tag类型。Tag具有一些属性，比如string，调用该属性可以得到节点内的文本

接下来又选择了head节点，输出的结果是节点加上节点里面的内容。

又选择了p节点，发现结果是第一个p节点的内容，后面的几个p节点并没有选到。也就是说，当有多个节点的时候，这种方式只会选择到第一个匹配的节点，其他的节点都会被忽略。

（2）提取信息

上面调用string属性来获取文本的值，那么如何获取节点属性的值？

<1>获取名称

可以利用name属性获取节点的名称。

print(soup.title.name)

'''
结果：
title
'''

<2>获取属性

调用attr获取节点的所有属性

print(soup.p.attrs)
print(soup.p.attrs['name'])

'''
结果：
{'class': ['title'], 'name': 'dormouse'}
dormouse
'''

attrs返回结果是字典类型。它把选择的节点的所有属性和属性值组合成一个字典，

接下来想要获取name属性，就相当于从字典中获取某个键值。

其实还有更简单的获取方式：

print(soup.p['name'])
print(soup.p['class'])


'''
结果：
dormouse
['title']
'''

<3>获取内容

使用string属性获取节点元素包含的文本内容

比如：获取第一个p节点的文本

html = '''
The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were

Lacie
Tillie;
and they lived at the bottom of a well.  
...
'''

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'lxml')
print(soup.p.string)


'''
结果：
The Dormouse's story

# 注意，这里选择到的p节点是第一个p节点，所以获取的文本也是第一个p节点里面的文本。
'''

（3）嵌套选择

从上面得知，每一个返回的结果都是bs4.element.Tag类型，它同样可以继续调用节点进行下一步的选择。

html = '''
The Dormouse's story

'''


from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'lxml')
print(soup.head.title)
print(type(soup.head.title))
print(soup.head.title.string)

'''
结果：
The Dormouse's story

The Dormouse's story
'''

（4）关联选择器

需要先选取一个节点元素，然后依照这节点元素为基准再选择它的子节点、父节点、兄弟节点等。

子节点：contents属性 children属性子孙节点：descendants属性

<1>子节点和子孙节点

选取节点元素后，如果想要获取它的直接子节点，可以调用contents属性。

html = '''


The Dormouse's story



    Once upon a time there were three little sisters; and their names were
    
Elsie    

Lacie
and
Tillie;
and they lived at the bottom of a well.

...
'''

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'lxml')
print(soup.p.contents)



'''
运行结果：
['\n    Once upon a time there were three little sisters; and their names were\n    ', 
Elsie
, '\n', Lacie, '\nand\n', Tillie, ';\nand they lived at the bottom of a well.\n']
'''

返回的结果是列表形式。列表中的每个元素都是p节点的直接子节点。比如第一个a节点里面包含一层span节点，这相当于子孙节点了，但是返回结果并没有单独把span节点选出来。所以说contents属性得到的结果是直接子节点的列表。

获取直接子节点调用children属性有与contents相同的结果：

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'lxml')
print(soup.p.children)
for i, child in enumerate(soup.p.children):
    print(i, child)

 # enumerate()函数，可以将一个可遍历对象组合为一个索引序列，同时列出下标和数据在元组中。  
    
 
'''
结果：

0 
    Once upon a time there were three little sisters; and their names were
    
1 
Elsie

2 

3 Lacie
4 
and

5 Tillie
6 ;
and they lived at the bottom of a well.
'''

这里调用children属性，返回一个生成器，使用for循环输出相应内容。

获取子孙节点使用descendants属性：

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'lxml')
print(soup.p.descendants)
for i, child in enumerate(soup.p.descendants):
    print(i, child)

    
'''
结果：

0 
    Once upon a time there were three little sisters; and their names were
    
1 
Elsie

2 

3 Elsie
4 Elsie
5 

6 

7 Lacie
8 Lacie
9 
and

10 Tillie
11 Tillie
12 ;
and they lived at the bottom of a well.
'''

返回的结果还是一个生成器，遍历输出可以看到，这输出结果就包含了span节点。

descendants会递归查询所有子节点，得到所有的子孙节点。

<2>父节点和祖先节点

父节点：parent，祖先节点：parents

获取某个节点元素的父节点，可以调用parent属性

html = '''


The Dormouse's story



    Once upon a time there were three little sisters; and their names were
    
Elsie    

Lacie
and
Tillie;
and they lived at the bottom of a well.

...
'''

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'lxml')
print(soup.a.parent)


'''
结果：

    Once upon a time there were three little sisters; and their names were
    
Elsie    

Lacie
and
Tillie;
and they lived at the bottom of a well.

'''

我们选择的是第一个a节点的父节点元素。很明显，它的父节点是p节点，输出结果便是p节点及其内部的全部内容。

获取某个节点的祖先节点，使用parents属性：

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'lxml')
print(soup.a.parents)
print(type(soup.a.parents))
print(list(enumerate(soup.a.parents)))

返回的结果是生成器类型。这里用列表输出了它索引和内容，而列表中的元素就是a节点的祖先节点。

<3> 兄弟节点

next_sibling：下一个兄弟节点，返回元素

previous_sibling：上一个兄弟节点，返回元素

next_siblings：所有后面的兄弟节点，返回生成器类型

previous_siblings：所有前面的兄弟节点，返回生成器类型

html = '''


The Dormouse's story



    Once upon a time there were three little sisters; and their names were
    
Elsie    

    Hello
Lacie
and
Tillie;
and they lived at the bottom of a well.

...
'''

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'lxml')
print('next_sibling>>>', soup.a.next_sibling)
print('previous_sibling>>>', soup.a.previous_sibling)
print('next_siblings>>>', list(enumerate(soup.a.next_siblings)))
print('previous_siblings>>>', list(enumerate(soup.a.previous_siblings)))

<4>提取信息

和上面节点选择器的提取信息，使用的方法一样

获取节点名称：name

获取节点属性：attrs

获取节点文本：string

6、方法选择器

find_all()

查询所有符合条件的元素，返回所有匹配的元素

find_all(name, attrs, recursive, text, **kwargs)

(1) name

可以根据节点名来查询元素：

html = '''


Hello



Foo
Bar
Jay


Foo
Bar



'''

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.find_all(name='ul'))
print(type(soup.find_all(name='ul')[0]))

'''
结果：
[
Foo
Bar
Jay
, 
Foo
Bar
]

'''

这里调用了find_all()方法，传入name参数，其参数值为ul。也就是说，查询所有ul节点，返回结果是列表类型，长度为2:，每个元素依然都是bs4.element.Tag类型。

因为都是Tag类型，所以依然可以进行嵌套查询。还是同样的文本，这里查询出所有ul节点或，在继续查询其内部的li节点：

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
for ul in soup.find_all(name='ul'):
    print(ul.find_all(name='li'))
    
    
'''
结果：
[Foo
, Bar
, Jay]
[Foo
, Bar]
'''

返回的结果是列表类型，列表中的每个元素依然还是Tag类型。

接下来，遍历每个li，获取它的文本：

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
for ul in soup.find_all(name='ul'):
    print(ul.find_all(name='li'))
    for li in ul.find_all(name='li'):
        print(li.string)

'''
结果：
[Foo
, Bar
, Jay]
Foo
Bar
Jay
[Foo
, Bar]
Foo
Bar
'''

(2) attrs

还可以根据，节点属性来查询：

html = '''


Hello



Foo
Bar
Jay


Foo
Bar



'''

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.find_all(attrs={
     'id': 'list-1'}))
print(soup.find_all(attrs={
     'name': 'elements'}))

'''
结果：
[
Foo
Bar
Jay
]
[
Foo
Bar
Jay
]
'''

这里查询的时候传入的是attrs参数，参数的类型是字典类型。比如，要查询id为list-1的节点，可以传入attrs={‘id’ : ‘list-1’}的查询条件。得到的结果是列表类型，包含的内容就是符合id为list-1的所有节点。

对于一些常用的属性，比如id、class等，可以不同attrs来传递。比如要查询id为list-1的节点，可以直接传入id这个参数。还是上面的文本：

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.find_all(id='list-1'))
print(soup.find_all(class_='element'))


'''
结果：
[
Foo
Bar
Jay
]
[Foo
, Bar
, Jay
, Foo
, Bar]
'''

这里直接传入id=‘list-1’，就可以查询id为list-1的节点元素。

而对于class来说，由于class在Python是关键字，所以后面需要加上一个下划线，即class_=‘element’，返回的结果依然还是Tag组成的列表。

(3) text

text参数可用来匹配节点的文本，传入形式可以是字符串，可以是正则表达式对象：

html = '''


Hello, this is a link
Hello, this is a link, too


'''

import re
from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'lxml')
print(soup.find_all(text=re.compile('link')))


'''
结果：
['Hello, this is a link', 'Hello, this is a link, too']
'''

find()

find()方法，返回的是单个元素，也就是第一个匹配的元素。

html = '''


Hello



Foo
Bar
Jay


Foo
Bar



'''

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.find(name='ul'))
print(type(soup.find(name='ul')))
print(soup.find(class_='list'))


'''
结果：

Foo
Bar
Jay



Foo
Bar
Jay

'''

这里返回的不再是列表，而是第一个匹配的节点元素，类型依然是Tag。

还有其他的查询方法，用法和find_all()、find()用法一样，只不过是查询范围不一样：

find_parents() 和 find_parent()：前者返回所有祖先节点，后者返回直接父节点。

find_next_siblings() 和 find_next_sibling()：前者返回后面的所有兄弟节点，后者返回后面第一个兄弟节点。

find_previous_siblings() 和 find_previous_sibling()：前者返回前面所有兄弟节点，后者返回上一个兄弟节点。

find_all_next() 和

() ：前者返回节点后所有符合条件的节点，后者返回节点后第一个符合条件的节点。

find_all_previous() 和 find_previous()：前者返回节点前所有符合条件的节点，后者返回节点前第一个符合条件的节点。

7、CSS选择器

使用css选择器时，只需要调用select()方法，传入相应的css选择器即可。

html = '''


Hello



Foo
Bar
Jay


Foo
Bar



'''

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.select('.panel .panel-heading'))
print(soup.select('ul li'))
print(soup.select('#list2 .element'))
print(type(soup.select('ul')[0]))


'''
结果：
[
Hello
]
[Foo
, Bar
, Jay
, Foo
, Bar]
[Foo
, Bar]

'''

用了3次css选择器，返回的结果均是符合css选择器节点组成的列表。

例如select(‘ul li’)则是返回所有ul节点下面的所有li节点，结果便是所有li节点组成的列表。

最后一句打印输出了列表中元素的类型。可以看出，类型依然是Tag

嵌套选择

select()方法同样支持嵌套选择。

例如：先选择所有ul节点，在遍历每个ul节点，选择器li节点:

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
for ul in soup.select('ul'):
    print(ul.select('li'))
    
'''
结果：
[Foo
, Bar
, Jay]
[Foo
, Bar]
'''

获取属性

我们知道节点类型是Tag类型，也可以用前面讲的attrs方法

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
for ul in soup.select('ul'):
    print(ul.attrs)
    print(ul['id'])
    print(ul.attrs['id'])
    
'''
结果：
{'class': ['list'], 'id': 'list-1', 'name': 'elements'}
list-1
list-1
{'class': ['list', 'list-small'], 'id': 'list2'}
list2
list2
'''

获取文本

两个方法：string、get_text()

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
for li in soup.select('li'):
    print('Get Text：', li.get_text())
    print('String：', li.string)
    
'''
结果：
String： Foo
Get Text： Bar
String： Bar
Get Text： Jay
String： Jay
Get Text： Foo
String： Foo
Get Text： Bar
String： Bar
'''

总结：

推荐使用lxml解析器，必要时使用html.parser

节点选择筛选功能弱，但是速度快

建议使用find()或者find_all()查询匹配单个结果或者多个结果

如果对CSS选择器熟悉的话，可以使用select()方法选择。

三、pyquery

1、准备工作

安装pyquery库

2、初始化

需要传入一个HTML文本来初始化一个PyQuery对象。初始化方式有很多种，比如直接传入字符串、传入URL、传入文件名

字符串初始化

html = '''


first item
second item
third item
fourth item
fifth item


'''

from pyquery import PyQuery

doc = PyQuery(html)
print(doc('li'))


'''
结果：
first item
second item
third item
fourth item
fifth item
'''

首先引入PyQuery对象，然后声明一个长HTML字符串，并将其当做参数传递给PyQuery类，这样就完成了初始化。接下来，将给这个实例传入li节点，这就就可以选择li节点。

URL初始化

初始化的参数还可以传入网页的URL

from pyquery import PyQuery

doc = PyQuery(url="https://www.baidu.com")
print(doc('title'))

PyQuery对象首先会请求这个URL，然后用得到的HTML内容完成初始化，就相当于用网页的源代码以字符串的形式传递给PyQuery类来初始化。

文件初始化

初始化的参数可以传递本地文件名，将参数指定为filename即可：

from pyquery import PyQuery

# test.html内的代码就是字符串初始化中html变量对应的代码
doc = PyQuery(filename="test.html")
print(doc('li'))

'''
结果：
first item
second item
third item
fourth item
fifth item
'''

3、基本CSS选择器

html = '''


first item
second item
third item
fourth item
fifth item


'''

from pyquery import PyQuery

doc = PyQuery(html)
# 选取id为container节点下面的clas为list节点下面的li节点
print(doc('#container .list li'))


'''
# 结果：
first item
second item
third item
fourth item
fifth item


'''

初始化PyQuery对象之后，传入一个CSS选择器’#container .list li’，它的意思是选取id为container节点，然后在选取其内部class为list的节点内部的li节点。然后打印输出。

根据结果发现，它的类型是pyquery.pyquery.PyQuery——PyQuery类型。

4、查找节点

子节点

需要使用find()方法，传入参数是CSS选择器

子孙节点：find()

子节点：children()

html = '''


first item
second item
third item
fourth item
fifth item


'''

from pyquery import PyQuery

doc = PyQuery(html)
# 找到class为list的节点
items = doc.find('.list')
print(type(items))
print(items)
print('-'*10, '分界线', '-'*10)

# 从class为list的节点内部找到li节点
print(type(items.find('li')))
print(items.find('li'))


'''
结果：


first item
second item
third item
fourth item
fifth item


---------- 分界线 ----------

first item
second item
third item
fourth item
fifth item
'''

首先，选取class为list的节点，然后调用find()方法，传入CSS选择器，选取内部的li节点。

find()方法，会将符合条件的所有节点全部选择出来。

find()的查找范围是节点的所以子孙节点

如果想查找直接子节点可使用children()方法

from pyquery import PyQuery

doc = PyQuery(html)
items = doc.find('.list')
lis = items.children()
print(type(lis))
print(lis)

'''
结果：

first item
second item
third item
fourth item
fifth item
'''

如果要筛选所有子节点中符合条件的节点，比如筛选出子节点中class为active的节点，可以向children()方法传入CSS选择器.active：

from pyquery import PyQuery

doc = PyQuery(html)
items = doc.find('.list')
lis = items.children('.active')
print(type(lis))
print(lis)

'''
结果：

third item
fourth item
'''

父节点

使用parent()方法来获取某节点的父节点。

直接父节点：parent()

祖先节点：parents()

html = '''



first item
second item
third item
fourth item
fifth item



'''

from pyquery import PyQuery

doc = PyQuery(html)
items = doc('.list')
container = items.parent()
print(type(container))
print(container)


'''
结果：



first item
second item
third item
fourth item
fifth item


'''

首先用.list选取class为list的节点，然后调用parent()方法得到其父节点。其类型依旧是PyQuery类型。

如果要查询祖先节点，使用parents()方法：

from pyquery import PyQuery

doc = PyQuery(html)
items = doc('.list')
container = items.parents()
print(type(container))
print(len(container))
print(container)


'''
结果：

2



first item
second item
third item
fourth item
fifth item




first item
second item
third item
fourth item
fifth item


'''

输出结果有两个：一个是class为wrap的节点，一个是id为container的节点。也就是说parents()方法会返回一个节点的所有祖先节点。一层层返回。

如果想获取某个祖先节点，可以向parents()里传入CSS选择器：

from pyquery import PyQuery

doc = PyQuery(html)
items = doc('.list')
# 只想要class为wrap的祖先节点
parent = items.parents('.wrap')
print(parent)

'''
结果：



first item
second item
third item
fourth item
fifth item



'''

这样输出的结果就只保留了一个，保留了class为wrap的节点。

兄弟节点

siblings()

html = '''



first item
second item
third item
fourth item
fifth item



'''

from pyquery import PyQuery

doc = PyQuery(html)
items = doc('.list .item-0.active')
# .item-0.active中间没有空格，证明这个是在形容一个节点
print(items.siblings())


'''
结果：
second item
first item
fourth item
fifth item
'''

选择了class为list的节点内的class为item-0和active的节点。然后打印出这个节点的兄弟节点。

根据结果发现，打印出了符合条件节点的上下所有兄弟节点。

如果想筛选出某个节点可以向siblings()方法中传入CSS选择器：

from pyquery import PyQuery

doc = PyQuery(html)
items = doc('.list .item-0.active')
print(items.siblings('.active'))

'''
结果：
fourth item
'''

这里筛选了class为active的节点。

5、遍历

pyquery的选择结果可能是多个节点，也可能是单个节点。类型是PyQuery类型，并没有返回Beautiful Soup那样的列表。

对于单个节点来说，可以直接打印输出，也可以直接转换成字符串。

html = '''



first item
second item
third item
fourth item
fifth item



'''

from pyquery import PyQuery

doc = PyQuery(html)
li = doc('.item-0.active')
print(li)
print(str(li))


'''
结果：
third item

third item
'''

对于多个节点的结果，我们就需要遍历来获取了。

html = '''



first item
second item
third item
fourth item
fifth item



'''

from pyquery import PyQuery

doc = PyQuery(html)
lis = doc('li').items()
for li in lis:
    print(type(li))
    print(li)
    
'''
结果：

first item


second item


third item


fourth item


fifth item
'''

调用items()方法会得到一个生成器，然后遍历这个生成器就可以得到每一个li节点。它的类型是PyQuery类型。

每个li可以继续调用前面说的方法，比如继续查询子节点、寻找某个祖先节点。

6、获取信息

获取属性

抓取到某个节点是PyQuery类型的后，可以调用attr()方法来获取属性。

attr(‘属性名称’)

html = '''



first item
second item
third item
fourth item
fifth item



'''

from pyquery import PyQuery

doc = PyQuery(html)
a = doc('.item-0.active a')
print(type(a))
print(a.attr('href'))


'''
结果:

link3.html
'''

首先选择class为item-0和active的节点中的a节点。这个a节点的类型是PyQuery类型的。然后调用attr()方法，在这里方法中传入属性名称。

如果选中的是多个元素，就需要先遍历对每一个元素调用attr()方法：

from pyquery import PyQuery

doc = PyQuery(html)
a = doc('a')
for i in a.items():
    print(i.attr('href'))
    
'''
结果：
link2.html
link3.html
link4.html
link5.html
'''

多个元素，需要使用items()方法将其转换为生成器然后遍历这个生成器中的每个元素，这时候每个元素都是PyQuery类型的，在对其使用attr()方法，提取属性。

获取文本

text()：忽略标签内的HTML部分，返回纯文本。

html()：返回标签内的HTML部分和纯文本部分。

html = '''



first item
second item
third item
fourth item
fifth item



'''

from pyquery import PyQuery

doc = PyQuery(html)
a = doc('.item-0.active a')
print(a)
print(a.text())


'''
结果：
third item
third item
'''

选中class为item-0和active节点下的a节点后，对其使用text()方法提取文本，该方法会忽略其内部所有HTML代码。只返回纯文本部分。

如果想要返回内部的HTML代码部分，需要使用html()方法：

from pyquery import PyQuery

doc = PyQuery(html)
a = doc('.item-0.active a')
print(a)
print(a.html())

'''
结果：
third item
third item
'''

如果选中的结果是多个节点，那么使用html()和text()会返回什么内容？

html = '''



second item
third item
fourth item
fifth item



'''

from pyquery import PyQuery

doc = PyQuery(html)
li = doc('li')
print(li.html())
print(li.text())
print(type(li.text()))


'''
结果:
second item
second item third item fourth item fifth item

'''

在多元素的情况下：

html()方法：返回的是第一个节点中的HTML文本

text()方法：返回所有节点中的纯文本部分，并且用空格隔开，返回类型是str字符串类型。

如果想获取多元素的内部HTML文本需要对其使用遍历，然后在对其使用html()方法提取文本。

7、节点操作

addClass 和 removeClass

html = '''



first item
second item
third item
fourth item
fifth item



'''

from pyquery import PyQuery

doc = PyQuery(html)
li = doc('.item-0.active')
print(li)
li.removeClass('active')
print(li)
li.addClass('active')
print(li)


'''
结果：
third item

third item

third item
'''

首先选中一个li节点，然后调用removeClass()方法删除active这个class，然后又调用addClass()方法，将active添加回来。

attr、text和html

attr()方法对属性进行操作。

text()和html()方法来改变节点内部的内容。

html = '''



first item
second item
third item
fourth item
fifth item



'''

from pyquery import PyQuery

doc = PyQuery(html)
li = doc('.item-0.active')
print(li)
li.attr('name', 'link')
print(li)
li.text('changed item')
print(li)
li.html('changed item')
print(li)


'''
结果:
third item

third item

changed item

changed item
'''

首先查找到class为item-0和active的节点。

使用attr()方法，添加一个name属性，值是link。

再使用text()方法，传入文本后，将其节点内的文本更改为changed item。

再使用html()方法，传入HTML文本后，将其接节点内的文本改为传入的HTML文本。

attr()方法：传入第一个值是获取属性，传入第二个参数，可以用来修改属性值。

text() 和 html()：如果不传参数是获取纯文本和HTML文本。如果传入参数则是修改文本内容。

remove()

remove()方法就是移除。

从文本中提取出Hello, World这个字符串，而不要p节点内部的字符串。

html = '''

    Hello, World
This is a paragraph. 

'''

from pyquery import PyQuery

doc = PyQuery(html)
wrap = doc('.wrap')
print(wrap.text())


'''
结果：
Hello, World
This is a paragraph.
'''

结果还是包含了p节点的内容。这时候使用remove()就可以解决：

from pyquery import PyQuery

doc = PyQuery(html)
# 找到class为wrap的节点，将其赋值给wrap
wrap = doc('.wrap')
# 从wrap中找到p节点，并删除掉
wrap.find('p').remove()
print(wrap.text())

'''
结果：
Hello, World
'''

首先找到p节点，使用remove()方法删除，此时只剩下Hello, World这句话了，在调用text()方法，从wrap中提取出来。

8、伪类选择器

html = '''



first item
second item
third item
fourth item
fifth item



'''

from pyquery import PyQuery

doc = PyQuery(html)
# 第一个li节点
li = doc('li:first-child')
print(li)

# 最后一个li节点
li = doc('li:last-child')
print(li)

# 第2个li节点
li = doc('li:nth-child(2)')
print(li)

# 第三个之后的li节点
li = doc('li:gt(2)')
print(li)

# 偶数位置的li节点
li = doc('li:nth-child(2n)')
print(li)

# 文本包含second的li节点
li = doc('li:contains(second)')
print(li)

你可能感兴趣的:(解析库的使用——学习笔记)

智能推送系统的敏感词过滤功能：合规防线与用户体验的守护者大数据
在信息爆炸与监管趋严的双重挑战下，APP企业正面临前所未有的内容安全压力。一次不当推送可能引发用户投诉、应用下架甚至法律诉讼。MobPush智能推送系统的敏感词过滤功能，通过技术手段在推送内容发布前自动拦截违规信息，已成为企业规避风险、维护品牌声誉的核心工具。数据显示，引入该功能后，APP的违规内容投诉率平均下降75%，人工审核成本减少60%。本文将从技术逻辑、业务价值及典型案例三个维度，解析这一
智能推送系统的敏感词过滤功能：合规防线与用户体验的守护者大数据
在信息爆炸与监管趋严的双重挑战下，APP企业正面临前所未有的内容安全压力。一次不当推送可能引发用户投诉、应用下架甚至法律诉讼。MobPush智能推送系统的敏感词过滤功能，通过技术手段在推送内容发布前自动拦截违规信息，已成为企业规避风险、维护品牌声誉的核心工具。数据显示，引入该功能后，APP的违规内容投诉率平均下降75%，人工审核成本减少60%。本文将从技术逻辑、业务价值及典型案例三个维度，解析这一
从云端到私有：智慧任务管理工具的私有化转型之路项目管理软件
智慧任务管理工具私有化是指将智慧任务管理工具部署在组织内部的私有服务器或云环境中，以确保数据的安全性、隐私性和完全控制权。以下是对智慧任务管理工具私有化的详细解析：一、私有化的优势●数据安全：私有化部署确保所有数据存储在组织内部的服务器或私有云中，避免数据泄露或被第三方访问，特别适合处理敏感信息或需要遵守数据保护法规（如GDPR、HIPAA等）的组织。●定制化开发：组织可以完全控制系统的配置、更新
SQLite Select 语句详解 lsx202406 开发语言
SQLiteSelect语句详解引言SQLite是一款轻量级的数据库管理系统，以其小巧的体积、易于使用和跨平台的特点受到广泛欢迎。在SQLite中，SELECT语句是最基本的数据查询操作，用于从数据库表中检索数据。本文将详细介绍SQLite的SELECT语句，包括其语法、功能以及一些高级用法。1.SELECT语句基础SELECT语句的基本语法如下：SELECTcolumn1,column2,...
Hive 面试题昨夜为你摘星
什么是Hive?Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的意义（最初研发的原因）?降低程序员使用Hadoop的难度，降低学习成本Hive的内部组成模块，作用
MySQL 两种存储引擎: MyISAM和InnoDB 简单总结诸葛钢铁云 Mysql mysql
MyISAM是MySQL的默认数据库引擎（5.5版之前），由早期的ISAM（IndexedSequentialAccessMethod：有索引的顺序访问方法）所改良。虽然性能极佳，但却有一个缺点：不支持事务处理（transaction）。不过，在这几年的发展下，MySQL也导入了InnoDB（另一种数据库引擎），以强化参考完整性与并发违规处理机制，后来就逐渐取代MyISAM。InnoDB，是MyS
基础篇——数据库与表操作暴怒的代码 oracle 数据库
引言在掌握MySQL环境搭建后，数据库与表的操作是开发者必须精通的核心技能。本文系统讲解数据库与表的创建、数据类型选择、约束设计以及表结构修改四大模块，特别标注20+个新手高频踩坑点，帮助读者避开90%的常见错误。一、数据库与表的基础操作1.1创建/删除数据库标准语法：--创建数据库（必须指定字符集）CREATEDATABASEshop_dbDEFAULTCHARACTERSETutf8mb4CO
介绍下不同语言的异常处理机制高冷小伙异常错误 Golang Java PHP Rust
Golang在Go语言中，有两种用于处于异常的机制，分别是error和panic；panicpanic是Go中处理异常情况的机制，用于表示程序遇到了无法恢复的错误，需要终止执行。使用场景程序出现严重的不符合预期的问题，比如数组越界访问、map并发操作；程序的初始化或关键部分出现问题，比如配置文件丢失或数据库连接失败。示例代码packagemainimport("fmt")//会引发panic的函数
web前端常见面试题 JackieDYH 程序猿面试题前端 javascript vue 面试题
html文件开头DOCTYPE作用DOCTYPE（文档类型）是HTML文档的开头，它指定了HTML文档使用的HTML版本及文档类型，告诉浏览器以哪种规范来解析HTML文档。它的作用有以下几个方面：声明HTML版本：DOCTYPE声明可以让浏览器知道使用哪个HTML版本来解析当前文档，从而根据规范来处理文档中的元素和属性。帮助浏览器正确解析文档：DOCTYPE声明可以确保浏览器以标准模式渲染页面，而
C进阶自定义类型一只自律的鸡 C进阶 c语言开发语言
目录前言一结构体二结构体的存储三位段四枚举五联合体总结前言我们之前学习的intchardouble......都是内置类型，但是我们今天所学习的是自定义类型，比如联合体，结构体，枚举一结构体结构体是一些值的集合，这些值统称为成员变量，每个成员都是可以用不同的的基本数据类型结构体的使用场景：结构体的意义在于可以进行封装一个整体的所有变量，这个是十分便捷的，这样就可以不用重复的操作进行重复的定义相同的
SQL笔记#数据更新月吟荧静 SQL笔记 sql 笔记数据库
一、数据的插入(INSERT语句的使用方法)1、什么是INSERT首先通过CREATETABLE语句创建表，但创建的表中没有数据；再通过INSERT语句向表中插入数据。--创建表ProductInsCREATETABLEProductIns(product_idCHAR(4)NOTNULL,product_nameVARCHAR(100)NOTNULL,product_typeVARCHAR(32
SpringBoot备份神通数据库松岛的枫叶 spring boot 数据库后端
SpringBoot备份神通数据库····直接上代码···publicStringbackupOsrdb(){//构建命令Listcommand=newArrayList<>();command.add("osrexp");command.add("-u");command.add("SYSDBA"+"/"+"szoscar55");//用户名/密码command.add("-d");comman
【现代前端框架中本地图片资源的处理方案】 Gazer_S 前端框架前端缓存 javascript chrome
现代前端框架中本地图片资源的处理方案前言在前端开发中，正确引用本地图片资源是一个常见但容易被忽视的问题。我们不能像在HTML中那样简单地使用相对路径，因为JavaScript模块中的路径解析规则与HTML不同，且现代构建工具对静态资源有特殊的处理机制。本文将详细探讨在webpack和Vite等构建工具中处理本地图片引用的各种方法。传统方式的局限性在传统开发中，我们可能习惯这样引用图片：constl
Mysql疑难报错排查 - Field ‘XXX‘ doesn‘t have a default value m0_74823408 面试学习路线阿里巴巴 mysql 数据库
项目场景：数据库环境：mysql8;工程使用：MyBatisPlus表情况：问题描述某一个插入语句使用了MyBatisPlus的save方法，因为end_time1end_time2都并没有值，所以在MyBatisPlus默认情况下，并不会在插入语句中提及，最终提取其SQL：INSERTINTOaaaa(serial_no,business_date,market_no,report_code)V
STL两级空间配置器＜128kb（内存池+自由链表）与一级空间配置器(mmap(),allocate()) zjkzjk7711 c++链表开发语言
STL的两级空间配置器（Two-LevelAllocator）STL（标准模板库）中的两级空间配置器（Two-LevelAllocator）是SGISTL（SiliconGraphicsSTL）设计的内存管理机制，用于提高小对象（≤128B）和大对象（>128B）的分配效率。1.什么是两级空间配置器？在SGISTL的__default_alloc_template（SGISTL的默认分配器）中，采
我在广州学 Mysql 系列——存储过程与存储函数详解练小杰数据库相关 mysql android 数据库学习 adb sql
ℹ️大家好，我是练小杰，今天周五了，一周就这样从手上溜走了，还有两星期过年！！本文将学习MYSQL中存储过程与存储函数的概念~~回顾：【索引详解】【索引相关练习】数据库专栏【数据库专栏】~想要了解更多内容，主页【练小杰的CSDN】文章目录存储过程与存储函数存储过程（StoredProcedure）存储函数（StoredFunction）⚠️主要区别选择存储过程还是存储函数创建存储过程命令解释创建存
我在广州学 Mysql 系列——数据表查询命令详解练小杰数据库相关 mysql 数据库学习经验分享 adb 后端
ℹ️大家好，我是LXJ，今天星期二了，本文将讲述MYSQL查询数据的详细命令以及相关例题~~复习：《Mysql函数的练习题》同时，数据库相关内容查看专栏【数据库专栏】~想要了解更多内容请点击我的主页:【练小杰的CSDN】“倒霉，倒霉，倒霉！”——龙叔文章目录前言基本查询语句单个表格查询查询所有字段查询指定字段查询指定记录带IN关键字的查询带BETWEENAND的范围查询带LIKE的字符匹配查询查询
c++_sort函数惊讶的猫 c语言算法 c++
sort介绍在C/C++中，要想应用排序算法，可以使用c语言的qsort，也可以使用c++的sort。1)qsort是C标准库提供的一个通用排序函数，位于stdlib.h头文件中。qsort适用于C语言中的数组。2)sort是C++中STL的泛型算法（即函数）sort可以排数组，vector(以及其他的容器)sort可以自定义排序规则。引入：#include排静态数组c语言中arr是一个数组名作为
【AI+智造】基于阿里云Ubuntu24.04系统，使用Ollama部署开源DeepSeek模型并集成到企业微信邹工转型手札 Duodoo开源 Odoo18开源企业信息化制造人工智能数据分析
作者：Odoo技术开发/资深信息化负责人日期：2025年2月28日本方案结合了本地部署与云服务调用的技术路径，涵盖部署步骤、集成逻辑及关键问题点，适用于企业级AI应用场景。一、方案背景与架构设计1.技术选型背景DeepSeek模型：作为开源大模型，支持文本生成、智能问答等场景，适合企业知识库与自动化服务。Ollama工具：轻量化本地模型部署框架，支持一键拉取模型镜像并启动API服务。企业微信集成：
说说 Spring MVC 的执行流程？浮生带你学Java Java面试题 Spring spring mvc java
高频面试题：说说SpringMVC的执行流程？大家好，我是浮生，一个工作了十四年的java程序员！昨天，一个工作2年的粉丝在面试的时候，面试官要求他说SpringMVC的执行流程。他没回答上来，错过了这个offer。一、问题解析SpringMVC的执行流程，一个面试频率超级高的问题，但是缺难倒了无数的程序员。这个问题的考察范围主要是3~5年，甚至5年以上都会问到。和它同类型的问题还有Bean的加载
SGI STL（六）——reallocate函数解析 FuzhouJiang SGI STL allocator C/C++c++
reallocate函数主要用于内存池的扩容和缩容templatevoid*__default_alloc_template::reallocate(void*__p,size_t__old_sz,size_t__new_sz){void*__result;size_t__copy_sz;if(__old_sz>(size_t)_MAX_BYTES&&__new_sz>(size_t)_MAX_B
Apache Lucene 详解及示例微笑听雨。 java 进阶教程 apache lucene java 全文检索
ApacheLucene详解及示例1.简介ApacheLucene是一个开源的高性能全文搜索引擎库，广泛应用于构建各种搜索系统和信息检索应用。Lucene提供了丰富的API来进行索引和搜索，支持高效的文本处理和查询。本文将深入解析Lucene的核心概念和主要功能，并通过示例代码演示其使用方法。2.核心概念2.1倒排索引倒排索引（InvertedIndex）是Lucene的核心数据结构。它将文档中的
Python连接SQL SEVER数据库全流程 m0_74824865 面试学习路线阿里巴巴数据库 python sql
背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe
Spring 核心技术解析【纯干货版】- XII：Spring 数据访问模块 Spring-R2dbc 模块精讲 m0_74825003 面试学习路线阿里巴巴 spring java 后端
在现代应用架构中，高并发、低延迟的需求推动了响应式编程的发展，而传统的JDBC由于其同步阻塞机制，在高吞吐场景下可能成为瓶颈。R2DBC（ReactiveRelationalDatabaseConnectivity）作为响应式关系型数据库访问标准，正是为了解决这一问题而诞生的。SpringR2DBC作为Spring生态对R2DBC的封装，提供了非阻塞、异步的数据库访问能力，并与SpringWebF
解释SQL和NoSQL数据库的区别，各自的适用场景是什么？破碎的天堂鸟学习教程 nosql 数据库
SQL与NoSQL数据库的深度对比及适用场景分析一、核心定义与数据模型差异1：SQL数据库结构化数据模型：基于关系型模型，数据以表格（行和列）形式存储，表之间通过外键建立关联。例如，客户表与订单表通过客户ID关联，形成严格的逻辑结构。预定义模式（Schema）：需提前定义表结构（字段类型、主键、外键等），修改结构需通过ALTER等命令，灵活性较低。标准化查询语言：使用SQL（StructuredQ
2024年BCSP-X小学低年级组初赛测试题（模拟题解析）天秀信奥编程培训 #BCXP-X模拟题北京BCSP-X试题讲解专栏 BCXP-X 信息学奥赛 c++
一、单项选择（共15题，每题2分，共计30分，每题有且仅有一个正确选项）以下是题目和解析的完整格式:不可以作为c++中的变量名的是（）。A.I以下loveChinaB.I_loveChinaC.I_love_ChinaD.i_loveChina正确答案：A.I以下loveChina解析：在C++中，变量名命名需要遵循一定的规则。变量名可以由字母、数字和下划线组成，但是第一个字符不能是数字。此外，变
【2000NOIP普及组】T4.单词接龙试题解析宏阳李老师 CSP/NOIP-J组试卷解析算法数据结构 c++蓝桥杯青少年编程
【2000NOIP普及组】T4.单词接龙试题解析时间限制:1000ms内存限制:65536KB【题目描述】单词接龙是一个与我们经常玩的成语接龙相类似的游戏，现在我们己知一组单词，且给定一个开头的字母，要求出以这个字母开头的最长的“龙”(每个单词都最多在“龙"中出现两次)，在两个单词相连时，其重合部分合为一部分，例如beast和astonish，如果接成一条龙则变为beastonish，另外相邻的两
前端开发中的常见问题与疑惑：解析与应对策略 lina_mua javascript vue.js html 前端 es6
1.引言1.1前端开发的复杂性前端开发涉及HTML、CSS、JavaScript等多种技术，同时还需要考虑性能优化、跨浏览器兼容性、用户体验等问题。随着前端技术的快速发展，开发者面临的挑战也越来越多。1.2本文的目标本文旨在总结前端开发中常见的问题与疑惑，并提供相应的解决方案和应对策略，帮助开发者更好地应对挑战。2.HTML/CSS常见问题2.1布局问题：如何实现复杂的页面布局？问题描述：实现复杂
Transformer 代码剖析2 - 模型训练（pytorch实现） lczdyx Transformer代码剖析 transformer pytorch 深度学习人工智能 python
一、模型初始化模块参考：项目代码1.1参数统计函数defcount_parameters(model):returnsum(p.numel()forpinmodel.parameters()ifp.requires_grad)遍历模型参数筛选可训练参数统计参数数量返回总数技术解析：numel()方法计算张量元素总数requires_grad筛选需要梯度更新的参数统计结果反映模型复杂度，典型Tran
【C++设计模式】工厂方法设计模式：深入解析从基础到进阶老猿讲编程 C++编程 c++设计模式开发语言
1.引言在软件开发的世界里，设计模式如同巧妙的建筑蓝图，为解决常见问题提供了行之有效的方案。工厂方法模式作为一种广受欢迎的创建型设计模式，以其独特的优势在众多项目中得到广泛应用。它不仅能够为对象的创建提供通用且灵活的方式，还能有效隐藏实现细节，提升代码的可维护性和可扩展性。本文将全方位深入探讨工厂方法模式，从基础定义、实现过程，到进阶优化和功能扩展，带领读者全面掌握这一重要的设计模式。2.工厂方法
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n