Drizzlejj

bs4使用

标签的属性

Attributes（属性）
一个标签可以有很多个属性。

比如标签有一个叫“id”的属性，它的值为“__nuxt”。

标签的属性可以被添加、删除或修改。再强调一次，标签的属性操作方法与 Python 字典是一样的！

你可以使用 get_attribute_list() 方法以列表形式获取一个属性值：如果它是多值属性，那么列表中存在多个字符串；否则列表中就只有一个字符串。

如果解析的文档是 XML 格式，那么 tag 中不包含多值属性：

获取标签后的文本

字符串对应的是标签内部包含的文本。BeautifulSoup 使用 NavigableString 类来包装这些文本：

打印的是第一个h3标签包含的文本

如果想在 BeautifulSoup 之外使用 NavigableString 对象，需要调用 str() 方法，将该对象转换成普通的 Unicode 字符串。否则，就算 BeautifulSoup 已经执行结束，该对象也会带有整个 BeautifulSoup 解析树的引用地址，这样会造成内存的巨大浪费。

标签可能包含字符串或其它标签，这些都是这个标签的子节点。BeautifulSoup 提供了许多不同的属性，用于遍历和迭代一个标签的子节点。

注意：BeautifulSoup 中的字符串节点是不支持这些属性的，因为字符串本身没有子节点。

6.1.1 使用标签名进行遍历

获取标签内容

>>> soup.head
睡鼠的故事

获取标签内容</h3> >>> soup.title <title>睡鼠的故事
你可以重复多次使用这个小技巧来深入解析树的某一个部分。下面代码获取标签中的第一个
标签：

使用标签名作为属性的方法只能获得当前名字后的第一个标签：

('')

获取所有的标签

如果想要获取所有的标签，或者获取一些更复杂的东西时，就要用到在查找文档树章节中讲解的一个方法 —— find_all()：

soup.find_all('a')

6.1.2 .contents 和 .children
一个标签的子节点可以从一个叫 .contents 的列表中获得：

获取标签子节点

BeautifulSoup 对象本身拥有子节点，也就是说标签也是 BeautifulSoup 对象的子节点：

>>> len(soup.contents)
1
>>> soup.contents[0].name
'html'
字符串没有 .contents 属性，因此字符串没有子节点：

如果你不想通过 .contents 获取一个列表，还可以通过标签的 .children 属性得到一个生成器：

6.1.3 .descendants
.contents 和 .children 属性仅包含标签的直接子节点。如果要对多层子孙节点进行递归迭代，可以使用 .descendants 属性完成任务：

上面的例子中，标签只有一个子节点。BeautifulSoup 有一个直接子节点（<html> 标签），却有很多子孙节点： <a href="http://img.e-com-net.com/image/info8/5fbaf1aba69f4cdc8474633d86709b7a.jpg" target="_blank"><img alt="bs4使用_第11张图片" height="342" src="http://img.e-com-net.com/image/info8/5fbaf1aba69f4cdc8474633d86709b7a.jpg" width="593" style="border:1px solid black;"></a> <h3>标签 .string获取文本</h3> 如果标签只有一个子节点，并且这个子节点是一个 NavigableString 对象，那么可以用 .string 将其获取： <a href="http://img.e-com-net.com/image/info8/582c53d3c97f4f17a27c6061b0b17dc3.jpg" target="_blank"><img alt="bs4使用_第12张图片" height="347" src="http://img.e-com-net.com/image/info8/582c53d3c97f4f17a27c6061b0b17dc3.jpg" width="542" style="border:1px solid black;"></a> 如果标签的唯一子节点是另一个标签，并且那个标签拥有 .string，那么父节点可以直接通过 .string 来访问其子孙节点的字符串： 如果一个标签包含不止一个子节点，那么就不清楚 .string 应该指向谁了，所以此时 .string 的值是 None： <h3> strings 和 stripped_strings</h3> 如果一个标签中不止一个子节点，你也是可以获取里面包含的字符串的（不止一个），需要使用 .strings 生成器： <a href="http://img.e-com-net.com/image/info8/5fbe34f838d6498aa8058b71e4881306.jpg" target="_blank"><img alt="bs4使用_第13张图片" height="810" src="http://img.e-com-net.com/image/info8/5fbe34f838d6498aa8058b71e4881306.jpg" width="480" style="border:1px solid black;"></a> 输出的这些字符串中可能包含了很多空格或空行，对我们来说一点用都没有……使用 .stripped_strings 可以去除多余空白： <a href="http://img.e-com-net.com/image/info8/d9553d3ff7bf4bd5a57dad99a12f1122.jpg" target="_blank"><img alt="bs4使用_第14张图片" height="781" src="http://img.e-com-net.com/image/info8/d9553d3ff7bf4bd5a57dad99a12f1122.jpg" width="650" style="border:1px solid black;"></a> 兄弟节点（左右遍历） 大家请看一段简单的例子： <a href="http://img.e-com-net.com/image/info8/49880d4e861b433e980b044d98592353.jpg" target="_blank"><img alt="bs4使用_第15张图片" height="917" src="http://img.e-com-net.com/image/info8/49880d4e861b433e980b044d98592353.jpg" width="519" style="border:1px solid black;"></a> 标签和 <c> 标签在同一层：它们都是 <a> 标签的直接子节点，我们将它们成为兄弟节点。当一段文档以标准格式输出时，兄弟节点有相同的缩进级别。 你可以通过 .next_siblings 和 .previous_siblings 属性对当前节点的所有兄弟节点迭代输出： <a href="http://img.e-com-net.com/image/info8/5e87e80e740a4d33bc19e1be33ea9dfe.jpg" target="_blank"><img alt="bs4使用_第16张图片" height="539" src="http://img.e-com-net.com/image/info8/5e87e80e740a4d33bc19e1be33ea9dfe.jpg" width="650" style="border:1px solid black;"></a> >>> for sibling in soup.find(id="link3").previous_siblings: print(repr(sibling)) 6.4.1 .next_element 和 .previous_element 字符串或对象的 .next_element 属性指向下一个被解析的对象，结果可能与 .next_sibling 相同，但通常是不一样的。 .previous_element 属性刚好与 .next_element 相反，它指向当前被解析的对象的前一个解析对象： 6.4.2 .next_elements 和 .previous_elements 通过 .next_elements 和 .previous_elements 的迭代器就可以向前或向后访问文档的解析内容，就好像文档正在被解析一样： 七、搜索文档树 BeautifulSoup 定义了很多搜索方法，但它们的用法都非常相似。这里我们用大篇幅着重介绍两个最常用的方法：find() 和 find_all()。其它方法的参数和用法类似，就制作简要说明，大家举一反三即可。 7.1 几种过滤器 在讲解 find_all() 和其他类似方法之前，我想通过一些例子来向你展示都有哪些过滤器可以使用。 这些过滤器贯穿了所有的搜索 API 函数，它们可以被用在标签的名称、属性、文本这些上面。 7.1.1 字符串 最简单的过滤器是字符串，在搜索方法中传入一个字符串参数，BeautifulSoup 会查找与字符串完整匹配的内容，下面的例子用于查找文档中第一个<a>标签： >>> soup.find('a')<a href="http://img.e-com-net.com/image/info8/54b237720eee4b019b43e0cc92e71bc9.jpg" target="_blank"><img alt="bs4使用_第17张图片" height="608" src="http://img.e-com-net.com/image/info8/54b237720eee4b019b43e0cc92e71bc9.jpg" width="650" style="border:1px solid black;"></a> 7.1.2 正则表达式 如果传入正则表达式作为参数，BeautifulSoup 会通过正则表达式的 match() 方法来匹配内容。下面例子将找出所有以 b 开头的标签，这表示 <body> 和 标签都能被找到： <a href="http://img.e-com-net.com/image/info8/9141dfca2ec649778d00c9bfb9d0dbb1.jpg" target="_blank"><img alt="bs4使用_第18张图片" height="411" src="http://img.e-com-net.com/image/info8/9141dfca2ec649778d00c9bfb9d0dbb1.jpg" width="650" style="border:1px solid black;"></a> <h3>打印所有还h3标签后的文本</h3> 下面代码找出所有名字中包含字母 "h3" 的标签后的文本： <a href="http://img.e-com-net.com/image/info8/031c5c7b9ea14b1c8a1d95befc37cdf6.jpg" target="_blank"><img alt="bs4使用_第19张图片" height="650" src="http://img.e-com-net.com/image/info8/031c5c7b9ea14b1c8a1d95befc37cdf6.jpg" width="650" style="border:1px solid black;"></a> 7.1.3 列表 如果传入列表参数，BeautifulSoup 会将与列表中任一元素匹配的内容返回。下面代码找到文档中所有 <a> 标签和 标签： <a href="http://img.e-com-net.com/image/info8/ce004dd1c30a40e1afe9ea966f23c441.jpg" target="_blank"><img alt="bs4使用_第20张图片" height="446" src="http://img.e-com-net.com/image/info8/ce004dd1c30a40e1afe9ea966f23c441.jpg" width="650" style="border:1px solid black;"></a> <h3>找出所有的标签，并打印后面的文本</h3> <a href="http://img.e-com-net.com/image/info8/dc909316cf3c4817b54b63c8764435a5.jpg" target="_blank"><img alt="bs4使用_第21张图片" height="673" src="http://img.e-com-net.com/image/info8/dc909316cf3c4817b54b63c8764435a5.jpg" width="650" style="border:1px solid black;"></a> 7.1.4 True <h3>查找到所有的标签</h3> True 值可以匹配任意值，下面代码查找到所有的标签，但是不会返回字符串节点： <a href="http://img.e-com-net.com/image/info8/bfe5a458066b431f81d99977c96f25ee.jpg" target="_blank"><img alt="bs4使用_第22张图片" height="540" src="http://img.e-com-net.com/image/info8/bfe5a458066b431f81d99977c96f25ee.jpg" width="650" style="border:1px solid black;"></a> 7.1.5 函数 如果没有合适过滤器，那么还可以自己定义一个函数，该函数只接受一个元素作为参数。如果这个方法返回 True 表示当前元素匹配并且被找到，否则返回 False。 下面这个函数用于匹配那些包含 "class" 属性但不包含 "id" 属性的标签： >>> def has_class_but_no_id(tag): return tag.has_attr('class') and not tag.has_attr('id') 将这个函数作为参数传入 find_all() 方法，将得到所有 标签： >>> soup.find_all(has_class_but_no_id) <a href="http://img.e-com-net.com/image/info8/10c4e9eef47d43cd88b4edf5a8ac6333.jpg" target="_blank"><img alt="bs4使用_第23张图片" height="531" src="http://img.e-com-net.com/image/info8/10c4e9eef47d43cd88b4edf5a8ac6333.jpg" width="650" style="border:1px solid black;"></a> 返回结果中只有 标签没有 <a> 标签（上面出现的 <a> 是包含在 中的），因为 <a> 标签里面还定义了 "id"，没有返回 <html> 和 <head>，因为 <html> 和 <head> 中没有定义 "class" 属性。 如果你传入一个函数来过滤一个像 href 这样的特定属性，传入函数的参数将是属性值，而不是整个标签。 下面这个函数可以找到所有拥有 href 属性，但不包含 "img" 的标签： <a href="http://img.e-com-net.com/image/info8/b0f29a5c62ed415a9035083dfe125826.jpg" target="_blank"><img alt="bs4使用_第24张图片" height="601" src="http://img.e-com-net.com/image/info8/b0f29a5c62ed415a9035083dfe125826.jpg" width="650" style="border:1px solid black;"></a> 只要你需要，函数还可以更复杂。 <a href="http://img.e-com-net.com/image/info8/b6a0debc6be24bf896610832a87145cb.jpg" target="_blank"><img alt="bs4使用_第25张图片" height="444" src="http://img.e-com-net.com/image/info8/b6a0debc6be24bf896610832a87145cb.jpg" width="650" style="border:1px solid black;"></a> <h3>标签包含字符串对象的时候返回 True：</h3> <a href="http://img.e-com-net.com/image/info8/5df12173095c4019933431f24d0d95cc.jpg" target="_blank"><img alt="bs4使用_第26张图片" height="357" src="http://img.e-com-net.com/image/info8/5df12173095c4019933431f24d0d95cc.jpg" width="650" style="border:1px solid black;"></a> 现在，我们来了解一下搜索方法的细节。 <h3>7.2 find_all() find_all(name, attrs, recursive, string, limit, **kwargs)</h3> find_all() 方法搜索当前 tag 下的所有子节点，并判断是否符合过滤器的条件。 这里有几个过滤器的例子： >>> soup.find_all("title") [<title>睡鼠的故事]
>>>
>>> soup.find_all("p", "title")
[

睡鼠的故事

]
>>>
>>> soup.find_all("a")
[埃尔西, 莱斯, 蒂尔莉]
>>>
>>> soup.find_all(id="link2")
[莱斯]
>>>
>>> import re
>>> soup.find(string=re.compile("小姐姐"))
'从前有三位小姐姐，她们的名字是：\n'
>>>
上面的 string 和 id 关键字参数代表什么呢？为什么 find_all("p", "title") 返回的是 Class 为 ”title” 的

标签呢？请看下面的参数讲解。

通过 name 参数，你可以根据指定名字来查找标签。

简单的用法如下：

>>> soup.find_all("title")
[睡鼠的故事]
上一节提到的几种过滤器均可以作为 name 参数的值：字符串，正则表达式，列表，函数，或者直接一个布尔类型值 True。

7.2.2 keyword 参数
如果一个指定名字的参数不是搜索内置的（name, attrs, recursive, string, limit）参数名，搜索时会把该参数当作指定 tag 的属性来搜索。

比如你传递一个名为 id 的参数，BeautifulSoup 将会搜索每个 tag 的 ”id” 属性：

>>> soup.find_all(id="link2")
[莱斯]
如果你传递一个名为 href 的参数，BeautifulSoup 将会搜索每个 tag 的 ”href” 属性：

>>> soup.find_all(href=re.compile("elsie"))
[埃尔西]
搜索指定名字的属性时可以使用的参数值包括：字符串、正则表达式、列表、函数和 True 值。

下面的例子在文档树中查找所有包含 id 属性的 tag，无论 id 的值是什么都将匹配：

>>> soup.find_all(id=True)
[埃尔西, 莱斯, 蒂尔莉]
你还可以同时过滤多个属性：

>>> soup.find_all(href=re.compile("elsie"), id="link1")
[埃尔西]
注意：有些 tag 属性在搜索不能使用，比如 HTML5 中的 data-* 属性：

>>> data_soup = BeautifulSoup('

foo!

', "html.parser")
>>> data_soup.find_all(data-foo="value")
SyntaxError: keyword can't be an expression
但是可以通过将这些属性放进一个字典里，然后将其传给 attrs 关键字参数来实现 “曲线救国”：

>>> data_soup.find_all(attrs={"data-foo": "value"})
[

foo!

]
你不能使用关键字参数来搜索 HTML 的 "name" 元素，因为 BeautifulSoup 使用 name 参数来表示标签自身的名字。

取而代之，你可以将 "name" 添加到 attrs 参数的值中：

>>> name_soup = BeautifulSoup('')
>>> name_soup.find_all(name="email")
[]
>>> name_soup.find_all(attrs={"name": "email"})
[]
7.2.3 根据 CSS 进行搜索
按照 CSS 类名搜索标签的功能非常实用，但由于表示 CSS 类名的关键字 “class” 在 Python 中是保留字，所以使用 class 做参数会导致语法错误。从 BeautifulSoup 的 4.1.1 版本开始，可以通过 class_ 参数搜索有指定 CSS 类名的标签：

>>> soup.find_all("a", class_="sister")
[埃尔西, 莱斯, 蒂尔莉]
跟关键字参数一样，class_ 参数也支持不同类型的过滤器：字符串、正则表达式、函数或 True：

>>> soup.find_all(class_=re.compile("itl"))
[

睡鼠的故事

]
>>>
>>> def has_six_characters(css_class):
return css_class is not None and len(css_class) == 6

>>> soup.find_all(class_=has_six_characters)
[埃尔西, 莱斯, 蒂尔莉]
注意，标签的 “class” 属性支持同时拥有多个值，按照 CSS 类名搜索标签时，可以分别搜索标签中的每个 CSS 类名：

>>> css_soup = BeautifulSoup('

', "html.parser")
>>> css_soup.find_all("p", class_="strikeout")
[

]
>>>
>>> css_soup.find_all("p", class_="body")
[

]
搜索 class 属性时也可以指定完全匹配的 CSS 值：

>>> css_soup.find_all("p", class_="body strikeout")
[

]
但如果 CSS 值的顺序与文档不一致，将导致结果搜索不到（尽管其字符串是一样的）：

>>> css_soup.find_all("p", class_="strikeout body")
[]
如果你希望搜索结果同时匹配两个以上的 CSS 类名，你应该使用 CSS 选择器：

>>> css_soup.select("p.strikeout.body")
[

]
在那些没有 class_ 关键字的 BeautifulSoup 版本中，你可以使用 attrs 技巧（上面咱举过一个例子）：

>>> soup.find_all("a", attrs={"class": "sister"})
[埃尔西, 莱斯, 蒂尔莉]
7.2.4 string 参数
通过 string 参数可以搜索标签中的文本内容。与 name 参数一样，string 参数接受字符串，正则表达式，列表，函数，或者直接一个布尔类型值 True。

请看下面例子：

>>> soup.find_all(string="埃尔西")
['埃尔西']
>>>
>>> soup.find_all(string=["蒂尔莉", "埃尔西", "莱斯"])
['埃尔西', '莱斯', '蒂尔莉']
>>>
>>> soup.find_all(string=re.compile("睡鼠"))
['睡鼠的故事', '睡鼠的故事']
>>>
>>> def is_the_only_string_within_a_tag(s):
"""如果字符串是其父标签的唯一子节点，则返回 True。"""
return (s == s.parent.string)

>>> soup.find_all(string=is_the_only_string_within_a_tag)
['睡鼠的故事', '睡鼠的故事', '埃尔西', '莱斯', '蒂尔莉', '...']
尽管 string 参数是用于搜索字符串的，但你可以与其它参数混合起来使用：下面代码中，BeautifulSoup 会找到所有与 string 参数值相匹配的标签：

>>> soup.find_all("a", string="埃尔西")
[埃尔西]
string 参数是 BeautifulSoup 4.4.0 新增加的特性，在早期的版本中，它叫 text 参数：

>>> soup.find_all("a", text="埃尔西")
[埃尔西]
7.2.5 limit 参数
find_all() 方法返回匹配过滤器的所有标签和文本。如果文档树很大，那么搜索就会变得很慢。如果你不需要全部的结果，可以使用 limit 参数限制返回结果的数量。效果与 SQL 中的 LIMIT 关键字类似 —— 当搜索到的结果数量达到 limit 的限制时，就停止搜索并返回结果。

文档树中有 3 个标签符合搜索条件，但结果只返回了 2 个，因为我们限制了返回数量：

>>> soup.find_all("a", limit=2)
[埃尔西, 莱斯]
7.2.6 recursive 参数
如果你调用 mytag.find_all() 方法，BeautifulSoup 将会获取 mytag 的所有子孙节点。如果只想搜索 mytag 的直接子节点，可以使用参数 recursive=False。

对比一下：

>>> soup.html.find_all("title")
[睡鼠的故事]
>>>
>>> soup.html.find_all("title", recursive=False)
[]
文档的原型是这样的：

The Dormouse's story 

...
标签在 <html> 标签下，但并不是直接子节点，<head> 标签才是直接子节点。在允许查询所有后代节点的时候，BeautifulSoup 能够查找到 <title> 标签。但是使用了 recursive=False 参数之后，只能查找直接子节点，因此就查不到 <title> 标签了。 BeautifulSoup 提供了多种 DOM 树搜索方法（下面将展示给大家）。这些方法都使用了与 find_all() 类似的参数：name、attrs、stirng、limit 和关键字参数。但是只有 find_all() 和 find() 支持 recursive 参数。给 find_parents() 方法传递 recursive=False 参数并没有什么作用。 7.3 像调用 find_all() 一样调用一个标签 由于 find_all() 几乎是 Beautiful Soup 中最常用的搜索方法，所以我们为它定义了一种简写的形式：如果你将 BeautifulSoup 对象或 Tag 对象当作一个方法来使用，那么这个方法的执行结果与调用这个对象的 find_all() 方法是相同的。 因此，下面两行代码是等价的： soup.find_all("a") soup("a") 还有下面两行代码也是等价的： soup.title.find_all(text=True) soup.title(text=True) 7.4 find() 方法 find_all(name, attrs, recursive, string, **kwargs) find_all() 方法将返回文档中符合条件的所有tag，尽管有时候我们只想得到一个结果。比如文档中只有一个<body>标签，那么使用 find_all() 方法来查找<body>标签就不太合适，使用 find_all 方法并设置 limit=1 参数不如直接使用 find()方法。下面两行代码是等价的： >>> soup.find_all('title', limit=1) [<title>睡鼠的故事]
>>> soup.find('title')
睡鼠的故事
唯一的区别是 find_all() 方法的返回结果是值包含一个元素的列表，而 find() 方法直接返回结果。find_all() 方法没有找到目标是返回空列表， find() 方法找不到目标时，返回 None 。

>>> print(soup.find("nosuchtag"))
None
>>> print(soup.find_all("nosuchtag"))
[]
soup.head.title 是 6.1 子节点（向下遍历）-使用标签名进行遍历方法的简写。这个简写的原理就是多次调用当前tag的 find() 方法：

>>> soup.head.title
睡鼠的故事
>>> soup.find("head").find("title")
睡鼠的故事
7.5 find_parents() 和 find_parent()
find_parents(name, attrs, string, limit, **kwargs)

find_parent(name, attrs, string, **kwargs)

我们已经用了很大篇幅来介绍 find_all() 和 find() 方法，Beautiful Soup中还有10个用于搜索的API。它们中的五个用的是与 find_all() 相同的搜索参数。另外5个与 find() 方法的搜索参数类似。区别仅是它们搜索文档的不同部分。

记住：find_all() 和 find() 只搜索当前节点的所有子节点，孙子节点等。 find_parents() 和 find_parent() 用来搜索当前节点的父辈节点，搜索方法与普通tag的搜索方法相同，搜索文档包含的内容。我们从一个文档中的一个叶子节点开始：

>>> a_string = soup.find(text="莱斯")
>>> a_string
'莱斯'

>>> a_string.find_parents("a")
[莱斯]
>>> a_string.find_parents("p")
[

从前有三位小姐姐，她们的名字是：
埃尔西，
莱斯和
蒂尔莉；
她们住在一个井底下面。

]
>>> a_string.find_parents("p", class_="sister")
[]
文档中的一个标签是是当前叶子节点的直接父节点，所以可以被找到.还有一个

标签，是目标叶子节点的间接父辈节点，所以也可以被找到。包含class值为”title”的

标签不是不是目标叶子节点的父辈节点，所以通过 find_parents() 方法搜索不到。

find_parent() 和 find_parents() 方法会让人联想到 6.2 父节点（向上遍历）中 .parent 和 .parents 属性。它们之间的联系非常紧密。搜索父辈节点的方法实际上就是对 .parents 属性的迭代搜索.

7.6 find_next_siblings() 和 find_next_sibling()
find_next_siblings(name, attrs, string, limit, **kwargs)

find_next_sibling(name, attrs, string, **kwargs)

这2个方法通过 6.3 兄弟节点（左右遍历）中 .next_siblings 属性对当tag的所有后面解析的兄弟tag节点进行迭代，find_next_siblings() 方法返回所有符合条件的后面的兄弟节点，find_next_sibling() 只返回符合条件的后面的第一个tag节点。

>>> first_link = soup.a
>>> first_link
埃尔西
>>> first_link.find_next_siblings("a")
[莱斯, 蒂尔莉]
>>> first_story_paragraph = soup.find("p", "story")
>>> first_story_paragraph.find_next_sibling("p")

...

7.7 find_previous_siblings() 和 find_previous_sibling()
find_previous_siblings() (name, attrs, string, limit, **kwargs)

find_previous_sibling()(name, attrs, string, **kwargs)

这2个方法通过 6.3 兄弟节点（左右遍历）中 .previous_siblings 属性对当前tag的前面解析的兄弟tag节点进行迭代， find_previous_siblings() 方法返回所有符合条件的前面的兄弟节点， find_previous_sibling() 方法返回第一个符合条件的前面的兄弟节点：

>>> last_link = soup.find("a", id="link3")
>>> last_link
蒂尔莉
>>> last_link.find_previous_siblings("a")
[莱斯, 埃尔西]
>>> first_story_paragraph = soup.find("p", "story")
>>> first_story_paragraph.find_previous_sibling("p")

睡鼠的故事

7.8 find_all_next() 和 find_next()
find_all_next(name, attrs, string, limit, **kwargs)

find_next(name, attrs, string, **kwargs)

这2个方法通过 6.4 回退和前进中 .next_elements 属性对当前tag的之后的 tag和字符串进行迭代， find_all_next() 方法返回所有符合条件的节点， find_next() 方法返回第一个符合条件的节点：

>>> first_link = soup.a
>>> first_link
埃尔西
>>> first_link.find_all_next(string=True)
['埃尔西', '，\n', '莱斯', '和\n', '蒂尔莉', '；\n她们住在一个井底下面。', '\n', '...', '\n']
>>> first_link.find_next("p")

...

第一个例子中,字符串 “埃尔西”也被显示出来，尽管它被包含在我们开始查找的标签的里面。第二个例子中，最后一个

标签也被显示出来，尽管它与我们开始查找位置的标签不属于同一部分。例子中，搜索的重点是要匹配过滤器的条件，并且在文档中出现的顺序而不是开始查找的元素的位置。

7.9 find_all_previous() 和 find_previous()
find_all_previous(name, attrs, string, limit, **kwargs)

find_previous(name, attrs, string, **kwargs)

这2个方法通过 6.4 回退和前进中 .previous_elements 属性对当前节点前面的tag和字符串进行迭代， find_all_previous() 方法返回所有符合条件的节点， find_previous() 方法返回第一个符合条件的节点。

>>> first_link = soup.a
>>> first_link
埃尔西
>>> first_link.find_all_previous("p")
[

从前有三位小姐姐，她们的名字是：
埃尔西，
莱斯和
蒂尔莉；
她们住在一个井底下面。

睡鼠的故事

]
>>> first_link.find_previous("title")
睡鼠的故事
find_all_previous("p") 返回了文档中的第一段(class=”title”的那段)，但还返回了第二段，

标签包含了我们开始查找的标签。不要惊讶，这段代码的功能是查找所有出现在指定标签之前的

标签，因为这个

标签包含了开始的标签，所以

标签一定是在之前出现的。

7.10 CSS选择器
从版本4.7.0开始，Beautiful Soup通过 SoupSieve 项目支持大多数CSS4选择器。如果您通过pip安装了Beautiful Soup，则同时安装了SoupSieve，因此您无需执行任何额外操作。

BeautifulSoup有一个.select（）方法，该方法使用SoupSieve对解析的文档运行CSS选择器并返回所有匹配的元素。 Tag有一个类似的方法，它针对单个标记的内容运行CSS选择器。

（早期版本的Beautiful Soup也有.select（）方法，但只支持最常用的CSS选择器。）

SoupSieve文档列出了所有当前支持的CSS选择器，但以下是一些基础知识：

可以使用CSS选择器的语法找到tag：

>>> soup.select("title")
[睡鼠的故事]

>>> soup.select("p:nth-of-type(3)")
[

...

]
通过tag标签逐层查找:

>>> soup.select("body a")
[埃尔西, 莱斯, 蒂尔莉]
>>> soup.select("html head title")
[睡鼠的故事]
找到某个tag标签下的直接子标签:

>>> soup.select("head > title")
[睡鼠的故事]

>>> soup.select("p > a")
[埃尔西, 莱斯, 蒂尔莉]
>>> soup.select("p > a:nth-of-type(2)")
[莱斯]
>>> soup.select("p > #link1")
[埃尔西]
>>> soup.select("body > a")
[]
找到兄弟节点标签:

>>> soup.select("#link1 ~ .sister")
[莱斯, 蒂尔莉]
>>> soup.select("#link1 + .sister")
[莱斯]
通过CSS的类名查找:

>>> soup.select(".sister")
[埃尔西, 莱斯, 蒂尔莉]
>>> soup.select("[class~=sister]")
[埃尔西, 莱斯, 蒂尔莉]
通过tag的ID查找:

>>> soup.select("#link1")
[埃尔西]
>>> soup.select("a#link2")
[莱斯]
查找与选择器列表中的任何选择器匹配的tag：

>>> soup.select("#link1,#link2")
[埃尔西, 莱斯]
通过是否存在某个属性来查找:

>>> soup.select('a[href]')
[埃尔西, 莱斯, 蒂尔莉]
通过属性的值来查找:

>>> soup.select('a[href="http://example.com/elsie"]')
[埃尔西]
>>> soup.select('a[href^="http://example.com/"]')
[埃尔西, 莱斯, 蒂尔莉]
>>> soup.select('a[href$="tillie"]')
[蒂尔莉]
>>> soup.select('a[href*=".com/el"]')
[埃尔西]
还有一个名为 select_one（）的方法，它只查找与选择器匹配的第一个标记：

>>> soup.select_one(".sister")
埃尔西
如果您已经解析了定义名称空间的XML，则可以在CSS选择器中使用它们：

>>>from bs4 import BeautifulSoup
>>>xml = """
I'm in namespace 1
I'm in namespace 2
"""
>>>soup = BeautifulSoup(xml, "xml")

>>>soup.select("child")
[I'm in namespace 1, I'm in namespace 2]

>>>soup.select("ns1|child", namespaces=namespaces)
[I'm in namespace 1]
注意：这里需要安装 xml 解析库，如果出现以下报错：

bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: xml. Do you need to install a parser library?

需要通过 pip install lxml 安装 lxml：

处理使用命名空间的CSS选择器时，Beautiful Soup使用在解析文档时找到的命名空间缩写。您可以通过传入自己的缩写词典来覆盖它：

>>>namespaces = dict(first="http://namespace1/", second="http://namespace2/")
>>>soup.select("second|child", namespaces=namespaces)
[I'm in namespace 2]
所有这些CSS选择器的东西对于已经知道CSS选择器语法的人来说都很方便。您可以使用Beautiful Soup API完成所有这些工作。如果你只需要CSS选择器，你应该使用lxml解析文档：它的速度要快得多。但是这可以让你将CSS选择器与Beautiful Soup API结合起来。

8 修改文档树
Beautiful Soup的主要优势在于搜索解析树，但您也可以修改树并将更改写为新的HTML或XML文档。

8.1 修改tag的名称和属性
在 5.1 Tag（标签）- Attributes（属性）章节中已经介绍过这个功能,但是再看一遍也无妨. 重命名一个tag,改变属性的值,添加或删除属性:

>>> soup = BeautifulSoup('Extremely bold')
>>> tag = soup.b

>>> tag.name = "blockquote"
>>> tag['class'] = 'verybold'
>>> tag['id'] = 1
>>> tag

Extremely bold

>>> del tag['class']
>>> del tag['id']
>>> tag

Extremely bold

8.2 修改 .string
给tag的 .string 属性赋值,就相当于用当前的内容替代了原来的内容:

>>> markup = 'I linked to example.com'
>>> soup = BeautifulSoup(markup)

>>> tag = soup.a
>>> tag.string = "New link text."
>>> tag
New link text.
注意：如果当前的tag包含了其它tag，那么给它的 .string 属性赋值会覆盖掉原有的所有内容包括子tag。

8.3 append()
Tag.append() 方法想tag中添加内容,就好像Python的列表的 .append() 方法:

>>> soup = BeautifulSoup("Foo")
>>> soup.a.append("Bar")

>>> soup
FooBar
>>> soup.a.contents
['Foo', 'Bar']
8.4 extend()
从Beautiful Soup 4.7.0开始，Tag还支持一个名为.extend（）的方法，它就像在Python列表上调用.extend（）一样：

>>> soup = BeautifulSoup("Soup")
>>> soup.a.extend(["'s", " ", "on"])

>>> soup
Soup's on
>>> soup.a.contents
['Soup', "'s", ' ', 'on']
8.5 NevigableString() 和 .new_tag()
如果想添加一段文本内容到文档中也没问题，可以调用Python的 append() 方法或调用 NavigableString() 构造函数： :

>>> soup = BeautifulSoup("")
>>> tag = soup.b
>>> tag.append("Hello")
>>> new_string = NavigableString(" there")
>>> tag.append(new_string)
>>> tag
Hello there.
>>> tag.contents
['Hello', ' there']
如果要创建注释或NavigableString的其他子类，只需调用构造函数：

>>> from bs4 import Comment
>>> new_comment = Comment("Nice to see you.")
>>> tag.append(new_comment)
>>> tag
Hello there
>>> tag.contents
['Hello', ' there', 'Nice to see you.']
（这是Beautiful Soup 4.4.0的新功能。）

创建一个tag最好的方法是调用工厂方法 BeautifulSoup.new_tag() :

>>> soup = BeautifulSoup("")
>>> original_tag = soup.b

>>> new_tag = soup.new_tag("a", href="http://www.example.com")
>>> original_tag.append(new_tag)
>>> original_tag

>>> new_tag.string = "Link text."
>>> original_tag
Link text.
第一个参数作为tag的name,是必填，其它参数选填。

8.6 insert()
Tag.insert() 方法与 Tag.append() 方法类似，区别是不会把新元素添加到父节点 .contents 属性的最后，而是把元素插入到指定的位置。与Python列表总的 .insert() 方法的用法相同：

>>> markup = 'I linked to example.com'
>>> soup = BeautifulSoup(markup)
>>> tag = soup.a

>>> tag.insert(1, "but did not endorse ")

>>> tag
I linked to but did not endorse example.com

>>> tag.contents
['I linked to ', 'but did not endorse ', example.com]
8.7 insert_before() 和 insert_after()
insert_before() 方法在当前tag或文本节点前插入tag 或者字符串:

>>> soup = BeautifulSoup("stop")
>>> tag = soup.new_tag("i")
>>> tag.string = "Don't"
>>> soup.b.string.insert_before(tag)
>>> soup.b
Don'tstop
insert_after() 方法在当前tag或文本节点前插入tag 或者字符串:

>>> div = soup.new_tag('div')
>>> div.string = 'ever'
>>> soup.b.i.insert_after(" you ", div)
>>> soup.b
Don't you

ever

stop
>>> soup.b.contents
[Don't, ' you ',

ever

, 'stop']
8.8 clear()
Tag.clear() 方法移除当前tag的内容:

>>> markup = 'I linked to example.com'
>>> soup = BeautifulSoup(markup)
>>> tag = soup.a

>>> tag.clear()
>>> tag

8.9 extract()
PageElement.extract() 方法将当前tag移除文档树,并作为方法结果返回:

>>> markup = 'I linked to example.com'
>>> soup = BeautifulSoup(markup)
>>> a_tag = soup.a

>>> i_tag = soup.i.extract()

>>> a_tag
I linked to

>>> i_tag
example.com

>>> print(i_tag.parent)
None
这个方法实际上产生了2个文档树：一个是用来解析原始文档的 BeautifulSoup 对象，另一个是被移除并且返回的tag。被移除并返回的tag可以继续调用 extract 方法：

>>> my_string = i_tag.string.extract()
>>> my_string
'example.com'

>>> print(my_string.parent)
None
>>> i_tag

8.10 decompose()
Tag.decompose() 方法将当前节点移除文档树并完全销毁:

>>> markup = 'I linked to example.com'
>>> soup = BeautifulSoup(markup)
>>> a_tag = soup.a

>>> soup.i.decompose()

>>> a_tag
I linked to
8.11 replace_with()
PageElement.replace_with() 方法移除文档树中的某段内容，并用新tag或文本节点替代它:

>>> markup = 'I linked to example.com'
>>> soup = BeautifulSoup(markup)
>>> a_tag = soup.a

>>> new_tag = soup.new_tag("b")
>>> new_tag.string = "example.net"
>>> a_tag.i.replace_with(new_tag)

>>> a_tag
I linked to example.net
replace_with() 方法返回被替代的tag或文本节点，可以用来浏览或添加到文档树其它地方

8.12 wrap()
PageElement.wrap() 方法可以对指定的tag元素进行包装，并返回包装后的结果:

>>> soup = BeautifulSoup("

I wish I was bold.

")
>>> soup.p.string.wrap(soup.new_tag("b"))
I wish I was bold.

>>> soup.p.wrap(soup.new_tag("div")

I wish I was bold.

该方法在 Beautiful Soup 4.0.5 中添加

8.13 unwrap()
Tag.unwrap() 方法与 wrap() 方法相反。将移除tag内的所有tag标签,该方法常被用来进行标记的解包:

>>> markup = 'I linked to example.com'
>>> soup = BeautifulSoup(markup)
>>> a_tag = soup.a

>>> a_tag.i.unwrap()
>>> a_tag
I linked to example.com
与 replace_with() 方法相同, unwrap() 方法返回被移除的tag。

九、输出
9.1 格式化输出
prettify() 方法将Beautiful Soup的文档树格式化后以Unicode编码输出,每个XML/HTML标签都独占一行

>>> markup = 'I linked to example.com'
>>> soup = BeautifulSoup(markup)
>>> soup.prettify()
'\n \n \n I linked to\n \n example.com\n \n \n \n

你可能感兴趣的:(html,python)

Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
Python异步编程终极指南：用协程与事件循环重构你的高并发系统
title:Python异步编程终极指南：用协程与事件循环重构你的高并发系统date:2025/2/24updated:2025/2/24author:cmdragonexcerpt:深入剖析Python异步编程的核心机制。你将掌握：\n事件循环的底层实现原理与调度算法\nasync/await协程的6种高级用法模式\n异步HTTP请求的性能优化技巧（速度提升15倍+）\n常见异步陷阱的26种解决
Python 爬虫实战：精准抓取母婴电商平台数据，深入分析用户评价洞察市场趋势程序员威哥最新爬虫实战项目 python 爬虫开发语言
前言随着生活水平的提高，越来越多的年轻父母开始关注母婴产品的质量和品牌。而母婴电商平台成为了他们选择和购买产品的主要渠道之一。母婴产品市场也因此变得异常活跃且充满竞争。在这样的市场环境下，用户评价不仅反映了产品的实际质量，也揭示了消费者的需求和偏好，成为品牌决策的核心依据之一。Python爬虫是获取电商平台用户评价数据、产品详情、价格等关键信息的强大工具。通过抓取和分析这些数据，品牌商可以实时了解
*Python爬虫应用：从社交媒体数据中提取有价值的用户行为洞察程序员威哥 python 爬虫媒体
引言在现代数字化时代，社交媒体已成为获取用户行为数据的重要来源。每秒钟，数百万条信息在平台上传播，用户的互动行为——点赞、评论、分享、关注等，构成了大量宝贵的行为数据。企业和个人通过分析这些数据，不仅可以理解用户需求、改进产品，还能精准制定营销策略。然而，如何高效地抓取、分析并从中提取有价值的用户行为洞察？这正是Python爬虫和数据分析技术的优势所在。本文将介绍如何利用Python爬虫从社交媒体
python 异步编程：协程与 asyncio 花_城 Python 开发语言后端异步协程
文章目录一、协程（coroutine）1.1协程的概念1.2实现协程的方式二、asyncio异步编程2.1事件循环2.2快速上手2.3运行协程2.4await关键字2.5可等待对象2.5.1协程2.5.2任务（Task）2.5.3asyncio.Future三、concurrent.futures.Future（补充）3.1爬虫案例（asyncio+不支持异步的模块）四、asyncio异步迭代器五
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
Python面试题：Python中的异步编程：详细讲解asyncio库的使用超哥同学 Python系列 python 开发语言面试编程
Python的异步编程是实现高效并发处理的一种方法，它使得程序能够在等待I/O操作时继续执行其他任务。在Python中，asyncio库是实现异步编程的主要工具。asyncio提供了一种机制来编写可以在单线程内并发执行的代码，适用于I/O密集型任务。以下是对asyncio库的详细讲解，包括基本概念、用法、示例以及注意事项。1.基本概念1.1协程（Coroutines）协程是一个特殊的函数，它可以被
Python 爬虫实战：如何搭建高效的分布式爬虫架构，突破数据抓取极限程序员威哥 python 爬虫分布式
随着互联网数据量的飞速增长，单一爬虫在抓取大量数据时的效率和稳定性往往无法满足需求。在这种情况下，分布式爬虫架构应运而生。分布式爬虫通过多节点并行工作，可以大大提高数据抓取的速度，同时减少单点故障的风险。本文将深入探讨如何使用Python构建一个高效的分布式爬虫架构，从架构设计到技术实现，帮助你突破数据抓取的极限。一、什么是分布式爬虫？分布式爬虫系统将爬虫任务拆分为多个子任务，分布到不同的服务器或
python程序基本架构_Python 程序基本架构尤尔小喵喵 python程序基本架构
Python的一般程序基本架构为：输入，处理，输出，这三块。输入：包括两个内容，变量赋值与输入语句处理：包括算术运算，逻辑运算，算法处理这三方面输出：包括打印输出，写入文件，写入数据库这三块下面举两个例子具体了解一下Python的程序基本架构1输入：变量赋值处理：算术运算输出：打印输出x=12#变量赋值x=12y=13#变量赋值y=13z=x+y#算术运算print(z)#打印输出252输入：输入
如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
如何创建Python工程目录九月恒心 Python python 自动测试
如何创建一个简单但是比较规范的python工程目录，本文是学习了LearnPythontheHardWay相关内容后做的一些笔记。安装python第三方包1.pipfromhttp://pypi.python.org/pypi/pip用于安装python第三方包的工具2.distributefromhttp://pypi.python.org/pypi/distribute已被弃用，是SetupT
从单体脚本到模块化设计：Python工程师的架构思维跃迁
引言：从“一团乱麻”到“乐高积木”你是否曾经打开一个Python脚本，里面密密麻麻挤着上千行代码？函数相互缠绕，全局变量随处可见，想改一个小功能却心惊胆战，生怕牵一发而动全身？这就是典型的“单体脚本”(MonolithicScript)困境。作为过来人，我深知这种痛苦。本文将手把手带你跳出这个泥潭，掌握模块化设计的核心思想，并初步建立宝贵的架构设计思维，让你的代码从“勉强运行”跃迁到“优雅可维护”
python json 反序列化-V1 CATTLECODE python json 开发语言
在编程中，‌反序列化函数‌用于将序列化后的数据（如JSON、XML等格式）重新转换为程序可操作的对象或数据结构。以下是不同语言和场景下的实现方式及特点：‌1.Python中的反序列化‌‌(1)标准库json模块‌‌json.loads()‌：将JSON字符串反序列化为Python对象（如字典、列表）。importjsonjson_str='{"name":"Alice","age":25}'dat
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
day49-ansible初体验朱包林 linux python 运维服务器云计算
1.选型工具说明缺点xshell不适应机器过多场景，需要连接后才能用for+ssh/scp+密钥认证密钥认证，免密码登录scp传输文本/脚本ssh远程执行命令或脚本串行saltstack需要安装客户端ansible无客户端（密钥认证）批量部署环境需要新python版本，被红帽收购了Terraform关注基础设施（云环境），一键创建100台云服务器，一键创建负载均衡，数据库产品2.ansible架构
Python 通过IP地址查询地理位置
文章目录Python通过IP地址查询地理位置一、在线API查询（简单快速，依赖网络）1.**使用`requests`+ipinfo.io**2.**使用`requests`+ip-api.com**二、本地数据库查询（离线高效，需下载数据库）1.**使用`geoip2`+GeoLite2数据库**2.**其他本地库对比**️三、结果可视化（增强展示）使用`folium`生成交互地图⚖️四、方法选择
从零构建MCP服务器：FastMCP实战指南炼丹上岸大模型 #MCP 服务器运维人工智能大模型 python MCP
引言：MCP协议与FastMCP框架ModelContextProtocol（MCP）是连接AI模型与外部服务的标准化协议，允许LLM（如Claude、Gemini）调用工具、访问数据。然而，直接实现MCP协议需要处理JSON-RPC、会话管理等繁琐细节。FastMCP作为Python框架，封装了这些底层逻辑，让开发者专注于业务功能。本文将通过分步实战，从零构建一个完整的MCP服务器，涵盖工具、资
实现el-date-picker带时分秒（附默认时间）
htmldatatime:'',pickerOptions:{showTime:true,format:'yyyy-MM-ddHH:mm:ss'//可以根据需要设置日期时间的显示格式},带默认时间，需要到一个插件momentdataCreateTime:[moment().subtract(30,'days').format('YYYY-MM-DD'),moment().format('YYYY-
实现顶部固定与平滑滑动二级菜单的网页导航设计
本文还有配套的精品资源，点击获取简介：现代网页设计中，高效的导航菜单对用户体验至关重要。本设计涵盖固定在顶部的导航栏和二级菜单项的平滑滑动效果。通过CSS实现导航栏的固定定位，而JavaScript则负责二级菜单的平滑过渡动画。包含的文件如HTML结构、JavaScript交互逻辑、CSS样式和可能的图像资源，共同构建了这种流行的导航菜单布局。1.顶部固定、二级栏目之间相互滑动的导航菜单在现代网页
Python|OpenCV-实现识别弧形文字(17) 写python的鑫哥 OpenCV入门与进阶 python opencv 人工智能计算机视觉弧形文字环形文字识别
前言本文是该专栏的第19篇，后面将持续分享OpenCV计算机视觉的干货知识，记得关注。我们知道，OCR可以识别文字方面的需求，但是如果遇到那些目标文字是“弧形文字”，需要怎么去识别呢？遇到想要识别“弧形文字”的需求，这个时候你可以借助于Opencv+OCR技术来实现。而本文，笔者将针对上述问题需求，利用OpenCV结合OCR来实现“弧形文字”的识别。废话不多说，具体的细节部分以及详细的解决方案，跟
python学习试题（选择，问答，代码等）爱莉希雅&&& python 学习开发语言
python选择题（1）以下哪个是合法的Python变量名？[email protected]答案：B（2）表达式True+2的结果是？A.TrueB.3C.2D.TypeError答案：B（3）以下哪个表达式会引发错误？A."1"+"2"B.[1,2]+[3,4]C.(1,2)+(3,4)D.{1,2}+{3,4}答案：D（4）以下哪个是将字符串转换为整数的正确方法？A.str
爬虫-数据解析打酱油的； python自动化+爬虫爬虫
1.解析概述特性re(正则表达式)bs4(BeautifulSoup)xpath(lxml)pyquery本质文本模式匹配HTML/XML解析器(DOM树操作)XML路径语言(节点导航)jQuery式CSS选择器(封装lxml)学习曲线陡峭中等中等简单(熟悉jQuery/CSS)灵活性极高(处理任意文本)高(容错好，DOM操作)高(路径、轴、谓词)高(jQuery语法)可读性差(模式复杂时难懂)好
Vlang编写爬虫可行性分析
最近有人问V(Vlang)语言可以用来做数据采集么，那么我在这里明确告诉你，V(Vlang)完全可以用来编写网络爬虫。虽然它主打的是系统编程语言，但其设计目标包括简洁、高效和实用性，这使得它在处理像爬虫这样的网络任务时也表现出色。V的并发模型适合高并发爬虫，但实际效果待测试。最后给出一个简单例子展示基础流程，同时指出生态限制，避免用户期望过高。个人建议如果项目复杂，可能选Python更省力，毕竟p
AI人工智能领域中AI作画的技术优势 AI大模型应用之禅人工智能 AI作画 ai
AI人工智能领域中AI作画的技术优势关键词：AI作画、技术优势、人工智能、艺术创作、图像生成摘要：本文深入探讨了AI人工智能领域中AI作画的技术优势。从背景介绍出发，阐述了AI作画的起源与发展，明确了文章的目的、范围、预期读者以及文档结构。接着详细分析了AI作画的核心概念，包括其原理和架构，并通过Mermaid流程图进行直观展示。对核心算法原理进行了深入剖析，结合Python代码示例进行讲解。同时
Python爬虫实战：研究python-nameparser库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 nameparser
1.引言在当今数字化时代，姓名作为个人身份的重要标识，在许多领域都有着广泛的应用需求。例如，在客户关系管理系统中，准确解析姓名可以帮助企业更好地了解客户背景；在学术研究中，分析作者姓名分布有助于发现研究团队的地域特征；在社交网络分析中，姓名信息可以辅助进行用户画像构建。然而，由于不同文化背景下姓名结构的多样性以及书写方式的差异，准确解析姓名成为一项具有挑战性的任务。Python作为一种功能强大的编
快速掌握Python编程基础张彦峰ZYF python
干货分享，感谢您的阅读！备注：本博客将自己初步学习Python的总结进行分享，希望大家通过本博客可以在短时间内快速掌握Python的基本程序编码能力，如有错误请留言指正，谢谢！（持续更新）一、快速了解Python和环境准备（一）Python快速介绍Python是一种简洁、强大、易读的编程语言，广泛应用于Web开发、数据分析、人工智能、自动化运维等领域。它由GuidovanRossum在1991年设
让 Python 代码飙升330倍：从入门到精通的四种性能优化实践 python
花下猫语：性能优化是每个程序员的必修课，但你是否想过，除了更换算法，还有哪些“大招”？这篇文章堪称典范，它将一个普通的函数，通过四套组合拳，硬生生把性能提升了330倍！作者不仅展示了“术”，更传授了“道”。让我们一起跟随作者的思路，体验一次酣畅淋漓的优化之旅。PS.本文选自最新一期Python潮流周刊，如果你对优质文章感兴趣，诚心推荐你订阅我们的专栏。作者：ItamarTurner-Traurin
2025B卷 - 华为OD机试七日集训第4期 - 按算法分类，由易到难，循序渐进，玩转OD（Python/JS/C/C++）哪吒搬砖工逆袭Java架构师华为od 算法 python 华为OD机试 2025B卷
目录推荐刷题方法：一、适合人群二、本期训练时间三、如何参加四、七日集训第4期五、精心挑选21道高频100分经典题目，作为入门。第1天、逻辑分析第2天、逻辑分析第3天、逻辑分析第4天、贪心算法第5天、二分查找第6天、字符串处理第7天、字符串处理六、集训总结国内直接使用ChatGPT4o、o3、o4-mini-high、GPT-4.5、GPT4.1、Gemini2.5pro0605、ClaudeSon
2025B卷 - 华为OD机试七日集训第2期 - 按算法分类，由易到难，循序渐进，玩转OD（Python/JS/C/C++）
目录推荐刷题方法：一、适合人群二、本期训练时间三、如何参加四、七日集训第2期五、精心挑选21道高频100分经典题目，作为入门。第1天、逻辑分析第2天、数组第3天、双指针第4天、贪心算法第5天、字符串处理第6天、深度优先搜索DFS第7天、动态规划六、集训总结国内直接使用ChatGPT4o、o3、o4-mini-high、GPT-4.5、GPT4.1、Gemini2.5pro0605、ClaudeSo
Python 爬虫实战：电商商品多维度分析系统构建 Python核芯 Python爬虫实战项目 python 爬虫开发语言电商
引言在当今数字化时代，电商平台已成为人们购物的首选渠道之一。海量的商品信息、用户评价和销售数据隐藏着巨大的商业价值。通过构建一个电商商品多维度分析系统，我们可以深入挖掘这些数据，帮助商家优化产品策略、提升用户体验，同时也为消费者提供更明智的购物建议。本文将详细介绍如何利用Python爬虫技术抓取电商商品数据，并构建一个多维度分析系统。一、项目背景与意义电商平台如京东、淘宝、拼多多等，每天产生海量的
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一

bs4使用

标签的属性

获取标签后的文本

获取标签内容

获取标签内容</h3> <p>>>> soup.title<br> <title>睡鼠的故事 你可以重复多次使用这个小技巧来深入解析树的某一个部分。下面代码获取 标签中的第一个 标签： 使用标签名作为属性的方法只能获得当前名字后的第一个标签： ('')

获取所有的 标签

获取标签子节点

通过 name 参数，你可以根据指定名字来查找标签。

你可能感兴趣的:(html,python)

获取标签内容</h3> <p>>>> soup.title<br> <title>睡鼠的故事
你可以重复多次使用这个小技巧来深入解析树的某一个部分。下面代码获取标签中的第一个
标签：

使用标签名作为属性的方法只能获得当前名字后的第一个标签：

('')

获取所有的标签