解析器
使用方法
优势
劣势
Python 标准库
BeautifulSoup(markup, “html.parser”)
lxml HTML 解析器
BeautifulSoup(markup, “lxml”)
lxml XML 解析器
BeautifulSoup(markup, [“lxml”, “xml”])BeautifulSoup(markup, “xml”)
速度快
唯一支持 XML 的解析器
需要安装 C 语言库
html5lib
BeautifulSoup(markup, “html5lib”)
最好的容错性
以浏览器的方式解析文档
生成 HTML5 格式的文档
速度慢
不依赖外部扩展
3. 开启 Beautiful Soup 之旅
在这里先分享官方文档链接,不过内容是有些多,也不够条理,在此本文章做一下整理方便大家参考。 官方文档
4. 创建 Beautiful Soup 对象
首先必须要导入 bs4 库
1
from bs4 import BeautifulSoup
我们创建一个字符串,后面的例子我们便会用它来演示
1
2
3
4
5
6
7
8
9
10
11
html = """
The Dormouse's story
The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie ;
and they lived at the bottom of a well.
...
"""
创建 beautifulsoup 对象
1
soup = BeautifulSoup(html)
另外,我们还可以用本地 HTML 文件来创建对象,例如
1
soup = BeautifulSoup(open('index.html'))
上面这句代码便是将本地 index.html 文件打开,用它来创建 soup 对象 下面我们来打印一下 soup 对象的内容,格式化输出
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
The Dormouse's story
The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie
and
Tillie
;
and they lived at the bottom of a well.
...
以上便是输出结果,格式化打印出了它的内容,这个函数经常用到,小伙伴们要记好咯。
5. 四大对象种类
Beautiful Soup 将复杂 HTML 文档转换成一个复杂的树形结构,每个节点都是 Python 对象,所有对象可以归纳为 4 种:
Tag
NavigableString
BeautifulSoup
Comment
下面我们进行一一介绍
(1)Tag
Tag 是什么?通俗点讲就是 HTML 中的一个个标签,例如
上面的 title a 等等 HTML 标签加上里面包括的内容就是 Tag,下面我们来感受一下怎样用 Beautiful Soup 来方便地获取 Tags 下面每一段代码中注释部分即为运行结果
1
2
print soup.title
#The Dormouse's story
1
2
print soup.head
#The Dormouse's story
1
2
print soup.p
#The Dormouse's story
我们可以利用 soup 加标签名轻松地获取这些标签的内容,是不是感觉比正则表达式方便多了?不过有一点是,它查找的是在所有内容中的第一个符合要求的标签,如果要查询所有的标签,我们在后面进行介绍。 我们可以验证一下这些对象的类型
对于 Tag,它有两个重要的属性,是 name 和 attrs,下面我们分别来感受一下 name
1
2
3
4
print soup.name
print soup.head.name
#[document]
#head
soup 对象本身比较特殊,它的 name 即为 [document],对于其他内部标签,输出的值便为标签本身的名称。 attrs
1
2
print soup.p.attrs
#{'class': ['title'], 'name': 'dromouse'}
在这里,我们把 p 标签的所有属性打印输出了出来,得到的类型是一个字典。 如果我们想要单独获取某个属性,可以这样,例如我们获取它的 class 叫什么
1
2
print soup.p['class']
#['title']
还可以这样,利用 get 方法,传入属性的名称,二者是等价的
1
2
print soup.p.get('class')
#['title']
我们可以对这些属性和内容等等进行修改,例如
1
2
3
soup.p['class']="newClass"
print soup.p
#The Dormouse's story
还可以对这个属性进行删除,例如
1
2
3
del soup.p['class']
print soup.p
#The Dormouse's story
不过,对于修改删除的操作,不是我们的主要用途,在此不做详细介绍了,如果有需要,请查看前面提供的官方文档
(2)NavigableString
既然我们已经得到了标签的内容,那么问题来了,我们要想获取标签内部的文字怎么办呢?很简单,用 .string 即可,例如
1
2
print soup.p.string
#The Dormouse's story
这样我们就轻松获取到了标签里面的内容,想想如果用正则表达式要多麻烦。它的类型是一个 NavigableString,翻译过来叫 可以遍历的字符串,不过我们最好还是称它英文名字吧。 来检查一下它的类型
1
2
print type(soup.p.string)
#
(3)BeautifulSoup
BeautifulSoup 对象表示的是一个文档的全部内容。大部分时候,可以把它当作 Tag 对象,是一个特殊的 Tag,我们可以分别获取它的类型,名称,以及属性来感受一下
1
2
3
4
5
6
print type(soup.name)
#
print soup.name
# [document]
print soup.attrs
#{} 空字典
Comment 对象是一个特殊类型的 NavigableString 对象,其实输出的内容仍然不包括注释符号,但是如果不好好处理它,可能会对我们的文本处理造成意想不到的麻烦。 我们找一个带注释的标签
1
2
3
print soup.a
print soup.a.string
print type(soup.a.string)
运行结果如下
a 标签里的内容实际上是注释,但是如果我们利用 .string 来输出它的内容,我们发现它已经把注释符号去掉了,所以这可能会给我们带来不必要的麻烦。 另外我们打印输出下它的类型,发现它是一个 Comment 类型,所以,我们在使用前最好做一下判断,判断代码如下
1
2
if type(soup.a.string)==bs4.element.Comment:
print soup.a.string
上面的代码中,我们首先判断了它的类型,是否为 Comment 类型,然后再进行其他操作,如打印输出。
6. 遍历文档树
(1)直接子节点
要点:.contents .children 属性
.contents tag 的 .content 属性可以将 tag 的子节点以列表的方式输出
1
2
print soup.head.contents
#[The Dormouse's story ]
输出方式为列表,我们可以用列表索引来获取它的某一个元素
1
2
print soup.head.contents[0]
#The Dormouse's story
.children 它返回的不是一个 list,不过我们可以通过遍历获取所有子节点。 我们打印输出 .children 看一下,可以发现它是一个 list 生成器对象
1
2
print soup.head.children
#
我们怎样获得里面的内容呢?很简单,遍历一下就好了,代码及结果如下
1
2
for child in soup.body.children:
print child
1
2
3
4
5
6
7
8
9
10
The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie ;
and they lived at the bottom of a well.
...
(2)所有子孙节点
知识点:.descendants 属性
.descendants .contents 和 .children 属性仅包含 tag 的直接子节点,.descendants 属性可以对所有 tag 的子孙节点进行递归循环,和 children 类似,我们也需要遍历获取其中的内容。
1
2
for child in soup.descendants:
print child
运行结果如下,可以发现,所有的节点都被打印出来了,先生最外层的 HTML 标签,其次从 head 标签一个个剥离,以此类推。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
The Dormouse's story
The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie ;
and they lived at the bottom of a well.
...
The Dormouse's story
The Dormouse's story
The Dormouse's story
The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie ;
and they lived at the bottom of a well.
...
The Dormouse's story
The Dormouse's story
The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie ;
and they lived at the bottom of a well.
Once upon a time there were three little sisters; and their names were
Elsie
,
Lacie
Lacie
and
Tillie
Tillie
;
and they lived at the bottom of a well.
...
...
(3)节点内容
知识点:.string 属性
如果 tag 只有一个 NavigableString 类型子节点,那么这个 tag 可以使用 .string 得到子节点。如果一个 tag 仅有一个子节点,那么这个 tag 也可以使用 .string 方法,输出结果与当前唯一子节点的 .string 结果相同。 通俗点说就是:如果一个标签里面没有标签了,那么 .string 就会返回标签里面的内容。如果标签里面只有唯一的一个标签了,那么 .string 也会返回最里面的内容。例如
1
2
3
4
print soup.head.string
#The Dormouse's story
print soup.title.string
#The Dormouse's story
如果 tag 包含了多个子节点,tag 就无法确定,string 方法应该调用哪个子节点的内容,.string 的输出结果是 None
1
2
print soup.html.string
# None
(4)多个内容
知识点: .strings .stripped_strings 属性
.strings 获取多个内容,不过需要遍历获取,比如下面的例子
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
for string in soup.strings:
print(repr(string))
# u"The Dormouse's story"
# u'\n\n'
# u"The Dormouse's story"
# u'\n\n'
# u'Once upon a time there were three little sisters; and their names were\n'
# u'Elsie'
# u',\n'
# u'Lacie'
# u' and\n'
# u'Tillie'
# u';\nand they lived at the bottom of a well.'
# u'\n\n'
# u'...'
# u'\n'
.stripped_strings 输出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白内容
1
2
3
4
5
6
7
8
9
10
11
12
for string in soup.stripped_strings:
print(repr(string))
# u"The Dormouse's story"
# u"The Dormouse's story"
# u'Once upon a time there were three little sisters; and their names were'
# u'Elsie'
# u','
# u'Lacie'
# u'and'
# u'Tillie'
# u';\nand they lived at the bottom of a well.'
# u'...'
(5)父节点
知识点: .parent 属性
1
2
3
p = soup.p
print p.parent.name
#body
1
2
3
content = soup.head.title.string
print content.parent.name
#title
(6)全部父节点
知识点:.parents 属性
通过元素的 .parents 属性可以递归得到元素的所有父辈节点,例如
1
2
3
content = soup.head.title.string
for parent in content.parents:
print parent.name
1
2
3
4
title
head
html
[document]
(7)兄弟节点
知识点:.next_sibling .previous_sibling 属性
兄弟节点可以理解为和本节点处在统一级的节点,.next_sibling 属性获取了该节点的下一个兄弟节点,.previous_sibling 则与之相反,如果节点不存在,则返回 None 注意:实际文档中的 tag 的 .next_sibling 和 .previous_sibling 属性通常是字符串或空白,因为空白或者换行也可以被视作一个节点,所以得到的结果可能是空白或者换行
1
2
3
4
5
6
7
8
9
10
11
print soup.p.next_sibling
# 实际该处为空白
print soup.p.prev_sibling
#None 没有前一个兄弟节点,返回 None
print soup.p.next_sibling.next_sibling
#Once upon a time there were three little sisters; and their names were
# ,
#Lacie and
#Tillie ;
#and they lived at the bottom of a well.
#下一个节点的下一个兄弟节点是我们可以看到的节点
(8)全部兄弟节点
知识点:.next_siblings .previous_siblings 属性
通过 .next_siblings 和 .previous_siblings 属性可以对当前节点的兄弟节点迭代输出
1
2
3
4
5
6
7
8
for sibling in soup.a.next_siblings:
print(repr(sibling))
# u',\n'
# Lacie
# u' and\n'
# Tillie
# u'; and they lived at the bottom of a well.'
# None
(9)前后节点
知识点:.next_element .previous_element 属性
与 .next_sibling .previous_sibling 不同,它并不是针对于兄弟节点,而是在所有节点,不分层次 比如 head 节点为
那么它的下一个节点便是 title,它是不分层次关系的
1
2
print soup.head.next_element
#The Dormouse's story
(10)所有前后节点
知识点:.next_elements .previous_elements 属性
通过 .next_elements 和 .previous_elements 的迭代器就可以向前或向后访问文档的解析内容,就好像文档正在被解析一样
1
2
3
4
5
6
7
8
9
for element in last_a_tag.next_elements:
print(repr(element))
# u'Tillie'
# u';\nand they lived at the bottom of a well.'
# u'\n\n'
# ...
# u'...'
# u'\n'
# None
以上是遍历文档树的基本用法。
7. 搜索文档树
(1)find_all( name , attrs , recursive , text , **kwargs )
find_all () 方法搜索当前 tag 的所有 tag 子节点,并判断是否符合过滤器的条件 1)name 参数 name 参数可以查找所有名字为 name 的 tag, 字符串对象会被自动忽略掉 A. 传字符串 最简单的过滤器是字符串。在搜索方法中传入一个字符串参数,Beautiful Soup 会查找与字符串完整匹配的内容,下面的例子用于查找文档中所有的标签
1
2
soup.find_all('b')
# [The Dormouse's story ]
B. 传正则表达式 如果传入正则表达式作为参数,Beautiful Soup 会通过正则表达式的 match () 来匹配内容。下面例子中找出所有以 b 开头的标签,这表示 和标签都应该被找到
1
2
3
4
5
import re
for tag in soup.find_all(re.compile("^b")):
print(tag.name)
# body
# b
C. 传列表 如果传入列表参数,Beautiful Soup 会将与列表中任一元素匹配的内容返回。下面代码找到文档中所有标签和标签
1 2 3 4 5
soup.find_all(["a", "b"]) # [The Dormouse's story , # Elsie , # Lacie , # Tillie ]
D. 传 True True 可以匹配任何值,下面代码查找到所有的 tag, 但是不会返回字符串节点
1 2 3 4 5 6 7 8 9 10 11
for tag in soup.find_all(True): print(tag.name) # html # head # title # body # p # b # p # a # a
E. 传方法 如果没有合适过滤器,那么还可以定义一个方法,方法只接受一个元素参数 [4] , 如果这个方法返回 True 表示当前元素匹配并且被找到,如果不是则反回 False 下面方法校验了当前元素,如果包含 class 属性却不包含 id 属性,那么将返回 True:
1
2
def has_class_but_no_id(tag):
return tag.has_attr('class') and not tag.has_attr('id')
将这个方法作为参数传入 find_all () 方法,将得到所有
标签:
1
2
3
4
soup.find_all(has_class_but_no_id)
# [The Dormouse's story
,
# Once upon a time there were...
,
# ...
]
2)keyword 参数
注意:如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字 tag 的属性来搜索,如果包含一个名字为 id 的参数,Beautiful Soup 会搜索每个 tag 的”id” 属性
1
2
soup.find_all(id='link2')
# [Lacie ]
如果传入 href 参数,Beautiful Soup 会搜索每个 tag 的”href” 属性
1
2
soup.find_all(href=re.compile("elsie"))
# [Elsie ]
使用多个指定名字的参数可以同时过滤 tag 的多个属性
1
2
soup.find_all(href=re.compile("elsie"), id='link1')
# [three ]
在这里我们想用 class 过滤,不过 class 是 python 的关键词,这怎么办?加个下划线就可以
有些 tag 属性在搜索不能使用,比如 HTML5 中的 data-* 属性
1
2
3
data_soup = BeautifulSoup('foo!
')
data_soup.find_all(data-foo="value")
# SyntaxError: keyword can't be an expression
但是可以通过 find_all () 方法的 attrs 参数定义一个字典参数来搜索包含特殊属性的 tag
1
2
data_soup.find_all(attrs={"data-foo": "value"})
# [foo!
]
3)text 参数 通过 text 参数可以搜搜文档中的字符串内容。与 name 参数的可选值一样,text 参数接受 字符串,正则表达式,列表,True
1
2
3
4
5
6
7
8
soup.find_all(text="Elsie")
# [u'Elsie']
soup.find_all(text=["Tillie", "Elsie", "Lacie"])
# [u'Elsie', u'Lacie', u'Tillie']
soup.find_all(text=re.compile("Dormouse"))
[u"The Dormouse's story", u"The Dormouse's story"]
4)limit 参数 find_all () 方法返回全部的搜索结构,如果文档树很大那么搜索会很慢。如果我们不需要全部结果,可以使用 limit 参数限制返回结果的数量。效果与 SQL 中的 limit 关键字类似,当搜索到的结果数量达到 limit 的限制时,就停止搜索返回结果。文档树中有 3 个 tag 符合搜索条件,但结果只返回了 2 个,因为我们限制了返回数量
1
2
3
soup.find_all("a", limit=2)
# [Elsie ,
# Lacie ]
5)recursive 参数 调用 tag 的 find_all () 方法时,Beautiful Soup 会检索当前 tag 的所有子孙节点,如果只想搜索 tag 的直接子节点,可以使用参数 recursive=False . 一段简单的文档:
1
2
3
4
5
6
7
The Dormouse's story
...
是否使用 recursive 参数的搜索结果:
1
2
3
4
5
soup.html.find_all("title")
# [The Dormouse's story ]
soup.html.find_all("title", recursive=False)
# []
(2)find( name , attrs , recursive , text , **kwargs )
它与 find_all () 方法唯一的区别是 find_all () 方法的返回结果是值包含一个元素的列表,而 find () 方法直接返回结果
(3)find_parents() find_parent()
find_all () 和 find () 只搜索当前节点的所有子节点,孙子节点等. find_parents () 和 find_parent () 用来搜索当前节点的父辈节点,搜索方法与普通 tag 的搜索方法相同,搜索文档搜索文档包含的内容
(4)find_next_siblings() find_next_sibling()
这 2 个方法通过 .next_siblings 属性对当 tag 的所有后面解析的兄弟 tag 节点进行迭代,find_next_siblings () 方法返回所有符合条件的后面的兄弟节点,find_next_sibling () 只返回符合条件的后面的第一个 tag 节点
(5)find_previous_siblings() find_previous_sibling()
这 2 个方法通过 .previous_siblings 属性对当前 tag 的前面解析的兄弟 tag 节点进行迭代,find_previous_siblings () 方法返回所有符合条件的前面的兄弟节点,find_previous_sibling () 方法返回第一个符合条件的前面的兄弟节点
(6)find_all_next() find_next()
这 2 个方法通过 .next_elements 属性对当前 tag 的之后的 tag 和字符串进行迭代,find_all_next () 方法返回所有符合条件的节点,find_next () 方法返回第一个符合条件的节点
(7)find_all_previous () 和 find_previous ()
这 2 个方法通过 .previous_elements 属性对当前节点前面的 tag 和字符串进行迭代,find_all_previous () 方法返回所有符合条件的节点,find_previous () 方法返回第一个符合条件的节点
注:以上(2)(3)(4)(5)(6)(7)方法参数用法与 find_all () 完全相同,原理均类似,在此不再赘述。
8.CSS 选择器
我们在写 CSS 时,标签名不加任何修饰,类名前加点,id 名前加 #,在这里我们也可以利用类似的方法来筛选元素,用到的方法是 soup.select(), 返回类型是 list
(1)通过标签名查找
1
2
print soup.select('title')
#[The Dormouse's story ]
1
2
print soup.select('b')
#[The Dormouse's story ]
(2)通过类名查找
(3)通过 id 名查找
1
2
print soup.select('#link1')
#[ ]
(4)组合查找
组合查找即和写 class 文件时,标签名与类名、id 名进行的组合原理是一样的,例如查找 p 标签中,id 等于 link1 的内容,二者需要用空格分开
1
2
print soup.select('p #link1')
#[ ]
直接子标签查找
1
2
print soup.select("head > title")
#[The Dormouse's story ]
(5)属性查找
查找时还可以加入属性元素,属性需要用中括号括起来,注意属性和标签属于同一节点,所以中间不能加空格,否则会无法匹配到。
1
2
print soup.select('a[class="sister"]')
#[ , Lacie , Tillie ]
1
2
print soup.select('a[href="http://example.com/elsie"]')
#[ ]
同样,属性仍然可以与上述查找方式组合,不在同一节点的空格隔开,同一节点的不加空格
1
2
print soup.select('p a[href="http://example.com/elsie"]')
#[ ]
以上的 select 方法返回的结果都是列表形式,可以遍历形式输出,然后用 get_text () 方法来获取它的内容。
1
2
3
4
5
6
soup = BeautifulSoup(html, 'lxml')
print type(soup.select('title'))
print soup.select('title')[0].get_text()
for title in soup.select('title'):
print title.get_text()
好,这就是另一种与 find_all 方法有异曲同工之妙的查找方法,是不是感觉很方便?
总结
本篇内容比较多,把 Beautiful Soup 的方法进行了大部分整理和总结,不过这还不算完全,仍然有 Beautiful Soup 的修改删除功能,不过这些功能用得比较少,只整理了查找提取的方法,希望对大家有帮助!小伙伴们加油! 熟练掌握了 Beautiful Soup,一定会给你带来太多方便,加油吧!
你可能感兴趣的:(python爬虫,python,爬虫)
python 基于aiohttp的异步爬虫实战
钢铁知识库
python教程 python 爬虫 开发语言
钢铁知识库,一个学习python爬虫、数据分析的知识库。人生苦短,快用python。之前我们使用requests库爬取某个站点的时候,每发出一个请求,程序必须等待网站返回响应才能接着运行,而在整个爬虫过程中,整个爬虫程序是一直在等待的,实际上没有做任何事情。像这种占用磁盘/内存IO、网络IO的任务,大部分时间是CPU在等待的操作,就叫IO密集型任务。对于这种情况有没有优化方案呢,当然有,那就是使用
100天精通Python(爬虫篇)——第113天:爬虫基础模块之urllib详细教程大全
m0_74825074
面试 学习路线 阿里巴巴 python 爬虫 开发语言
文章目录1.urllib概述2.urllib.request模块1.urllib.request.urlopen()2.urllib.request.urlretrieve()3.urllib.request.Request()4.urllib.request.install_opener()5.urllib.request.build_opener()6.urllib.request.Abstr
aiohttp的详细使用和异步爬虫实战
数据知道
2025年爬虫和逆向教程 爬虫 python aiohttp asyncio 异步爬虫
文章目录1.基本概念2.安装aiohttp3.一个简单的异步爬虫4.示例代码及解析5.并发控制6.错误处理7.数据解析与存储8.高级用法8.1限速8.2处理JavaScript渲染的页面8.3异步文件写入8.4POST请求8.5使用代理8.6超时设置9.总结aiohttp是一个基于asyncio的异步HTTP客户端/服务器框架,非常适合用于编写高效的异步爬虫。下面我们将详细讲解如何使用aiohtt
量子计算如何改变加密技术:颠覆与变革的前沿
Echo_Wish
人工智能 前沿技术 量子计算
量子计算如何改变加密技术:颠覆与变革的前沿大家好,我是Echo_Wish,一名专注于人工智能和Python的自媒体创作者。今天,我们来探讨一个前沿且引人深思的话题——量子计算如何改变加密技术。随着量子计算的快速发展,传统的加密技术面临前所未有的挑战和机遇。本文将详细介绍量子计算对加密技术的影响,并通过实际代码示例展示其可能的应用。一、量子计算的基本概念量子计算是一种基于量子力学原理的新型计算方式,
python pip 国内加速
无用功无事忙
python pip 开发语言
python,pip相关学习资料:https://edu.51cto.com/video/1158.htmlhttps://edu.51cto.com/video/2083.htmlhttps://edu.51cto.com/video/3502.htmlPythonpip国内加速指南作为一名刚入行的开发者,你可能会在安装Python库时遇到速度慢的问题。这通常是因为默认的pip源在国外,访问速度
python系列&deep_study系列:使用python操作麦克风录制讲话,实时语音识别转换为文字
坦笑&&life
AI系列 python 语音识别 xcode
使用python操作麦克风录制讲话,实时语音识别转换为文字使用python操作麦克风录制讲话,实时语音识别转换为文字项目步骤VoskPyaudio完整代码使用python操作麦克风录制讲话,实时语音识别转换为文字在这个项目中,我们将建立一个系统,它可以使用麦克风录制现场讲话,然后通过语音识别进行转录。这可用于自动记录和转录会议、讲座和其他活动,能过自动记录演讲内容。我们将编写代码,来开始和停止录音
python-操作符相关介绍(一)
小白快快跑哦
python 开发语言
软件的过程就是数据处理的过程,前面我们讲了python的各种类型的数字,并没有去说操作符,我一直在想是讲完所有python的内置类型再去说这个问题,还是不用等到那么晚。思考再三,我觉得还是把python所遇到的操作符都说一遍,这种操作符很多人都耳熟能祥,但是温故而知新,相信再次的阅读能让你加深印象,初学者也可以通过本章的学习对操作符有一个深入的认知。说到操作符,我们不得不提到表达式,什么是表达式呢
使用Python和Vosk库实现语音识别
车载testing
python 语音识别 开发语言
使用Python和Vosk库实现语音识别在人工智能和机器学习领域,语音识别技术正变得越来越重要。Python作为一种强大的编程语言,拥有丰富的库和框架,可以方便地实现语音识别功能。今天,我们将介绍如何使用Python中的SpeechRecognition库和Vosk模型来实现语音识别。一、SpeechRecognition库的安装SpeechRecognition库是Python中一个简单易用的语
【python】4_异常
简易091
python python 开发语言
目录一、异常处理1、异常捕获基本捕获语法:捕获指定异常:捕获多个异常:捕获所有异常:异常else&finally:2、异常的传递性二、模块模块的导入方式1、语法2、as定义别名一、异常处理1、异常捕获基本捕获语法:try:可能发生错误的代码except:如果出现异常执行的代码捕获指定异常:try:print(name)exceptNameErrorase:print("name变量名未定义错误")
Python入门学习指南
小码快撩
python 开发语言
Python是一种高级编程语言,因其简洁和易读性而广受欢迎。无论你是编程新手还是有经验的开发者,Python都是一个很好的选择。本文将带你入门Python编程,涵盖基本概念和常用语法。1.安装Python首先,你需要在你的计算机上安装Python。你可以从Python官方网站下载并安装最新版本的Python。安装过程中,请确保勾选“AddPythontoPATH”选项。2.第一个Python程序安
Python库Numpy学习+代码实例
海绵宝宝
python numpy 学习 机器学习
前言Numpy是python语言的一个扩充程序库,支持高端大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库,现已成为机器学习的必备模块。本文章对Numpy库的原文档进行了学习,可作为文档阅读理解来进行阅读。附原文档链接如下:Numpy库文档库的介绍该库中的对象为多维数组,原名为ndarray,因此经常被叫做array。python中也有一个库叫做array,但是与这里的ndarra
Python+whisper/vosk实现语音识别
唯余木叶下弦声
python whisper 语音识别 人工智能
目录一、Whisper1、Whisper介绍2、安装Whisper3、使用Whisper-base模型4、使用Whisper-large-v3-turbo模型二、vosk1、Vosk介绍2、vosk安装3、使用vosk三、总结一、Whisper1、Whisper介绍Whisper是一个由OpenAI开发的人工智能语音识别模型,它能够将语音转换为文本。Whisper模型特别之处在于它的设计目标是能够
python与C系列语言的差异总结(4)
yyc_audio
python c语言 前端
如果具有传统编译型语言的经验,大家可能会对是否使用字典而犹豫不决,担心字典的效率比列表或数组低。事实上Python字典的执行速度已经相当快了。Python语言的许多内部特性都依赖于字典,为提高字典的效率已经投入了大量的心血。Python的所有数据结构都经过了高度优化,因此不应该花太多时间去考虑哪个更快,哪个效率更高。pass语句也可在Python中需要语句的其他任何地方使用。pass语句用作语句的
【python】3_容器
简易091
python python 开发语言
目录一、列表list1.1基本语法1.2常用操作方法1.3列表的遍历二、元组tuple特点:三、字符串常用操作方法:四、序列操作方法:切片五、元素特点:基本语法:集合常用功能:六、字典定义:注意事项:什么是容器可以存储多个元素的python数据类型python有哪些数据容器list(列表)、tuple(元组)、str(字符串)、set(集合)、dict(字典)一、列表list1.1基本语法#定义变
Python Cookbook-2.12 将二进制数据发送到 Windows 的标准输出
我不会编程555
#Python学习 windows python 开发语言 笔记
任务在Windows平台上,你想把二进制数据(比如一张图片)发送到stdout中。解决方案Python标准库中,依赖特定平台(Windows)的模块msvcrt提供了setmode函数,可用来完成这个任务:importsysifsys,platform=="win32":importos,msvcrtmsvcrt,setmode(sys.stdout.fileno(),os.O_BINARY)现在
chromedriver自动下载 —— python
(* ̄︶ ̄)(*^▽^*)
python 开发语言
#工作实践webdriver自带的ChromeDriverManager().install()方法,对应的驱动地址自从114版本后没有更新了;隔一段时间就需要手动下载驱动,所以写了一个简单的自动更新方法,还有一些不足,勉强够用吧1、查看源码,大致是保存了一个json文件,每次获取driver最后更新版本,并更新到json文件中;然后下载最新的资源并解压到文件夹2、本来想改源码,但是有修改提示,考
Python--函数高级(上)
索然无味io
Python安全开发 python 开发语言 web安全 windows 网络安全 笔记 学习
1.函数嵌套1.1作用域与函数定义Python以函数为作用域,内部数据只能被当前作用域或子作用域访问。NAME="全局变量"defouter():definner():print(NAME)#访问全局变量inner()outer()#输出:全局变量关键点:函数查找变量时遵循LEGB规则(Local→Enclosing→Global→Built-in)函数定义的位置影响作用域(全局/局部)1.2嵌套
No module named _sqlite3
m0_60217276
python sqlite3
linux多版本python无法导入sqlite3的解决方法由于是在公司的服务器下,yum和sudo命令都无法使用。尝试了一下几种办法后,sqlite3安装+python重编译下载sqlitewgethttps://www.sqlite.org/2017/sqlite-autoconf-3170000.tar.gz--no-check-certificate解压该文件tar-zxvfsqlite-
如何用python将pdf转为text并提取其中的图片
dev.null
Python python pdf 服务器
要将PDF转为文本并提取其中的图片,可以使用Python的几个库来实现:PDF转文本:使用PyMuPDF或pdfplumber来提取文本。提取图片:使用PyMuPDF或pdf2image来提取图像。以下是实现的步骤和代码示例:1.安装必要的库你需要安装以下库:pipinstallPyMuPDFpdfplumberPillow2.代码示例提取PDF中的文本你可以使用PyMuPDF或pdfplumbe
Python各类图形绘制—turtle与Matplotlib-31、扇形面积计算
Math_teacher_fan
Python基础图形绘制 python matplotlib 开发语言 人工智能 学习
Python各类图形绘制—turtle与Matplotlib-31、扇形面积计算目录Python各类图形绘制—turtle与Matplotlib-31、扇形面积计算前言开发环境turtle_demoMatplotlib_demo前言既然是学习数学,肯定会离不开各种图形,之前的文章中很多我都尽可能的不使用图来表示了,但是觉得不好,毕竟数学离开了图就会很抽象,所以我们这里单独的学习一下Python的各
【Python大语言模型系列】如何在LangChain中使用ReAct构建AI Agent(案例+源码)
脱泥不tony
人工智能 python 语言模型 自然语言处理 AI大模型 LangChain Agent
一、引言========当前,在各个大厂纷纷卷LLM的情况下,各自都借助自己的LLM推出了自己的AIAgent,比如字节的Coze,百度的千帆等,还有开源的Dify。你是否想知道其中的原理?是否想过自己如何实现一套AIAgent?当然,借助LangChain就可以。ReAct(ReasoningandAction)是一个框架,其核心思想,就是通过思维链的方式,引导模型将复杂问题进行拆分,一步一步地
跟我一起学Python数据处理(九十六)之深入理解API
lilye66
python 开发语言 apache
跟我一起学Python数据处理(九十六)之深入理解API大家好呀!在数据处理的学习道路上,咱们今天要一起探索一个超实用的领域——应用编程接口(API)。我希望能和大家一起在这个知识海洋里畅游,共同进步,掌握更多的数据处理技能。一、什么是APIAPI听起来很高大上,其实就是Web上共享数据的一种标准方式。很多网站都会通过API端点来分享数据。打个比方,API就像是网站的一扇窗户,我们通过这扇窗户向网
软件开发:创新与挑战并存的旅程
javascriptphp
在当今数字化时代,软件开发已成为推动社会进步和经济发展的核心力量,它宛如一座桥梁,连接着现实世界与数字世界,为人们的生活和工作带来了前所未有的便利和效率。编程基础:基石与翅膀编程语言精通:开发人员需熟练掌握至少一门编程语言,如Java、Python或C++等。不同的编程语言适用于不同的应用场景,如Java常用于企业级应用开发,Python在数据科学和人工智能领域应用广泛,C++则在性能要求极高的系
基于python+django的宠物商店-宠物管理系统源码+运行步骤
冷琴1996
Python系统设计 python django 宠物
该系统是基于python+django开发的宠物商店-宠物管理系统。是给师妹开发的课程作业。现将源码开放给大家。大家学习过程中,如遇问题可以在github咨询作者。加油演示地址前台地址:http://pet.gitapp.cn后台地址:http://pet.gitapp.cn/admin后台管理帐号:用户名:admin123密码:admin123源码地址https://github.com/gee
代码整洁之道: 改善Python程序的9条最佳实践
AI天才研究院
编程实践 Java实战 Python实战 大数据 人工智能 语言模型 Java Python 架构设计
作者:禅与计算机程序设计艺术1.简介为什么要写一份关于代码整洁之道的文章呢?因为相信很多同学在写代码的时候总是会遇到一些坏习惯,导致代码质量不高,阅读困难等问题,所以作者在第五题提到了编程规范这块,而我相信改进自己的代码习惯无疑是提升编程水平和能力的一件大事,所以就写了一本关于代码整洁之道的书籍。那么今天我们就来看一下如何让自己写的Python程序更加清晰易读,更加可维护,更加健壮。下面我们就从9
基于 YOLO 进行车道线检测与目标检测算法研究及开发的一般步骤
pk_xz123456
python 算法 深度学习 YOLO 目标检测 算法
基于深度学习的车道线检测与目标检测在自动驾驶等领域有着重要应用,使用YOLO(YouOnlyLookOnce)进行开发是一种常见且高效的方式。以下是关于基于YOLO进行车道线检测与目标检测算法研究及开发的一般步骤和相关内容:1.环境搭建首先确保你的开发环境安装了必要的软件和库,推荐使用Python语言,以下是一些关键库:PyTorch:YOLO通常基于PyTorch实现,安装适合你系统的PyTor
selenium如何实现,开启浏览器的开发者工具模式
test猿
selenium 测试工具
核心配置方案pythonCopyCode#通用导入方式(适配Selenium5.x+)fromseleniumimportwebdriverfromselenium.webdriver.common.serviceimportService#---------------------------#️Chrome/Edge配置方案#---------------------------defchro
selenium如何实现,开启浏览器的开发者工具模式,并且开启 toggle移动设备模拟模式
test猿
selenium 测试工具
核心实现代码pythonCopyCodefromseleniumimportwebdriverfromselenium.webdriver.chrome.optionsimportOptionsdefenable_devtools_with_toggle():options=Options()#强制开启开发者工具options.add_argument("--auto-open-devtools-
用AI写游戏3——python实现坦克大战1
AnalogElectronic
python数据人工智能 python 游戏 pygame
用python实现一个坦克大战小游戏,屏幕大小宽高1000x800px敌人有10个坦克,会发射子弹,会随机自由移动,碰撞到屏幕边界会反弹,我方是一个黄颜色坦克,能发子弹,能移动,子弹集中敌人坦克就爆炸消失,并得到10分,所有坦克消灭后游戏胜利,我方被敌人坦克子弹击中则爆炸消失,游戏结束。1、KIMI实现实现效果:实现一个完整的坦克大战小游戏需要使用Python的图形库,比如pygame。以下是一个
【算法】 ‘abb‘ 型子序列问题——前后缀分解 python
查理零世
python 算法
‘abb’型子序列题目描述leafee最近爱上了abb型语句,比如“叠词词”、“恶心心”leafee拿到了一个只含有小写字母的字符串,她想知道有多少个“abb”型的子序列?定义:abb型字符串满足以下条件:字符串长度为3。字符串后两位相同。字符串前两位不同。输入描述:第一行一个正整数第二行一个长度为的字符串(只包含小写字母)1≤≤1e5输出描述:“abb”型的子序列个数。示例1输入6abcbcc输
ztree异步加载
3213213333332132
JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑,我开始的时候也是看了API花了些时间才搞定了异步加载,在这里分享给大家。
我后台代码生成的是json格式的数据,数据大家按各自的需求生成,这里只给出前端的代码。
设置setting,这里只关注async属性的配置
var setting = {
//异步加载配置
thirft rpc 具体调用流程
BlueSkator
中间件 rpc thrift
Thrift调用过程中,Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类,这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作:
(1) 将客户端程序调用的函数名和参数传递给协议层(TProtocol),协议
异或运算推导, 交换数据
dcj3sjt126com
PHP 异或 ^
/*
* 5 0101
* 9 1010
*
* 5 ^ 5
* 0101
* 0101
* -----
* 0000
* 得出第一个规律: 相同的数进行异或, 结果是0
*
* 9 ^ 5 ^ 6
* 1010
* 0101
* ----
* 1111
*
* 1111
* 0110
* ----
* 1001
事件源对象
周华华
JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令
g21121
mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化,主要包括字符集设置,启动设置,连接优化,表优化,分区优化等等。
一 修改MySQL密码及用户
 
[简单]poi删除excel 2007超链接
53873039oycg
Excel
采用解析sheet.xml方式删除超链接,缺点是要打开文件2次,代码如下:
public void removeExcel2007AllHyperLink(String filePath) throws Exception {
OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart
云端月影
准备以下开源项目:
1. Struts 2.1.6
2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009)
3. jofc2,这东西不知道是没做好还是什么意思,好像和ofc2不怎么匹配,最好下源码,有什么问题直接改。
4. log4j
用eclipse新建动态网站,取名OFC2Demo,将Struts2 l
spring包详解
aijuans
spring
下载的spring包中文件及各种包众多,在项目中往往只有部分是我们必须的,如果不清楚什么时候需要什么包的话,看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包,关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念
antonyup_2006
算法 Web 应用服务器 搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时,准备了解下网站的推广分析策略。
所谓网站推广,目的在于让尽可能多的潜在用户了解并访问网站,通过网站获得有关产品和服务等信息,为最终形成购买决策提供支持。
网站推广策略有很多,seo,email,adv
单例模式,sql注入,序列
百合不是茶
单例模式 序列 sql注入 预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时 需要使用序列创建一个自增长的字段 居然不会了,所以将序列写在本篇的前面
1,序列是一个保存数据连续的增长的一种方式;
序列的创建;
CREATE SEQUENCE seq_pro
2 INCREMENT BY 1 -- 每次加几个
3
Mockito单元测试实例
bijian1013
单元测试 mockito
Mockito单元测试实例:
public class SettingServiceTest {
private List<PersonDTO> personList = new ArrayList<PersonDTO>();
@InjectMocks
private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标
bijian1013
oracle 数据库 plsql
/*
*使用游标
*/
--显示游标
--在显式游标中使用FETCH...INTO语句
DECLARE
CURSOR emp_cursor is
select ename,sal from emp where deptno=1;
v_ename emp.ename%TYPE;
v_sal emp.sal%TYPE;
begin
ope
【Java语言】动态代理
bit1129
java语言
JDK接口动态代理
JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式,为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联
package com.tom;
import com.tom.model.User;
import com.tom.service.IUserService;
Java通信之URL通信基础
白糖_
java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持,java.net包能让程序员直接在程序中实现网络通信。
在技术日新月异的现在,我们能通过很多方式实现数据通信,比如webservice、url通信、socket通信等等,今天简单介绍下URL通信。
学习准备:建议首先学习java的IO基础知识
URL是统一资源定位器的简写,URL可以访问Internet和www,可以通过url
博弈Java讲义 - Java线程同步 (1)
boyitech
java 多线程 同步 锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件,共用数据库连接,全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。
同步不仅可以阻止一个线程看到对象处于不一致的状态,它还可以保证进入同步方法或者块的每个线程,都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件(cri
java-给定字符串,删除开始和结尾处的空格,并将中间的多个连续的空格合并成一个。
bylijinnan
java
public class DeleteExtraSpace {
/**
* 题目:给定字符串,删除开始和结尾处的空格,并将中间的多个连续的空格合并成一个。
* 方法1.用已有的String类的trim和replaceAll方法
* 方法2.全部用正则表达式,这个我不熟
* 方法3.“重新发明轮子”,从头遍历一次
*/
public static v
An error has occurred.See the log file错误解决!
Kai_Ge
MyEclipse
今天早上打开MyEclipse时,自动关闭!弹出An error has occurred.See the log file错误提示!
很郁闷昨天启动和关闭还好着!!!打开几次依然报此错误,确定不是眼花了!
打开日志文件!找到当日错误文件内容:
--------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱?
comsci
地球上的钛金属矿藏已经接近枯竭...........
我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床.....
那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes
dai_lm
google api
为了获得从A点到B点的路劲,经常会使用Google提供的API,例如
[url]
http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false
[/url]
从返回的结果上,大致可以了解应该怎么走,但
SQL还有多少“理所应当”?
datamachine
sql
转贴存档,原帖地址:http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html!
------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时,如何设置某些字段不需要验证
dcj3sjt126com
Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如:
$form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码
dcj3sjt126com
crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com
管理一网站,最开始使用的虚拟空间,采用提供商支持的ftp上传网站文件,后换用vps,vps可以自己搭建ftp的,但是懒得搞,直接使用scp传输文件到服务器,现在需要更新文件到服务器,使用scp真的很烦。发现本人就职的公司,采用的git+rsync的方式来管理、同步代码,遂
sql基本操作
蕃薯耀
sql sql基本操作 sql常用操作
sql基本操作
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
蕃薯耀 2015年6月1日 17:30:33 星期一
&
Spring4+Hibernate4+Atomikos3.3多数据源事务管理
hanqunfeng
Hibernate4
Spring3+后不再对JTOM提供支持,所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考:http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站:http://www.atomikos.com/ 一.pom.xml
<dependency>
<
jquery中两个值得注意的方法one()和trigger()方法
jackyrong
trigger
在jquery中,有两个值得注意但容易忽视的方法,分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍
1) one方法
one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数,格式为
one(type,${data},fn)
&nb
拿工资不仅仅是让你写代码的
lampcy
工作 面试 咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是,我并不关心你是如何快速完成任务的,哪怕代码很差,只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。
这个说法其实很合理:我们的工作是思考客户提出的问题,然后制定解决方案。思考第一,代码第二,公司请我们的最终目的不是写代码,而是想出解决方案。
话粗理不粗。
付你薪水不是让你来思考的,也不是让你来写代码的,你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空
nannan408
架构师
1.前言。
如题。
2.代码。
(1)对象的复制,比spring的beanCopier在大并发下效率要高,利用net.sf.cglib.beans.BeanCopier
Src src=new Src();
BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案
Rainbow702
JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面,各位可能都做过。
今天碰到一个奇怪的现象,就是,同一个ajax请求,在chrome中,不论发送多少次,都可以发送至服务器端,而不会被缓存。但是,换成在IE下的时候,发现,同一个ajax请求,会发生被缓存的情况,只有第一次才会被发送至服务器端,之后的不会再被发送。郁闷。
解决方法如下:
① 直接使用 JQuery提供的 “cache”参数,
修改date.toLocaleString()的警告
tntxia
String
我们在写程序的时候,经常要查看时间,所以我们经常会用到date.toLocaleString(),但是date.toLocaleString()是一个过时 的API,代替的方法如下:
package com.tntxia.htmlmaker.util;
import java.text.SimpleDateFormat;
import java.util.
项目完成后的小总结
xiaomiya
js 总结 项目
项目完成了,突然想做个总结但是有点无从下手了。
做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。
先说说项目主要实现的功能吧
1,按键精灵
2,获取行情数据
3,各种input输入条件判断
4,发送数据(有json格式和string格式)
5,获取预警条件列表和预警结果列表,
6,排序,
7,预警结果分页获取
8,导出文件(excel,text等)
9,修