烈风回响

python爬虫05 - BeautifulSoup4的安装，下载，源码简介，使用。

1. bs4简介

1.1 基本概念

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的网页信息提取库

1.2 源码分析

• github下载源码
• 安装
• pip install lxml
• pip install bs4

pip install bs4 -i https://pypi.douban.com/simple

在github 下载BeautifulSoup源码

下载第一个

BeautifulSoup源码简介

主要的源码在bs4 中间两个文档文件夹最后一个脚本文件夹先不用看

一张爱丽丝梦游仙境的插图

_init_ 就是初始化的意思

class BeautifulSoup(Tag): 经常出现
Tag就是标签就是让你传递一个lxml html文档
咱们再看一些有什么方法


insert before 在前面插入
insert after 在之后插入
而前面用到过pop 删除的意思那么这三个方法就是修改方法

find() find_all()
这就是一些查找的方法

遍历的方法
还有很多很多方法值得去注意学习的

找next_sibling 下一个兄弟的意思吧就像是导航的意思
我们用爬虫写一些代码从网上获取一些免费的资源比如文字图片平常中我们可以通过复制粘贴这个动作来创建一个新的文本但是网页中这个文字粘贴到文本里是一个比较慢的动作而爬虫的核心思想就是写一些程序这些程序能把文字爬取并且能把文字保存在文档里这些代码或者是想法就衍生出来了各种各样的工具模块
bs4就是其中的一种模块那么它是如何抓取数据的查找导航…

比如在next_sibling()这个方法中

就比如说平常是
对象.next_sibling() 加了装饰器@property后对象.next_sibling 就可以将next_sibling当作属性来调用

只要是通过装饰器装饰的他的小图标就是蓝紫色p标记的
有兴趣就要再多看看可以把里面内容翻译一下

2. bs4的使用

比如你到了公司刚拿到一个最新的技术点你又没有太多合适的博客资料你该如何学习

可以看这个文档点击你有的浏览器打开

2.1 快速开始

咱们也用这个例子玩玩
大家可以看出这个html文档结构有些不美观

html_doc = """
The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.

...
"""

我们可以看到body标签中有很多段落 p a 段落中属性比如class=“story”
href属性对应的是一个链接还有id 还有比如Elsie Lacie这样的文字
打印一下这个结构不是很美观呀


BeautifulSoup是一个类
可以创建一个实例化对象
BeautifulSoup()的传一个Tag 我们就传入html_doc

run后给了一个警告

‘features=“lxml”’ 就是说的你的解释器少了lxml

加上’lxml’
这样就行了结构就变得清晰了

将html变成一个实例化对象，这个对象的方法

比如我们找The Dormouse’s story 而不是p标签里的title

print(soup.title)

我们以前用xpath 得把这个数据变成一个element对象然后再写xpath的语法
写哪个标签下的标签
而这种方法直接对象.属性的方法直接找到了
而且如果你用正则表达式把那一段截取下来

中间一删除换成 (.*?)

这还是比较简单的正则

所以上面的那个新方法是非常简单粗暴的直接就拿到了这个数据了
获取标签的名字

那比如我想要中间的那个数据


那必如要找这个p导航的话
而且通过标签导航找的是第一个

那么你可能就想找到所有的p标签我们先看看有多少个p标签
而且要注意上回的p是一个属性而这个会得传一个字符串的 ‘p’ 要不然就报错了

确实有3个p标签

在看看print®的结果是什么

而且还用逗号分隔了第二个p标签下有3个a标签
Once upon a time there were three little sisters; and their names were
从前有三个小姐妹，她们的名字是 3个a标签中的文字
and they lived at the bottom of a well
他们住在井底

第二个p标签下有3个a标签

而且这些数据都是在一个列表中那么你想拿这些元素就可以遍历这个列表
那还比如你想要href中的链接

links = soup.find_all('a')

for link in links:
    print(link.get('href'))

from bs4 import BeautifulSoup
html_doc = """
The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.

...
"""
soup=BeautifulSoup(html_doc,'lxml')
# "(.*?)"
# print(soup.prettify())
# print(soup.title)
# print(soup.title.string)
# print(soup.p)
# r = soup.find_all('p')
# print(len(r))
# print(r)

links = soup.find_all('a')

for link in links:
    print(link.get('href'))

也就是你想从html_doc 中找数据就先通过soup=BeautifulSoup(html_doc,‘lxml’)把html_doc变成一个对象然后这个对象有很多找数据的方法导航搜索修改…

小结

# 获取bs对象
bs = BeautifulSoup(html_doc,'lxml')
# 打印文档内容(把我们的标签更加规范的打印)
print(bs.prettify())
print(bs.title) # 获取title标签内容 The Dormouse's story
print(bs.title.name) # 获取title标签名称 title
print(bs.title.string) # title标签里面的文本内容 The Dormouse's story
print(bs.p) # 获取p段落

2.2 bs4的对象种类

• tag : 标签
• NavigableString : 可导航的字符串
• BeautifulSoup : bs对象
• Comment : 注释

那么刚才上面的soup是bs4的哪种对象？
当然是第三种 BeautifulSoup : bs对象

soup=BeautifulSoup(html_doc,'lxml')

打印一下其类型

再看看上面那个title标签是bs4的哪种对象
tag : 标签

tag是一个标签(tag)类型的对象那么按照这个结论 a p head 都是标签(tag)类型的对象
验证一下

html_doc = """
The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.

...
"""
from bs4 import BeautifulSoup

soup=BeautifulSoup(html_doc,'lxml')
print(type(soup))  # 
print(type(soup.title))  # 
print(type(soup.a)) # 
print(type(soup.p)) # #

那么NavigableString : 可导航的字符串这个是什么意思
比如我想看p标签的里面一些文字内容怎么搞

bs.p.string

而且是默认找第一个属性


那么这个soup.p.string对象的类就是NavigableString (可导航的字符串)
也就是我们通过soup.p.string导航到了文本的内容
那么最后一个Comment : 注释类对象呢？

很显然赋了值的title_tag就是第一个p标签了

也就是能看到p标签的 class属性还有其中的文字内容

java里的注释： // python里的注释： #
前端的注释没法打出来

得模拟一个注释才能看出来效果

print(soup.p.string) #The Dormouse's story

而

html_comment = ''
soup=BeautifulSoup(html_comment,'lxml')

print(soup.b.string)

时结果只会是注释 (就是这个位置的内容)
再看看它的类型

html_doc = """
The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.

...
"""
from bs4 import BeautifulSoup
soup=BeautifulSoup(html_doc,'lxml')
print(type(soup))  # 
print(type(soup.title))  # 
print(type(soup.a)) # 
print(type(soup.p)) # # 
print(soup.p.string) #The Dormouse's story
print(type(soup.p.string)) # 

# title_tag=soup.p
# print(title_tag)
# // #
html_comment = ''
soup=BeautifulSoup(html_comment,'lxml')
# print(soup.b.string)
print(type(soup.b.string))#

小结

print(bs.title)
获取title标签内容

print(bs.title.name) # 获取title标签名称 title
print(bs.title.string) # title标签里面的文本内容 The Dormouse’s story
print(bs.title[‘class’]) #获取title标签里的属性 [‘title’]

我想要这个属性值怎么找


title_tag = soup.p

print(title_tag['class'])

返回的是一个列表想要里面的元素价格[0]就ok

文字内容在b标签中

当然我们知道 soup.p这样找p标签只能找第一个
当然还可以用find_all (上面已经演示过的)

from bs4 import BeautifulSoup
soup=BeautifulSoup(html_doc,'lxml')

# print(soup.title)
# print(soup.p)
# print(soup.p.b)
# print(soup.a)
all_p=soup.find_all('p')#返回的是一个列表

print(all_p)

3. 遍历树遍历子节点

bs里面有三种情况，第一个是遍历，第二个是查找，第三个是修改

3.1 contents children descendants

• contents 返回的是一个列表
• children 返回的是一个迭代器通过这个迭代器可以进行迭代
• descendants 返回的是一个生成器遍历子子孙孙

迭代 iterate 指的是按照某种顺序逐个访问列表(比如列表但是还有其他例子)中的某一项例如 Python中的for语句
循环 loop 指满足某些条件下，重复执行某一段代码例如 Python中的while语句

html_doc还是那个爱丽丝梦游仙境的
contents 返回的是一个列表

那这个links的值是什么

你会发现contents把html文档(html_doc)的所有内容全部拿到了而且是把全部内容放在了列表中

children

children 返回的是一个迭代器通过这个迭代器可以进行迭代


html = '''

李若彤
热巴
老师

'''

soup2=BeautifulSoup(html,'lxml')
links2=soup2.contents
for li in links2:
    r=li.find_all('a')# 也正好find_all方法返回的是一个列表
    print(r)
    for l in r:
        print(l.string)

[<a href="#">李若彤</a>, <a href="#">热巴</a>, <a href="#">老师</a>]
李若彤
热巴
老师

可以看出links是一个可迭代的
那么我们就可以通过for遍历一下看看结果如何

html = '''
<div>
<a href='#'>李若彤</a>
<a href='#'>热巴</a>
<a href='#'>老师</a>
</div>

links=soup2.div.children
print(type(links))
for link in links:
    print(link)

descendants

descendants 返回的是一个生成器遍历子子孙孙

soup.contents的类型是列表所以长度是1

TypeError: object of type ‘generator’ has no len()
也就是这个generator类型的对象是没有长度的子子孙孙就没长度了
generator就是生成器的意思

D:\python\python.exe D:/LongProject/爬虫/day008/遍历子节点.py
---------
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>
---------
<head><title>The Dormouse's story</title></head>
---------
<title>The Dormouse's story</title>
---------
The Dormouse's story
---------


---------
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body>
---------


---------
<p class="title"><b>The Dormouse's story</b></p>
---------
<b>The Dormouse's story</b>
---------
The Dormouse's story
---------


---------
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
---------
Once upon a time there were three little sisters; and their names were

---------
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
---------
Elsie
---------
,

---------
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
---------
Lacie
---------
 and

---------
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
---------
Tillie
---------
;
and they lived at the bottom of a well.
---------


---------
<p class="story">...</p>
---------
...
---------



Process finished with exit code 0

用分割线分割后更容易看出结果的结构
第一个是整个的doc_html文档
它可以循环拿到所有的内容某一个标签下的子元素包括子元素的子元素(跟剥洋葱一样剥一层少一层)

3.2 .string .strings .stripped strings

• string获取标签里面的内容
• strings 返回是一个生成器对象用过来获取多个标签内容
• stripped strings 和strings基本一致但是它可以把多余的空格去掉

.string

string获取标签里面的内容 (就是文字内容)

title节点前面还有一个父节点 head 那我去head标签中找是否也可以找到内容

是可以的
但是title 节点都是只有一个内容
head节点只有一个子节点而且子节点中只有一个内容
如果多个呢？

None 就是没有获取到.
所以string的使用场景就是第一这个节点只有一个子元素,第二这个节点只有一个内容
我们再对html_doc做些改动验证一下
在head节点中的title节点后增加一个有内容的b节点

结果当然还是这种从先的原则

也就是只用string
如果节点中有多个子节点子节点中有内容
那么多个内容就无法全部获取

.strings

strings 返回是一个生成器对象用过来获取多个标签内容

strings赋值后(soup.strings)就成了生成器(generator)对象

D:\python\python.exe D:/LongProject/爬虫/day008/遍历子节点.py
The Dormouse's story
656dfwf


The Dormouse's story


Once upon a time there were three little sisters; and their names were

Elsie
,

Lacie
 and

Tillie
;
and they lived at the bottom of a well.


...



Process finished with exit code 0

soup.strings是把全部内容都拿到了
但是可能内容不是特别美观

.stripped_strings

stripped strings 和strings基本一致但是它可以把多余的空格去掉

也就是去了个空格吧

D:\python\python.exe D:/LongProject/爬虫/day008/遍历子节点.py
The Dormouse's story
656dfwf
The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie
,
Lacie
and
Tillie
;
and they lived at the bottom of a well.
...

Process finished with exit code 0

4. 遍历树遍历父节点

parent 和 parents
• parent直接获得父节点
• parents获取所有的父节点

这个title的父节点是谁直接父节点就是head呀
也就是我们要找title节点这级数据的上一级数据就是head节点吧


title_tag=soup.title
print(title_tag)
print(title_tag.parent)

那看看html节点有没有父节点

html的父节点就是它本身也就是整个文档

• parents获取所有的父节点
先拿a标签练练手

你可以看出.parents与.parent 返回的结果是不同的额前者是生成器对象后者是父节点
这点可以类比.string与.strings

a节点的父节点就有点多了
首先是p节点
然后是body节点再然后是html节点后面的重复的后面还会讲到先不用管它

D:\python\python.exe D:/LongProject/爬虫/day008/遍历父节点.py
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
---------
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body>
---------
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>
---------
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>
---------

Process finished with exit code 0

5. 遍历树遍历兄弟结点

• next_sibling 下一个兄弟结点
• previous_sibling 上一个兄弟结点
• next_siblings 下一个所有兄弟结点
• previous_siblings上一个所有兄弟结点

比如拿b标签(节点)

c没有下一个兄弟节点的呀
previous_sibling
那试试c的上一个兄弟结点那不就是b节点了吗

next_siblings 下一个所有兄弟结点
previous_siblings上一个所有兄弟结点

那么得拿爱丽丝梦游仙境的文档来练

a标签的下一个标签是,
那么a标签下一个所有的兄弟节点就是

D:\python\python.exe D:/LongProject/爬虫/day008/遍历父节点.py
----------
,

----------
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
----------
 and

----------
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
----------
;
and they lived at the bottom of a well.

Process finished with exit code 0

那么还有一种

此时的a_tag就是最后的一个a标签那么
previous_siblings
a节点上一个所有兄弟结点就是

6. 搜索树

• 字符串过滤器
• 正则表达式过滤器
我们用正则表达式里面compile方法编译一个正则表达式传给 find 或者 findall这个方法可以实现一个正则表达式的一个过滤器的搜索
• 列表过滤器
• True过滤器
• 方法过滤器

字符串过滤器
比如找a标签

a_tag = soup.find('a')

那么这种情况其实就是字符串过滤器


那找所有的a标签呢
而且返回值还是列表

也就是过滤器中find_all 方法会把soup中的所有标签划分元素放入列表中只传一个’a’ 就是soup.find_all(‘a’) 找元素（标签）中所有a开头的标签或者元素(’<'应该不算开头字符串)

a_tag = soup.find('a')  find找一个直接返回结果
a_tags=soup.find_all('a') find_all找所有 返回列表

正则表达式过滤器
先导入模块re

# • 正则表达式过滤器
print(soup.find(re.compile('title')))

当然上面的那个写法很简单来个稍微难度的

说明re.compile( )中传入的只能是先匹配开头的


当然还有更多复杂的写法就不一一阐述了

列表过滤器
其实就是能多找点什么开头的节点

print(soup.find_all(['p','a']))

也就是找出p和a开头的所有标签

蓝色的为一整个p标签(里面还有很多a标签) 是这个列表的一个元素

没有id开头的标签所有找不到

find就找一个还从先所以只能是两个标签就不找a开头的

True过滤器

print(soup.find_all(True))

这个过滤器意义不是特别大…

什么是高阶函数呢
就是以函数对象作为参数接收的函数或者是以函数对象作为返回值返回的函数就是高阶函数
(有点套娃的感觉)

方法过滤器

def fn(tag):

    return tag.has_attr('id')

print(soup.find_all(fn))

tag是有这个has_attr( )方法的

也就是这个有了这个tag.has_attr方法就能找含有id属性的标签
soup.find_all(fn) 这个高阶的函数可以理解成找所有含有id属性的标签

而是如果单独传入一个’id’ 那憨憨的find_all只会找所有id开头的标签结果就是没有一个…

复习

7. find_all() 和 find()

7.1 find_all()

• find_all()方法以列表形式返回所有的搜索到的标签数据
• find()方法返回搜索到的第一条数据
• find_all()方法参数

def find_all(self, name=None, attrs={}, recursive=True, text=None,
                 limit=None, **kwargs):

• name : tag名称
• attr : 标签的属性
• recursive : 是否递归搜索默认是True
• text : 文本内容
• limit : 限制返回条数
• **kwargs : 关键字参数
不定长参数分为两种: *args 位置参数 **kwargs关键字参数

name : tag名称

还有高级点的

传入标签加上传入属性值就不会再先找第一个了

tag标签也就是再次定位一下
传入标签的属性必须是标签对应的class值才行也就是要找这样的tag名称

而且双引号单引号没影响的

…

所以就是tag 传入一个后在指定传入一个class的属性值这个功能有点局限的.

再说一下kwargs : 关键字参数
找一个关键字参数刚好这个就是

还有一种(脱了裤子放p的)写法就是和上面效果一样的
导入re模块
import re

print(soup.find_all(id=re.compile('link1')))

还有一个text的参数也就是找文本的内容
text : 文本内容
我们可以结合re.compile()这样来写

limit : 限制返回条数

limit=1是什么东西呢
限制一条以第一条数据进行返回返回的是一个列表

limit=2

limit=3 嗯 3个和3个以上结果都一样的因这个html_doc 中就只有3个a标签

那么试试limit=-1 会不会是倒数第一个a标签

结果还是第一个然后limit=-2 -3 -999 都是返回第一个
那limit=0呢那不就是不限制条数那返回的列表就是全部a标签的呀

然后find_all 中还有一个参数
recursive : 是否递归搜索
这个recursive的默认值是 True

什么意思的呢就是我先找就是先找儿子再找孙子这一种正常的找法
那如果改成False呢它就会查找子节点如果子节点找不到比如还有孙子

把recursive原来的默认值改成False 这样它就成找a节点下面的子节点了

这个你知道有这个参数就可以了的
最多的就是用的是 name这个

而且我还确实发现find_all 传入name 的话找的方式是从开头筛选而find(re.comple()) 从标签的整个内容进行匹配的而且传入的标签名字都得是字符串

我们再看一下find() 方法返回的是一个bs4.element.Tag对象
而find_all()是一个列表(有很多bs4.element.Tag对象的元素)

7.2 find_parents() find_parent() find_next_siblings() find_next_sibling()

• find_parents() 搜索所有父亲
• find_parrent() 搜索单个父亲
• find_next_siblings()搜索所有兄弟
• find_next_sibling()搜索单个兄弟


Elsie怎么找的呢

s是一个bs4.element.NavigableString对象

结果是一堆也就是用find_all 找出的是Elsie的所有父节点

D:\python\python.exe "D:/LongProject/爬虫/day009/find( )和find_all( ).py"
[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>, <body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body>, <html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>, <html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>]

Process finished with exit code 0

那要是找p节点(有Elsie) 在s.find_parents()中加上’p’ 而且这个s不是soup(不是一个BeautifulSoup对象) 而是

s=soup.find(text='Elsie')
print(s.find_parent('p'))

s是个 bs4.element.NavigableString对象

find_parent方法返回的是一个bs4.element.Tag 对象 (bs4的元素标签)
而find_parent返回的是一个类似列表的(列表中有很多bs4.element.Tag 对象的元素) 但其实是一个bs4.element.ResultSet对象 (bs4元素结果)
且调用这两种方法的都是一个bs4.element.NavigableString对象
来历(比如这个对象就是s)

s=soup.find(text='Elsie')
print(type(s))

<class 'bs4.element.NavigableString'>

html_doc='那一堆'
from bs4 import BeautifulSoup
import re
soup=BeautifulSoup(html_doc,'lxml')
# name : tag名称
# attr : 标签的属性
# recursive : 是否递归搜索
# text : 文本内容
# limit : 限制返回条数
# kwargs : 关键字参数
# a_tags=soup.find_all('a',"sister")
# print(a_tags)
# a=soup.find_all(id='link1')
# print(a)
# print(soup.find_all(id=re.compile('link1')))  #这个结果和前者一样的
# print(soup.find_all(text=re.compile('story')))
# print(soup.find_all('a',limit=0))
# print(soup.find_all('html',recursive=False))
# print(soup.find_all('a',limit=1)[0])
# print(soup.find('a'),type(soup.find('a')))#返回的是一个bs4.element.Tag对象
# print(soup.prettify())
title_tag=soup.title
# print(title_tag.find_parent())

s=soup.find(text='Elsie')
# print(type(s))
# a=s.find_parent('p')
# print(s.find_parent('p'),type(a))
a=s.find_parents('p')
print(s.find_parents('p'),type(a))

也就是bs4.element.NavigableString

剩下这个两个方法
• find_next_siblings()搜索所有兄弟
• find_next_sibling()搜索单个兄弟

find_next_siblings()返回的是一个

当然也可以传入’a’ (好像有点多此一举)

那试试这样

print(soup.find_next_siblings('a'))

果然还不行的

find_mext_siblings() 找到了link1的所有的兄弟了所有返回结果有包含link2 link3 的两个标签
调用find_mext_siblings() 和find_next_sibling()的对象得是个bs4.element.Tag 对象


find_next_sibling() 找下一个的兄弟

还算值得总结的是find_mext_siblings() 和find_next_sibling()方法中传入’a’的操作可有可无
因为当然传入更保险的

a_tag=soup.a

find_next_sibling()返回的结果是bs4.element.Tag对象找下一个的兄弟
find_next_siblings()返回的是bs4.element.ResultSet对象像一个有很多bs4.element.Tag对象元素的列表找所有的兄弟

7.3 find_previous_siblings() find_previous_sibling find_all_next() find_next()

• find_previous_siblings() 往上搜索所有兄弟
• find_previous_sibling() 往上搜索单个兄弟
• find_all_next() 往下搜索所有元素
• find_next()往下查找单个元素

那结和上面的方法如何使用往上搜索比如找上面的含有link2的标签

找含link3标签的前所有个兄弟标签

find_previous_sibling()的调用对象就是bs4.elements.Tag
find_previous_siblings()也是
find_previous_sibling()与find_previous_siblings()返回结果跟前面的方法一样的

• find_all_next() 往下搜索所有元素
• find_next()往下查找单个元素

all_next就是返回所有的 next就是返回一个

find_all_next() 往下搜索所有元素就是从当前的位置往下查找所有的元素可能是它的子节点或者是兄弟节点

也就是应该从这开始的

再来试试用find_next() 查找一个a标签

上面的这些比较多，但是容易理解使用就是不太好记住的

8. 修改文档树

• 修改tag的名称和属性
• 修改string 属性赋值,就相当于用当前的内容替代了原来的内容
• append() 向tag中添加内容,就好像Python的列表的 .append() 方法
• decompose() 修改删除段落，对于一些没有必要的文章段落我们可以给他删除掉

现在要把class的属性改成content 就是class='concent’那该怎么做

那就得先找到这个p标签

那样吧我们先修改标签的名称再修改标签的值

1.修改标签名称与修改标签的属性值

from bs4 import BeautifulSoup
import re

html_doc = """
The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.

...
"""

soup=BeautifulSoup(html_doc,'lxml')

p_tag=soup.p
print(p_tag)
p_tag.name='w' #修改标签的名称
p_tag['class']='content'  #修改属性值
print(p_tag)

2.修改string 属性赋值

• 修改string 属性赋值,就相当于用当前的内容替代了原来的文本内容

比如上面的的例子两个内容重复了我们可以以此为例修改一个
还是先找到你要修改的标签的

p_tag=soup.p

修改就是第一个p标签的

3.append() 向tag中添加内容

• append() 向tag中添加内容,就好像Python的列表的 .append() 方法
还是先来个p_tag=soup.p

4.decompose() 修改删除段落

• decompose() 修改删除段落，对于一些没有必要的文章段落我们可以给他删除掉
html_doc中的

<p class="title"><b>The Dormouse's story</b></p>

与上下内容有些重复

那么就得删除这段数据的以此为例(由)来演试方法

那还就得找到该标签吧
怎么找我们换个找法跟 p_tag=soup.p不一样的
soup.find(class_=‘title’)

r=soup.find(class_='title')
print(r)

那怎么删的呢这有个返回值r对吧

这个r就没了
或者我们打印soup
中间的p标签已经删去不见了

小练习

先打开中国天气网页

爬取全中国所有的城市对应的最低气温

但是这个全国的每个省份是分开的

有华北的还有东北的华东的华中的 … 就是依次爬取
我们先看下华北的url
http://www.weather.com.cn/textFC/hb.shtml

再看一下东北的
http://www.weather.com.cn/textFC/db.shtml

是有一点点小变化
就可以看出来每一个url地址对应一个地区(对应一个华北华东东北这样的一个地区)
依次把这些地区的省份气温爬取完后就是把全国的地区的气温(为了简演示就拿夜间最晚的)爬取了

我们先搞清我们的需求
需求:爬去全中国所有城市以及对应的温度
然后就开始分析页面了先来分析第一个华北这个页面 (分析页面是做爬虫中最重要的一个环节如果不会分析页面就会导致老师讲的你会但是换几个页面就不会了 )

右键点击北京检查

就定位到了北京这个文本内容所在的节点

可以看出北京这个文本内容在a标签中 a标签的父标签是td标签
td标签的父标签是tr标签


我们所需要的这个tr标签是table下的第三个 tr标签也就是倒数第一个
而且我们鼠标放到table标签上北京的区域全部属于一个高亮状态而其他省份没有高亮的选中状态

那么就是这个table只管北京这个直辖市那么天津就也有一个table 河北也有一个table

所以这个table就有很多的我们应该用find_all找所有
咱们再往上看
我们可以看到table标签有一个上级有一个属性为class="conMidtab"一个div标签
当我们鼠标放在这个属性值为conMidtab的div标签时我们会发华北区所有省份/直辖市 (北京天津河北山西内蒙古…) 都是高亮状态

那么我们就捋一捋思路
class="conMidtab"这个div标签找一个就行用find 因为这个标签就包含这个页面的所有内容了的
而且我们发现这有个线

顺着这个线往下找
下面有还有很多属性值是conMidtab这样的标签

style=“display:none;” style 就是格式 display 就是显示 none就是没有的意思就是格式是没有显示 (被隐藏的状态)
我们再点开周一的天气会发现第二个属性值conMidtab的标签就不再是隐藏状态了 display: block 就是打开的意思
也就是可以发现每一个属性值conMidtab的div标签就是对应这个页面上周几的所有地方的天气

所以总的页面分析的思路就是需求是先找到精准地方的夜间最晚天气

首先得先找到属性值是conMidtab的div标签然后再找下面的table标签

前两个tr标签都是表头它们没有子节点(标签)

然后找第三个tr标签找到其中的第0个td 就是要其中的地点文本内容如北京
然后倒数第二个td是温度

操作

##
# 需求:爬去全中国所有城市以及对应的温度
import requests
from bs4 import BeautifulSoup

#定义一个函数来解析网页
def parse_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
    }
    reponse=requests.get(url,headers=headers)
    print(reponse)
def main():
    url='http://www.weather.com.cn/textFC/hb.shtml'
    parse_page(url)

if __name__ == '__main__':
    main()

我们也可以先打印一下这个reponse.text（reponse只是一个响应状态对象）

我们发现reponse.text有很多乱码

我们可以换种方式

    print(reponse.content.decode('utf-8'))

也就是第一种 reponse.text 方式会猜网页的编码方式猜错就会出现乱码
print(reponse.content.decode(‘utf-8’))
而上面的代码就是先.content拿到这个网页的这个字节流数据
再通过decode()转换成字符串并且再设置一个‘utf-8’的编码方式
这样就可以了

能确实拿到数据后就不用打印了就可以设置一个值返回

    text=reponse.content.decode('utf-8')

那么这个text就在这个华北的网页源代码

仅找第一个conMidtab属性值得div标签方便练习每个这样的标签都是有着不同的周几的全部此页面华北的所有省/直辖市的天气

所以找conMidtab属性值得div标签用find方法

    conMidtab=soup.find('div',class_='conMidtab') #找div这个标签  再加上class属性的值是conMidtab

那么这样我们就获取到属性值是conMidtab的div标签了而且这里面有很多table 有北京的天津的河北的山西的…所以我们得find_all 找table

soup=BeautifulSoup(text,'lxml')
    conMidtab=soup.find('div',class_='conMidtab') #找div这个标签  再加上class属性的值是conMidtab

    tables=conMidtab.find_all('table') #find_all的返回值是一个列表  可以用来遍历

就能看到有很多table
那么接下来就要找table中的第三个tr标签需要把前两个tr标签过滤掉

用find_all找到所有的tr 就是trs一个列表

##
# 需求:爬去全中国所有城市以及对应的温度
import requests
from bs4 import BeautifulSoup

#定义一个函数来解析网页
def parse_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
    }
    reponse=requests.get(url,headers=headers)
    # print(reponse.text) #会有乱码
    # print(reponse.content.decode('utf-8'))
    text=reponse.content.decode('utf-8')
    # 解析网页
    # 先获取conMidtab 这个div标签
    soup=BeautifulSoup(text,'lxml')
    conMidtab=soup.find('div',class_='conMidtab') #找div这个标签  再加上class属性的值是conMidtab

    tables=conMidtab.find_all('table') #find_all的返回值是一个列表  可以用来遍历
    for table in tables:

        # print('-----------------------------')

        #找到所有的tr标签 并且把前两个过滤掉
        trs=table.find_all('tr')[2:]#还是通过name值来寻找这个标签的  当然也可以比如上面的class_='conMidtab'来指定
        for tr in trs:

            print(tr)
        break #找到北京结束

def main():
    url='http://www.weather.com.cn/textFC/hb.shtml'
    parse_page(url)
    
if __name__ == '__main__':
    main()

就这样找到北京(第三个tr中第一个td) 还有北京的天气(第三个tr中倒数第二个td)

但是只要td标签中的内容就不能再用string 此处不能用string

stripped_strings 就是获取去空格后的字符串

find_all的返回值是个列表中是一个td标签一个元素第一个元素中就是第一个td然后提取其中的内容北京

find_all返回的是
bs4.element.ResultSet对象
city_td.stripped_strings 这个方法直接将bs4.elements.Tag对象(也就是将bs4.element.ResultSet的元素)中的文本内容找到定位
其返回值是
返回值类型就是一个generator对象只要像下面这样list(city_td.stripped_strings) 就得到[‘北京’]
然后
city = list(city_td.stripped_strings)[0] 就取到北京了

同理我们可以拿这个温度

在倒数第二个td中

##
# 需求:爬去全中国所有城市以及对应的温度
import requests
from bs4 import BeautifulSoup

#定义一个函数来解析网页
def parse_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
    }
    reponse=requests.get(url,headers=headers)
    # print(reponse.text) #会有乱码
    # print(reponse.content.decode('utf-8'))
    text=reponse.content.decode('utf-8')
    # 解析网页
    # 先获取conMidtab 这个div标签
    soup=BeautifulSoup(text,'lxml')
    conMidtab=soup.find('div',class_='conMidtab') #找div这个标签  再加上class属性的值是conMidtab

    tables=conMidtab.find_all('table') #find_all的返回值是一个列表  可以用来遍历
    for table in tables:

        # print('-----------------------------')

        #找到所有的tr标签 并且把前两个过滤掉
        trs=table.find_all('tr')[2:]#还是通过name值来寻找这个标签的  当然也可以比如上面的class_='conMidtab'来指定
        for tr in trs:


            #找td标签里的城市和对应温度
            tds=tr.find_all('td')
            # print('tds=',tds)
            # print(type(tds))
            city_td=tds[0]
            temp_td=tds[-2]

            # print('city_td=',city_td)
            city = list(city_td.stripped_strings)[0] # 城市
            temp = list(temp_td.stripped_strings)[0] # 温度
            print(city,temp)
            # print(city_td.stripped_strings,type(city_td.stripped_strings))
            # print(list(city_td.stripped_strings))
        break #找到北京结束

def main():
    url='http://www.weather.com.cn/textFC/hb.shtml'
    parse_page(url)



if __name__ == '__main__':
    main()

再把break注释掉

那么运行程序就会把属性值为conMidtab的div 每一个这样的div就是一个地区的
每个属性值为conMidtab的div就是http://www.weather.com.cn/textFC/hb.shtml#页面的一个周几的所有华北所有地区的气温
每个属性值为conMidtab2的div就是这天(一个周几)的所有华北所有地区的气温

所以注释break后就不会从找到第一个地区(北京)后停止而是把这个页面(hb.shtml#)今天的华北全部地区的天气地区全部拿取出来都

拿不了一周全因为上图中第一步用find方法找了最近的class="conMidtab"的div标签也就是今天的华北全部地区的天气
display：block 就是打开展示

因为每一个coMidta2 div标签都代表一个华北中的一个地区所以直接找所有的table标签返回一个 bs4.elements.ResultSet对象(tables) 然后遍历它

还是得到bs4.elements.ResultSet对象(trs=table.find_all(‘tr’))

trs=table.find_all(‘tr’)[2:] 这步直接让这个 bs4.elements.ResultSet对象变成了list对象



但其实也没啥关系因为 [2:]为了找第三个tr标签
因为其中有地区和温度但是包含地区和温度的标签第一个td 倒数第二个td

结果开头都没毛病
再换个东北的页面 http://www.weather.com.cn/textFC/db.shtml
头部有问题

应该是哈尔滨开始的

少这个哈尔滨了

我们发现哈尔滨早第三个tr中第二个的td 中而不是在第一个td中
而且我们发现华北页面中北京在第一个td中也在第二一个td中

那么就可以知道第一个td中是
第二个td才是这个城市地区
而第一个地区是省/直辖市

如果这样

发现是没法粗鲁解决的


也就是什么时候取第一个td 黑龙江的什么时候取第二td 哈尔滨的是不确定的

我们可以拿到他们的索引值什么时候拿到第一个td什么时候拿到第二个td
所以我们得想办法拿到tr坐标的索引值
我们加上index 拿到每个tr的下标索引值

enumerate(trs)

enumerate(trs) 返回2个值第一个是下标索引第二个是下标索引所对应的值

图中的tr的索引值分别是0 1 2 但是在咱们的程序中已经过滤前两个了

那么就是第三个tr索引值是0

我们发现除了前两个tr 后面的tr中都是含有地区天气内容的但是很特别的是第三个tr(每个页面的第三tr都是这样)
第一个td是省或者直辖城市第二个td才是第一个城市
而像北京这样的直辖市是北京第一个城市还是北京那么华北的页面第三个tr中的第一个td 和第二个td内容都一样的
都是北京
而第四个tr中第一个td是城市地区而第二个是没有内容的但是他们的倒数第二个td都是本城市的温度

##
# 需求:爬去全中国所有城市以及对应的温度
import requests
from bs4 import BeautifulSoup

#定义一个函数来解析网页
def parse_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
    }
    reponse=requests.get(url,headers=headers)
    # print(reponse.text) #会有乱码
    # print(reponse.content.decode('utf-8'))
    text=reponse.content.decode('utf-8')
    # 解析网页
    # 先获取conMidtab 这个div标签
    soup=BeautifulSoup(text,'lxml')
    conMidtab=soup.find('div',class_='conMidtab') #找div这个标签  再加上class属性的值是conMidtab

    tables=conMidtab.find_all('table') #find_all的返回值是一个列表  可以用来遍历
    print(type(tables))
    for table in tables:

        # print('-----------------------------')

        #找到所有的tr标签 并且把前两个过滤掉
        trs=table.find_all('tr')[2:]#还是通过name值来寻找这个标签的  当然也可以比如上面的class_='conMidtab'来指定
        # print(type(trs))
        for index, tr in enumerate(trs):

            #找td标签里的城市和对应温度
            tds=tr.find_all('td')
            # print('tds=',tds)
            # print(type(tds))
            city_td=tds[0]
            # 解决直辖市和省份问题 通过判断下标索引值来取第1个值
            if index == 0:
                city_td = tds[1]  # 直辖市也OK 省会更OK
            temp_td=tds[-2]

            # print('city_td=',city_td)
            city = list(city_td.stripped_strings)[0] # 城市
            temp = list(temp_td.stripped_strings)[0] # 温度
            print('城市:',city,'温度:',temp)
            # print(city_td.stripped_strings,type(city_td.stripped_strings))
            # print(list(city_td.stripped_strings))
        # break #找到北京结束

def main():
    url='http://www.weather.com.cn/textFC/hb.shtml'
    url='http://www.weather.com.cn/textFC/db.shtml' #上面的url应该是自动注销的 看字色
    parse_page(url)



if __name__ == '__main__':
    main()

所以下面使用enumerate(trs)记住比较好理解

        for index, tr in enumerate(trs):

            #找td标签里的城市和对应温度
            tds=tr.find_all('td')
            # print('tds=',tds)
            # print(type(tds))
            city_td=tds[0]
            # 解决直辖市和省份问题 通过判断下标索引值来取第1个值
            print(index)
            if index == 0:
                city_td = tds[1]  # 直辖市也OK 省会更OK  完美解决了
            temp_td=tds[-2]

如果在试试港澳台地区.

结果就不对.

那么只能是这个港澳台的页面有问题

已知 class=“conMidtab” 的div标签(红框选中的)每一个这样的标签就是一个周几的华北页面的全部天气

而且每一个class=“conMidtab2” 的div标签是华东页面中的每一个地区的天气

查看港澳台这个地区的网页源代码

我们发现table 标签又开始没有结束
说明是她的网页的标签有问题

而在检查中elements中是有这个结束标签的因为这个Google Chrome功能十分强大它把这些错乱的标签或者是不完整的标签给咱们补全了但是在我们获得的网页源码中是没有的咱门的天气城市数据都是从网页源码拿来的
只不过我们再检查中看elements可以更清楚地看数据
elements中的是最终呈现的结果
就是text(就是获取的网页源码)有问题但是我们总不能自己手动补全吧

bs4的源代码里有一句话



但是很可惜报错了
bs4.FeatureNotFound: Couldn’t find a tree builder with the features you requested: html5lib. Do you need to install a parser library?
bs4.FeatureNotFound:找不到具有您请求的功能的树生成器：html5lib。你需要安装解析器库吗？
安装这个换源安装用豆瓣
pip install html5lib -i https://pypi.douban.com/simple

可能pip的版本不够需要升级升级后再pip install html5lib
python -m pip install --upgrade pip

原因就是html5lib他的解析能力更强比如这个text网页源码不全的它就能够更强的这种网页错乱问题

# @Time    : 2020/7/28 20:49
# @Author  : Jerry
# @File    : weather.py

# 第一个 分析页面结构
# 第二个 直辖市和省份问题 通过判断下标索引值来取第1个值
# 第三个 网页标签问题 soup = BeautifulSoup(text,'html5lib')




# 需求:爬去全中国所有城市以及对应的温度

import requests

from bs4 import BeautifulSoup

# 定义一个函数来解析网页
def parse_page(url):

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
    }

    response = requests.get(url,headers=headers)

    # print(response.content.decode('utf-8'))

    text = response.content.decode('utf-8')
    #
    #     # 解析网页
    # 先获取conMidtab 这个div标签 pip install html5lib
    soup = BeautifulSoup(text,'html5lib')
    conMidtab = soup.find('div',class_ = 'conMidtab')

    # 找到所有的table标签
    tables = conMidtab.find_all('table')

    for table in tables:
        # print('----------------------------')

        # 找到所有的tr标签 并且把前2个过滤掉
        trs = table.find_all('tr')[2:]
        # enumerate(trs) 返回2个值 第一个是下标索引 第二个是下标索引所 对应的值
        for index,tr in enumerate(trs):

            # 找td标签里面的城市和对应温度
            tds = tr.find_all('td')

            city_td = tds[0]

            # 解决直辖市和省份问题 通过判断下标索引值来取第1个值
            if index == 0: #保证是过滤后前两个tr后 如果这个就是第一个tr(即原来的第三tr 因为第三个tr中前两个td 一个省会 一个城市容易出错 但是天气还是倒数第二个)
                city_td = tds[1] # 直辖市也OK 省会更OK



            temp_td = tds[-2]

            city = list(city_td.stripped_strings)[0] # 城市
            temp = list(temp_td.stripped_strings)[0] # 温度
            print('城市:',city,'温度:',temp)



            # print(tr)
        # break # 找到北京结束






def main():


    # url = 'http://www.weather.com.cn/textFC/hb.shtml' # 华东
    # url = 'http://www.weather.com.cn/textFC/db.shtml' # 东北
    # url = 'http://www.weather.com.cn/textFC/gat.shtml' # 港澳台

    urls = ['http://www.weather.com.cn/textFC/hb.shtml','http://www.weather.com.cn/textFC/db.shtml','http://www.weather.com.cn/textFC/gat.shtml']

    for url in urls:


        parse_page(url)

if __name__ == '__main__':

    main()

课堂复习

你可能感兴趣的:(python爬虫,python)

Python 成绩等级判定 Camellia 泡泡 python 笔记
score=int(input("请输入学生成绩:"))if90<=score<=100:grade="A"elif75<=score<=90:grade="B"elif60<=score<=75:grade="C"elifscore<60:grade="D"print("本次考试，等级为:",grade)运行结果：
【Python】PDFMiner.six：高效处理PDF文档的Python工具技术无疆 Python python pdf 开发语言 python3.11 人工智能数据挖掘机器学习
PDF是一种广泛使用的文件格式，特别适用于呈现固定布局的文档。然而，提取PDF文件中的文本和信息并不总是那么简单。幸好有许多Python库可以帮助我们，其中，PDFMiner.six是一个功能强大、专门用于PDF文档解析的库。⭕️宇宙起点什么是PDFMiner.six？主要功能安装PDFMiner.six♨️核心功能和代码示例1.提取PDF文档的纯文本2.从多个页面提取文本3.提取PDF中的表格内
25道Python练手题（附详细答案），赶紧收藏！_python题库字节全栈_rJF python 开发语言
importrandomasrdnumber=rd.randint(0,100)foriinrange(10):choice=int(input("请输入你要猜测的数字："))ifchoice>number:print("你猜大了")elifchoice0and5*x+3*y+z/3==100:count+=1print("="*60)print(f'第{count}种买法，公鸡买了{x}只，母鸡
python爱心代码高级 youyouxiong python 开发语言
在Python中，我们可以使用各种方法来绘制一个“爱心”形状。以下是一个使用turtle模块绘制爱心的高级示例。这个示例将使用更复杂的数学公式和图形操作来绘制一个更精致的爱心形状。importturtleimportmath#设置初始状态window=turtle.Screen()window.bgcolor("black")#设置背景色为黑色love=turtle.Turtle()love.sp
python画一个爱心戴子雯 python绘画 python
大家好这是我的地一篇博客，我要写一个关于python的文章我要用python写一个爱心。不说别的，先看效果效果如下：话不多说，上代码，在这之前要下载python下载这事咱们放在最后现在上代码！！！！！！！！！！！！！！importturtleastt.pensize(2)#笔大小2像素t.pencolor("red")#颜色为红色t.left
brew 安装pip_pip brew wget 安装 weixin_32612253 brew 安装pip
终端播放器安装教程从简书上看到一篇,终端实现网易云音乐的文章,并给出了一个github链接.心里有些痒痒,想看看是什么样子,于是尝试安装.安装过程中有些坎坷,记录以便以后查阅.程序实现是用Python写的.安装使用方式仅仅给了三行命令.安装$pipinstallnetease-musicbox$brewinstallmpg123使用$musicbox下载了源码后,不知道该如何安装.三行命令也是莫名
python实现绘制爱心函数（绘制过程） halo0416 python 开发语言
首先，确保已经安装了matplotlib库和numpy库。如果没有安装，可以通过pip来安装：pipinstallmatplotlibpipinstallnumpy了解心形函数公式：x(t)=y(t)=13cos⁡(t)−5cos⁡(2t)−2cos⁡(3t)−cos⁡(4t)定义函数：defheart_shape(t):x=16*np.sin(t)**3y=13*np.cos(t)-5*np.c
python 绘图（爱心） @小H python 开发语言
#-*-coding:utf-8-*-fromturtleimport*defcurvemove():foriinrange(200):right(1)forward(1)color('red','pink')begin_fill()left(140)forward(111.65)curvemove()left(120)curvemove()forward(111.65)end_fill()don
Mulvus向量库数据插入失败排查 Sirius Wu milvus
Mulvus是一个开源的向量数据库，要判断数据是否成功插入以及在插入失败时进行排查，可以参考以下方法：确认数据是否成功插入1.API返回结果在使用Mulvus提供的API插入数据时，API会返回相应的结果信息。以PythonSDK为例，插入数据的代码通常如下：frompymilvusimportconnections,Collection,FieldSchema,CollectionSchema,
使用 Python 绘制爱心图形（高级版）徐浪老师徐浪老师大讲堂 python 开发语言
以下是一段使用Python绘制高级“爱心”图案的代码，结合数学公式生成精美的爱心形状，并附加一些交互式的效果，比如渐变颜色或动态展示：动态渐变爱心importnumpyasnpimportmatplotlib.pyplotaspltimportmatplotlib.animationasanimation#设置爱心的数学公式defheart_shape(t):x=16*np.sin(t)**3y=
2025计算机毕设全流程实战指南：Java/Python+协同过滤+小程序开发避坑手册启点毕设课程设计 java python 大四论文指南查重降重技巧毕业设计 spring
技术框架的选择是项目开发的关键起点，直接影响开发效率和最终成果质量。然而，许多开发者在选择技术框架时面临困难：现有知识储备不足以支撑复杂项目需求，团队经验有限，框架选择缺乏前瞻性常导致后期问题。尽管技术框架的选择过程充满挑战，但合适的框架能为项目开发和维护奠定基础，而不当的选择则可能带来持续的技术债务和开发困扰。所以，建议对项目技术框架把握不好的同学，最好是找自己的研究生学长或者老师详细的把关机技
pycharm中使用anaconda部署python环境_pycharm部署配置anaconda环境教程 weixin_39796652
本篇文章小编给大家分享一下pycharm部署配置anaconda环境教程，小编觉得挺不错的，现在分享给大家供大家参考，有需要的小伙伴们可以来看看。pycharm部署anaconda环境Pycharm：python编辑器，社区版本Anaconda：开源的python发行版本(专注于数据分析的python版本)，包含大量的科学包环境基本指令(准备工作)：conda--version查看anaconda
python poetry添加某个git仓库的某个分支 waketzheng git
命令行不太清楚怎么弄，但可以通过编辑pyproject.toml实现实例：pypika-tortoise={git="https://github.com/henadzit/pypika-tortoise",branch="do-not-use-builder"}参考：WIPDonotcopypypikaquerybyhenadzit·PullRequest#1851·tortoise/torto
The following modules are *disabled* in configure script:_sqlite3 waketzheng python
Unabletoupgradepast3.6.9-#24byRosuav-PythonHelp-DiscussionsonPython.orgsudoaptinstalllibsqlite3-devcdPython-3.13.1./configure--enable-optimizations--enable-loadable-sqlite-extensionsmakesudomakealtins
CentOS7 python安装Ta-lib 0.6.x【talib不能直接安装，必须先安装ta_lib之c++库才可以】 weixin_43343144 服务器运维
正常流程：CentOS7python安装Ta-lib【talib不能直接安装，必须先安装ta_lib之c++库才可以】_centos7安装ta-lib-CSDN博客不同的版本参考如下！参考官方文档：ta-lib·PyPI务必下载匹配版本的【ta-lib-0.6.4-src.tar.gz】才可以正常安装$wgethttps://github.com/ta-lib/ta-lib/releases/do
【Kivy App】Pyjnius是什么？ Botiway 移动APP Kivy python
Pyjnius是一个Python库，用于在Python中访问Java类和方法，特别适用于在Kivy或其它Python应用中调用AndroidAPI。以下是Pyjnius的详细介绍、安装和使用方法：1.Pyjnius是什么？Pyjnius是一个Python-to-Java的桥接工具，允许Python代码直接调用Java类和方法。它基于JavaNativeInterface(JNI)，主要用于以下场景
基于Python PYQT5 的相机定时采集图像程序，GUI打包独立运行夏时summer time python qt 数码相机相机
基于PythonPYQT5编写相机定时采集图像及手动采集版本介绍Python3.6pyqt55.15.4pyqt5-tools5.15.4.3.2另外就是常用的cv2和numpy包fromPyQt5importQtCore,QtGui,QtWidgetsfromPyQt5importQtCore,QtGui,QtWidgetsimportcv2importnumpyasnpfromdatetime
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
Mac下载python并安装小小酥*
下载pythonPython官网：https://www.python.org/进入官网后点击download，选择MacOSX版本2.安装MAC系统一般都自带有Python2.x版本的环境，你也可以在链接https://www.python.org/downloads/mac-osx/上下载最新版安装。3.设置环境变量程序和可执行文件可以在许多目录，而这些路径很可能不在操作系统提供可执行文件的搜
Python使用minIO上传下载身似山河挺脊梁 python
前提VSCode+Python3.9minIO有Python的例子1.python生成临时文件2.写入一些数据3.上传到minIO4.获取分享出连接5.发出通知#创建一个客户端minioClient=Minio(endpoint='xx',access_key='xx',secret_key='xx',secure=False)#生成文件名current_datetime=datetime.dat
深入理解Python上下文管理器 ……-…… python 开发语言
1.什么是上下文管理器？2.with语句的魔法3.创建上下文管理器的两种方式3.1基于类的实现3.2使用contextlib模块4.异常处理1.什么是上下文管理器？上下文管理器（ContextManager）是Python中用于精确分配和释放资源的机制。它通过__enter__()和__exit__()两个魔术方法实现了上下文管理协议，确保即使在代码执行出错的情况下，资源也能被正确清理。#经典文件
【Appium】Appium征服安卓自动化：GitHub 10.5k+星开源神器，Python代码实战全解析！山河不见老 python 测试 appium android 自动化
Appium一、为什么开发者都在用Appium？二、环境搭建：5分钟极速配置2.1核心工具链2.2安卓设备连接三、脚本实战：从零编写自动化操作3.1示例1：自动登录微信并发送消息3.2示例2：动态滑动屏幕与数据抓取四、避坑指南4.1元素定位优化4.2稳定性增强4.3云真机集成五、生态扩展：超越安卓的自动化版图一、为什么开发者都在用Appium？万星认证：GitHub超10.5k+星标，活跃社区持续
基于Streamlit实现的音频处理示例大霸王龙音视频 ffmpeg
基于Streamlit实现的音频处理示例，包含录音、语音转文本、文件下载和进度显示功能，整合了多个技术方案：一、环境准备#安装依赖库pipinstallstreamlitstreamlit-webrtcaudio-recorder-streamlitopenai-whisperpython-dotx二、完整示例代码importstreamlitasstfromaudio_recorder_stre
npm错误 gyp错误 vs版本不对 msvs_version不兼容澎湖Java架构师前端 html npm node.js 前端
npm错误gyp错误vs版本不对msvs_version不兼容windowsSDK报错执行更新GYP语句第一种方案第二种方案执行更新GYP语句npminstall-gnode-gyp最新的GYP好像已经不支持Python2.7版本，npm会提示你更新都3.*.*版本安装Node.js的时候一定要勾选以下这个，会自动检测安装缺少的环境第一种方案管理员运行CMD（PowerShell也行）执行更新工具
深入了解 ArangoDB 的图数据库应用与 Python 实践 eahba 数据库 python 开发语言
在当前数据驱动的时代，对连接数据的高效处理和分析需求日益增长。ArangoDB作为一个可扩展的图数据库系统，能够加速从连接数据中获取价值。本文将介绍如何使用Python连接和操作ArangoDB，并展示如何结合图问答链来获取数据洞察。技术背景介绍ArangoDB是一个多模型数据库，支持文档、图和键值类型的数据存储。其强大的图形存储和查询能力使其成为处理复杂数据关系的理想选择。通过JSON支持和单一
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
一、Python入门基础 MeyrlNotFound python 开发语言
1.Python简介与环境搭建•了解Python的历史、特点和应用领域Python的历史Python是一种高级编程语言，由GuidovanRossum于1989年发明。Python语言的设计目标是让代码易读、易写、易维护，从而提高开发效率和代码质量。自其诞生以来，Python已从一个简单的系统管理工具发展成为一种广泛应用于多个领域的编程语言。Python的特点1.简单易学：Python的语法简洁明
npm error gyp info 计算机辅助工程 npm 前端 node.js
在使用npm安装Node.js包时，可能会遇到各种错误，其中gyp错误是比较常见的一种。gyp是Node.js的一个工具，用于编译C++代码。这些错误通常发生在需要编译原生模块的npm包时。下面是一些常见的原因和解决方法：常见原因及解决方法Python未安装或版本不兼容：Node.js使用Python来运行gyp。确保你的系统上安装了Python，并且版本与node-gyp兼容。通常推荐使用Pyt
股票量化交易开发 Yfinance 数字化转型2025 python 开发语言
以下是一段基于Python的股票量化分析代码，包含数据获取、技术指标计算、策略回测和可视化功能：pythonimportyfinanceasyfimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfrombacktestingimportBacktest,Strategyfrombacktesti
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户