IT从业者张某某

Python爬虫技术系列-02HTML解析-BS4

2 Beautiful Soup解析
- 2.1 Beautiful Soup概述
- - 2.1.1 Beautiful Soup安装
  - 2.1.2 Beautiful Soup4库内置对象
- 2.2 BS4 案例
- - 2.2.1 读取HTML案例
  - 2.2.2 BS4常用语法
  - - 1Tag节点
    - 2 遍历节点
    - 3 搜索方法
    - - 1) find_all()
      - 2)find()
      - 3) CSS选择器
- 2.3 BS4综合案例
- - 2.3.1 需求：爬取三国演义小说的所有章节和内容
  - 2.3.2 爬取小说数据，并排错

2 Beautiful Soup解析

参考连接：
https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#
http://c.biancheng.net/python_spider/bs4.html

2.1 Beautiful Soup概述

2.1.1 Beautiful Soup安装

Beautiful Soup 简称 BS4（其中 4 表示版本号）是一个 Python 第三方库，它可以从 HTML 或 XML 文档中快速地提取指定的数据。Beautiful Soup 语法简单，使用方便，并且容易理解，因此您可以快速地学习并掌握它。本节我们讲解 BS4 的基本语法。
BS4下载安装
由于 Bautiful Soup 是第三方库，因此需要单独下载，下载方式非常简单，执行以下命令即可安装：

pip install beautifulsoup4==4.11.1 -i https://pypi.tuna.tsinghua.edu.cn/simple。

由于 BS4 解析页面时需要依赖文档解析器，所以还需要安装 lxml 作为解析库：

pip install lxml

2.1.2 Beautiful Soup4库内置对象

Beautiful Soup4库的内置对象：
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构，每个节点都是Python对象，对象可以归纳为BeautifulSoup ,Tag , NavigableString , Comment 四种。
BeautifulSoup 对象为一个文档的全部内容，可以认为BeautifulSoup 对象是一个大的Tag对象。
Tag对象与XML或HTML原生文档中的tag相同。代表html文档中的标签，Tag对象可以包含其他多个Tag对象。Tag.name返回标签名，Tag.string返回标签中的文本。
NavigableString对象html文档中的文本，即Tag中的字符串用NavigableString对象包装。
Commern对象是一种特殊的NavigableString对象，用来包装文档中注释和特殊字符串。

2.2 BS4 案例

2.2.1 读取HTML案例

1.创建 BS4 解析对象第一步，这非常地简单，语法格式如下所示：

#导入解析包
from bs4 import BeautifulSoup
#创建beautifulsoup解析对象
soup = BeautifulSoup(html_doc, 'html.parser')

上述代码中，html_doc 表示要解析的文档，而 html.parser 表示解析文档时所用的解析器，此处的解析器也可以是 ‘lxml’ 或者 ‘html5lib’，示例代码如下所示：


# 第一步 导入依赖库
from bs4 import BeautifulSoup

#coding:utf8
html_doc = """
"bs4测试"

标签文本div中文本
"""

# 第二步，加载数据为BeautifulSoup对象：
soup = BeautifulSoup(html_doc, 'html.parser')
#prettify()用于格式化输出html/xml文档
print(soup.prettify())

# 第三步，获取文档中各个元素：
# 利用soup.find('div')获取div标签
tag_node = soup.find('div')
print(type(tag_node),'\t:',tag_node)

# 遍历div标签对象，获取其中的各个对象
for item in tag_node:
    print(type(item),'\t:',item)

输出结果：

<html>
 <head>
  <title>
   "bs4测试"
  title>
 head>
 <body>
  <div>
   <span class="cla01">
    标签文本
   span>
   div中文本
   
  div>
 body>
html>
<class 'bs4.element.Tag'> 	: <div><span class="cla01">标签文本span>div中文本div>
<class 'bs4.element.Tag'> 	: <span class="cla01">标签文本span>
<class 'bs4.element.NavigableString'> 	: div中文本
<class 'bs4.element.Comment'> 	: 注释代码

从结果可以看出soup.find(‘div’)返回值为Tag类型，输出结果为该标签的全部内容。
for循环中print(type(item),‘\t:’,item)会输出div标签的所有各个对象，该div标签包含的对象如下：
一个Tag对象，值为标签文本；
一个NavigableString’文本对象，值为div中文本；
一个Comment’注释对象，值为注释代码。

外部文档可以通过 open() 的方式打开读取，语法格式如下：

soup = BeautifulSoup(open('html_doc.html', encoding='utf8'), 'lxml')

2.2.2 BS4常用语法

下面对爬虫中经常用到的 BS4 解析方法做详细介绍。

Beautiful Soup 将 HTML 文档转换成一个树形结构，该结构有利于快速地遍历和搜索 HTML 文档。下面使用树状结构来描述一段 HTML 文档：

<html><head><title>网页标题title>head><h1>www.baidu.comh1><p><b>搜索引擎b>p>body>html>

树状图如下所示：

1Tag节点

# 标签（Tag）是组成 HTML 文档的基本元素。在 BS4 中，通过标签名和标签属性可以提取出想要的内容。看一组简单的示例：
# 纯文本复制
from bs4 import BeautifulSoup
html_doc = 'www.baidu.com
'
soup = BeautifulSoup(html_doc, 'html.parser')
#获取整个div标签的html代码
print(soup.div)
#获取span标签
print(soup.div.p.span)
#获取p标签内容，使用NavigableString类中的string、text、get_text()
print(soup.div.p.text)
#返回一个字典，里面是多有属性和值
print(soup.div.p.attrs)
#查看返回的数据类型
print(type(soup.div.p))
#根据属性，获取标签的属性值，返回值为列表
print(soup.div.p['class'])
#给class属性赋值,此时属性值由列表转换为字符串
soup.div.p['class']=['Web','Site']
print(soup.div.p)

输出为：

<div><p class="Web site url"><span>www.baidu.com</span></p></div>
<span>www.baidu.com</span>
www.baidu.com
{'class': ['Web', 'site', 'url']}
<class 'bs4.element.Tag'>
['Web', 'site', 'url']
<p class="Web Site"><span>www.baidu.com</span></p>

2 遍历节点

# Tag 对象提供了许多遍历 tag 节点的属性，比如 contents、children 用来遍历子节点；parent 与 parents 用来遍历父节点；而 next_sibling 与 previous_sibling 则用来遍历兄弟节点 。示例如下：
# 纯文本复制
#coding:utf8
from bs4 import BeautifulSoup
html_doc = '''




    
        01
        02
        03
    



'''
soup = BeautifulSoup(html_doc, 'html.parser')
body_tag=soup.body
print(body_tag)
print("# 以列表的形式输出，所有子节点")
print(body_tag.contents)
print(r"# Tag 的 children 属性会生成一个可迭代对象，可以用来遍历子节点，示例如下")
for child in body_tag.children:
    print(child)

输出为：

<body>
<div class="useful">
<ul>
<li class="cla-0" id="id-0"><a href="/link1">01</a></li>
<li class="cla-1"><a href="/link2">02</a></li>
<li><strong><a href="/link3">03</a></strong></li>
</ul>
</div>
</body>
# 以列表的形式输出，所有子节点
['\n', <div class="useful">
<ul>
<li class="cla-0" id="id-0"><a href="/link1">01</a></li>
<li class="cla-1"><a href="/link2">02</a></li>
<li><strong><a href="/link3">03</a></strong></li>
</ul>
</div>, '\n']
# Tag 的 children 属性会生成一个可迭代对象，可以用来遍历子节点，示例如下


<div class="useful">
<ul>
<li class="cla-0" id="id-0"><a href="/link1">01</a></li>
<li class="cla-1"><a href="/link2">02</a></li>
<li><strong><a href="/link3">03</a></strong></li>
</ul>
</div>

3 搜索方法

Beautiful Soup定义了很多搜索方法,本小节着重 find_all()， find() 和 select()几个。
find_all()函数可以搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件。

find_all(self, name=None, attrs={}, recursive=True, string=None, **kwargs)

name 参数对应tag名称，如soup.find_all(“div”)表示查找所有div标签。
attrs表示属性值过滤器。如soup.find_all(class_=“cla”)表示查找class属性值为cla的所有元素。其它的属性过滤器还可以为id="main"等。
recursive为True会递归查询，为False只检索直系节点。
text：用来搜文档中的字符串内容，该参数可以接受字符串、正则表达式、列表、True。
limit：由于 find_all() 会返回所有的搜索结果，这样会影响执行效率，通过 limit 参数可以限制返回结果的数量

find()函数是find_all()的一种特例，仅返回一个值。
select()函数用于通过css选择器进行文档的筛选。

find_all() 与 find() 是解析 HTML 文档的常用方法，它们可以在 HTML 文档中按照一定的条件（相当于过滤器）查找所需内容。find() 与 find_all() 的语法格式相似，希望大家在学习的时候，可以举一反三。
BS4 库中定义了许多用于搜索的方法，find() 与 find_all() 是最为关键的两个方法，其余方法的参数和使用与其类似。

1) find_all()

find_all() 方法用来搜索当前 tag 的所有子节点，并判断这些节点是否符合过滤条件,find_all() 使用示例如下：

from bs4 import BeautifulSoup
import re
html_doc = '''



加入我们阅读所有教程
百度一下
soso一下

    
        01
        02
        03
    
    



'''
soup = BeautifulSoup(html_doc, 'html.parser')

# 查询全部li标签:
print("---result00---")
result00 = soup.find_all('li')  # 查询全部li标签
print(result00)

# 查询符合条件的第1个标签：
print("---result01---")
result01 = soup.find_all('li',limit=1)  # 查询符合条件的第1个标签
print(result01)

# 结合属性过滤，查询符合条件的标签：
print("---result02---")
result02 = soup.find_all('li', class_="cla-0")  # 结合属性过滤，查询符合条件的标签
print(result02)

# 结合多个属性过滤，查询符合条件的标签：
print("---result03---")
result03 = soup.find_all('li', class_="cla-0",id="id-0")  # 结合多个属性过滤，查询符合条件的标签
print(result03)

#列表行书查找tag标签
print("---result04---")
print(soup.find_all(['p','a']))

#正则表达式匹配id属性值
print("---result05---")
print(soup.find_all('a',id=re.compile(r'.\d')))
print(soup.find_all(id=True))

#True可以匹配任何值，下面代码会查找所有tag，并返回相应的tag名称
print("---result06---")
for tag in soup.find_all(True):
    print(tag.name,end=" ")
print(" ")    
#输出所有以b开始的tag标签
print("---result07---")
for tag in soup.find_all(re.compile("^d")):
    print(tag.name)

# BS4 为了简化代码，为 find_all() 提供了一种简化写法，如下所示：
print("---result08---")
#简化前
print(soup.find_all("p"))
#简化后
print(soup("p"))

输出为：

---result00---
[<li class="cla-0" id="id-0"><a href="/link1">01</a></li>, <li class="cla-1"><a href="/link2">02</a></li>, <li><strong><a href="/link3">03</a></strong></li>]
---result01---
[<li class="cla-0" id="id-0"><a href="/link1">01</a></li>]
---result02---
[<li class="cla-0" id="id-0"><a href="/link1">01</a></li>]
---result03---
[<li class="cla-0" id="id-0"><a href="/link1">01</a></li>]
---result04---
[<p class="vip">加入我们阅读所有教程</p>, <a href="https://www.baidu.com" id="link4">百度一下</a>, <a href="https://www.sos.com">soso一下</a>, <a href="/link1">01</a>, <a href="/link2">02</a>, <a href="/link3">03</a>]
---result05---
[<a href="https://www.baidu.com" id="link4">百度一下</a>]
[<a href="https://www.baidu.com" id="link4">百度一下</a>, <li class="cla-0" id="id-0"><a href="/link1">01</a></li>]
---result06---
html body p a a div ul li a li a li strong a  
---result07---
div
---result08---
[<p class="vip">加入我们阅读所有教程</p>]
[<p class="vip">加入我们阅读所有教程</p>]

2)find()

ind() 方法与 find_all() 类似，不同之处在于 find_all() 会将文档中所有符合条件的结果返回，而 find() 仅返回一个符合条件的结果，所以 find() 方法没有limit参数。使用示例如下：

from bs4 import BeautifulSoup
import re
html_doc = '''



加入我们阅读所有教程
百度一下
soso一下

    
        01
        02
        03
    
    



'''
soup = BeautifulSoup(html_doc, 'html.parser')

print("---result101---")
result101 = soup.find('li')  # 查询单个标签，与find_all("li", limit=1)一致
# 从结果可以看出，返回值为单个标签，并且没有被列表所包装。
print(result101)


print("---result102---")
#根据属性值正则匹配
print(soup.find(class_=re.compile('0')))
#attrs参数值
print(soup.find(attrs={'class':'vip'}))

# 使用 find() 时，如果没有找到查询标签会返回 None，而 find_all() 方法返回空列表。示例如下：
print("---result103---")
print(soup.find('bdi'))
print(soup.find_all('audio'))

# BS4 也为 find()提供了简化写法，如下所示：
print("---result104---")
#简化写法
print(soup.body.a)
#上面代码等价于
print(soup.find("body").find("a"))

# 获得文本，并添加分隔符，去掉两端空格:
print("---result105---")
result105 = soup.find('ul').get_text("----", strip=True)  
print(result105)

输出如下：

---result101---
<li class="cla-0" id="id-0"><a href="/link1">01</a></li>
---result102---
<li class="cla-0" id="id-0"><a href="/link1">01</a></li>
<p class="vip">加入我们阅读所有教程</p>
---result103---
None
[]
---result104---
<a href="https://www.baidu.com" id="link4">百度一下</a>
<a href="https://www.baidu.com" id="link4">百度一下</a>

---result105---
01----02----03

3) CSS选择器

BS4 支持大部分的 CSS 选择器，比如常见的标签选择器、类选择器、id 选择器，以及层级选择器。Beautiful Soup 提供了一个 select() 方法，通过向该方法中添加选择器，就可以在 HTML 文档中搜索到与之对应的内容。应用示例如下：

#coding:utf8
html_doc = """



"bs4测试案例网站"


加入我们阅读所有教程
百度一下
soso一下

    
        01
        02
        03
    
    



"""
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc, 'html.parser')
#根据元素标签查找
print("---result201---")
print(soup.select('title'))

#根据属性选择器查找
print("---result202---")
print(soup.select('a[href]'))

#根据class类查找
print("---result203---")
print(soup.select('.vip'))


#后代节点查找
print("---result204---")
print(soup.select('html head title'))


#查找兄弟节点
print("---result205---")
print(soup.select('p + a'))


#根据id选择p标签的兄弟节点
print("---result206---")
print(soup.select('p ~ #link4'))

#nth-of-type(n)选择器，用于匹配同类型中的第n个同级兄弟元素
print("---result207---")
print(soup.select('p ~ a:nth-of-type(1)'))


#查找子节点
print("---result208---")
print(soup.select('ul > li'))
print(soup.select('ul > .cla-1'))

输出如下：

---result201---
[<title>"bs4测试案例网站"</title>]
---result202---
[<a href="https://www.baidu.com" id="link4">百度一下</a>, <a href="https://www.sos.com">soso一下</a>, <a href="/link1">01</a>, <a href="/link2">02</a>, <a href="/link3">03</a>]
---result203---
[<p class="vip">加入我们阅读所有教程</p>]
---result204---
[<title>"bs4测试案例网站"</title>]
---result205---
[<a href="https://www.baidu.com" id="link4">百度一下</a>]
---result206---
[<a href="https://www.baidu.com" id="link4">百度一下</a>]
---result207---
[<a href="https://www.baidu.com" id="link4">百度一下</a>]
---result208---
[<li class="cla-0" id="id-0"><a href="/link1">01</a></li>, <li class="cla-1"><a href="/link2">02</a></li>, <li><strong><a href="/link3">03</a></strong></li>]
[<li class="cla-1"><a href="/link2">02</a></li>]

2.3 BS4综合案例

2.3.1 需求：爬取三国演义小说的所有章节和内容

import requests
from bs4 import BeautifulSoup
#需求：爬取三国演义小说的所有章节和内容
if __name__ == '__main__':
    #UA伪装：将对应的User-Agent封装到一个字典中
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'
    }
    #对首页的页面进行爬取
    url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
#     page_text = requests.get(url=url,headers=headers).text
    page_text = requests.get(url=url,headers=headers).content
    #在首页中解析出章节的标题和详情页的url
    #1、实例化BeautifulSoup对象，需要将页面源码数据加载到该对象中
    soup = BeautifulSoup(page_text,'html.parser')
    #解析章节标题和详情页的url
    li_list = soup.select('.book-mulu > ul > li')
    fp = open('./sanguo.txt','w',encoding='utf-8')
    num = 0
    for li in li_list:
        num += 1
        if num >5:
            break
        title = li.a.string
        #详情页面的url
        detail_url = 'http://www.shicimingju.com'+li.a['href']
        #对详情页发起请求，解析出章节内容
        detail_page_text = requests.get(url=detail_url,headers=headers).content
        #解析出相关章节内容
        detail_soup = BeautifulSoup(detail_page_text,'html.parser')
        div_tag = detail_soup.find('div',class_='chapter_content')
        #解析到了章节的内容
        content = div_tag.text
        fp.write(title+':'+content+'\n')
        print(title,'successful!')

输出为：

第一回·宴桃园豪杰三结义  斩黄巾英雄首立功 successful!
第二回·张翼德怒鞭督邮    何国舅谋诛宦竖 successful!
第三回·议温明董卓叱丁原  馈金珠李肃说吕布 successful!
第四回·废汉帝陈留践位    谋董贼孟德献刀 successful!
第五回·发矫诏诸镇应曹公  破关兵三英战吕布 successful!
...

2.3.2 爬取小说数据，并排错

from multiprocessing import get_context
from turtle import title
import requests
from bs4 import BeautifulSoup
import lxml
if __name__ == '__main__':
        url = 'https://b.faloo.com/1190629.html'
        headers={
        'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
        }
        page_text = requests.get(url= url,headers=headers).content
        soup = BeautifulSoup(page_text,'lxml')
        li_list = soup.select('.DivTd')
        fp = open('./siheyuan.txt','w',encoding='utf-8')
        num = 0
        for DivTd in li_list:
            num += 1
            if num >5:
                break
            title = DivTd.a.string
            new_url = 'https:' + DivTd.a['href']
            new_page_text = requests.get(url= new_url,headers=headers).content
            new_soup = BeautifulSoup(new_page_text,'lxml')
            #content = new_soup.find('div',class_='noveContent')
            content = new_soup.select('.noveContent')
            for noveContent in content:
                work = noveContent.p.string
                fp.write(title+'\n'+str(content)+'\n')
                print(title+'------抓取完成')

输出为：

001.新人报道------抓取完成
002.你咋不跟领导干一架呢------抓取完成
003.确定过眼神，就是要抓的人------抓取完成
004.领导，他又抓一个------抓取完成
005.搓搓这小子锐气------抓取完成
006.反扒队，你就是江晨？------抓取完成
007.莫伸手，伸手必被抓------抓取完成
008.贼王气得嗷嗷大哭------抓取完成
009.抓到耗子就是好猫------抓取完成
010.到底是哪里露出了马脚------抓取完成
011.就你们贼多？------抓取完成
012.近身格斗，不带怕的------抓取完成
013.分贼不均------抓取完成
014.这是指导工作去了------抓取完成
015.三千罪犯，我全都要------抓取完成
016.我怀疑你送人头------抓取完成
017.上个厕所就抓到一个？------抓取完成
018.这待遇，要馋哭了------抓取完成
019.又是要搞事情的节奏啊------抓取完成
020.师父给你定个小目标------抓取完成
021.先让你跑个红绿灯------抓取完成
022.这货是个人肉扫描机------抓取完成
023.这还带买一送一的？------抓取完成
024.这乞丐有问题？------抓取完成
025.抓捕体验极差------抓取完成
026.给我整不会了------抓取完成
027.这排场，真阔气------抓取完成
028.利刃-重案组------抓取完成
029.我能受这委屈？------抓取完成
030.这年轻人不讲武德------抓取完成
031.年纪不大，谱子不小------抓取完成
032.神秘的状元巷------抓取完成
033.当我挂白开的？------抓取完成
034.有些人慌了呀------抓取完成
035.你好，开门查水表------抓取完成
036.队友太秀，求安慰------抓取完成
037.组队刷副本------抓取完成
038.出了名的老实人------抓取完成
039.我天生就结巴------抓取完成
040.秀还是你秀------抓取完成
041.这就叫专业------抓取完成
042.垃圾桶的艺术------抓取完成
043.这就开张了？------抓取完成
044.抱大腿的觉悟（第五更）------抓取完成
045.时代变了？（第六章）------抓取完成
046.你敢拆我空调？（第七更）------抓取完成
047.三个硬茬子------抓取完成
048.朋友，露个面吧------抓取完成
049.你敢脸探草丛？------抓取完成
050.高效流水线------抓取完成
051.抓超载了（第五更）------抓取完成
052.伤害了多少人（加更一章）------抓取完成
053.还有论车的？（加更第二章）------抓取完成
054.来了一条收杆鱼------抓取完成
055.各位，等我回来------抓取完成
056.实在关不下了------抓取完成
057.枪来------抓取完成
058.我摊牌了，不装了------抓取完成
059.把那孩子带回来------抓取完成
060.让你拐个空气------抓取完成
061.枪声就是命令------抓取完成
062.开枪听个响------抓取完成
063.能跑赢我的，只有年龄（第五更）------抓取完成
064.他又来了------抓取完成
065.活生生撵我两个小时------抓取完成
066.我能让你出院？------抓取完成
067.战前晋升------抓取完成
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-45-4e73a887f2ec> in <module>()
     14         fp = open('./siheyuan.txt','w',encoding='utf-8')
     15         for DivTd in li_list:
---> 16             title = DivTd.a.string
     17             new_url = 'https:' + DivTd.a['href']
     18             new_page_text = requests.get(url= new_url,headers=headers).content

AttributeError: 'NoneType' object has no attribute 'string'

量子计算如何颠覆能源优化领域：从理论到实践 Echo_Wish 人工智能前沿技术量子计算能源
量子计算如何颠覆能源优化领域：从理论到实践大家好，我是Echo_Wish，一个热爱探索前沿技术的人工智能与Python领域的技术分享者。今天，我们将深入探讨一个激动人心的话题——量子计算在能源优化中的应用。这不仅是科技领域的全新趋势，也可能为全人类的能源利用效率带来革命性突破。从理论模型到实际应用，量子计算已经在一些能源相关领域崭露头角，例如电网优化、可再生能源分配和物流节能规划。以下，让我们一步
Kibana 单机与集群部署教程闲人编程大数据集群部署教程大数据集群单机部署 Kibana 日志分析数据可视化
目录Kibana单机与集群部署教程第一部分：Kibana概述第二部分：Kibana单机部署教程1.安装Kibana1.1安装依赖项1.2下载和安装Kibana1.3启动Kibana2.单机案例代码实现（Python）3.常见问题及解决方法3.1无法启动Kibana服务3.2Kibana无法连接到Elasticsearch第三部分：Kibana集群部署教程1.配置集群节点1.1配置Elasticse
INCA二次开发GUI实例化智海行舟 python 个人开发
【摘要】本文基于ETASINCA二次开发实践，深入探讨如何构建完整的自动化测试GUI系统。通过Python语言结合COM接口技术，实现从软件架构设计到功能模块开发的完整闭环，为汽车电子领域工程师提供可复用的开发范式。一、INCA二次开发技术背景1.1行业应用需求在汽车电子开发领域，ETASINCA作为行业标准标定工具，其自动化测试需求日益增长。传统的手动操作模式存在以下痛点：重复性操作耗时严重（单
如何通过API用Python获取北向资金流向数据？量化问财量化软件 QMT 量化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
推荐阅读：《【最全攻略】免费的量化软件有哪些？券商的交易接口怎么获取？》如何通过API用Python获取北向资金流向数据？北向资金指的是通过沪港通和深港通渠道，从香港市场流入A股市场的资金。对于投资者来说，了解北向资金流向对于把握市场趋势和投资决策具有重要意义。本文将介绍如何通过API用Python获取北向资金流向数据。理解北向资金流向数据北向资金流向数据主要包括以下几个方面：资金流入量：指通过沪
go执行java -jar 完成DSA私钥解析并签名 DavidSoCool java jar golang
起因，最近使用go对接百度联盟api需要使用到DSA私钥完成签名过程，在百度提供的代码示例里面没有go代码的支持，示例中仅有php、python2和3、java的代码，网上找了半天发现go中对DSA私钥解析支持不友好，然后决定使用在java中完成签名计算过程，生成可执行jar后由外部传入参数获取签名数据。百度联盟api文档说明：1）权限开通后，登录百度联盟媒体平台（union.baidu.com）
【30天玩转python】项目实战：从零开始开发一个Python项目爱技术的小伙子 30天玩转python linux 运维服务器
项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python递推法_如何使用Python递归函数中的递推？热茶走 python递推法
我们大家都知道，一个函数可能存在多种不同的用法，很少是有函数只针对一个方式，那么基于一种函数，我们肯定要了解多个方式，今日针对递归函数里的递推内容给大家介绍哦~递归是什么？是指函数/过程/子程序在运行过程序中直接或间接调用自身而产生的重入现象。下面是个人理解：递归就是在函数内部调用自己的函数被称之为递归。实例：#直接调用自己：deffunc:print('fromfunc')funcFunc#间接
python递推式_Python 递推式构造列表(List Comprehensions) man One python递推式
你需要构造一个新的列表,列表中的元素是从一个已知列表中的元素计算而得到的.比如你要创建一个列表,里面的元素是另一个列表中的元素加23后得到的.使用递推式构造列表是最理想的方法:thenewlist=[x+23forxintheoldlist]如果你希望用一个列表中大于5的元素构造一个新的列表,使用递推式也是很方便的:thenewlist=[xforxintheoldlistifx>5]如果你希望将
Dash 简介 tankusa dash
Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
视频下载插件：yt-dlp 小怪兽长大啦 python
Yt-dlp插件使用下载方法方法一：Python插件下载使用pip工具安装即可:pipinstallyt-dlp.Python已经配置过环境变量，下载yt-dlp时不需要配置。方法二：直接下载EXE可执行文件网上下载yt-dlp应用程序：https://github.com/yt-dlp/yt-dlp/releases配置环境变量。常用使用命令（配置好环境变量后，控制台下输入命令即可）直接下载视频
Python __init__.py 模块详解鱼丸丶粗面 Python __init__.py
文章目录1概述2导入演示2.1执行顺序：先父后子2.2导入所有模块（含子模块）1概述1.工具:Pycharm场景:在创建一个PythonPackage时，会默认在该包下生成一个'__init__.py'文件2.目的:'进行一些初始化操作'(1)当importpackage时，"自动"执行'__init__.py'文件中的内容(2)常用于导入模块2导入演示2.1执行顺序：先父后子目录结构：目录结构简
Python __init__.py 愚昧之山绝望之谷开悟之坡 python init
Python__init__.py作用详解尼古拉苏关注12018.06.1012:57:34字数745阅读45,278转载于：https://www.cnblogs.com/tp1226/p/8453854.html__init__.py该文件的作用就是相当于把自身整个文件夹当作一个包来管理，每当有外部import的时候，就会自动执行里面的函数。1.标识该目录是一个python的模块包（modul
利用Java爬虫获取衣联网商品详情：实战指南 Jason-河山 java 爬虫开发语言
在电商领域，获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序，通过商品ID获取衣联网商品详情。一、准备工作（一）环境搭建Java安装：确保已安装Java开发环境，推荐使用JDK11或更高版本。开发工具配置：使用IntelliJIDEA或Eclipse等Java开发工具，创建一个新的Maven项目。依赖库添加：
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
有趣的学习Python-第十篇：Python的“魔法宝库”：标准库之旅王盼达有趣的学习Python 学习 python 开发语言
Python不仅是一门强大的编程语言，更像是一座充满宝藏的“魔法宝库”，里面装满了各种各样的“魔法工具”（标准库）。这些“魔法工具”可以帮助你轻松地完成各种任务，从文件操作到网络编程，从数据处理到性能优化。接下来，让我们一起探索Python的“魔法宝库”，看看这些“魔法工具”到底有多神奇！10.1操作系统接口：与“魔法世界”互动os模块就像是一个“魔法接口”，可以帮助你与操作系统进行互动。你可以用
有趣的学习Python-第八篇：Python的“魔法盾牌”：错误与异常处理王盼达有趣的学习Python 学习 python 开发语言
在Python的魔法世界里，即使是经验丰富的魔法师也可能遇到一些“魔法失误”。这些失误分为两种：语法错误和异常。别担心，Python为你准备了一面强大的“魔法盾牌”，帮助你应对这些挑战。8.1语法错误：魔法咒语写错了语法错误就像是你在念魔法咒语时，不小心说错了单词。这是学习Python过程中最常见的问题。比如，你可能忘记在while循环后面加上冒号：whileTrueprint('Hellowor
Python字符串操作 weixin_30871905 python
转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1='strcpy'sStr2=sStr1sStr1='strcpy2'printsStr2'''2.连接字符串'''#strcat(sStr1,sStr2)sStr1='strcat'sSt
零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
Python 字符串操作 iteye_13776 Python Python C C++C#
Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
【Python 第五篇章】数据类型蜗牛 | ICU Python 专栏 python windows 开发语言
一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
PySide2是 Qt 库的 Python 绑定之一 WwwwwH_PLUS #Qt qt python 开发语言
PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
Python学习第十一天 Leo来编程 Python学习 python
疑惑：有很多人不知道是不是也分不清什么是单核？什么是多核？什么是时间片？进程？线程？那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子：比如你是一个厨师（计算机）在一个厨房（CPU）里需要同时做3个菜（进程）、每个菜需要准备不同的调料以及协作（线程），那么这个厨师需要不断地切换时间（时间片）来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师，这样的例子太多了因为万物皆对象
python学习第三天 Leo来编程 Python学习 python 开发语言
条件判断条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。#条件判断age=18ifage0:#也可以写if(s>0)但是没必要因为python给个提示建议去掉保证代码的按照缩进来进行更加规范print("这个数字是大于0的数字!")#这行代码属于if语句的代码块elifs==0:print("这个数字是等于0的数字!")#这行代码属于elif语句的代码块else:pr
三种优化算法旅者时光算法算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
基于HarmonyNext的ArkTS高级实战：构建高性能跨平台应用 harmonyos-next
基于HarmonyNext的ArkTS高级实战：构建高性能跨平台应用引言随着HarmonyOSNext的发布，ArkTS作为其核心开发语言，为开发者提供了更强大的工具和更高效的开发体验。ArkTS基于TypeScript，结合了HarmonyOS的分布式能力，使得开发者能够轻松构建高性能、跨平台的应用。本文将深入探讨如何使用ArkTS在HarmonyNext平台上进行高级开发，通过实战案例讲解如何
使用 Python 合并微信与支付宝账单，生成财务报告 python后端
最近用思源笔记记东西上瘾，突然想每个月存一份收支记录进去。但手动整理账单太麻烦了，支付宝导出一份CSV，微信又导出一份，格式还不一样，每次复制粘贴头都大。干脆写了个Python脚本一键处理，核心就干两件事：把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown（直接拖进思源就能渲染）代码主要折腾了这些：支付宝账单前24行都是废话，直接skiprows=24跳过去，GBK编码差点让我栽跟
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

Python爬虫技术系列-02HTML解析-BS4

Python爬虫技术系列-02HTML解析-BS4

2 Beautiful Soup解析

2.1 Beautiful Soup概述

2.1.1 Beautiful Soup安装

2.1.2 Beautiful Soup4库内置对象

2.2 BS4 案例

2.2.1 读取HTML案例

2.2.2 BS4常用语法

1Tag节点

2 遍历节点

3 搜索方法

1) find_all()

2)find()

3) CSS选择器

2.3 BS4综合案例

2.3.1 需求：爬取三国演义小说的所有章节和内容

2.3.2 爬取小说数据，并排错

你可能感兴趣的:(爬虫,python,爬虫,开发语言)