ForsetiRe

python爬虫之BeautifulSoup4库介绍与使用

BeautifulSoup4库

1.介绍

和 lxml库一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。
lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM（Document Object Model）的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。
BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持 lxml 的 XML解析器。
Beautiful Soup 3 目前已经停止开发，推荐现在的项目使用Beautiful Soup 4。

解析工具	解析速度	使用难度
BeautifulSoup4	最慢	最简单
lxml库	快	简单
正则	最快	最难

使用以下代码安装BeautifulSoup4库，

pip install bs4

2.使用

2.1.解析html页面

使用bs4库解析html页面，需要先使用BeautifulSoup()方法，实例化一个对象，第一个参数为要解析的html代码，第二个参数为解析方式(如，lxml、html5lib等)。

注意，第二个参数中的解析方式所使用的库，需要提前安装。例如，我们第二个参数设置为lxml，那么我们要保证lxml库已经安装了。

若要显示解析后的html代码，可以直接使用print()打印BeautifulSoup对象，例如，

from bs4 import BeautifulSoup

html = """

    
        
            职位名称
            职位类别
            人数
            地点
            发布时间
        
        
            22989-金融云区块链高级研发工程师（深圳）
            技术类
            1
            深圳
            2017-11-25
        
        
            22989-金融云高级后台开发
            技术类
            2
            深圳
            2017-11-25
        
        
            SNG16-腾讯音乐运营开发工程师（深圳）
            技术类
            2
            深圳
            2017-11-25
        
        
            SNG16-腾讯音乐业务运维工程师（深圳）
            技术类
            1
            深圳
            2017-11-25
        
        
            TEG03-高级研发工程师（深圳）
            技术类
            1
            深圳
            2017-11-24
        
        
            TEG03-高级图像算法研发工程师（深圳）
            技术类
            1
            深圳
            2017-11-24
        
        
            TEG11-高级AI开发工程师（深圳）
            技术类
            4
            深圳
            2017-11-24
        
        
            15851-后台开发工程师
            技术类
            1
            深圳
            2017-11-24
        
        
            15851-后台开发工程师
            技术类
            1
            深圳
            2017-11-24
        
        
            SNG11-高级业务运维工程师（深圳）
            技术类
            1
            深圳
            2017-11-24
        
    

"""

soup = BeautifulSoup(html, "lxml")
print(soup)  # 也可以print(soup.prettify())，这样会显示经过格式化后的html代码，层级更加明显

执行结果如下，

<html><body><table cellpadding="0" cellspacing="0" class="tablelist">
<tbody>
<tr class="h">
<td class="l" width="374">职位名称</td>
<td>职位类别</td>
<td>人数</td>
<td>地点</td>
<td>发布时间</td>
</tr>
<tr class="even">
<td class="l square"><a href="position_detail.php?id=33824&keywords=python&tid=87&lid=2218" target="_blank">22989-金融云区块链高级研发工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>
<tr class="odd">
<td class="l square"><a href="position_detail.php?id=29938&keywords=python&tid=87&lid=2218" target="_blank">22989-金融云高级后台开发</a></td>
<td>技术类</td>
<td>2</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>
<tr class="even">
<td class="l square"><a href="position_detail.php?id=31236&keywords=python&tid=87&lid=2218" target="_blank">SNG16-腾讯音乐运营开发工程师（深圳）</a></td>
<td>技术类</td>
<td>2</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>
<tr class="odd">
<td class="l square"><a href="position_detail.php?id=31235&keywords=python&tid=87&lid=2218" target="_blank">SNG16-腾讯音乐业务运维工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>
<tr class="even">
<td class="l square"><a href="position_detail.php?id=34531&keywords=python&tid=87&lid=2218" target="_blank">TEG03-高级研发工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-24</td>
</tr>
<tr class="odd">
<td class="l square"><a href="position_detail.php?id=34532&keywords=python&tid=87&lid=2218" target="_blank">TEG03-高级图像算法研发工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-24</td>
</tr>
<tr class="even">
<td class="l square"><a href="position_detail.php?id=31648&keywords=python&tid=87&lid=2218" target="_blank">TEG11-高级AI开发工程师（深圳）</a></td>
<td>技术类</td>
<td>4</td>
<td>深圳</td>
<td>2017-11-24</td>
</tr>
<tr class="odd">
<td class="l square"><a href="position_detail.php?id=32218&keywords=python&tid=87&lid=2218" target="_blank">15851-后台开发工程师</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-24</td>
</tr>
<tr class="even">
<td class="l square"><a href="position_detail.php?id=32217&keywords=python&tid=87&lid=2218" target="_blank">15851-后台开发工程师</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-24</td>
</tr>
<tr class="odd">
<td class="l square"><a class="test" href="position_detail.php?id=34511&keywords=python&tid=87&lid=2218" target="_blank">SNG11-高级业务运维工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-24</td>
</tr>
</tbody>
</table>
</body></html>

我们可以看到，html代码被补全。

2.2.find()与find_all()方法

搜索文档树，一般用得比较多的就是两个方法，一个是find()，一个是find_all()。find()方法是找到第一个满足条件的标签后就立即返回，只返回一个元素。find_all()方法是把所有满足条件的标签都选到，然后生成一个列表返回回去。使用这两个方法，最常用的用法是出入name以及attrs参数找出符合要求的标签。

我们来获取上例中html代码中所有的tr标签，

# 获取所有的tr标签
trs = soup.find_all('tr')
for tr in trs:
    print(tr)
    print("=" * 50)

执行结果如下，

<tr class="h">
<td class="l" width="374">职位名称</td>
<td>职位类别</td>
<td>人数</td>
<td>地点</td>
<td>发布时间</td>
</tr>
==================================================
<tr class="even">
<td class="l square"><a href="position_detail.php?id=33824&keywords=python&tid=87&lid=2218" target="_blank">22989-金融云区块链高级研发工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>
==================================================
<tr class="odd">
<td class="l square"><a href="position_detail.php?id=29938&keywords=python&tid=87&lid=2218" target="_blank">22989-金融云高级后台开发</a></td>
<td>技术类</td>
<td>2</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>
==================================================
<tr class="even">
<td class="l square"><a href="position_detail.php?id=31236&keywords=python&tid=87&lid=2218" target="_blank">SNG16-腾讯音乐运营开发工程师（深圳）</a></td>
<td>技术类</td>
<td>2</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>
==================================================
<tr class="odd">
<td class="l square"><a href="position_detail.php?id=31235&keywords=python&tid=87&lid=2218" target="_blank">SNG16-腾讯音乐业务运维工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>
==================================================
<tr class="even">
<td class="l square"><a href="position_detail.php?id=34531&keywords=python&tid=87&lid=2218" target="_blank">TEG03-高级研发工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-24</td>
</tr>
==================================================
<tr class="odd">
<td class="l square"><a href="position_detail.php?id=34532&keywords=python&tid=87&lid=2218" target="_blank">TEG03-高级图像算法研发工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-24</td>
</tr>
==================================================
<tr class="even">
<td class="l square"><a href="position_detail.php?id=31648&keywords=python&tid=87&lid=2218" target="_blank">TEG11-高级AI开发工程师（深圳）</a></td>
<td>技术类</td>
<td>4</td>
<td>深圳</td>
<td>2017-11-24</td>
</tr>
==================================================
<tr class="odd">
<td class="l square"><a href="position_detail.php?id=32218&keywords=python&tid=87&lid=2218" target="_blank">15851-后台开发工程师</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-24</td>
</tr>
==================================================
<tr class="even">
<td class="l square"><a href="position_detail.php?id=32217&keywords=python&tid=87&lid=2218" target="_blank">15851-后台开发工程师</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-24</td>
</tr>
==================================================
<tr class="odd">
<td class="l square"><a class="test" href="position_detail.php?id=34511&keywords=python&tid=87&lid=2218" target="_blank">SNG11-高级业务运维工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-24</td>
</tr>
==================================================

我们可以在find_all()方法中添加limit参数获取指定个数的相应标签，例如，我们获取html代码中第二个tr标签，

# 获取第二个tr标签
tr = soup.find_all('tr', limit=2)[-1]
print(tr)

执行结果如下，

<tr class="even">
<td class="l square"><a href="position_detail.php?id=33824&keywords=python&tid=87&lid=2218" target="_blank">22989-金融云区块链高级研发工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>

我们可以通过在find()和find_all()方法中添加attrs参数获取指定要求的标签，注意attrs参数为字典形式。例如，获取html代码中class属性为even的tr标签，

# 获取所有class为even的标签
trs = soup.find_all('tr', attrs={'class': 'even'})
for tr in trs:
    print(tr)
    print("=" * 50)

执行结果如下，

<tr class="even">
<td class="l square"><a href="position_detail.php?id=33824&keywords=python&tid=87&lid=2218" target="_blank">22989-金融云区块链高级研发工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>
==================================================
<tr class="even">
<td class="l square"><a href="position_detail.php?id=31236&keywords=python&tid=87&lid=2218" target="_blank">SNG16-腾讯音乐运营开发工程师（深圳）</a></td>
<td>技术类</td>
<td>2</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>
==================================================
<tr class="even">
<td class="l square"><a href="position_detail.php?id=34531&keywords=python&tid=87&lid=2218" target="_blank">TEG03-高级研发工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-24</td>
</tr>
==================================================
<tr class="even">
<td class="l square"><a href="position_detail.php?id=31648&keywords=python&tid=87&lid=2218" target="_blank">TEG11-高级AI开发工程师（深圳）</a></td>
<td>技术类</td>
<td>4</td>
<td>深圳</td>
<td>2017-11-24</td>
</tr>
==================================================
<tr class="even">
<td class="l square"><a href="position_detail.php?id=32217&keywords=python&tid=87&lid=2218" target="_blank">15851-后台开发工程师</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-24</td>
</tr>
==================================================

我们也可以在find()和find_all()方法中直接添加相应属性的值来获取指定标签。例如，我们获取html代码中class和id属性均为test的a标签，

# 获取所有id和class属性为test的a标签
trs = soup.find_all('a', id='test', class_='test')  # 注意class为关键字，因此需要加下划线
for tr in trs:
    print(tr)
    print("=" * 50)

执行结果如下，

<a class="test" href="position_detail.php?id=34511&keywords=python&tid=87&lid=2218" id="test" target="_blank">SNG11-高级业务运维工程师（深圳）</a>
==================================================

我们如果只获取纯文本数据，可以使用string、strings和stripped_strings。

注意，string用与获取单行字符串；strings和stripped_strings用于返回多行字符串，会返回一个生成器。例如，我们使用string获取html中的所有职位信息，

# 获取所有职位的信息(纯文本)
jobs = []  # 建立值为列表，用于存放所有的职位信息
trs = soup.find_all('tr')[1:]  # 因为第一个tr标签为表头，所以从第二个tr开始取值
for tr in trs:
    job = {}
    tds = tr.find_all('td')
    title = tds[0].string
    category = tds[1].string
    num = tds[2].string
    city = tds[3].string
    pub_time = tds[4].string

    # 将相应数据存入job字典
    job['title'] = title
    job['category'] = category
    job['num'] = num
    job['city'] = city
    job['pub_time'] = pub_time
    jobs.append(job)  # 将job字典添加到jobs列表中
print(jobs)

执行结果如下，

[{'title': '22989-金融云区块链高级研发工程师（深圳）', 'category': '技术类', 'num': '1', 'city': '深圳', 'pub_time': '2017-11-25'}, {'title': '22989-金融云高级后台开发', 'category': '技术类', 'num': '2', 'city': '深圳', 'pub_time': '2017-11-25'}, {'title': 'SNG16-腾讯音乐运营开发工程师（深圳）', 'category': '技术类', 'num': '2', 'city': '深圳', 'pub_time': '2017-11-25'}, {'title': 'SNG16-腾讯音乐业务运维工程师（深圳）', 'category': '技术类', 'num': '1', 'city': '深圳', 'pub_time': '2017-11-25'}, {'title': 'TEG03-高级研发工程师（深圳）', 'category': '技术类', 'num': '1', 'city': '深圳', 'pub_time': '2017-11-24'}, {'title': 'TEG03-高级图像算法研发工程师（深圳）', 'category': '技术类', 'num': '1', 'city': '深圳', 'pub_time': '2017-11-24'}, {'title': 'TEG11-高级AI开发工程师（深圳）', 'category': '技术类', 'num': '4', 'city': '深圳', 'pub_time': '2017-11-24'}, {'title': '15851-后台开发工程师', 'category': '技术类', 'num': '1', 'city': '深圳', 'pub_time': '2017-11-24'}, {'title': '15851-后台开发工程师', 'category': '技术类', 'num': '1', 'city': '深圳', 'pub_time': '2017-11-24'}, {'title': 'SNG11-高级业务运维工程师（深圳）', 'category': '技术类', 'num': '1', 'city': '深圳', 'pub_time': '2017-11-24'}]

或接下来，我们使用stripped_strings获取所有职位信息，

jobs = []  # 建立值为列表，用于存放所有的职位信息
trs = soup.find_all('tr')[1:]  # 因为第一个tr标签为表头，所以从第二个tr开始取值
for tr in trs:
    job = {}
    infos = list(tr.stripped_strings)
    job['title'] = infos[0]
    job['category'] = infos[1]
    job['nums'] = infos[2]
    job['city'] = infos[3]
    job['pub_time'] = infos[4]
    jobs.append(job)
print(jobs)

2.3.select()方法

我们也可以使用select()方法获取特定标签。代码如下，

# 获取所有的tr标签
trs = soup.select('tr')  # 返回值为列表
for tr in trs:
    print(tr)
    print(type(tr))
    print("=" * 50)

# 获取第二个tr标签
tr = soup.select('tr')[1]  # 通过列表的下标获取第二个标签
print(tr)

# 获取所有class为even的标签
trs = soup.select('.even')  # 或者使用trs = soup.select('tr[class="even"]')，.属性值为获取指定class属性的标签
for tr in trs:
    print(tr)
    print("=" * 50)

# 将所有id和class为test的a标签找出来
aList = soup.select('#test, .test')  # #属性值为获取指定id属性的值，注意，如果有两个筛选条件需要加逗号分隔
for a in aList:
    print(a)

# 获取所有a标签的属性
aList = soup.select('a')
for a in aList:
    print(a['href'])

# 获取所有职位的信息(纯文本)
trs = soup.select('tr')
for tr in trs:
    infos = list(tr.stripped_strings)
    print(infos)

Windows下工作组架构和域架构 weixin_33728708 数据库系统架构
工作组架构的网络工作组架构网络也被称为对等网络（peertopeer）域架构网络工作组架构网络域架构网络网络内每台计算机地位平等，资源和管理分散在各个计算机上网络内分为域控制器和成员服务器，如果有多台域控制器，则域控制器之间地位平等每台计算机都有一个本地安全账户管理器（SecurityAccountsManager,SAM）数据库，存储本地账户域内计算机共享一个集中的目录数据库（Directory
利用A、G、DL、P策略来管理网络资源访问权限 lyuharvey
问题描述:如现在某个企业是通过域来管理的。在域中，有三台打印机，其中，销售部门只能够访问打印机A;管理部门只能够使用打印机B;财务部门可以访问打印机C，当打印机C不能够使用时，则可以使用打印机B。在域中，还有三个共享文件夹，其中文件夹甲是销售部门专用文件夹，只有销售员工以及销售总监与财务总监可以访问;文件夹乙是财务专用文件夹，只有财务部门以及财务总监帐户可以访问;文件夹丙是一个公共文件夹，任何部门
OpenAI 团队组织架构和研发技术栈 AI天才研究院 ChatGPT 人工智能
OpenAI是一家致力于推动人工智能技术发展的公司，成立于2015年。其目标是确保人工智能技术造福全人类。为了实现这一目标，OpenAI采用了多种先进的技术和组织架构来推动其研发工作。目录OpenAI组织架构和研发技术栈概述1OpenAI团队的世界顶尖科学家IlyaSutskever：Ilya是OpenAI的联合创始人之一，也是深度学习领域的先驱。他在神经网络和深度学习方面的研究具有重要影响，曾与
物联网（IoT）架构中，平台层的应用与技术小赖同学啊智能硬件物联网架构
在物联网（IoT）架构中，平台层是连接物理设备（感知层）和应用服务（应用层）的核心部分。它负责数据的采集、处理、存储、分析以及设备管理等功能，是物联网系统的“大脑”。以下是平台层的主要功能及其技术实现手段：平台层的主要功能设备管理：功能：管理物联网设备的注册、配置、监控、维护和故障诊断。技术手段：设备注册与认证：使用MQTT、CoAP等协议实现设备接入，结合OAuth、X.509证书等技术进行设备
六十天前端强化训练之第十七天React Hooks 入门：useState 深度解析编程星辰海 #前端前端 react.js javascript
=====欢迎来到编程星辰海的博客讲解======看完可以给一个免费的三连吗，谢谢大佬！目录一、知识讲解1.Hooks是什么？2.useState的作用3.基本语法解析4.工作原理5.参数详解a)初始值设置方式b)更新函数特性6.注意事项7.类组件对比8.常见问题解答二、核心代码示例三、实现效果四、学习要点总结五、扩展阅读推荐官方文档优质文章推荐学习路径进阶资源六、实践步骤一、表单输入控制二、动态
【Kubernetes】Kubernetes 容器集群管理系统概述码农鑫哥的日常 kubernetes 容器云原生 1024程序员节
目录前言什么是云原生？容器编排介绍云原生容器云容器编排云平台SRE一、Kubernetes概述1.1K8S是什么？1.1.1作用1.2为什么要用K8S?1.2.1K8s目标1.2.2K8s对于docker的优势1.2.3K8s功能1.2.4K8s特性1.2.4.1弹性伸缩1.2.4.2自我修复1.2.4.3服务发现和负载均衡1.2.4.4自动发布（默认滚动发布模式）和回滚1.2.4.5集中化配置管
QEMU 调试 TF-A开发环境建立(使用 QEMU 调试 TF-A (Trusted Firmware-A) 之二） robin861109 使用QEMU调试TF-A 硬件架构 iot 物联网
文章目录前言1`TF-A(TrustedFirmware-A)`概述2`Cortex-A57`3`ARMFVP`基板4GDB调试环境介绍4.1GDB简介4.2设置GDB调试环境4.3使用GDB5、配置QEMU调试TF-A开发环境5.1安装交叉工具链5.2安装其他必需的依赖项5.3克隆TF-A源代码5.4编译TF-A（TrustedFirmware-A）6、仿真调试过程7、实际调试过程举例前言QEM
深入解析React 18核心特性：构建未来级Web应用的全面指南斯~内克 react知识点前端 react.js 前端框架
一、React18的里程碑意义React18作为近年来最具革命性的版本更新，标志着前端开发正式进入并发渲染时代。这个版本不仅带来了底层架构的革新，更重新定义了现代Web应用的性能标准与开发范式。根据npm官方统计，React18发布首周下载量突破1800万次，GitHub星标数新增3.4万，充分展现了开发者社区对其技术价值的认可。二、架构革命：并发模式深度解析2.1并发渲染原理//传统同步渲染模式
Windows域渗透之域管理人间酒中仙红队笔记之域渗透 windows 笔记学习网络安全域渗透红队笔记
Windows域管理一、使用组策略进行软件分发1、操作步骤2、PowerShell命令示例二、配置组策略（GPO）设置1、设置密码策略2、禁用USB存储设备三、批量用户管理1、创建单个用户2、批量导入用户四、部署和管理共享驱动器1、使用组策略登录脚本自动映射驱动器2、使用PowerShell映射网络驱动器五、管理Windows更新1、使用组策略配置自动更新2、使用PowerShell管理Windo
Android Jetpack qq_39892855
AndroidJetpack翻译Jetpack是一套让开发者更容易开发出完美安卓应用的组件。这个组件帮助你遵循最好的实践，让你减少写一些模板代码，简化复杂的task任务，能让你更加专注自己的业务代码。Jetpack使用的是androidx.*包名，与旧的android.*分开。这意味着它提供向后兼容性并且他会更频繁地更新，确保您始终可以访问最新和最好的Jetpack组件版本。特点加速开发组件可以单
红蓝对抗之Windows内网渗透实战 wespten 网络安全AI+渗透测试代码审计等保全栈网络安全开发 windows
无论是渗透测试，还是红蓝对抗，目的都是暴露风险，促进提升安全水平。企业往往在外网布置重兵把守，而内网防护相对来说千疮百孔，所以渗透高手往往通过攻击员工电脑、外网服务、职场WiFi等方式进入内网，然后发起内网渗透。而国内外红蓝对抗服务和开源攻击工具大多数以攻击Windows域为主，主要原因是域控拥有上帝能力，可以控制域内所有员工电脑，进而利用员工的合法权限获取目标权限和数据，达成渗透目的。以蓝军攻击
如何用爬虫根据关键词获取商品列表：一份简单易懂的代码示例 API小爬虫爬虫
在当今数字化时代，网络爬虫已经成为数据收集和分析的强大工具。无论是市场调研、价格监控还是产品分析，爬虫都能帮助我们快速获取大量有价值的信息。今天，我们就来探讨如何通过编写一个简单的爬虫程序，根据关键词获取商品列表。以下是一个基于Python语言的代码示例，适合初学者学习和实践。一、准备工作在开始编写爬虫之前，我们需要准备以下工具和库：Python环境：确保你的电脑上安装了Python。推荐使用Py
【51单片机】程序实验17.红外遥控 -一杯为品- 51单片机 51单片机 mongodb 嵌入式硬件
主要参考学习资料：B站【普中官方】51单片机手把手教学视频开发资料下载链接：http://www.prechin.cn/gongsixinwen/208.html单片机套装：普中STC51单片机开发板A4标准版套餐7目录红外遥控介绍红外线简介红外遥控原理红外发射装置红外接收装置硬件设计实验17红外遥控红外接收头驱动主函数红外遥控介绍红外线简介可见光按波长从长到短排列依次为红橙黄绿青蓝紫，其中红光波
Spring Boot与Django对比：哪个更适合做为Web服务器框架？ m0_74824076 面试学习路线阿里巴巴 spring boot django 前端
文章目录1.基础背景与技术栈1.1SpringBoot1.2Django2.架构对比2.1SpringBoot架构2.2Django架构3.性能比较3.1SpringBoot性能3.2Django性能4.开发效率4.1SpringBoot开发效率4.2Django开发效率5.社区与生态系统5.1SpringBoot社区5.2Django社区6.部署与运维6.1SpringBoot部署与运维6.2D
打造高性能的react 大鸡腿最好吃 react.js
根本目的就是减少重复渲染使用使用shouldComponentUpdate规避冗余的更新逻辑shouldComponentUpdate触发的条件是只要父组件更新了，就会被触发，在里面判断传入的pros是否改变，不变则返回falsePureComponent+Immutable.jsPureComponent其实就是内置了对shouldComponentUpdate的实现，不过其对props的比对是
计算机视觉算法实战——驾驶员玩手机检测（主页有源码）喵了个AI 计算机视觉实战项目计算机视觉算法智能手机
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.领域简介：玩手机检测的重要性与技术挑战驾驶员玩手机检测是智能交通安全领域的核心课题。根据NHTSA数据，美国每年因手机使用导致的交通事故超过3000起，中国公安部的统计显示开车使用手机的事故率是正常驾驶的23倍。该技术通过实时监测驾驶员手部动作和视线方向，识别非法使用手机行为，在以
【Python】构建Web应用的首选：Flask框架基础与实战萧鼎 python基础到进阶教程 python 前端 flask
构建Web应用的首选：Flask框架基础与实战在Python的Web开发生态中，Flask框架以其轻量、灵活和易用的特性成为构建Web应用的首选之一。无论是快速搭建一个小型应用原型，还是构建复杂的后端服务，Flask都提供了便捷的接口和丰富的扩展支持。本博客将介绍Flask的基础知识和核心概念，并通过一个简单的实例展示如何用Flask构建Web应用。一、Flask框架简介Flask是由ArminR
安全测试数据的分析、报告及业务应用蚂蚁质量安全测试质量体系安全网络 web安全
一、安全测试指标与测量目标在风险分析和管理流程中，有效运用安全测试数据的前提是准确定义安全测试指标和测量目标。例如，通过统计安全测试中发现的漏洞总数，能够量化应用程序的安全状态，还可据此设定软件安全测试的目标，如在应用程序投入生产环境前，将漏洞数量降低至可接受的最低限度。另一个具有管理价值的目标是将应用程序的安全状态与安全基线进行对比，以此评估应用安全流程的改进情况。假设安全指标基线对应的是仅完成
Android Jetpack介绍 Gary.Mi Android
1.文档背景本文是Jetpack介绍系列文档的开篇，是对Jetpack整体的介绍，后续会对其中的各个组件分别单独说明。2.官方简介Jetpack是一套库、工具和指南，可帮助开发者更轻松地编写优质应用。使用这些组件，可帮助开发者遵循最佳实践，摆脱编写样板代码的工作并简化复杂任务，使开发者将精力集中放在所需的代码上。Jetpack包含与平台API解除捆绑的androidx.*软件包库。这意味着，它可以
linux清空文件夹的命令 getapi linux github git
在Linux系统中，清空文件夹（即删除文件夹中的所有内容，但保留文件夹本身）可以通过多种方法实现。以下是几种常见的命令和操作方式：方法1:使用rm命令rm是一个强大的命令，用于删除文件和目录。要清空文件夹的内容，可以使用以下命令：rm-rf/path/to/folder/*解释：rm：删除命令。-r：递归删除，用于处理目录及其子目录。-f：强制删除，无需确认。/path/to/folder/*：指
Spring Boot应用首次请求性能优化实战：从数据库连接池到JVM调优一休哥助手 java spring boot 性能优化数据库
目录问题现象与背景分析性能瓶颈定位方法论数据库连接池深度优化SpringBean生命周期调优JVM层性能预热策略全链路监控体系建设生产环境验证方案总结与扩展思考1.问题现象与背景分析1.1典型问题场景在某互联网金融项目的SpringBoot应用上线后，运维团队发现一个关键现象：应用重启后首次访问提现接口耗时约1300ms后续请求稳定在200ms以内每日凌晨服务重启后，首笔交易超时率高达30%1.2
深入解析 Vue 3 Teleport：原理、应用与最佳实践赵大仁前端 Vue.js 技术 vue.js javascript 前端
深入解析Vue3Teleport：原理、应用与最佳实践1.引言Vue3引入了Teleport组件，它可以让我们将组件的渲染位置从当前组件层级移动到DOM的其他位置，而不影响Vue的响应式和组件状态管理。在开发中，我们经常遇到模态框、通知、弹窗、工具提示（Tooltip）等UI组件，这些组件通常需要被渲染到body或特定DOM节点，以避免z-index层级问题。Vue3的Teleport解决了这个问
大型语言模型与强化学习的融合：迈向通用人工智能的新范式——基于基础复现的实验平台构建（initial）大模型科普人工智能强化学习
1.引言大型语言模型（LLM）在自然语言处理领域的突破，展现了强大的知识存储、推理和生成能力，为人工智能带来了新的可能性。强化学习（RL）作为一种通过与环境交互学习最优策略的方法，在智能体训练中发挥着重要作用。本文旨在探索LLM与RL的深度融合，分析LLM如何赋能RL，并阐述这种融合对于迈向通用人工智能（AGI）的意义。为了更好地理解这一融合的潜力，我们基于“LargeLanguageModela
深入解析 React Diff 算法：原理、优化与实践赵大仁前端技术 js react.js 前端前端框架
深入解析ReactDiff算法：原理、优化与实践1.引言React作为前端领域的标杆框架，采用虚拟DOM（VirtualDOM）来提升UI更新性能。React的Diff算法（Reconciliation）是虚拟DOM运行机制的核心，它决定了如何高效地对比新旧DOM并执行最少的操作来更新UI。本篇文章将深入探讨ReactDiff算法的原理、优化策略，并通过生动的示例解析其工作方式，让你能够更直观地理
强化学习-Chapter2-贝尔曼方程 Rsbs 算法机器学习概率论
强化学习-Chapter2-贝尔曼方程贝尔曼方程推导继续展开贝尔曼方程的矩阵形式状态值的求解动作价值函数与状态价值函数的关系贝尔曼方程推导Vπ(s)=E[Gt∣St=s]=E[rt+1+(γrt+2+…)∣St=s]=E[rt+1+γGt+1∣St=s]=∑a∈Aπ(s,a)∑s′∈SPs→s′a⋅(Rs→s′a+γE[Gt+1∣St+1=s′])=∑a∈Aπ(s,a)∑s′∈SPs→s′a⋅(R
本月之后，华为再无Windows PC，微软亲自“扶鸿蒙上马” 佳晓晓 pygame scikit-learn 网络 iphone vue.js
在当前中美博弈的复杂大环境下，华为这一科技巨头一直备受关注，近期更是传出重磅消息：微软对华为的Windows系统供货许可本月即将到期，且并无续约迹象。这意味着此后华为PC将无法再使用Windows系统，被迫全面转向国产方案，而鸿蒙PC系统则有望借此契机正式登上舞台。华为PC的现状与转变契机自去年8月华为上架MateBookGT14后，已有长达7个月的时间没有新品PC推出。这期间，华为PC的销量也受
Java基础编程找素数是盈盈啊笔记
说明：除了1和它本身以外，不能被其他正整数整除，就叫素数。方法是否需要接收数据进行处理？需要接收101以及200，以便找该区间中的素数。方法是否需要返回数据？需要返回找到的素数个数。方法内部的实现逻辑：使用for循环来产生如101到200之间的每个数；每拿到一个数，判断该数是否是素数；判断规则是：从2开始遍历到该数的一半的数据，看是否有数据可以整除它，有则不是素数，没有则是素数；根据判
前端面试题---vue项目打包时, 内存不足了怎么办为什么会出现这样的情况 *星之卡比* 前端 vue.js javascript
Vue项目打包时如果出现内存不足（OOM，OutofMemory）简称就是OOM，通常是因为项目代码量较大、依赖过多、打包时Webpack需要处理的文件过多，导致Node.js运行时超出了默认的内存限制。一、为什么会出现内存不足？项目过大：项目代码文件过多，Webpack需要处理的内容太多。第三方库过多：node_modules体积过大，依赖库多且未进行优化。SourceMap过大：默认produ
基于Docker及Kubernetes技术构建容器云（PaaS）平台概述_基于kubernetes iaas(1) 2401_83946044 程序员 docker kubernetes paas
|组成模块|模块说明||—|—||AppRouter[流量接入层]|接收用户请求，并转发到不同的AppRuntime。||AppRuntime[应用运行层]|应用运行环境，为各个应用提供基本的运行引擎，从而让app能够运行起来。||Services[基础服务层]|各个通用基础服务，主要是对主流的服务提供通用的接入，例如数据库等。||PlatformControl[平台控制层]|整个平台的控制中心，
静态顺序表有梦想的电信狗《数据结构与算法》数据结构 c语言 c++链表
顺序表顺序表和链表都是线性表的一种，此处介绍顺序表数据的存储结构有分为逻辑存储结构和物理存储结构。顺序表和链表(之后的文章会详解)实际上都是线性表，是因为他们的逻辑存储关系都是线性的，只是因为在计算机内存中存储的方式(物理存储结构)不同。两种物理存储结构各有优劣，作为开发者，在不同的场景需要灵活选用相应的数据结构来存储数据，来促使我们的程序更高效的运行。静态顺序表静态顺序表，顾名思义，即为顺序表的
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

职位名称	职位类别	人数	地点	发布时间
22989-金融云区块链高级研发工程师（深圳）	技术类	1	深圳	2017-11-25
22989-金融云高级后台开发	技术类	2	深圳	2017-11-25
SNG16-腾讯音乐运营开发工程师（深圳）	技术类	2	深圳	2017-11-25
SNG16-腾讯音乐业务运维工程师（深圳）	技术类	1	深圳	2017-11-25
TEG03-高级研发工程师（深圳）	技术类	1	深圳	2017-11-24
TEG03-高级图像算法研发工程师（深圳）	技术类	1	深圳	2017-11-24
TEG11-高级AI开发工程师（深圳）	技术类	4	深圳	2017-11-24
15851-后台开发工程师	技术类	1	深圳	2017-11-24
15851-后台开发工程师	技术类	1	深圳	2017-11-24
SNG11-高级业务运维工程师（深圳）	技术类	1	深圳	2017-11-24

python爬虫之BeautifulSoup4库介绍与使用

BeautifulSoup4库

1.介绍

2.使用

2.1.解析html页面

2.2.find()与find_all()方法

2.3.select()方法

你可能感兴趣的:(python爬虫之BeautifulSoup4库介绍与使用)