自学小白菜

python爬虫8：bs4库

前言

python实现网络爬虫非常简单，只需要掌握一定的基础知识和一定的库使用技巧即可。本系列目标旨在梳理相关知识点，方便以后复习。

申明

本系列所涉及的代码仅用于个人研究与讨论，并不会对网站产生不好影响。

目录结构

文章目录

- python爬虫8：bs4库
- - 1. 概述与安装
  - 2. 解析器
  - 3. 方法讲解
  - - 3.1 第一个例子
    - 3.2 初始化
    - 3.3 通过标签名来获取元素
    - 3.4 通过属性来获取元素
    - 3.5 通过find方法来获取元素（常用）
    - 3.6 通过css语法获取元素
    - 3.7 获取信息
  - 4. 总结

1. 概述与安装

bs4是BeautifulSoup4的简称，它是一个可以从HTML中提取数据的Python第三方库，也是我们将要讲解的第二个解析库，除此之外，还有常用的pyquery（主要通过css语法来获取，我们不讲解，因为需要学习过前端的css）、re（正则表达式库，基础库，但是用于爬虫里比较麻烦，因此也不讲解）。

其安装非常简单：

pip install Beautifulsoup4

2. 解析器

对于bs4这个库来说，我们主要使用的是BeautifulSoup对象，使用方法如下：

# 导包
from bs4 import BeautifulSoup
# 创建对象
soup = BeautifulSoup()
print(type(soup))

# 结果为：
#

而BeautifulSoup在解析网页的时候依赖于其他的解析器，如我们之前讲解过的lxml等等。下面给出常见的四种解析器：Python标准库、lxml解析器、xml解析器、html5lib解析器。上面四种解析器各有优点也有缺点，其中最常用的就是lxml，因为其解析速度和容错性都比较好。

下面给出四种解析器的优缺点：

解析器	优点	缺点
Python标准库	python内置标准库，执行速度适中，文档容错强	python2.x与python3.2.2之前的版本容错能力差
lxml	速度快、容错能力强	需要安装C语言库
xml	速度快，唯一支持XML文档的解析器	需要安装C语言库
html5lib	最好的容错性	速度慢

什么是容错性？

这里解释一下，什么是容错性。我们有时候传给BeautifulSoup的网页源代码并不完整，或者说格式不标准，其中常见的如：table标签的写法，table标签现在一般都采取的简写的方式，而不是标准的写法。这时，不同的解析器就有不同的容错性，或者说对于修正性。

3. 方法讲解

3.1 第一个例子

下面给出bs4的一个小小例子，让大家有一个印象：

from bs4 import BeautifulSoup

text = '''

    4K风景
    4K美女
    4K游戏
    4K动漫
    4K影视
    4K明星
    4K汽车
    4K动物
    4K人物
    4K美食
    4K宗教
    4K背景

'''
soup = BeautifulSoup(text,'lxml')   # 需要安装lxml库哦
# 提取出 所有类名
tag_list = soup.find_all('a')
for tag in  tag_list:
    print(tag.text)

结果为：

4K风景
4K美女
4K游戏
4K动漫
4K影视
4K明星
4K汽车
4K动物
4K人物
4K美食
4K宗教
4K背景

3.2 初始化

跟lxml一样，第一个步骤仍然是初始化，这个步骤是固定的，就不多说了，代码如下：

from bs4 import BeautifulSoup
soup = BeautifulSoup(text,'lxml')   # 需要安装lxml库哦
# text为html源码，字符串格式

3.3 通过标签名来获取元素

第一个选择元素的方法，如下示例；

from bs4 import BeautifulSoup

text = '''

    4K风景
    4K美女
    4K游戏
    4K动漫
    4K影视
    4K明星
    4K汽车
    4K动物
    4K人物
    4K美食
    4K宗教
    4K背景

'''
soup = BeautifulSoup(text,'lxml')   # 需要安装lxml库哦
# 方法一
result = soup.div
print(type(result))
print('-'*50)
print(result)

结果如下：

<class 'bs4.element.Tag'>
--------------------------------------------------
<div class="classify clearfix">
<a href="/4kfengjing/" title="4K风景图片">4K风景a>
<a href="/4kmeinv/" title="4K美女图片">4K美女a>
<a href="/4kyouxi/" title="4K游戏图片">4K游戏a>
<a class="curr" href="/4kdongman/" title="4K动漫图片">4K动漫a>
<a href="/4kyingshi/" title="4K影视图片">4K影视a>
<a href="/4kmingxing/" title="4K明星图片">4K明星a>
<a href="/4kqiche/" title="4K汽车图片">4K汽车a>
<a href="/4kdongwu/" title="4K动物图片">4K动物a>
<a href="/4krenwu/" title="4K人物图片">4K人物a>
<a href="/4kmeishi/" title="4K美食图片">4K美食a>
<a href="/4kzongjiao/" title="4K宗教图片">4K宗教a>
<a href="/4kbeijing/" title="4K背景图片">4K背景a>
div>

可见，这种方法的语法形式为： xxx.Tag_name。这种选择还支持嵌套选择，如下：

# 为了大家方便，省略了相同的代码，下面只给出需要修改的代码
# 修改之前：result = soup.div
# 修改之后：
result = soup.div.a

结果为：：


--------------------------------------------------
4K风景

可见，当有多个符合条件的标签时，选择第一个符合的标签。

缺点：选择性很低，无法增加附加条件进行更深层次的筛选。

小小的总结一下：

1.  xxx.Tag_name
2.  当有多个符合条件的标签时，选择第一个符合的标签。

3.4 通过属性来获取元素

主要依靠一些属性来获取，如：contents、children、descendants等等。下面一一讲解其作用：

子节点

属性： contents、children

作用：获取目标的直接子节点

注意：contents返回的是列表，而children返回的是生成器。

比如：

from bs4 import BeautifulSoup

text = '''

    4K风景
    4K美女
    4K游戏
    4K动漫
    4K影视
    4K明星
    4K汽车
    4K动物
    4K人物
    4K美食
    4K宗教
    4K背景

'''
soup = BeautifulSoup(text,'lxml')   # 需要安装lxml库哦

# 方法二
print(type(soup.div.contents))
for child in soup.div.contents:
    print(child)

结果为：

<class 'list'>
<a href="/4kfengjing/" title="4K风景图片">4K风景a>
<a href="/4kmeinv/" title="4K美女图片">4K美女a>
<a href="/4kyouxi/" title="4K游戏图片">4K游戏a>
<a class="curr" href="/4kdongman/" title="4K动漫图片">4K动漫a>
<a href="/4kyingshi/" title="4K影视图片">4K影视a>
<a href="/4kmingxing/" title="4K明星图片">4K明星a>
<a href="/4kqiche/" title="4K汽车图片">4K汽车a>
<a href="/4kdongwu/" title="4K动物图片">4K动物a>
<a href="/4krenwu/" title="4K人物图片">4K人物a>
<a href="/4kmeishi/" title="4K美食图片">4K美食a>
<a href="/4kzongjiao/" title="4K宗教图片">4K宗教a>
<a href="/4kbeijing/" title="4K背景图片">4K背景a>

子孙节点：

属性： descendants

作用：获取目标的所有子孙元素

返回值：生成器

比如：

from bs4 import BeautifulSoup
text = '''

    
        
            
            动漫女孩 黑发 露肩 4k壁
        
    
    
        
            
            古风 美少女 伞 长发 女
        
    
    
        
            
            下午 趴在桌子的女孩4k动
        
    

'''
soup = BeautifulSoup(text,'lxml')   # 需要安装lxml库哦

# 方法二
print(type(soup.ul.descendants))
for child in soup.ul.descendants:
    print(child)

结果：

<class 'generator'>

# 显示其中一个结果
# 从下面可以看出，一一获取里面所有的值

<li>
<a href="/tupian/26783.html" target="_blank">
<img alt="动漫女孩 黑发 露肩 4k壁纸3840x2160" src="/uploads/allimg/210122/210154-16113205145cce.jpg"/>
<b>动漫女孩 黑发 露肩 4k壁</b>
</a>
</li>

<a href="/tupian/26783.html" target="_blank">
<img alt="动漫女孩 黑发 露肩 4k壁纸3840x2160" src="/uploads/allimg/210122/210154-16113205145cce.jpg"/>
<b>动漫女孩 黑发 露肩 4k壁</b>
</a>

<img alt="动漫女孩 黑发 露肩 4k壁纸3840x2160" src="/uploads/allimg/210122/210154-16113205145cce.jpg"/>

<b>动漫女孩 黑发 露肩 4k壁</b>
动漫女孩 黑发 露肩 4k壁

父节点：

属性： parent

作用：获取目标节点的父节点

祖先节点：

属性： parents

作用：获取目标节点的所有祖先节点

返回值：生成器

兄弟节点：

属性1 ： next_sibling

作用：获取下一个兄弟节点

属性2 ： previous_sibling

作用：获取上一个兄弟节点

属性3： next_siblings

作用：获取下面的所有兄弟节点

属性4： previous_siblings

作用：获取之前的所有兄弟节点

3.5 通过find方法来获取元素（常用）

find_all()方法：

作用： 查询出所有符合条件的元素

常用参数： name、attrs、text

参数讲解：

name ：想要获取的节点的节点名字
attrs：想要获取的节点的属性，根据这个属性来筛选，接收字典
text：可以指定正则表达式或者字符串，去匹配元素的内容

示例一：name 和 attrs 的配合使用

from bs4 import BeautifulSoup
text = '''

    
        你好
        白菜
        白菜
        白菜
        白菜
        黑彩
    

'''
soup = BeautifulSoup(text,'lxml')   # 需要安装lxml库哦
# 筛选出白菜
result_list = soup.find_all('a',attrs={'class':'white'})
print(type(result_list))
print('-'*50)
for result in result_list:
    print(result)

结果：

<class 'bs4.element.ResultSet'>
--------------------------------------------------
<a class="white" href="/tupian/26783.html" target="_blank">白菜a>
<a class="white" href="/tupian/26783.html" target="_blank">白菜a>
<a class="white" href="/tupian/26783.html" target="_blank">白菜a>
<a class="white" href="/tupian/26783.html" target="_blank">白菜a>

示例二： text的使用

import re
from bs4 import BeautifulSoup
text = '''

    
        你好
        白菜,你好，我是黑菜
        白菜，你好，你好
        我是一个小白菜
        大白菜
        黑彩
    

'''
soup = BeautifulSoup(text,'lxml')   # 需要安装lxml库哦
# 筛选出白菜
result_list = soup.find_all(text=re.compile(r'白菜'))
for result in result_list:
    print(result)

结果为：

白菜,你好，我是黑菜
白菜，你好，你好
我是一个小白菜
大白菜

find()方法:

作用：返回第一个匹配成功的元素

find_parents()和find_parent():

find_parents():返回所有的祖先节点

find_parent():返回直接父节点

find_next_siblings()和find_next_sibling():

find_next_siblings(): 返回后面所有的兄弟节点

find_next_sibling(): 返回下一个兄弟节点

find_previous_siblings()和find_previous_sibling():

find_previous_siblings()：返回之前的所有的兄弟节点

find_previous_sibling()：返回上一个兄弟节点

3.6 通过css语法获取元素

如果你学过css，那么你也可以采取css来写，不过我建议你选择pyquery模块来写css，因为pyquery专门使用css来解析网页。

写法：

xxx.select('css代码 ')

作用：

返回所有符合css条件的元素

示例：

from bs4 import BeautifulSoup
text = '''

    
        你好
        白菜,你好，我是黑菜
        白菜，你好，你好
        我是一个小白菜
        大白菜
        黑彩
    

'''
soup = BeautifulSoup(text,'lxml')   # 需要安装lxml库哦
# 筛选出白菜
result_list = soup.select('.white')
for result in result_list:
    print(result)

结果如下：

<a class="white" href="/tupian/26783.html" target="_blank">白菜,你好，我是黑菜a>
<a class="white" href="/tupian/26783.html" target="_blank">白菜，你好，你好a>
<a class="white" href="/tupian/26783.html" target="_blank">我是一个小白菜a>
<a class="white" href="/tupian/26783.html" target="_blank">大白菜a>

3.7 获取信息

元素筛选成功后，我们需要获取元素的一定信息，如：文本信息、属性信息等等。

获取文本信息：

xxx.string：
	用来获取目标路径下第一个非标签字符串，得到的是个字符串

xxx.stings:
	用来获取目标路径下所有的子孙非标签字符串，返回的是个生成器

xxx.stripped_strings：
	用来获取目标路径下所有的子孙非标签字符串，会自动去掉空白字符串，返回的是一个生成器
	
xxx.get_text()：
	用来获取目标路径下的子孙字符串，返回的是字符串（包含HTML的格式内容）

示例：

from bs4 import BeautifulSoup
text = '''

    
        你好
        白菜,你好，我是黑菜
        白菜，你好，你好
        我是一个小白菜
        大白菜
        黑彩
    

'''
soup = BeautifulSoup(text,'lxml')   # 需要安装lxml库哦
# 筛选出白菜
tag = soup.find('li')
print(tag.string)
print(list(tag.strings))
print(list(tag.stripped_strings))
print(tag.get_text())

结果如下：

None
['\n', '你好', '\n', '白菜,你好，我是黑菜', '\n', '白菜，你好，你好', '\n', '我是一个小白菜', '\n', '大白菜', '\n', '黑彩', '\n']
['你好', '白菜,你好，我是黑菜', '白菜，你好，你好', '我是一个小白菜', '大白菜', '黑彩']

你好
白菜,你好，我是黑菜
白菜，你好，你好
我是一个小白菜
大白菜
黑彩

获取属性信息：

xxx.attrs['属性名字']

xxx['属性名字']

示例：

from bs4 import BeautifulSoup
text = '''

    
        你好
        白菜,你好，我是黑菜
        白菜，你好，你好
        我是一个小白菜
        大白菜
        黑彩
    

'''
soup = BeautifulSoup(text,'lxml')   # 需要安装lxml库哦
# 筛选出白菜
tag_list = soup.find_all('a')
tag_attr_list_one = [tag.attrs['class'] for tag in tag_list]
tag_attr_list_two = [tag['class'] for tag in tag_list]
print(tag_attr_list_one)
print('-'*50)
print(tag_attr_list_two)

结果：

[['hello'], ['white'], ['white'], ['white'], ['white'], ['black']]
--------------------------------------------------
[['hello'], ['white'], ['white'], ['white'], ['white'], ['black']]

4. 总结

本篇讲解了第二个解析库bs4，当然其实大家不需要了解那么多的解析库，会一两个即可，因此本系列也只讲解lxml、bs4这两个用到最多的解析库，其他的比如pyquery、re都可以自己去学习。

下一篇会将之前的小说实战重新采用bs4来解析。

Python 3.11.6 Windows 64位版安装程序下载：轻松上手Python最新版本惠凯忱Montague
Python3.11.6Windows64位版安装程序下载：轻松上手Python最新版本去发现同类优质开源项目:https://gitcode.com/项目介绍在编程领域，Python无疑是一种极为流行且强大的编程语言。Python3.11.6Windows64位版安装程序的推出，为Windows用户提供了官方最新版本的安装便利。这个版本不仅包含了许多优化和新特性，而且确保了在64位Windows
【YOLOv11】ultralytics最新作品yolov11 AND 模型的训练、推理、验证、导出以及使用 Jackilina_Stone #Deep Learning 【改进】YOLO系列 YOLO 人工智能 python 计算机视觉深度学习
目录一ultralytics公司的最新作品YOLOV111yolov11的创新2安装YOLOv113PYTHONGuide二训练三验证四推理五导出模型六使用文档：https://docs.ultralytics.com/models/yolo11/代码链接：https://github.com/ultralytics/ultralyticsPerformanceMetrics
python中常用函数表_Python列表中几个常用函数总结 weixin_39934613 python中常用函数表
1、append()方法用于在列表末尾添加新的对象。语法：list.append(obj)参数：list定义的列表obj所要添加到列表的对象例：list=['Microsoft','Amazon','Geogle']list.append('Apple')print(list)显示结果为：['Microsoft','Amazon','Geogle','Apple']2、extend()函数用于在列
Python 与面向对象编程（OOP） lanbing 面向对象（OOP）python 开发语言面向对象
Python是一种支持面向对象编程（OOP）的多范式语言，其OOP实现简洁灵活，但在某些设计选择上与传统OOP语言（如Java、C#）存在显著差异。以下是Python面向对象编程的核心特性、优势和局限性的全面解析：一、Python的OOP核心特性1.万物皆对象Python中所有数据类型（如整数、字符串）均为对象，继承自object基类。函数、模块、异常等也都是对象，可以赋值、传递或动态修改。例如n
【Python】Python —— 列表 (文末附思维导图）
Python——列表1定义用于存储任意数目、任意类型的数据集合。List（列表）是Python内置的一种数据类型。标准语法格式：1.a=[10,20,30,40]2.a=[10,20,‘abc’,True]是一种有序的集合，可以随时增加或删除其中的元素。标识是中括号[]。2创建2.1基本语法创建a=[10,20,'yangyaqi','石家庄学院',True]a[10,20,‘yangyaqi’,
python源码编译安装和常见问题解决运维天坑笔记 python 开发语言 linux
python编译安装1、下载源码包wgethttps://www.python.org/ftp/python/3.9.10/Python-3.9.10.tgztar-zxfPython-3.9.10.tgzcdpython39/2、编译安装./configure--prefix=/usr/local/python39--enable-shared--enable-optimizationsmake
Python语法笔记 XiTang1 python 笔记开发语言
Python的基本语法1.计算机相关的名词知识1.1计算机的组成计算机之父：冯.诺依曼，根据冯.诺依曼结构体系，计算机是分为5部分的1.输入设备把信息传递到计算机中，比如键盘、鼠标2.输出设备信息从计算机中传递出来，比如音响、显示器、打印机等等3.存储区计算机被发明出来就是用于数据的存储和计算的计算机上有两个存储数据的设备：内存、硬盘硬盘：电脑上的磁盘分区，存储在硬盘中的数据都是持久化存储【只要不
Python编程：实现文件比对倔强老吕 C++与python交互编程 python 哈希算法
Python提供了多个用于文件比对的库，适用于不同的比较场景。以下是主要的文件比对库及其特点：1.标准库中的比对工具1.1filecmp模块功能：文件和目录比较特点：比较文件内容（浅层和深层比较）比较目录结构内置dircmp类用于目录比较典型用途：importfilecmp#文件比较filecmp.cmp('file1.txt','file2.txt',shallow=False)#目录比较com
Python, C ++,C #开发全球英才阐教版集结令APP Geeker-2025 python c++c语言
以下是为使用**Python、C++和C#**开发**全球英才(阐教版)集结令APP**的深度技术方案，融合三语言优势构建跨平台、高智能的玄门英才聚合系统：---###一、系统架构设计```mermaidgraphTDA[多端客户端]-->B{C#阐道引擎}B-->C[C++玄法核心]C-->D[Python慧识层]D-->E[AI英才匹配]C-->F[天机推演]B-->G[三界通信]G-->H[
Python, Rust 开发教育/医疗/文化资源去中心化分配APP Geeker-2025 python rust
以下是为教育、医疗、文化资源设计的**去中心化分配APP**的完整技术方案，结合Python的灵活性和Rust的高性能与安全性，实现公平透明的资源分配：---###系统架构设计```mermaidgraphTDA[用户终端]-->B[区块链网络]A-->C[分配引擎]B-->D[智能合约]C-->E[资源数据库]D-->F[分配记录]subgraph技术栈C-.Rust.->G[核心分配算法]D-
Python, Go 开发客户服务软件APP Geeker-2025 python golang
以下是一个结合Python和Go开发的**客户服务软件APP**的完整技术方案，充分利用Python的AI能力和Go的高并发特性，构建高性能、智能化的客户服务系统：---###系统架构设计```mermaidgraphTDA[客户端]-->B[GoAPI网关]B-->C[工单管理]B-->D[实时聊天]B-->E[知识库]B-->F[AI引擎]C-->G[工单数据库]D-->H[消息队列]F-->
基于nodejs+vue.js服装商店电子商务管理系统
如果你是一个小白,你不懂得像javaPHP、Python等编程语言，那么Node.js是一个非常好的选择。采用vscode软件开发,配套软件安装.包安装调试部署成功,有视频讲解前端:html+vue+elementui+jQuery、js、css数据库：mysql,Navicatvue框架于Node运行环境的Web框架,随着互联网技术的飞速发展，世界逐渐成了一个地球村，空间的距离也不再是那么重要。
《Effective Python》第十一章性能——延迟加载模块，通过动态导入减少 Python 程序启动时间不学无术の码农 Effective Python 精读笔记 python 开发语言
引言本文基于《EffectivePython:125SpecificWaystoWriteBetterPython,3rdEdition》第11章:性能中的Item98：Lazy-LoadModuleswithDynamicImportstoReduceStartupTime。本文旨在总结书中关于延迟加载模块的核心观点，并结合我自己的开发经验，深入探讨其在实际项目中的应用场景与优化价值。Pytho
「日拱一码」010 Python常用库——statistics 胖达不服输「日拱一码」python python常用库 statistics
目录平均值相关mean()：计算算术平均值，即所有数值相加后除以数值的个数fmean()：与mean()类似，但使用浮点运算，速度更快，精度更高geometric_mean()：计算几何平均值，即所有数值相乘后开n次方根（n为数值的个数）harmonic_mean()：计算调和平均值，即数值个数除以每个数值的倒数之和median()：计算中位数，即将一组数值按大小顺序排列后位于中间的数。如果数值个
「日拱一码」013 Python常用库——Numpy 胖达不服输「日拱一码」python numpy 常用库
目录数组创建numpy.array：创建一个ndarray对象numpy.zeros：创建一个指定形状和数据类型的全零数组numpy.ones：创建一个指定形状和数据类型的全1数组numpy.empty：创建一个指定形状和数据类型的未初始化数组。其元素值是随机的，取决于内存中的初始状态numpy.arange：类似于Python内置的range函数，但返回的是ndarraynumpy.linspa
python日记Day17——Pandas之Excel处理石石石大帅 Python笔记 excel python 数据分析
python日记——Pandas之Excel处理创建文件importpandasaspddf=pd.DataFrame({'ID':[1,2,3],'Name':['Tom','BOb','Gigi']})df.to_excel("C:/Temp/Output.xlsx")print("done!")读取文件importpandasaspdpeople=pd.read_excel("C:/Temp
尚未调用 CoInitialize 问题解决
在线程开头处添加即可importpythoncompythoncom.CoInitialize()执行完成需要用pythoncom.CoUninitialize释放资源
【常见问题】Python自动化办公，打开输出的word文件，报错AttributeError: module ‘win32com.gen_py.00020905-0000-0000-
Python自动化办公，打开输出的word文件，出现ERROR：File"D:\Develop\Building_save_energy\BuildingDiagnoseRenovationTool.py",line2930,inopen_docdoc_app=win32.gencache.EnsureDispatch('Word.Application')File"C:\Users\Jay\.c
第十一节：Vben Admin 最新 v5.0 (vben5) + Python Flask 快速入门 - 角色菜单授权锅锅来了 Vben vben5 Vben Admin python3 后台管理框架
Vben5系列文章目录基础篇✅第一节：VbenAdmin最新v5.0(vben5)+PythonFlask快速入门✅第二节：VbenAdmin最新v5.0(vben5)+PythonFlask快速入门-PythonFlask后端开发详解(附源码)✅第三节：VbenAdmin最新v5.0(vben5)+PythonFlask快速入门-对接后端登录接口(上)✅第四节：VbenAdmin最新v5.0(v
python 内置函数大全及完整使用示例慧一居士 Python python
Python内置函数是预先定义好的高效工具，涵盖数学运算、类型转换、序列操作等多个领域。以下是常见内置函数的分类大全及使用示例：一、数学运算函数abs(x)返回数值的绝对值，支持整数、浮点数和复数[1][2][4]。abs(-10)#输出10abs(-3.5)#输出3.5abs(3+4j)#输出5.0divmod(a,b)返回商和余数的元组，等价于(a//b,a%b)[2][4]。divmod(9
Python —— pandas 主要方法和常用属性（一）墨码笔记知识点 python 数据分析 Pandas
Pandas基础类型Series类型创建SeriesSeries的自定义索引读取SeriesPandaspandas数据分析统计包，是一款功能强大的用于数据分析的操作工具，由于其的实用性对操作数据的方便性广受欢迎，今天就来学习一下Pandas数据包的用法吧！在此之前推荐了解一下numpy基础类型说道数据类型，大家熟知的大概都是intstrbool等数据类型，或者是Python中的listtuple
「日拱一码」014 Python常用库——Pandas
目录数据结构pandas.Series：一维数组，类似于数组，但索引可以是任意类型，而不仅仅是整数pandas.DataFrame：二维表格型数据结构，类似于Excel表格，每列可以是不同的数据类型数据读取与写入读取数据pd.read_csv()：读取CSV文件pd.read_excel()：读取Excel文件pd.read_sql()：从数据库读取数据写入数据DataFrame.to_csv()
Python 项目完整结构示例慧一居士 Python python
以下是一个典型的Python项目完整结构示例，适用于中等规模的应用程序或库。该结构遵循最佳实践，具有良好的模块化、可维护性和扩展性。项目结构示例my_project/├──src/#源代码目录│├──__init__.py#标记为Python包│├──main.py#主程序入口（可选）│├──core/#核心功能模块││├──__init__.py││├──app.py││└──utils.py│
python tab键自动补全怎么用_python Tab自动补全命令设置 weixin_39961636 python tab键自动补全怎么用
Mac/Windows下需要安装模块儿pipinstallpyreadlinepipinstallrlcompleterpipinstallreadline注意，需要先安装pyreadline之后才能顺利安装readlineMac下代码如下>>>importrlcompleter>>>importreadline>>>importos>>>importsys>>>>>>if'libedit'inr
python tab键自动补全_为python命令行添加Tab键自动补全功能 weixin_39692253 python tab键自动补全
在使用linux命令的时候我们习惯使用下Tab键，在python下我们也可以实现类似的功能。具体代码如下：$catstartup.py#!/usr/bin/python#pythonstartupfileimportsysimportreadlineimportrlcompleterimportatexitimportos#tabcompletionreadline.parse_and_bind(
python tab键自动补全没反应_CentOS下为python命令行添加Tab键自动补全功能 weixin_39741459 python tab键自动补全没反应
难道python命令就真的没办法使用Tab键的自动补全功能么？当然不是了，我们依然可以使用。只不过需要自己动手配置一下。操作系统环境：CentOSrelease6.4x86_32软件版本：Python2.6.6下面我们具体了解配置方法：1、编写一个Tab键自动补全功能的脚本。新手会说不会写怎么办？搜索引擎可以帮助你，关键字(pythontab键自动补全)1、编写一个Tab键自动补全功能的脚本。新手
python命令行添加Tab键自动补全 weixin_30600503 python
1、编写一个tab的自动补全脚本,名为tab.py#!/usr/bin/python#pythontabcompleteimportsysimportreadlineimportrlcompleterimportatexitimportos#tabcompletionreadline.parse_and_bind('tab:complete')#historyfilehistfile=os.pat
JavaScript爬虫使用API提取代理模板 q56731523 javascript 爬虫开发语言
JavaScript爬虫有两大优势：直接执行页面JS（Puppeteer/Playwright）和解析SPA（单页应用）如React/Vue这就是我为何钟爱于JavaScript爬虫的原因。最近有几个同行说，使用API代理IP配合JavaScript经常报错，修改请求头或者访问频率也未能解决问题，因此，请求我们出手修改代码，一看代码简直惨不忍睹，能运行起来算他运气好，索性我自己写个通用模版给他参考
【Python】edge-tts ：便捷语音合成宅男很神经 python 开发语言
第一章：初识edge-tts——开启语音合成之旅1.1文本转语音(TTS)技术概述文本转语音（Text-to-Speech,TTS），顾名思义，是一种将输入的文本信息转换成可听的语音波形的技术。它是人机语音交互的关键组成部分，使得计算机能够像人一样“说话”。1.1.1TTS的发展简史与重要性TTS技术的研究可以追溯到上世纪中叶，早期的TTS系统通常基于参数合成或拼接合成的方法，声音机械、不自然。参
学会了编程才知道店员是“AI机器人” IT-博通哥 Python python 开发语言
根据老罗点咖啡的视频中（"给我来杯中杯"、"这是大杯，中杯是我们最小的杯型"的对话）我用Python代码模拟这个场景：classStarbucks:def__init__(self):self.cup_sizes={"中杯":"Tall","大杯":"Grande","超大杯":"Venti"}deforder_coffee(self,size):ifsize=="中杯":print("店员：这是
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

python爬虫8：bs4库