一只特立独行的鱼儿

Python爬虫利器 | Beautiful Soup4遍历文档

Beautiful Soup介绍

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航，查找，修改文档的方式。BeautifulSoup会帮你节省数小时甚至数天的工作时间。
以上摘自官网

Beautiful Soup 安装

$ easy_install beautifulsoup4
# or
$ pip install beautifulsoup4

安装解析器

Beautiful Soup 不仅支持 Python 标准库中的 HTML 解析器，还支持很多第三方的解析器，比如 lxml，html5lib 等。可以选择下列三种方法来安装lxml:

$ apt-get install Python-lxml

$ easy_install lxml

$ pip install lxml

另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同,可以选择下列方法来安装html5lib:

$ apt-get install Python-html5lib

$ easy_install html5lib

$ pip install html5lib

各解析器优缺点如下:

推荐使用lxml作为解析器,因为效率更高. 在Python2.7.3之前的版本和Python3中3.2.2之前的版本,必须安装lxml或html5lib, 因为那些Python版本的标准库中内置的HTML解析方法不够稳定.

注意: 如果一段HTML或XML文档格式不正确的话,那么在不同的解析器中返回的结果可能是不一样的,查看

Beautiful Soup 使用

Beautiful Soup 使用来起来非常简单，将一段文档(一段字符串或一个文件句柄)传入BeautifulSoup 的构造方法,就能得到一个文档的对象，有了该对象之后，就可以对该文档做一些我们想做的操作了。而传入的文本大都是通过爬虫爬取过来的，所以 Beautiful Soup 和 requests 库结合使用体验效果更佳。

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("data")

首先,文档被转换成Unicode,并且HTML的实例都被转换成Unicode编码

BeautifulSoup("Sacré bleu!")
<html><head></head><body>Sacré bleu!</body></html>

然后,Beautiful Soup选择最合适的解析器来解析这段文档,如果手动指定解析器那么Beautiful Soup会选择指定的解析器来解析文档.

对象的种类

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:Tag , NavigableString, BeautifulSoup, Comment.
其中:

Tag 就是 HTML 的一个标签，比如 div，p ,h1~h6标签等，也是用的最多的一个对象。
NavigableString 指标签内部的文字，直译就是可遍历的字符串。
BeautifulSoup 指一个文档的全部内容，可以当成一个 Tag 来处理。
Comment 是一个特殊的 NavigableString，其输出内容不包括注释内容。

Tag

Tag 对象与XML或HTML原生文档中的tag相同:

soup = BeautifulSoup('Extremely bold')
tag = soup.b
type(tag)
#

tag中重要的属性

tag中最重要的属性有:name和attributes

Name

每个tag都有自己的名字,通过.name来获取:

tag.name
# u'b'

如果改变了tag的name,那将影响所有通过当前Beautiful Soup对象生成的HTML文档:

tag.name = "blockquote"
tag
# Extremely bold

Attributes

一个tag可能有很多个属性. tag 有一个“class” 的属性,值为 “boldest” . tag的属性的操作方法与字典相同:tag的属性可以被添加,删除或修改

tag['class'] # u'boldest' # tag的属性可以被添加,删除或修改 tag['class'] = 'verybold' tag['id'] = 1 tag # Extremely bold del tag['class'] del tag['id'] tag # Extremely bold tag['class'] # KeyError: 'class' print(tag.get('class')) # None

也可以直接”点”取属性, 比如: .attrs :

tag.attrs # {u'class': u'boldest'}

字符串常被包含在tag内.Beautiful Soup用NavigableString类来包装tag中的字符串:

tag.string # u'Extremely bold' type(tag.string) #

一个NavigableString 字符串与Python中的Unicode字符串相同,并且还支持包含在遍历文档树和搜索文档树中的一些特性. 通过unicode()方法可以直接将 NavigableString 对象转换成Unicode字符串:

unicode_string = unicode(tag.string) unicode_string # u'Extremely bold' type(unicode_string) #

tag中包含的字符串不能编辑,但是可以被替换成其它的字符串,用replace_with()方法:

tag.string.replace_with("No longer bold") tag # No longer bold

BeautifulSoup

BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作Tag 对象,它支持遍历文档树和搜索文档树中描述的大部分的方法.

因为 BeautifulSoup 对象并不是真正的HTML或XML的tag,所以它没有name和attribute属性.但有时查看它的 .name属性是很方便的,所以 BeautifulSoup 对象包含了一个值为“[document]”的特殊属性.name

注释及特殊字符串:
Tag,NavigableString , BeautifulSoup 几乎覆盖了html和xml中的所有内容,但是还有一些特殊对象:如文档的注释部分,这就需要Comment对象会使用特殊的格式输出注释部分:

markup = "" soup = BeautifulSoup(markup) comment = soup.b.string type(comment) # # Comment 对象会使用特殊的格式输出注释部分 comment # u'这是一段注释'

遍历文档树

先定义一串 HTML 文本,下面做解析:

html_doc = """ index 商城这是我的第三个商城,欢迎来参观 home design products 欢迎来参观. ... """ from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc)

子节点

一个Tag可能包含多个字符串或其它的Tag,这些都是这个Tag的子节点.Beautiful Soup提供了许多操作和遍历子节点的属性.

注意: Beautiful Soup中字符串节点不支持这些属性,因为字符串没有子节点

获取Tag的名字

操作文档树最简单的方法就是告诉它你想获取的tag的name.如果想获取标签,只要用 soup.head :

soup.head # index soup.title # 商城

可以在文档树的tag中多次调用这个方法.例如获取标签中的第一个标签:

soup.body.b # 商城

通过点取属性的方式只能获得当前名字的第一个tag:

soup.a # home

如果想要得到所有的标签,或是通过名字得到比一个tag更多的内容的时候,就需要用到 find_all():

soup.find_all('a') # [home # design # products]

.contents 和 .children

tag的.contents 属性可以将tag的子节点以列表的方式输出:

head_tag = soup.head head_tag # index head_tag.contents [<title>index</title>] title_tag = head_tag.contents[0] title_tag # index title_tag.contents # [u'index']

tag的.children 生成器,可以对tag的子节点进行循环遍历:

for child in title_tag.children: print(child) # index

.children只可以获取 tag 的直接节点，而获取不到子孙节点，.descendants可以满足。

.contents和 .children属性仅包含tag的直接子节点.例如,标签只有一个直接子节点</code> 但是<code><title></code>标签也包含一个子节点:字符串 <code>“index”</code>,这种情况下字符串<code>“index”</code>也属于<code><head></code>标签的子孙节点. <code>.descendants</code>属性可以对所有<code>tag的子孙节点</code>进行递归循环 : <pre><code class="prism language-python">for child in head_tag.descendants: print(child) # <title>index # index
父节点

每个tag或字符串都有父节点:被包含在某个tag中

.parent

通过 .parent属性来获取某个元素的父节点.title的父标签是 head，html的父标签是 BeautifulSoup 对象，而 BeautifulSoup 对象的父标签是 None。

title_tag = soup.title title_tag # index title_tag.parent # index # 文档title的字符串也有父节点:标签 title_tag.string.parent # <title>index # 文档的顶层节点比如的父节点是 BeautifulSoup 对象: html_tag = soup.html type(html_tag.parent) # # BeautifulSoup 对象的 .parent 是None: print(soup.parent) # None

.parents

通过元素的 .parents属性可以递归得到元素的所有父辈节点,下面的例子使用了.parents方法遍历了标签到根节点的所有节点.

link = soup.a link #home for parent in link.parents: if parent is None: print(parent) else: print(parent.name) #结果: # p # body # html # [document] # None

兄弟节点

.next_sibling 和 .previous_sibling
兄弟节点即同一级别的兄弟元素,在文档树中,使用.next_sibling和.previous_sibling属性来查询兄弟节点:

soup = BeautifulSoup(html_doc, "lxml"); p_tag=soup.p print(p_tag.next_sibling) print(p_tag.next_sibling.next_sibling) # 输出结果 这是我的第三个商城,欢迎来参观 <a href="http://cityShop.com/elsie" class="city" id="home">home</a> <a href="http://cityShop.com/lacie" class="city" id="design">design</a> <a href="http://cityShop.com/tillie" class="city" id="products">products</a> 欢迎来参观. p 的第一个 next_sibling 是p 和 p 之间的换行符。

.next_siblings 和 .previous_siblings
通过 .next_siblings和.previous_siblings属性可以对当前节点的兄弟节点迭代输出:

soup = BeautifulSoup(html_doc, "lxml"); p_tag=soup.p for p_tag in p_tag.previous_siblings: print( p_tag) # 输出结果 这是我的第三个商城,欢迎来参观 <a href="http://cityShop.com/elsie" class="city" id="home">home</a> <a href="http://cityShop.com/lacie" class="city" id="design">design</a> <a href="http://cityShop.com/tillie" class="city" id="products">products</a> 欢迎来参观. # 输出结果 商城

前进和后退

通过.next_element和.previous_element获取指定标签的前一个或者后一个被解析的对象，注意这个和兄弟节点是有所不同的，兄弟节点是指有相同父亲节点的子节点，而这个前一个或者后一个是按照文档的解析顺序来计算的。
比如在实例的文本 html_doc 中，head的兄弟节点是body（不考虑换行符），因为他们具有共同的父节点 html，但是 head的下一个节点是 title。即soup.head.next_sibling=title soup.head.next_element=title`。

soup = BeautifulSoup(html_doc, "lxml"); head_tag=soup.head print(head_tag.next_element) title_tag=soup.title print(title_tag.next_element) # 输出结果 <title>index</title> index

还需要注意的是title下一个解析的标签不是body，而是 title标签内的内容，因为 html的解析顺序是打开 title 标签，然后解析内容，最后关闭title标签。
.previous_element属性刚好与.next_element相反,它指向当前被解析的对象的前一个解析对象:

last_a_tag.previous_element # u' and\n' last_a_tag.previous_element.next_element # products

另外，同样可以通过.next_elements和 .previous_elements来迭代文档树。换行符同样会占用解析顺序，与迭代兄弟节点效果一致。

for element in last_a_tag.next_elements: print(repr(element)) # u'Tillie' # u';\欢迎来参观.' # u'\n\n' # ... # u'...' # u'\n' # None

搜索文档树

Beautiful Soup定义了很多搜索方法,其中比较重要常用的是: find()和find_all().
定义一个文档实例:

html_doc = """ index 商城首页这是我的第三个商城,欢迎来参观 home design products 欢迎来参观. ... """ from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc)

使用find_all()类似的方法可以查找到想要查找的文档内容:

soup.find_all('b') # 结果 # [商城首页]

如果传入正则表达式作为参数,Beautiful Soup会通过正则表达式的match() 来匹配内容.下面例子中找出所有以b开头的标签,这表示和标签都应该被找到:

import re for tag in soup.find_all(re.compile("^b")): print(tag.name) # body # b

找出所有名字中包含”t”的标签:

for tag in soup.find_all(re.compile("t")): print(tag.name) # 结果 # html # title

传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回.下面代码找到文档中所有标签和标签:
soup.find_all(["a", "b"]) # [商城首页 #home # design # products]

更详细文档: https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#

python与anaconda安装（先安装了python后安装anaconda，基于python已存在的基础上安装anaconda）——逼死强迫症、超详解苹果酱0567 面试题汇总与解析 java 开发语言中间件 spring boot 后端
版权声明：本文为CSDN博主「牛斌帅」的原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/qq_43529415/article/details/100847887目录一、安装python（python3.7.4）1、下载(1)下载1(32位)(2)下载2(64位)2、安装3、配置python环境变量4、检验pytho
（转）优秀的 python 机器学习库 patrick75 python 机器学习 python 机器学习
优秀的python机器学习库IntroductionThereisnodoubtthatneuralnetworks,andmachinelearningingeneral,hasbeenoneofthehottesttopicsintechthepastfewyearsorso.It’seasytoseewhywithallofthereallyinterestinguse-casestheys
DAY 2 字符串与比较运算心落薄荷糖 Python训练营 python 算法
文章目录题目1：字符串的操作小结题目2：比较运算题目1：字符串的操作题目:定义两个字符串变量，str1赋值为“Hello”，str2赋值为“Python”。将这两个字符串拼接起来（中间加一个空格），并将结果存储在变量greeting中；计算greeting字符串的长度，存储在变量length中；获取greeting字符串的第一个字符，存储在变量first_char中。然后，使用f-string分三
python学习记录14 彤银浦学习 python
1.字符串的编码和解码不同的计算机之间在信道中传输的信息本质上是二进制数据，因此当你有一串文本需要传输给另外一台电脑时，则需要将这串文本编译为二进制类型的数据。python中的二进制数据类型称为byte类型。将字符串的str类型转变为byte类型称为字符串的编码，将byte类型转变为str类型称为字符串的解码。字符串的编码用到的是encode的方法，语法格式为：string.encode(enco
Python实例之十大歌手评分 *濒危物种* 算法前端 python
实例背景：十大歌手，为丰富校园文化生活，学校拟组织一场歌手大赛，从参赛选手中选拔出十名相对突出的学生，授予“校园十大歌手”称号。比赛之中设置有评委组，每名选手演唱完毕之后会由评委组的十名评委打分。为保证比赛公平公正、防止作弊和恶意打分，计算得分(即平均分)时会先去掉最高分和最低分要求实现：根据每位评委的输入分数，实现计算每位选手得分的功能。【重要步骤提示】定义列表放评委给分找出列表的最高分和最低分
如何用Python统计字符串（引用ASCII码）【两种方法】 *濒危物种* python 前端 linux
要求实现：根据输入的字符串，统计其中大写字母、小写字母、数字、字符各有多少个【重要步骤提示】0-9的ASCII数字的ASCII码值取值范围为48-57；a-z小写英文字母的取值范围为97-122；A-Z大写英文字母的取值范围为65-90；Len()、append()方法的使用ord()函数获取字符对应的ASCII码值方法一#引到用户输入字符list1=list(input('请输入一行字符：'))
Python机器学习元学习库higher 音程机器学习人工智能 python 机器学习
higher是一个用于元学习（Meta-Learning）和高阶导数（Higher-ordergradients）的Python库，专为PyTorch设计。它扩展了PyTorch的自动微分机制，使得在训练过程中可以动态地计算参数的梯度更新，并把这些更新过程纳入到更高阶的梯度计算中。一、主要用途higher主要用于以下场景：元学习（Meta-Learning）比如MAML（Model-Agnosti
Python Selenium 滚动到特定元素 Humbunklung 学海泛舟 python selenium 开发语言
文章目录PythonSelenium滚动到特定元素⚙️**1.使用`scrollIntoView()`方法（最推荐）**️**2.结合`ActionChains`移动鼠标（模拟用户行为）****3.使用坐标计算滚动（精确控制像素）**⚠️**4.处理复杂场景的进阶技巧****（1）元素在iframe中****（2）动态加载内容****（3）横向滚动****5.常见问题与解决方案****总结：根据场
Python 常用正则表达式大全朱公子的Note python 爬虫正则表达式
你是否在写Python爬虫时，总是卡在“正则提取”这一步？明明页面源码已经拿到，却怎么也匹配不到目标数据……不是提取失败，就是提取不全，搞得调试半天还抓不到核心字段？别急！今天我们就来一次**“正则一网打尽”**，专为爬虫而生的表达式宝典，让你写起爬虫来如虎添翼！在当下数据驱动时代，网络数据是企业的“金矿”，而Python爬虫则是挖掘这金矿的“利器”！从电商价格到社交媒体评论，爬虫技术让数据采集变
学校老师课堂点名管理系统带TkinterUI界面深度学习乐园 oracle 数据库
完整源码项目包获取→点击文章末尾名片！基于PythonTkinter的学生管理系统，有最基本的增删改查功能，还有随机点名、顺序点名功能##1、研究现状综述目前，在学生信息管理领域，各大高校面临的难题在于对学生信息管理的效率过低，传统的人工管理造成了资金和劳动力的浪费。因此，大部分学者研究的是针对高校的学生信息或成绩管理系统，而用python语言的也很少，其中大多用的是PyQt5模块。而且，针对低年
算法训练营|数组总结慧泽huize 数据结构算法 leetcode python c++
时间复杂度：算法执行语句的次数空间复杂度：算法在运行过程中临时占存储空间大小数组（C++）：存放在连续内存空间的相同类型固定大小的数据的集合，不能删除，只能覆盖列表（Python）：数据可以是不同类型，列表长度可变1.二分查找循环不变量原则，清楚区间定义时间复杂度：O(logn)空间复杂度：O(1)2.双指针法快指针找到新数组元素，慢指针指向新数组下标时间复杂度：O(n)空间复杂度：O(1)3.双
python正则匹配11个数字_python正则表达式re.match()匹配多个字符方法的实现小馬锅 python正则匹配11个数字
1.*表示匹配任意多个字符\d*表示匹配任意多个数字字符importretext="123h1elloworld"text1="123Helloworld456"text2="helloworld"res=re.match("\d*",text)res1=re.match("\d*",text1)res2=re.match("\d*",text2)print(res.group())print(r
基于MATLAB的资源优化与工期固定-资源均衡分析方法研究【附代码】拉勾科研工作室 matlab 开发语言
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）资源均衡优化相关理论与问题分类在现代工程项目中，资源的合理分配和使用是确保项目按时完成、成本可控的关键因素。资源均衡优化作为项目管理中的核心环节，旨在通过调整资源的使用方案，使资源消耗在整个工期内尽可能平稳，避免
医学图像增强的层级化模糊与虚拟仪器无参考质量评价研究【附代码】拉勾科研工作室计算机视觉图像处理人工智能
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）层级模糊隶属度的X光医学图像增强算法针对X光医学图像普遍存在的对比度差、细节模糊等问题，本算法提出了一种基于层级模糊隶属度的增强方法。该方法的核心思想在于利用拉普拉斯金字塔分解图像，并在多尺度下分层计算模糊隶属度
【半夜爬起来学python】零基础学习Pygame|第一期|知识点+小球反弹游戏案例奈樱. python(pygame)pygame 学习游戏 pip
一.安装PygamePygame是跨平台Python模块，很多编译器不会向用户提供该模块，需要我们自己安装。安装步骤：打开Pygame官网：www.pygame.org点击PYGAME2.6.0-25JUN,2024下载好之后，解压压缩包，安装路径最好放在c盘里Administrator文件里在菜单栏点击搜索，输入cmd，找到“命令提示符”输入命令pipinstallpygame运行的时候会发现命
【Python】Pygame从零开始学习宅男很神经 python 开发语言
模块一：Pygame入门与核心基础本模块将引导您完成Pygame的安装，并深入理解Pygame应用程序的基石——游戏循环、事件处理、Surface与Rect对象、显示控制以及颜色管理。第一章：Pygame概览与环境搭建1.1什么是Pygame？Pygame是一组专为编写视频游戏而设计的Python模块。它构建在优秀的SDL(SimpleDirectMediaLayer)库之上，允许您使用Pytho
【python】判断值是否为NaN MoFe1 python 开发语言
importmathdefis_nan(value):returnisinstance(value,float)andmath.isnan(value)#测试print(is_nan(float('nan')))#输出：Trueprint(is_nan(None))#输出：Falseprint(is_nan('abc'))#输出：False
print(3 or 5)的结果是什么？为什么？ Lauren_Lu python
print(3or5)的结果是：3原因：在Python中，or是一个逻辑运算符，但当它作用于非布尔类型（比如整数）时，它的行为是：返回第一个为真的值；如果第一个值为假，则返回第二个值。具体分析：3是一个非零整数，在布尔上下文中被视为True所以3or5就是：如果3是True，就返回3；否则返回5由于3是True，所以返回的是3。类似例子：print(0or5)#输出5，因为0被视为Falsepri
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
[python系列] 创建虚拟环境 venv en-route python virtualenv
虚拟环境定义Python中的虚拟环境是一个隔离的运行环境，旨在为每个Python项目提供独立的执行空间，支持在不同的项目中分别管理依赖关系，而不会影响到其他项目或系统的原始Python安装。可以将虚拟环境视为每个Python项目的“独立容器”，每个容器具备以下特点：拥有独立的Python解释器拥有各自独立的包管理和安装的软件包与其他虚拟环境相互隔离允许同一包存在不同版本使用虚拟环境的重要性体现在以
Python代理池的构建与应用：实现高效爬虫与防封禁策略程序员威哥 python 爬虫开发语言
在进行大规模网络数据抓取时，IP封禁是最常见的反爬虫手段之一。为了应对这一挑战，代理池成为了一个重要工具。通过构建代理池，爬虫程序可以随机切换代理IP，避免同一IP被频繁访问而导致封禁，确保数据抓取任务的稳定性和持续性。本文将详细介绍如何使用Python构建一个高效的代理池，并结合实际应用场景，讲解如何使用代理池提升爬虫的抓取能力和防封禁策略。一、代理池的工作原理代理池的基本工作原理是，爬虫请求时
Python爬虫实战：用Tushare和Baostock爬取股票历史数据及K线图与技术指标计算
在金融数据分析和量化交易中，股票历史数据的获取是进行技术分析、回测和策略研究的第一步。传统上，投资者需要依赖付费数据服务，然而如今，借助Python强大的爬虫工具和开源数据接口，我们能够轻松地爬取免费的历史股票数据，并结合K线图与技术指标来进行深入分析。Tushare和Baostock是两个非常流行的开源金融数据接口。Tushare提供了丰富的国内外金融数据，特别是A股市场的历史数据和实时数据，而
Python_计算两个省市之间的直线距离_2506 夏天里的肥宅水 PYTHON python spring 开发语言
更新代码上一版链接importpandasaspdimporttimeimportpickleimportosimportsysfromgeopy.geocodersimportNominatimfromgeopy.distanceimportgeodesicfromtqdmimporttqdm#ConfigurationINPUT_FILE=r"距离.xlsx"#输入文件路径OUTPUT_FIL
python中的*args 和 **kwargs Hi_kenyon python python
简单来说，它们允许一个函数接收不定数量的参数。这在我们预先不知道会传递多少个参数给函数时非常有用。*args(任意数量的位置参数)*args用于在一个函数中接收任意数量的位置参数(positionalarguments)。当你在函数定义中使用*args时，Python会将所有传入的多余的位置参数收集到一个元组(tuple)中。这个名字args只是一个约定俗成的惯例(arguments的缩写)，你也
用 Python 开发文字冒险游戏：从零开始的教程晓天天天向上 python microsoft 开发语言
文字冒险游戏(Text-basedAdventureGame)是一种经典的游戏类型，玩家通过输入文字指令与游戏世界互动。这种游戏不依赖复杂的图形界面，非常适合初学者学习编程逻辑和用户交互。在本篇博客中，我们将用Python开发一个简单的文字冒险游戏，体验游戏开发的乐趣。1.游戏设计思路游戏背景玩家醒来发现自己身处一个神秘的地下城，需要探索房间、收集物品、战胜敌人并找到出口。核心机制房间导航：玩家可
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
Python的一点基础教程------文件读写卡提西亚 python 开发语言
最近在看大佬写的Python教程自学,但是感觉有点头痛,因为大佬讲了一些底层的结构和原理,但是又没那么详细,然后作为一个初学者自学的情况下,看的很费劲.看完就有感而发,想写一篇更基础的教程,教会大家怎么去用它,尽量少的去讲原理.但是当然,你也需要有一定的编程语言基础,了解基本的语法和函数等功能.正所谓师傅领进门,修行在个人,有时候我们学了一个东西,如果觉得很有趣,自然就会去了解关于它的更多信息,但
1.2 Python 的特点与优势 Utopia Reverie python python 开发语言
1.语法简洁易读Python以简洁的语法著称，代码可读性强，减少了不必要的符号和冗余代码。例如，使用缩进来表示代码块，而非传统的大括号。这使得代码更易于理解和维护，尤其适合初学者。示例：python运行【#计算斐波那契数列的前10项n=10a,b=0,1for_inrange(n);print(a,end='')a,b=b,a+b#输出:0112358132134】2.开源与社区支持Python是
动手学Python：从零开始构建一个“文字冒险游戏” network爬虫 python python 开发语言
动手学Python：从零开始构建一个“文字冒险游戏”大家好，我是你的技术向导。今天，我们不聊高深的框架，也不谈复杂的算法，我们来做一点“复古”又极具趣味性的事情——用Python亲手打造一个属于自己的文字冒险游戏（TextAdventureGame）。你是否还记得那些在早期计算机上，通过一行行文字描述和简单指令来探索未知世界的日子？这种游戏的魅力在于它能激发我们最原始的想象力。而对于我们程序员来说
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite

Python爬虫利器 | Beautiful Soup4遍历文档

目录

Beautiful Soup介绍

Beautiful Soup 安装

安装解析器

Beautiful Soup 使用

对象的种类

Tag

tag中重要的属性

Name

Attributes

BeautifulSoup

遍历文档树

子节点

获取Tag的名字

.contents 和 .children

父节点

.parent

.parents

兄弟节点

前进和后退

搜索文档树

你可能感兴趣的:(python,python,python爬虫)