Song_Lynn

python3爬虫（二）：解析库之Beautiful Soup

Beautiful Soup是一个可以从HTML或XML中提取数据的python库，了解了HTML或XML的结构，能很方便地获取数据

文章目录

python3爬虫（二）：解析库之Beautiful Soup

一、准备

1、安装库和解析器
HTML例子

二、对象

1、对象获取
2、对象的类别

（1）Tag类
（2）NavigableString类
（3）Beautiful Soup对象
（4）Comment类

三、遍历文档树

1、子节点

（1）.tagName
（2）.contents
（3）.children
（4）.descendants
（5）.string
（6）.strings
（7）.stripped_strings

2、父节点

（1）.parent：获取某个元素的父节点
（2）.parents：通过递归获得元素的所有父辈节点

3、兄弟节点

（1）.next_sibling：
（2）.previous_sibling：
（3）.next_siblings，.previous_siblings

4、回退和前进

（1）.next_element，.previous_element
（2）.next_elements，.previous_elements

四、搜索文档树

1、过滤器

（1）字符串
（2）正则表达式
（3）列表
（4）True
（5）方法

2、find_all()

（1）name参数
（2）keyword参数
（3）CSS类名搜索
（4）text参数
（5）limit参数
（6）recursive参数
（7）简写方法

3、find()
4、find_parents()、find_parent()
5、find_next_siblings()、find_next_sibling()
6、find_previous_siblings()、find_previous_sibling()
7、find_all_next()、find_next()
8、find_all_previous()、find_previous()
9、CSS选择器

五、修改文档树
六、输出

一、准备

1、安装库和解析器

这里使用的是 beautifulsoup4 以及 lxml 作为解析器

pip install beautifulsoup4
pip install lxml

HTML例子

下面一段HTML代码将作为例子被多次用到

html_doc = '''
The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.

...
'''

二、对象

1、对象获取

使用 BeautifulSoup() 解析html代码，能够得到一个 BeautifulSoup 对象，并能按照标准的锁紧格式的结构输出
BeautifulSoup(doc, 解析器 [, 解析方式])

doc：HTML或XML文档
解析方式: 可选，默认为html

import bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'lxml')

print(soup.prettify())
# 
#  
#   </span>
<span class="token comment">#    The Dormouse's story</span>
<span class="token comment">#   
#  
#  
#   
#    
#     The Dormouse's story
#    
#   
#   
#    Once upon a time there were three little sisters; and their names were
#    
#     Elsie
#    
#    ,
#    
#     Lacie
#    
#    and
#    
#     Tillie
#    
#    ; and they lived at the bottom of a well.
#   
#   
#    ...
#   
#  
#

2、对象的类别

Beautiful Soup将HTML文档转换成复杂的树结构，每个节点都是python对象，可分为4类：Tag、NavigableString、BeautifulSoup、Comment

（1）Tag类

Tag 对象与HTML或XML原生文档中的标签Tag相同，如：html、body、title、p、div、span 等等
获取：soup.tagName

soup = BeautifulSoup('Extremely bold
')
tag = soup.p
type(tag)		#

Tag的属性：

Name：tag的名字， tag.name
- 如果改变了 tag 的 name，则会影响所有通过当前Beautiful Soup对象生成的HTML文档

print(tag.name)		# u'p'
tag.name = 'span'		
#  Extremely bold

Attributes：tab的属性
- 一个 tag 可能有多个属性
- 操作方法：与字典相同
  - 获取：方括号 tag[‘attr’]，点 tag.attr
  - 可以被添加、删除、修改
- 多值属性：
  - HTML中有很多多值属性，而XML不包含
  - 获取多值属性时，返回类型是list
  - 获取不是多值属性时，作为字符串返回
  - 修改多值属性时，赋值list，会将多个属性值合并为一个值

# 获取
print(tag['class'])		# u'boldest'
print(tag.class)		# u'boldest'

# 添加、修改
tag['class'] = 'verybold'
tag['id'] = 1
tag
# Extremely bold

# 删除
del tag['class']
del tag['id']
tag
# Extremely bold

# 获取不存在
tag['class']
# KeyError: 'class'
print(tag.get('class'))
# None

# 获取多值属性时，返回类型是list
css_soup = BeautifulSoup('
')
css_soup.p['class']
# ["body", "strikeout"]

# 获取不是多值属性时，作为字符串返回
id_soup = BeautifulSoup('
')
id_soup.p['id']
# 'my id'

# 修改多值属性时，赋值list，会将多个属性值合并为一个值
rel_soup = BeautifulSoup('Back to the homepage
')
rel_soup.a['rel']
# ['index']
rel_soup.a['rel'] = ['index', 'contents']
print(rel_soup.p)
# Back to the homepage

# xml不包含多值属性
xml_soup = BeautifulSoup('
', 'xml')
xml_soup.p['class']
# u'body strikeout'

（2）NavigableString类

字符串常被包含在tag内，用NavigableString类来包装tag中的字符串，tag.string

soup = BeautifulSoup('Extremely bold
')
tag = soup.p
tag.string		# u'Extremely bold'
type(tag.string)		#

与python中Unicode字符串相同，通过unicode()进行转换

unicode_string = unicode(tag.string)		# u'Extremely bold'
type(unicode_string)		#

不能被编辑、但能被替换：replace_with()

tag.string.replace_with('hello world')
tag 		# hello world

支持遍历文档树和搜索文档树中定义的大部分属性和方法，不支持.contents, .string, find()

注意：NavigableString类仅包含字符串，不包含其他内容（如tag）

（3）Beautiful Soup对象

表示一个文档的全部内容
支持遍历文档树和搜索文档树中的大部分方法
name属性值为 u’[document]'
没有attribute属性

（4）Comment类

文档的注释部分，是一个类型特殊的NavigableString对象
出现在文档时，会使用特殊的格式输出

markup = ""
soup = BeautifulSoup(markup)
comment = soup.b.string
type(comment)
#

三、遍历文档树

1、子节点

一个 tag 可能包含多个字符串或其他的 tag，其都是 tag 的子节点；而字符串没有子节点

（1）.tagName

直接通过标签 tag 的 name 获取标签
只能获取到当前标签名的第一个tag
想要获取所有的当前标签名，使用搜索文档树中的 find_all()

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc)
soup.a
# Elsie

（2）.contents

将tag的子节点以列表的方式输出

head_tag = soup.head
head_tag.contents
# [The Dormouse's story]

（3）.children

通过 tag的 .children 生成器，可以对子节点进行循环

for child in head_tag.contents[0].children:
	print(child)		# The Dormouse's story

（4）.descendants

.descendants 对所有tag的子孙节点进行递归循环

for child in head_tag.descendants:
    print(child)
    # The Dormouse's story
    # The Dormouse's story

（5）.string

如果tag只有一个NavigableString类型的子节点，可通过 .string 获取子节点
如果tag只有一个子节点，且子节点仅有一个NavigableString类型的子节点，tag可以直接使用 .string 输出内容
如果tag包含多个子节点，.string的输出结果为None

head_tag.contents[0].string		# u'The Dormouse's story'
head_tag.string		# u'The Dormouse's story'
soup.html.string		# None

（6）.strings

循环获取tag中包含的所有字符串（包括空格和空行）

for string in soup.strings:
    print(repr(string))
    # u"The Dormouse's story"
    # u'\n\n'
    # u"The Dormouse's story"
    # u'\n\n'
    # u'Once upon a time there were three little sisters; and their names were\n'
    # u'Elsie'
    # u',\n'
    # u'Lacie'
    # u' and\n'
    # u'Tillie'
    # u';\nand they lived at the bottom of a well.'
    # u'\n\n'
    # u'...'
    # u'\n'

（7）.stripped_strings

循环获取tag中包含的所有字符串（全部是空格的行被忽略，段首、段末的空白被删除）

for string in soup.stripped_strings:
    print(repr(string))
    # u"The Dormouse's story"
    # u"The Dormouse's story"
    # u'Once upon a time there were three little sisters; and their names were'
    # u'Elsie'
    # u','
    # u'Lacie'
    # u'and'
    # u'Tillie'
    # u';\nand they lived at the bottom of a well.'
    # u'...'

2、父节点

父节点为包含当前tag的节点
字符串也有父节点
文档的顶层节点的父节点是BeautifulSoup对象
BeautifulSoup对象的.parent是None

（1）.parent：获取某个元素的父节点

soup.title.parent		# The Dormouse's story
soup.title.string.parent		# The Dormouse's story
type(soup.html.parent(			# 
soup.parent			# None

（2）.parents：通过递归获得元素的所有父辈节点

link = soup.a
for parent in link.parents:
    if parent is None:
        print(parent)
    else:
        print(parent.name)
# p
# body
# html
# [document]
# None

3、兄弟节点

同一节点下的所有子节点互为兄弟节点（不一定是同一类标签，可以是tag或字符串）

（1）.next_sibling：

获取上一兄弟节点
当节点是同级节点中的最后一个时，为None

sibling_soup = BeautifulSoup("text1text2")
sibling_soup .b.next_sibling		# text2
sibling_soup .c.next_sibling		# None

（2）.previous_sibling：

获取下一兄弟节点
当节点是同级节点中的第一个时，为None

sibling_soup .c.precious_sibling			# text1
sibling_soup .b.precious_sibling		# None

（3）.next_siblings，.previous_siblings

迭代获取当前节点的兄弟节点

4、回退和前进

根据HTML的解析过程，获取上一个、下一个被解析对象
解析过程：类似树的深度遍历，即标签内部有标签或字符串，则先解析内部，再继续解析下一个

（1）.next_element，.previous_element

last_a_tag		# Tillie
last_a_tag.next_sibling		# '; and they lived at the bottom of a well.'
last_a_tag.next_element		# u'Tillie'
last_a_tag.previous_element		# u' and\n'

（2）.next_elements，.previous_elements

for element in last_a_tag.next_elements:
    print(repr(element))
# u'Tillie'
# u';\nand they lived at the bottom of a well.'
# u'\n\n'
# ...
# u'...'
# u'\n'
# None

四、搜索文档树

Beautiful Soup定义了很多搜索方法，主要介绍 find() 和 find_all() ，其他方法与其类似

1、过滤器

过滤器可被用于 tag 的 name 、节点属性、字符串或其混合中

（1）字符串

在搜索方法中传入字符串参数，查找与字符串完整匹配的内容
若传入字节码参数，会被当做UTF-8编码，所以可以传入 Unicode编码来避免解析编码出错

soup.find_all('b')
# [The Dormouse's story]

（2）正则表达式

传入正则表达式作为参数，会通过正则表达式的match()来匹配内容

import re
for tag in soup.find_all(re.compile("^b")):
    print(tag.name)
# body
# b

（3）列表

传入列表参数，返回与列表中任一元素匹配的内容

soup.find_all(["a", "b"])
# [The Dormouse's story,
#  Elsie,
#  Lacie,
#  Tillie]

（4）True

传入True，则匹配所有tag，不包括字符串节点

for tag in soup.find_all(True):
    print(tag.name)
# html
# head
# title
# body
# p
# b
# p
# a
# a
# a
# p

（5）方法

传入方法，方法被定义为只接受一个元素参数，若方法返回True则当前元素被匹配并且被找到，否则返回False

def has_class_but_no_id(tag):
    return tag.has_attr('class') and not tag.has_attr('id')

soup.find_all(has_class_but_no_id)
# [The Dormouse's story
,
#  Once upon a time there were...
,
#  ...
]

2、find_all()

返回当前节点的所有子孙节点中符合条件的所有 tag，返回的是列表
没有找到目标时，返回空列表

（1）name参数

查找所有名字为 name 的 tag，字符串对象被忽略
name参数的值可以是任一类型的过滤器（字符串、正则表达式、列表、方法、True）

soup.find_all("title")
# [The Dormouse's story]

（2）keyword参数

如果一个指定名字的参数不是内置的参数名，则将该参数当做 tag 的属性来搜索
指定名字的属性使用的参数值包括：字符串、正则表达式、列表、True
部分 tag 属性不能使用，如data-*属性
但可以使用attrs参数定义一个字典参数来搜索包含特殊属性的tag

soup.find_all(href=re.compile("elsie"))
# [Elsie]

data_soup = BeautifulSoup('foo!
')
data_soup.find_all(attrs={"data-foo": "value"})
# [foo!
]

（3）CSS类名搜索

通过 class_ 参数搜索有指定CSS类名的 tag
同样接受不同类型的过滤器：字符串、正则表达式、方法、True
当tag有多个类名时，进行css类名搜索时，可以分别搜索
也可通过CSS值完全匹配，但顺序不符，则搜索不到

css_soup = BeautifulSoup('
')
css_soup.find_all("p", class_="strikeout")
# [
]

css_soup.find_all("p", class_="body")
# [
]

css_soup.find_all("p", class_="body strikeout")
# [
]

（4）text参数

搜索文档中字符串内容
接受字符串、正则表达式、列表、方法、True
与其他参数混合使用来过滤 tag，找到 .string 方法与 text 参数值相符的 tag

soup.find_all(text=["Tillie", "Elsie", "Lacie"])
# [u'Elsie', u'Lacie', u'Tillie']

soup.find_all("a", text="Elsie")
# [Elsie]

（5）limit参数

限制返回的搜索结果的数量

soup.find_all("a", limit=2)
# [Elsie,
#  Lacie]

（6）recursive参数

为 True 时，检索当前 tag 的所有子孙节点
为 False 时，只搜索 tag 的直接子节点

ss = '''

 
  
   The Dormouse's story
  
 
'''
soup.html.find_all("title")
# [The Dormouse's story]

soup.html.find_all("title", recursive=False)
# []

（7）简写方法

像调用find_all()一样调用tag

# 以下两行代码是等价的
soup.title.find_all(text=True)
soup.title(text=True)

3、find()

参数与 find_all() 类似
使用情况：只想得到一个结果（与find_all()设置limit=1类似）
返回：返回当前节点的所有子孙节点中符合条件的一个结果
直接返回结果，而不是列表
找不到目标时，返回 None

soup.find_all('title', limit=1)
# [The Dormouse's story]

soup.find('title')
# The Dormouse's story

print(soup.find("nosuchtag"))
# None

4、find_parents()、find_parent()

与 find_all() 和 find() 类似，仅搜索文档的部分不同
返回当前节点符合条件的的父辈节点（直接与间接）

a_string = soup.find(text="Lacie")
a_string
# u'Lacie'

a_string.find_parents("a")
# [Lacie]

a_string.find_parent("p")
# Once upon a time there were three little sisters; and their names were
#  Elsie,
#  Lacie and
#  Tillie;
#  and they lived at the bottom of a well.

5、find_next_siblings()、find_next_sibling()

与 find_all() 和 find() 类似
返回当前节点符合条件的后面的兄弟节点

first_link = soup.a
first_link
# Elsie

first_link.find_next_siblings("a")
# [Lacie,
#  Tillie]

6、find_previous_siblings()、find_previous_sibling()

与 find_all() 和 find() 类似
返回当前节点符合条件的前面的兄弟节点

last_link = soup.find("a", id="link3")
last_link
# Tillie

last_link.find_previous_siblings("a")
# [Lacie,
#  Elsie]

7、find_all_next()、find_next()

返回当前 tag 之后所有符合条件的节点，返回当前 tag 之后第一个符合条件的节点
返回的节点包括 tag 和字符串

first_link = soup.a
first_link
# Elsie

first_link.find_all_next(text=True)
# [u'Elsie', u',\n', u'Lacie', u' and\n', u'Tillie',
#  u';\nand they lived at the bottom of a well.', u'\n\n', u'...', u'\n']

8、find_all_previous()、find_previous()

与find_all_next()、find_next()类似，只是是查找当前 tag 之前的节点

9、CSS选择器

在 tag 或 BeautifulSoup 对象的 .select() 方法中传入字符串参数，即可使用CSS选择器的语法找到 tag
CSS选择器语法参考：http://www.runoob.com/cssref/css-selectors.html

soup.select("title")		# 标签查找
soup.select("body a")		# 标签逐层查找
soup.select("p > a:nth-of-type(2)")			# 直接子标签
soup.select("#link1 + .sister")		# 兄弟节点
soup.select(".sister")				# 类名
soup.select("a#link2")			# id
soup.select('a[href]')		# 是否有某属性
soup.select('a[href$="tillie"]')		# 属性值

五、修改文档树

六、输出

你可能感兴趣的:(python)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

python3爬虫（二）：解析库之Beautiful Soup

python3爬虫（二）：解析库之Beautiful Soup

文章目录

一、准备

1、安装库和解析器

HTML例子

二、对象

1、对象获取

2、对象的类别

（1）Tag类

（2）NavigableString类

（3）Beautiful Soup对象

（4）Comment类

三、遍历文档树

1、子节点

（1）.tagName

（2）.contents

（3）.children

（4）.descendants

（5）.string

（6）.strings

（7）.stripped_strings

2、父节点

（1）.parent： 获取某个元素的父节点

（2）.parents：通过递归获得元素的所有父辈节点

3、兄弟节点

（1）.next_sibling：

（2）.previous_sibling：

（3）.next_siblings，.previous_siblings

4、回退和前进

（1）.next_element，.previous_element

（2）.next_elements，.previous_elements

四、搜索文档树

1、过滤器

（1）字符串

（2）正则表达式

（3）列表

（4）True

（5）方法

2、find_all()

（1）name参数

（2）keyword参数

（3）CSS类名搜索

（4）text参数

（5）limit参数

（6）recursive参数

（7）简写方法

3、find()

4、find_parents()、find_parent()

5、find_next_siblings()、find_next_sibling()

6、find_previous_siblings()、find_previous_sibling()

7、find_all_next()、find_next()

8、find_all_previous()、find_previous()

9、CSS选择器

五、修改文档树

六、输出

你可能感兴趣的:(python)

（1）.parent：获取某个元素的父节点