EscapePlan

【Python爬虫学习笔记（3）】Beautiful Soup库相关知识点总结

1. Beautiful Soup简介

 Beautiful Soup是将数据从HTML和XML文件中解析出来的一个python库，它能够提供一种符合习惯的方法去遍历搜索和修改解析树，这将大大减少爬虫程序的运行时间。

 Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

 Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

2. Beautiful Soup安装

 利用pip可以迅速安装，目前最新版本为BeautifulSoup4。
1 $ pip install beautifulsoup4
安装后，import一下bs4就可以使用了。
1 from bs4 import BeautifulSoup
3. 创建Beautiful Soup对象

我们利用以下测试文件来进行之后的总结。
 1 html = """
 2 <html><head><title>The Dormouse's story</title></head>
 3 <body>
 4 The Dormouse's story
 5 Once upon a time there were three little sisters; and their names were
 6 <a href="http://example.com/elsie" class="sister" id="link1"></a>,
 7 <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
 8 <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
 9 and they lived at the bottom of a well.
10 ...
11 """
import之后，创建一个BeautifulSoup对象如下参数可以是一个抓取到的unicode格式的网页html，也可以是一个已经保存到本地的html文件test.html。
1 soup = BeautifulSoup(html)
2 soup = BeautifulSoup(open('test.html'))
创建后查看是否创建成功。注意：有时需要在后面加上encode('utf-8')来进行编码才能将soup对象正确显示出来。
1 print soup.prettify()
4. 四种Beautiful Soup对象类型

Beautiful Soup一共有四大对象种类，包括Tag，NavigableString，BeautifulSoup和Comment。

4.1 Tag

Tag对象

Tag就是html文件中的标签以及标签之间的内容，例如以下就是一个Tag。
1 <title>The Dormouse's story</title>
可以这样得到title这个Tag，第二行为运行结果。
1 print soup.title
2 #<title>The Dormouse's story</title>
注意：如果得到的是'bs4.element.Tag'类型的对象可以继续进行后续的.操作，即能进行soup对象所能进行的操作，所以需要确保一个对象是'bs4.element.Tag'类型后再进行后续对其的操作，例如后面将介绍的.find方法是Tag对象才拥有的。
1 print type(soup.title)
2 #<class 'bs4.element.Tag'>
Tag方法

.name

Tag对象的.name方法得到的是该Tag的标签本身名称。
1 print soup.title.name
2 #title
.attrs

Tag对象的.attrs将得到标签中所有属性的字典。
1 print soup.p.attrs
2 #{'class': ['title'], 'name': 'dromouse'}
可以对Tag对象进行字典可以进行的操作，例如修改，删除，读取等。
 1 print soup.p['class']#读取（方法一）
 2 #['title']
 3 print soup.p.get('class')#读取（方法二）
 4 #['title']
 5 
 6 soup.p['class']="newClass"#修改
 7 print soup.p
 8 #The Dormouse's story
 9 
10 del soup.p['class']#删除
11 print soup.p
12 #The Dormouse's story
4.2 NavigableString

标签内部的内容由.string方法可以得到，且这些内容为'bs4.element.NavigableString'类型的对象。
1 print soup.p.string
2 #The Dormouse's story
3 
4 print type(soup.p.string)
5 #<class 'bs4.element.NavigableString'>
4.3 BeautifulSoup

BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象，是一个特殊的 Tag。
1 print type(soup.name)
2 #<type 'unicode'>
3 print soup.name 
4 # [document]
5 print soup.attrs 
6 #{} 空字典
4.4 Comment

前三种类型几乎涵盖了在HTML或者XML中所有的内容，但是Comment类型是需要关心的一种，和CData，ProcessingInstruction，Declaration，Doctype一样，它是NavigableString类型的一个子类，通过以下代码可以简单了解它的功能。
 1 markup = ""#标签中内容为注释
 2 soup = BeautifulSoup(markup)
 3 comment = soup.b.string
 4 type(comment)
 5 # <class 'bs4.element.Comment'>
 6 comment
 7 # u'Hey, buddy. Want to buy a used parser'
 8 print(soup.b.prettify())
 9 # 
10 # 
11 # 
注意：标签里的内容实际上是注释，但是如果我们利用 .string 来输出它的内容，我们发现它已经把注释符号去掉了，所以这可能会给我们带来不必要的麻烦，需要在使用或者进行一些操作之前进行类型判断。
1 if type(soup.b.string)==bs4.element.Comment:
2 ...
5. 树的遍历

5.1 子孙节点

.content

Tag对象的.content方法可以得到其子节点的一个列表表示。
1 print soup.head.contents 
2 #[<title>The Dormouse's story</title>]
当然，既然是列表可以用索引直接得到某一项。
1 print soup.head.contents[0]
2 #<title>The Dormouse's story</title>
.children

Tag对象的.children方法得到一个其子节点的迭代器，可以遍历之获取其中的元素。
1 for child in soup.body.children:
2 print child
.descendants

与.content和.children只得到直接子节点不同，.descendants能对所有子孙节点迭代循环，将标签层层剥离得到所有子节点，同样通过遍历的方法得到每个子孙节点。
1 for child in soup.descendants:
2 print child
5.2 父亲节点

.parent

Tag对象的.parent方法能得到其直接父节点。

.parents

用.parents属性可以递归得到元素的所有父节点。
1 content = soup.head.title.string
2 for parent in content.parents:
3 print parent.name
4 #title
5 #head
6 #html
7 #[document]
5.3 兄弟节点

.next_sibling和.next_siblings

 .next_sibling得到Tag对象平级的下一个节点，如果不存在则返回None。.next_siblings得到Tag对象平级的下面所有兄弟节点。

.previous_sibling和.previous_siblings

 .previous_sibling得到Tag对象平级的上一个节点，如果不存在则返回None。.next_siblings得到Tag对象平级的上面所有兄弟节点。

 注意:由于在HTML文档中的空白和换行也被视作是一个节点，所以可能得到的兄弟节点（或者子节点父节点）会是空白类型或者字符串类型而不是Tag，所以在进行下一步操作时一定要先用type函数进行类型的判断。

5.4 前后节点

.next_element和.next_elements

 与 .next_sibling和.next_siblings 不同，它并不是针对于兄弟节点，而是在所有节点，不分层次得到下一个节点和所有的后续节点。.next_elements的结果通过遍历访问。

.previous_element和.previous_elements

 这两个方法将不分层次得到上一个节点和所有之前的节点。.previous_elements的结果通过遍历访问。

5.4 节点内容

.string

 如果一个标签里面没有标签了，那么 .string 就会返回标签里面的内容。如果标签里面只有唯一的一个标签了，那么 .string 也会返回最里面的内容。
1 print soup.head.string
2 #The Dormouse's story
3 print soup.title.string
4 #The Dormouse's story
而如果Tag包含了多个子节点，Tag就无法确定.string 方法应该调用哪个子节点的内容，输出结果是 None。

.strings和.stripped_strings

当一个Tag对象有多个子节点时，可以用.strings方法再通过遍历获得所有子节点的内容。
 1 for string in soup.strings:
 2 print(repr(string))
 3 # u"The Dormouse's story"
 4 # u'\n\n'
 5 # u"The Dormouse's story"
 6 # u'\n\n'
 7 # u'Once upon a time there were three little sisters; and their names were\n'
 8 # u'Elsie'
 9 # u',\n'
10 # u'Lacie'
11 # u' and\n'
12 # u'Tillie'
13 # u';\nand they lived at the bottom of a well.'
14 # u'\n\n'
15 # u'...'
16 # u'\n'
用.stripped_strings方法可以得到过滤掉空格和空行的内容。

.get_text（)

如果你仅仅想要得到文档或者标签的文本部分，可以使用.get_text（)方法，它能以一个单一的一个Unicode串的形式返回文档中或者Tag对象下的所有文本。
1 markup = '<a href="http://example.com/">\nI linked to example.com\n</a>'
2 soup = BeautifulSoup(markup)
3 
4 soup.get_text()
5 #u'\nI linked to example.com\n'
6 soup.i.get_text()
7 #u'example.com'
你可以指定一个字符串来连接文本的位。
1 soup.get_text("|")
2 #u'\nI linked to |example.com|\n'
进一步，通过strip去除掉文本每个位的头尾空白。
1 soup.get_text("|", strip=True)
2 #u'I linked to|example.com'
用列表推导式以及.stripped_strings方法罗列出文本内容。
1 [text for text in soup.stripped_strings]
2 #[u'I linked to', u'example.com']
6. 树的搜索

6.1 find_all(name, attrs, recursive, string, limit, **kwargs)

该方法将搜索当前Tag对象的所有子节点，并且按照过滤条件得到筛选后对象的列表。

name参数

1）传字符串

最简单的方法是传入标签名的字符串，可以得到所有以该字符串为标签名的一个列表。
1 print soup.find_all('a')
2 #[<a class="sister" href="http://example.com/elsie" id="link1"></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
2）传正则表达式

可以通过传正则表达式得到符合表达式规则的Tag对象。
1 import re
2 for tag in soup.find_all(re.compile("^b")):
3 print(tag.name)
4 # body
5 # b
3）传列表

可以传入一个字符串的列表，将匹配列表中标签的Tag全部返回。
1 soup.find_all(["a", "b"])
2 # [The Dormouse's story,
3 # <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
4 # <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
5 # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
4）传True

True参数将匹配文档中所有的节点，但是不包括文本字符串。
 1 for tag in soup.find_all(True):
 2 print(tag.name)
 3 # html
 4 # head
 5 # title
 6 # body
 7 # p
 8 # b
 9 # p
10 # a
11 # a
12 # a
13 # p
5）传入函数

可以根据函数返回值的True/False来得到匹配的节点。
1 def has_class_but_no_id(tag):
2 return tag.has_attr('class') and not tag.has_attr('id')
3 
4 soup.find_all(has_class_but_no_id)
5 # [The Dormouse's story,
6 # Once upon a time there were...,
7 # ...]
关键字参数

可以传入一个或者多个关键字，BeautifulSoup会搜索当前Tag下的每一个节点的该关键字及其对应的值。
1 soup.find_all(href=re.compile("elsie"), id='link1')
2 # [<a class="sister" href="http://example.com/elsie" id="link1">three</a>]
特殊：如果希望用class及其值作为过滤条件，由于class是python的关键字，所以需要作如下处理。
1 soup.find_all("a", class_="sister")
2 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
3 # <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
4 # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
另外，有些tag属性在搜索不能使用,比如HTML5中的 data-* 属性，可以这样来进行过滤。
1 data_soup = BeautifulSoup('<div data-foo="value">foo!</div>')
2 data_soup.find_all(attrs={"data-foo": "value"})
3 # [<div data-foo="value">foo!</div>]
text参数

可以在文档中搜索一些字符串内容，与name参数的可选值一样，可以传字符串，列表，正则表达式和True。
1 soup.find_all(text="Elsie")
2 # [u'Elsie']
3 
4 soup.find_all(text=["Tillie", "Elsie", "Lacie"])
5 # [u'Elsie', u'Lacie', u'Tillie']
6 
7 soup.find_all(text=re.compile("Dormouse"))
8 [u"The Dormouse's story", u"The Dormouse's story"]
limit参数

可用该参数限制返回的节点数目，例子中本身有3个符合的节点，仅输出两个。
1 soup.find_all("a", limit=2)
2 # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
3 # <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
recursive参数

将该参数设为False可限制只搜索当前Tag的直接子节点，可以节省很多搜索时间。
1 soup.html.find_all("title")
2 # [<title>The Dormouse's story</title>]
3 soup.html.find_all("title", recursive=False)
4 # []
6.2. find( name , attrs , recursive , text , **kwargs )

它与 find_all() 方法唯一的区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果

6.3. find_parents()和find_parent()

find_all() 和 find() 只搜索当前节点的所有子节点,孙子节点等. find_parents() 和 find_parent() 用来搜索当前节点的父辈节点,搜索方法与普通tag的搜索方法相同,搜索文档搜索文档包含的内容

6.4. find_next_siblings()和find_next_sibling()

这2个方法通过 .next_siblings 属性对当 tag 的所有后面解析的兄弟 tag 节点进行迭代, find_next_siblings() 方法返回所有符合条件的后面的兄弟节点,find_next_sibling() 只返回符合条件的后面的第一个tag节点

6.5. find_previous_siblings()和find_previous_sibling()

这2个方法通过 .previous_siblings 属性对当前 tag 的前面解析的兄弟 tag 节点进行迭代, find_previous_siblings()方法返回所有符合条件的前面的兄弟节点, find_previous_sibling() 方法返回第一个符合条件的前面的兄弟节点。

6.6. find_all_next()和find_next()

这2个方法通过 .next_elements 属性对当前 tag 的之后的 tag 和字符串进行迭代, find_all_next() 方法返回所有符合条件的节点, find_next() 方法返回第一个符合条件的节点

6.7. find_all_previous()和find_previous()

这2个方法通过 .previous_elements 属性对当前节点前面的 tag 和字符串进行迭代, find_all_previous() 方法返回所有符合条件的节点, find_previous()方法返回第一个符合条件的节点

参考资料：

http://www.crummy.com/software/BeautifulSoup/bs4/doc/#

转载请注明：

http://www.cnblogs.com/wuwenyan/p/4773427.html

电脑重装-记录软件 61u3 #windows 游戏
日常类wechat（更改默认聊天缓存位置）qq（更改默认聊天缓存位置）腾讯会议百度网盘网易云音乐汽水音乐WPS[]游戏steamwallpaperuu加速器雀魂麻将输入法搜狗五笔输入法工具类chrome（更改默认浏览器默认下载位置）PotPlayertyporaxmindmathtypeteamspeak2345好压、360zipTranslucentTBclash(stc-spade)编程类vs
OpenGL 相关技术、疑难杂症文章合集（掌握后可自封大侠 ⓿_⓿）（记得收藏，持续更新中...）信必诺 OpenGL Qt OpenGL FFmpeg OPenCV 音视频
❗❗❗更新于2025-03-28： OpenGL——[1]、Vs2017搭建glew、glfw环境，并附代码测试（附源码，glew+glfw） OpenGL——[2.1]、绘制第一个三角形（附源码，glew+glfw） OpenGL——1、Vs2017搭建glad、glfw环境，并附代码测试 OpenGL——2.1、绘制第一个三角形（附源码，glfw+glad）
《Operating System Concepts》阅读笔记：p491-p494 操作系统
《OperatingSystemConcepts》学习第43天，p491-p494总结，总计4页。一、技术总结1.controllerAcontrollerisacollectionofelectronicsthatcanoperateaport,abus,oradevice.2.memory-mappedI/OAdeviceI/Omethodinwhichdevice-controlregist
Python基础知识第二天：从格式化到流程控制程序员
Python基础知识第二天：从格式化到流程控制大家好！今天我们来梳理Python的一些重要基础知识，包括格式化输出、输入函数、运算符以及流程控制语句。1.格式化输出Python提供了多种格式化输出的方式：#%d,%f,%s格式化name="Python"age=30print("我叫%s，今年%d岁"%(name,age))#F-string方式（推荐）print(f"我叫{name}，今年{ag
关于我对接了deepseek之后部署到本地将数据存储到mysql的过程麦秸垛的守望者 mysql 数据库
写在前面今天写一下使用nodejs作为服务端，vue作为客户端，mysql的数据库，对接deepseek的全过程，要实现一个很简单的效果就是，可以自由的询问，然后可以将询问的过程存储到mysql的数据库中。文档对接deepseek对接文档效果图服务端代码这里避免你们看的时候费劲，所以这里不做任何封装，正常你们如果用代码，可以将连接数据、输出答案的过程封装起来。下面的代码为不封装的，仅供参考！别说我
计算机网络（13）以太网 co0t 计算机网络计算机网络 arm开发
以太网详解以太网（Ethernet）是一种常见的局域网（LAN）技术，广泛用于企业网络、家庭网络以及数据中心。它定义了有线通信的物理层和数据链路层技术标准，提供了高效、可靠的通信机制。1.以太网的起源和发展诞生：以太网最初由罗伯特·梅特卡夫（RobertMetcalfe）于1973年提出，用于连接一组计算机。标准化：1983年，IEEE802.3标准正式将以太网定义为局域网通信协议。发展历程：10
人工智能就业趋势分析：机遇、挑战与未来展望竹木有心人工智能发展人工智能
一、人工智能就业市场现状：供需两旺的“黄金赛道”2025年春招市场数据显示，人工智能行业已成为就业市场最活跃的领域之一。招聘平台数据显示，AI相关岗位求职人数同比增长33.4%，机器人算法工程师、调试工程师等岗位招聘增速超30%^1^2。杭州、深圳等城市凭借产业集群优势，成为AI人才聚集高地。例如，杭州某大型线下招聘会上，830家企业推出的2.1万个岗位中，半数聚焦AI算法与大模型开发，硬件类岗位
java网盘项目，文件和文件夹用两个表还是一个表，两个表理论查询效率慢了为啥要用，有啥优势 Java&Develop Java开发 java spring 开发语言
java网盘项目，文件和文件夹用两个表还是一个表，两个表理论查询效率慢了为啥要用，有啥优势根据网盘系统设计经验与数据库优化原则，独立文件夹表和文件表的设计在复杂场景下具有显著优势。以下是分表方案的核心价值与效率优化策略分析：一、分表设计的核心优势数据模型清晰度文件与文件夹存在本质差异：文件需要存储size、mime_type等物理属性文件夹需要管理parent_id、share_type等逻辑属性
Python之离线安装第三方库（依赖包）格格巫 MMQ!! python 开发语言
在某些情况下，我们需要在无法直接联网的服务器上安装Python的依赖包。这种情况下，我们需要在可以正常上网的服务器上下载好所需的依赖包文件，然后拷贝到目标服务器，通过pip命令在目标服务器上进行安装。以下是详细的步骤：准备requirements.txt文件requirements.txt文件罗列的是依赖包列表，表示你要下载的依赖包以及对应的版本。该文件可以通过两种方式创建：（1）通过pip命令创
c语言标准库菜鸟教程,C 标准库 – | 菜鸟教程 weixin_40007548 c语言标准库菜鸟教程
C标准库-简介locale.h头文件定义了特定地域的设置，比如日期格式和货币符号。接下来我们将介绍一些宏，以及一个重要的结构structlconv和两个重要的函数。库宏下面列出了头文件locale.h中定义的宏，这些宏将在下列的两个函数中使用：序号宏&描述1LC_ALL设置下面的所有选项。2LC_COLLATE影响strcoll和strxfrm函数。3LC_CTYPE影响所有字符函数。4LC_MO
JavaScript 闭包 wangjinjin180 javascript 开发语言 ecmascript
以下是以资深软件开发工程师的视角，对“JavaScript闭包”的专业回答。我将详细讲解JavaScript中闭包的概念、机制、使用场景和实例，结合清晰的结构，包含目录、小标题、表格、代码示例和内部链接，确保内容技术准确、逻辑清晰且易于理解。回答基于截至2025年3月17日的最新JavaScript标准（ES2023+）。JavaScript闭包目录引言闭包概述闭包的机制与原理作用域链闭包的创建完
C语言——标准库思考的意义 c语言
目录断言字符类测试（部分）库函数抛出的错误代码浮点数运算检测整型数据类型值范围本土化数学函数“非局部跳转”信号可变参数列表一些常数，类型和变量输入和输出实用功能字符串函数时间和日期函数一、assert.h头文件唯一的目的是提供宏assert的定义。如果断言非真（expression==0），则程序会在标准错误流输出提示信息，并使程序异常中止调用abort()。定义：voidassert(intex
This is deprecated. The new driver class is com.mysql.cj.jdbc.Driver.的解决办法及原因 C4程序员 Java菜鸟之路 mysql 数据库 java
1.问题描述Thisisdeprecated.Thenewdriverclassis`com.mysql.cj.jdbc.Driver'.2.原因Spring2.2以后的版本是默认支持MySQL8的，所以当你的MySQL版本是8及以上就需要修改你的加载驱动3.解决办法同时注意时区东八区serverTimezone=GMT%2B84.补充privatestaticStringurl="jdbc:my
菜鸟之路:mysql不支持远程连接(或SQLyog可视化)，错误提示：错误代码是1130解决办法 C4程序员 Java菜鸟之路 mysql 数据库
如果mysql不支持远程连接，会出现提示：错误代码是1130，ERROR1130:Host*isnotallowedtoconnecttothisMySQLserver。解决方法如下：localhost改成%进入mysql的BIN目录1、在本机登入mysql后，更改“mysql”数据库里的“user”表里的“host”项，从”localhost”改为’%'。mysql>mysql>usemysql
线程池 JDK1.5 ExecutorService threadPool = Executors.newFixedThreadPool(3) 飞腾创客 java
packagecn.itcast.heima2;importjava.util.concurrent.ExecutorService;importjava.util.concurrent.Executors;importjava.util.concurrent.TimeUnit;publicclassThreadPoolTest{/***@paramargs*/publicstaticvoidma
EGA边缘引导注意力：有效保留高频边缘信息，提升分割精度，助力高效涨点一只小小的土拨鼠解构前沿：文献精读 pytorch 人工智能 python YOLO 深度学习
MEGANet:Multi-ScaleEdge-GuidedAttentionNetworkforWeakBoundaryPolypSegmentation论文地址：https://arxiv.org/abs/2309.03329代码地址：https://github.com/UARK-AICV/MEGANet本文提出了一种名为多尺度边缘引导注意力网络（MEGANet）的新方法，用于结肠镜图像中的
python 手动对齐d435相机的rgb与depth，非官方align_processing()函数求索小沈 python pyrealsense2 opencv 深度相机对齐点云 d435
（代码制作不易，免费提供大家使用，希望换一个关注，和点赞）废话不多说，代码如下（参考了很多资料，最终凑出了代码QAQ）。获取相机参数，也可以手动输入相机参数（若相机无法标定可以尝试）importcv2importnumpyasnpimportpyrealsense2asrspipe=rs.pipeline()cfg=rs.config()cfg.enable_stream(rs.stream.de
16、Python继承与多态机制深度解析 wolf犭良 python python 开发语言
Python继承与多态机制深度解析文章导言本文深入探讨Python面向对象编程中继承与多态的核心机制，涵盖从基础语法到高级用法的完整知识体系。通过理论解析、代码实战和典型场景案例，助您掌握继承体系的构建方法、MRO算法的底层逻辑、多态特性的工程实践，以及抽象基类在接口设计中的妙用。文末提供10个阶梯式练习题及完整答案代码。一、继承机制深度剖析1.1单继承体系classAnimal:def__ini
重庆内河枢纽港长期服役性能智能监测预警技术及装备重点项目中科岩创服务器运维物联网
1.项目简介本次项目位于重庆市果园港，主要对长江上游在役大型枢纽港钢结构在船舶撞击后的力学响应（如：结构应变、水平位移、振动加速度等）进行在线长时序监测，评估内河枢纽港长期服役性能。主要解决：(1)基于靠船构件、钢护筒、纵横撑结构应变，反演码头船舶撞击力，结合船舶碰撞速度监测，评估船舶的载重；(2)利用靠船构件、钢护筒、纵横撑结构应变监测数据，对码头结构的局部承载力进行监测预警；(3)基于码头结构
如何高效准备后端校招埼玉同学 java 后端求职招聘算法数据结构
如何高效准备后端校招简介算法CS基础课1.数据结构2.计算机组成原理3.操作系统4.计算机网络5.数据库6.设计模式7.Linux后端技术栈1.Java(其它语言直接跳过)2.MySQL3.Redis4.消息队列5.Spring6.其余后端技术栈8.分布式架构项目简历投递准备时间结语简介这是一篇主要介绍后端方向如何准备秋招，准备过程中应该获取哪些资源，以及相关的优质资源从何获取的文章。笔者经历了2
C 标准库 – 头文件 wangjinjin180 c语言开发语言
1️⃣简介提供了用于控制和检查浮点运算行为的宏和函数。它为浮点环境提供了精细的控制，允许设置舍入模式、捕获浮点异常等。通过，程序员可以：控制浮点舍入模式，指定不同的舍入方法。捕捉浮点异常，例如除以零、溢出、无效操作等。查询和设置浮点环境，例如浮点标志和状态。在浮点计算需要高精度或特殊控制时，可以帮助程序员精确控制浮点运算的行为。2️⃣浮点环境控制允许访问和修改浮点环境。浮点环境包括一些标志和设置，
小刚说C语言刷题——第8讲 C语言的强制类型转换 xueyinan c语言
1.强制类型转换的概念强制类型转换又叫显式类型转换。它是指把一种类型的数字转换成另外一种指定类型的值。2.语法格式(数据类型）数值(1)整数强制转化为浮点型例如：intnum=5;//下面的语句输出2.5printf("%lf",(double)num/2);（2）浮点型转化为整形例如：doublenum2=7.5;printf("%d",(int)num;3.示例代码要求将12.34分离出整数部
python 打印九九乘法表問華 Python基础 Python 矩阵乘法循环编程算法
j=1 #行whilej<10:i=1#列whilei<=j:print(f'{i}*{j}={i*j}',end='\t')i+=1print() #一行结束，打印换行符j+=1
Python 文件处理 open()函数 Python-派大星 Python编程 python 开发语言编程语言前端后端
文件处理是任何Web应用程序的重要组成部分。Python有几个用于创建、读取、更新和删除文件的函数。文件处理在Python中使用文件的关键函数是open()函数。有四种打开文件的不同方法（模式）："r"-读取-默认值。打开文件进行读取，如果文件不存在则报错。"a"-追加-打开供追加的文件，如果不存在则创建该文件。"w"-写入-打开文件进行写入，如果文件不存在则创建该文件。"x"-创建-创建指定的文
并发编程高频八股——线程池钢板兽高频八股 java 开发语言后端面试
大家好，我是钢板兽！今天继续更新并发编程的第二篇高频八股——线程池，包括线程池的作用、创建线程池的方式、线程池的参数以及核心参数的设置。本文的八股在对线程池的理解上比较浅显，创建线程池的方式和核心参数的设置，建议大家可以去实现一个动态线程池的demo或者复现开源项目，这样会加深对线程池的理解。文章目录1.为什么要用线程池2.创建线程池的方式3.线程池参数4.如何设置核心线程池参数？1.为什么要用线
python：打印99乘法表贩剑小僧 python
forjinrange(1,10):外循环foriinrange(1,j+1):内循环print("%d*%d=%-2d"%(i,j,i*j),end="")内循环print()外循环
python中open函数为什么打不开文件_Python中open函数怎么操作文件含元东
在Python中，如果想要操作文件，首先需要创建或者打开指定的文件，并创建一个文件对象，而这些工作可以通过内置的open()函数实现。open()函数用于创建或打开指定文件，该函数的常用语法格式如下：file=open(file_name[,mode='r'[,buffering=-1[,encoding=None]]])此格式中，用[]括起来的部分为可选参数，即可以使用也可以省略。其中，各个参数
【Cypher】CREATE UNIQUE 语句：在某个路径上自动创建缺失的节点或关系（Neo4j 3.x+ 已正式弃用）彬彬侠 Neo4j &Cypher CREATE UNIQUE Cypher Neo4j 图数据库废弃
在Neo4j的早期版本中（2.x及更早），Cypher提供了一个特殊的语句叫做CREATEUNIQUE，用于在某个路径上自动创建缺失的节点或关系，以确保整个路径是唯一的。然而，从Neo4j3.x起CREATEUNIQUE被正式弃用，现在推荐使用更强大、更明确的MERGE语句替代。一、什么是CREATEUNIQUE？CREATEUNIQUE是一种类似于MERGE的语句，它的语义是：在给定的路径中，如
Linux 安装 Redis ryan68888 linux redis 运维
虚拟机安装linuxhttps://www.bilibili.com/video/BVldD42177qg?p=16查看是否安装gcc：gcc--version1、安装gcc,编译环境yum-yinstallgcc-g++或yuminstallgcc2、将redis-7.2.4.tar.gz放到linux。如，放到opt里3、进入/opt目录下，解压tar-zxvfredis-7.2.4.tar.
洛谷每日1题-------Day31__P1534 不高兴的津津（升级版） __雨夜星辰__ 洛谷每日1题算法 c++数据结构学习笔记
题目描述津津上初中了。妈妈认为津津应该更加用功学习，所以津津除了上学之外，还要参加妈妈为她报名的各科复习班。另外每天妈妈还会送她去学习朗诵、舞蹈和钢琴。但是津津如果一天上课超过八个小时就会不高兴，而且上得越久就会越不高兴。这次与NOIp2004普及组第一题不同的是：假设津津不会因为其它事不高兴，但是她的不高兴会（当然高兴也会）持续到第二天。请你帮忙检查一下津津以后n天的日程安排，看看以后n天她会不
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <bookjovi@gmail.com> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少

【Python爬虫学习笔记（3）】Beautiful Soup库相关知识点总结

你可能感兴趣的:(【Python爬虫学习笔记（3）】Beautiful Soup库相关知识点总结)