weixin_39608134

python之父的名字-Python爬虫之BeautifulSoap的用法

1. Beautiful Soup的简介

简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

废话不多说，我们来试一下吧~

2. Beautiful Soup 安装

Beautiful Soup 3 目前已经停止开发，推荐在现在的项目中使用Beautiful Soup 4，不过它已经被移植到BS4了，也就是说导入时我们需要 import bs4 。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4)，另外据说 BS4 对 Python3 的支持不够好，不过我用的是 Python2.7.7，如果有小伙伴用的是 Python3 版本，可以考虑下载 BS3 版本。

可以利用 pip 或者 easy_install 来安装，以下两种方法均可

easy_install beautifulsoup4

pip install beautifulsoup4

如果想安装最新的版本，请直接下载安装包来手动安装，也是十分方便的方法。在这里我安装的是 Beautiful Soup 4.3.2

下载完成之后解压

运行下面的命令即可完成安装

sudo python setup.py install

然后需要安装 lxml

easy_install lxml

pip install lxml

另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同,可以选择下列方法来安装html5lib:

easy_install html5lib

pip install html5lib

Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐安装。

解析器使用方法优势劣势

Python标准库

BeautifulSoup(markup, “html.parser”)

Python的内置标准库

执行速度适中

文档容错能力强

Python 2.7.3 or 3.2.2)前的版本中文档容错能力差

lxml HTML 解析器

BeautifulSoup(markup, “lxml”)

速度快

文档容错能力强

需要安装C语言库

lxml XML 解析器

BeautifulSoup(markup, [“lxml”, “xml”])BeautifulSoup(markup, “xml”)

速度快

唯一支持XML的解析器

需要安装C语言库

html5lib

BeautifulSoup(markup, “html5lib”)

最好的容错性

以浏览器的方式解析文档

生成HTML5格式的文档

速度慢

不依赖外部扩展

3. 开启Beautiful Soup 之旅

在这里先分享官方文档链接，不过内容是有些多，也不够条理，在此本文章做一下整理方便大家参考。

4. 创建 Beautiful Soup 对象

首先必须要导入 bs4 库

from bs4 import BeautifulSoup

我们创建一个字符串，后面的例子我们便会用它来演示

Python

html="""

The Dormouse"s story

The Dormouse"s story

Once upon a time there were three little sisters; and their names were

Lacie and

Tillie;

and they lived at the bottom of a well.

...

"""

创建 beautifulsoup 对象

Python

soup=BeautifulSoup(html)

另外，我们还可以用本地 HTML 文件来创建对象，例如

soup=BeautifulSoup(open("index.html"))

上面这句代码便是将本地 index.html 文件打开，用它来创建 soup 对象

下面我们来打印一下 soup 对象的内容，格式化输出

print soup.prettify()

The Dormouse"s story

以上便是输出结果，格式化打印出了它的内容，这个函数经常用到，小伙伴们要记好咯。

5. 四大对象种类

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

Tag

NavigableString

BeautifulSoup

Comment

下面我们进行一一介绍

（1）Tag

Tag 是什么？通俗点讲就是 HTML 中的一个个标签，例如

The Dormouse"sstory

Elsie

上面的 title a 等等 HTML 标签加上里面包括的内容就是 Tag，下面我们来感受一下怎样用 Beautiful Soup 来方便地获取 Tags

下面每一段代码中注释部分即为运行结果

print soup.title

The Dormouse"s story

print soup.head

The Dormouse"s story

print soup.a

print soup.p

The Dormouse"s story

我们可以利用 soup加标签名轻松地获取这些标签的内容，是不是感觉比正则表达式方便多了？不过有一点是，它查找的是在所有内容中的第一个符合要求的标签，如果要查询所有的标签，我们在后面进行介绍。

我们可以验证一下这些对象的类型

print type(soup.a)

对于 Tag，它有两个重要的属性，是 name 和 attrs，下面我们分别来感受一下

name

print soup.name

print soup.head.name

#[document]

#head

soup 对象本身比较特殊，它的 name 即为 [document]，对于其他内部标签，输出的值便为标签本身的名称。

attrs

print soup.p.attrs

#{"class": ["title"], "name": "dromouse"}

在这里，我们把 p 标签的所有属性打印输出了出来，得到的类型是一个字典。

如果我们想要单独获取某个属性，可以这样，例如我们获取它的 class 叫什么

print soup.p["class"]

#["title"]

还可以这样，利用get方法，传入属性的名称，二者是等价的

print soup.p.get("class")

#["title"]

我们可以对这些属性和内容等等进行修改，例如

soup.p["class"]="newClass"

print soup.p

The Dormouse"s story

还可以对这个属性进行删除，例如

del soup.p["class"]

print soup.p

The Dormouse"s story

不过，对于修改删除的操作，不是我们的主要用途，在此不做详细介绍了，如果有需要，请查看前面提供的官方文档

（2）NavigableString

既然我们已经得到了标签的内容，那么问题来了，我们要想获取标签内部的文字怎么办呢？很简单，用 .string 即可，例如

print soup.p.string

#The Dormouse"s story

这样我们就轻松获取到了标签里面的内容，想想如果用正则表达式要多麻烦。它的类型是一个 NavigableString，翻译过来叫可以遍历的字符串，不过我们最好还是称它英文名字吧。

来检查一下它的类型

print type(soup.p.string)

（3）BeautifulSoup

BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象，是一个特殊的 Tag，我们可以分别获取它的类型，名称，以及属性来感受一下

print type(soup.name)

print soup.name

# [document]

print soup.attrs

#{} 空字典

（4）Comment

Comment 对象是一个特殊类型的 NavigableString 对象，其实输出的内容仍然不包括注释符号，但是如果不好好处理它，可能会对我们的文本处理造成意想不到的麻烦。

我们找一个带注释的标签

print soup.a

print soup.a.string

print type(soup.a.string)

运行结果如下

Elsie

a 标签里的内容实际上是注释，但是如果我们利用 .string 来输出它的内容，我们发现它已经把注释符号去掉了，所以这可能会给我们带来不必要的麻烦。

另外我们打印输出下它的类型，发现它是一个 Comment 类型，所以，我们在使用前最好做一下判断，判断代码如下

iftype(soup.a.string)==bs4.element.Comment:

print soup.a.string

上面的代码中，我们首先判断了它的类型，是否为 Comment 类型，然后再进行其他操作，如打印输出。

6. 遍历文档树

（1）直接子节点

要点：.contents .children 属性

.contents

tag 的 .content 属性可以将tag的子节点以列表的方式输出

print soup.head.contents

The Dormouse"s story]

输出方式为列表，我们可以用列表索引来获取它的某一个元素

print soup.head.contents[0]

The Dormouse"s story

.children

它返回的不是一个 list，不过我们可以通过遍历获取所有子节点。

我们打印输出 .children 看一下，可以发现它是一个 list 生成器对象

print soup.head.children

我们怎样获得里面的内容呢？很简单，遍历一下就好了，代码及结果如下

forchildinsoup.body.children:

print child

The Dormouse"sstory

Once uponatime there were three little sisters;andtheir names were

Lacieand

（2）所有子孙节点

知识点：.descendants 属性

.descendants

.contents 和 .children 属性仅包含tag的直接子节点，.descendants 属性可以对所有tag的子孙节点进行递归循环，和 children类似，我们也需要遍历获取其中的内容。

forchildinsoup.descendants:

print child

运行结果如下，可以发现，所有的节点都被打印出来了，先生最外层的 HTML标签，其次从 head 标签一个个剥离，以此类推。

The Dormouse"s story

The Dormouse"sstory

Once uponatime there were three little sisters;andtheir names were

（3）节点内容

知识点：.string 属性

如果tag只有一个 NavigableString 类型子节点,那么这个tag可以使用 .string 得到子节点。如果一个tag仅有一个子节点,那么这个tag也可以使用 .string 方法,输出结果与当前唯一子节点的 .string 结果相同。

通俗点说就是：如果一个标签里面没有标签了，那么 .string 就会返回标签里面的内容。如果标签里面只有唯一的一个标签了，那么 .string 也会返回最里面的内容。例如

print soup.head.string

#The Dormouse"s story

print soup.title.string

#The Dormouse"s story

如果tag包含了多个子节点,tag就无法确定，string 方法应该调用哪个子节点的内容, .string 的输出结果是 None

print soup.html.string

# None

（4）多个内容

知识点： .strings .stripped_strings 属性

.strings

获取多个内容，不过需要遍历获取，比如下面的例子

forstringinsoup.strings:

print(repr(string))

# u"The Dormouse"s story"

# u" "

# u"The Dormouse"s story"

# u" "

# u"Once upon a time there were three little sisters; and their names were "

# u"Elsie"

# u", "

# u"Lacie"

# u" and "

# u"Tillie"

# u"; and they lived at the bottom of a well."

# u" "

# u"..."

# u" "

.stripped_strings

输出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白内容

forstringinsoup.stripped_strings:

print(repr(string))

# u"The Dormouse"s story"

# u"Once upon a time there were three little sisters; and their names were"

# u"Elsie"

# u","

# u"Lacie"

# u"and"

# u"Tillie"

# u"; and they lived at the bottom of a well."

# u"..."

（5）父节点

知识点： .parent 属性

p=soup.p

printp.parent.name

#body

content=soup.head.title.string

print content.parent.name

#title

（6）全部父节点

知识点：.parents 属性

通过元素的 .parents 属性可以递归得到元素的所有父辈节点，例如

content=soup.head.title.string

forparentincontent.parents:

print parent.name

title

head

html

[document]

（7）兄弟节点

知识点：.next_sibling .previous_sibling 属性

兄弟节点可以理解为和本节点处在统一级的节点，.next_sibling 属性获取了该节点的下一个兄弟节点，.previous_sibling 则与之相反，如果节点不存在，则返回 None

注意：实际文档中的tag的 .next_sibling 和 .previous_sibling 属性通常是字符串或空白，因为空白或者换行也可以被视作一个节点，所以得到的结果可能是空白或者换行

print soup.p.next_sibling

# 实际该处为空白

print soup.p.prev_sibling

#None 没有前一个兄弟节点，返回 None

print soup.p.next_sibling.next_sibling

Once upon a time there were three little sisters; and their names were

#Lacie and

#Tillie;

#and they lived at the bottom of a well.

#下一个节点的下一个兄弟节点是我们可以看到的节点

（8）全部兄弟节点

知识点：.next_siblings .previous_siblings 属性

通过 .next_siblings 和 .previous_siblings 属性可以对当前节点的兄弟节点迭代输出

forsibling insoup.a.next_siblings:

print(repr(sibling))

# u", "

# Lacie

# u" and "

# Tillie

# u"; and they lived at the bottom of a well."

# None

（9）前后节点

知识点：.next_element .previous_element 属性

与 .next_sibling .previous_sibling 不同，它并不是针对于兄弟节点，而是在所有节点，不分层次

比如 head 节点为

The Dormouse"sstory

那么它的下一个节点便是 title，它是不分层次关系的

print soup.head.next_element

The Dormouse"s story

（10）所有前后节点

知识点：.next_elements .previous_elements 属性

通过 .next_elements 和 .previous_elements 的迭代器就可以向前或向后访问文档的解析内容,就好像文档正在被解析一样

forelement inlast_a_tag.next_elements:

print(repr(element))

# u"Tillie"

# u"; and they lived at the bottom of a well."

# u" "

...

# u"..."

# u" "

# None

以上是遍历文档树的基本用法。

7.搜索文档树

（1）find_all( name , attrs , recursive , text , **kwargs )

find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件

1）name 参数

name 参数可以查找所有名字为 name 的tag,字符串对象会被自动忽略掉

A.传字符串

最简单的过滤器是字符串.在搜索方法中传入一个字符串参数,Beautiful Soup会查找与字符串完整匹配的内容,下面的例子用于查找文档中所有的标签

soup.find_all("b")

# [The Dormouse"s story]

print soup.find_all("a")

#[, Lacie, Tillie]

B.传正则表达式

如果传入正则表达式作为参数,Beautiful Soup会通过正则表达式的 match() 来匹配内容.下面例子中找出所有以b开头的标签,这表示

和 标签都应该被找到

import re

fortag insoup.find_all(re.compile("^b")):

print(tag.name)

# body

# b

C.传列表

如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回.下面代码找到文档中所有标签和标签

soup.find_all(["a","b"])

# [The Dormouse"s story,

# Elsie,

# Lacie,

# Tillie]

D.传 True

True 可以匹配任何值,下面代码查找到所有的tag,但是不会返回字符串节点

fortag insoup.find_all(True):

print(tag.name)

# html

# head

# title

# body

# p

# b

# p

# a

E.传方法

如果没有合适过滤器,那么还可以定义一个方法,方法只接受一个元素参数 [4] ,如果这个方法返回 True 表示当前元素匹配并且被找到,如果不是则反回 False

下面方法校验了当前元素,如果包含 class 属性却不包含 id 属性,那么将返回 True:

def has_class_but_no_id(tag):

returntag.has_attr("class")andnottag.has_attr("id")

将这个方法作为参数传入 find_all() 方法,将得到所有

标签:

soup.find_all(has_class_but_no_id)

# [

The Dormouse"s story

Once upon a time there were...

...

]

2）keyword 参数

注意：如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字tag的属性来搜索,如果包含一个名字为 id 的参数,Beautiful Soup会搜索每个tag的”id”属性

soup.find_all(id="link2")

# [Lacie]

如果传入 href 参数,Beautiful Soup会搜索每个tag的”href”属性

soup.find_all(href=re.compile("elsie"))

# [Elsie]

使用多个指定名字的参数可以同时过滤tag的多个属性

soup.find_all(href=re.compile("elsie"),id="link1")

# [three]

在这里我们想用 class 过滤，不过 class 是 python 的关键词，这怎么办？加个下划线就可以

soup.find_all("a",class_="sister")

# [Elsie,

# Lacie,

# Tillie]

有些tag属性在搜索不能使用,比如HTML5中的 data-* 属性

data_soup=BeautifulSoup("

foo!

data_soup.find_all(data-foo="value")

# SyntaxError: keyword can"t be an expression

但是可以通过 find_all() 方法的 attrs 参数定义一个字典参数来搜索包含特殊属性的tag

data_soup.find_all(attrs={"data-foo":"value"})

# [

foo!

]

3）text 参数

通过 text 参数可以搜搜文档中的字符串内容.与 name 参数的可选值一样, text 参数接受字符串 , 正则表达式 , 列表, True

soup.find_all(text="Elsie")

# [u"Elsie"]

soup.find_all(text=["Tillie","Elsie","Lacie"])

# [u"Elsie", u"Lacie", u"Tillie"]

soup.find_all(text=re.compile("Dormouse"))

[u"The Dormouse"s story",u"The Dormouse"s story"]

4）limit 参数

find_all() 方法返回全部的搜索结构,如果文档树很大那么搜索会很慢.如果我们不需要全部结果,可以使用 limit 参数限制返回结果的数量.效果与SQL中的limit关键字类似,当搜索到的结果数量达到 limit 的限制时,就停止搜索返回结果.

文档树中有3个tag符合搜索条件,但结果只返回了2个,因为我们限制了返回数量

soup.find_all("a",limit=2)

# [Elsie,

# Lacie]

5）recursive 参数

调用tag的 find_all() 方法时,Beautiful Soup会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 recursive=False .

一段简单的文档:

The Dormouse"sstory

...

是否使用 recursive 参数的搜索结果:

soup.html.find_all("title")

# [

The Dormouse"s story]

soup.html.find_all("title",recursive=False)

# []

（2）find( name , attrs , recursive , text , **kwargs )

它与 find_all() 方法唯一的区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果

（3）find_parents() find_parent()

find_all() 和 find() 只搜索当前节点的所有子节点,孙子节点等. find_parents() 和 find_parent() 用来搜索当前节点的父辈节点,搜索方法与普通tag的搜索方法相同,搜索文档搜索文档包含的内容

（4）find_next_siblings() find_next_sibling()

这2个方法通过 .next_siblings 属性对当 tag 的所有后面解析的兄弟 tag 节点进行迭代, find_next_siblings() 方法返回所有符合条件的后面的兄弟节点,find_next_sibling() 只返回符合条件的后面的第一个tag节点

（5）find_previous_siblings() find_previous_sibling()

这2个方法通过 .previous_siblings 属性对当前 tag 的前面解析的兄弟 tag 节点进行迭代, find_previous_siblings()方法返回所有符合条件的前面的兄弟节点, find_previous_sibling() 方法返回第一个符合条件的前面的兄弟节点

（6）find_all_next() find_next()

这2个方法通过 .next_elements 属性对当前 tag 的之后的 tag 和字符串进行迭代, find_all_next() 方法返回所有符合条件的节点, find_next() 方法返回第一个符合条件的节点

（7）find_all_previous() 和 find_previous()

这2个方法通过 .previous_elements 属性对当前节点前面的 tag 和字符串进行迭代, find_all_previous() 方法返回所有符合条件的节点, find_previous()方法返回第一个符合条件的节点

注：以上（2）（3）（4）（5）（6）（7）方法参数用法与 find_all() 完全相同，原理均类似，在此不再赘述。

8.CSS选择器

我们在写 CSS 时，标签名不加任何修饰，类名前加点，id名前加 #，在这里我们也可以利用类似的方法来筛选元素，用到的方法是 soup.select()，返回类型是 list

（1）通过标签名查找

print soup.select("title")

The Dormouse"s story]

print soup.select("a")

#[, Lacie, Tillie]

print soup.select("b")

#[The Dormouse"s story]

（2）通过类名查找

print soup.select(".sister")

#[, Lacie, Tillie]

（3）通过 id 名查找

print soup.select("#link1")

#[]

（4）组合查找

组合查找即和写 class 文件时，标签名与类名、id名进行的组合原理是一样的，例如查找 p 标签中，id 等于 link1的内容，二者需要用空格分开

print soup.select("p #link1")

#[]

直接子标签查找

print soup.select("head > title")

The Dormouse"s story]

（5）属性查找

查找时还可以加入属性元素，属性需要用中括号括起来，注意属性和标签属于同一节点，所以中间不能加空格，否则会无法匹配到。

print soup.select("a[class="sister"]")

#[, Lacie, Tillie]

print soup.select("a[href="http://example.com/elsie"]")

#[]

同样，属性仍然可以与上述查找方式组合，不在同一节点的空格隔开，同一节点的不加空格

print soup.select("p a[href="http://example.com/elsie"]")

#[]

以上的 select 方法返回的结果都是列表形式，可以遍历形式输出，然后用 get_text() 方法来获取它的内容。

soup=BeautifulSoup(html,"lxml")

print type(soup.select("title"))

print soup.select("title")[0].get_text()

fortitle insoup.select("title"):

print title.get_text()

好，这就是另一种与 find_all 方法有异曲同工之妙的查找方法，是不是感觉很方便？

你可能感兴趣的:(python之父的名字-Python爬虫之BeautifulSoap的用法)

C++ 多态与 C# 的公有继承详解雪域Code c++c#开发语言 C#
多态是面向对象编程中的一个重要概念，它能够实现在父类引用指向子类对象时的动态绑定，从而在运行时确定调用哪个子类对象的方法。C++和C#是两种流行的面向对象编程语言，在多态性和继承方面有一些共同之处，但也存在一些差异。本文将详细讨论C++中的多态和C#中的公有继承，并附带相应的源代码示例。首先，让我们来看一下C++中的多态性。在C++中，实现多态性通常需要通过虚函数和基类指针或引用来实现。虚函数是在
qt UI设计架构对比 yaofei2006 qt ui 架构
在Qt中，UI设计架构的选择对应用程序的可维护性、扩展性和开发效率有重要影响。以下是几种常见的QtUI设计架构及其对比：1.MVC（Model-View-Controller）MVC是一种经典的设计模式，将应用程序分为三个部分：Model：管理数据和业务逻辑。View：负责显示数据（UI）。Controller：处理用户输入并更新Model和View。在Qt中的实现Model：使用QAbstrac
Django ORM - 聚合查询 lsx202406 开发语言
DjangoORM-聚合查询引言Django是一个强大的PythonWeb框架，它拥有一个功能丰富的对象关系映射（Object-RelationalMapping，简称ORM）。ORM允许开发者以Python类和对象的交互方式来操作数据库，而不是直接编写SQL查询。本文将深入探讨DjangoORM中的聚合查询功能，包括其基本用法、常用函数以及在实际开发中的应用场景。聚合查询简介聚合查询，顾名思义，
调用DeepSeek API接口：实现智能数据挖掘与分析 IT·小灰灰数据挖掘人工智能 python java javascript
在当今数据驱动的时代，企业和开发者越来越依赖高效的数据挖掘与分析工具来获取有价值的洞察。DeepSeek作为一款先进的智能数据挖掘平台，提供了强大的API接口，帮助用户轻松集成其功能到自己的应用中。本文将详细介绍如何调用DeepSeekAPI接口，并探讨其在数据挖掘与分析中的应用。目录一、DeepSeekAPI接口概述二、调用DeepSeekAPI的基本步骤2.1获取API密钥2.2构建HTTP请
Windows下Kanass简明安装教程(入门级) 烟雨下扬州 jira
Kanass是一款国产开源免费的项目管理工具，工具简洁易用、开源免费。本文将介绍如何在windows下安装配置kanass。1、安装下载，下载地址:Kanass-下载，下载安装包如tiklab-kanass.1.0.4.exe安装，双击exe文件安装应用启动，双击应用程序或桌面Kanass应用图标，启动应用2、登录应用启动成功控制台会显示应用访问地址，浏览器输入http://ip:9500打开应用
《Operating System Concepts》阅读笔记：p17-p25 操作系统
《OperatingSystemConcepts》学习第5天，p17-p25总结，总计9页。一、技术总结1.计算机系统的组成结构(1)CPU—Thehardwarethatexecutesinstructions.(2)Processor—AphysicalchipthatcontainsoneormoreCPUs.(3)Core—ThebasiccomputationunitoftheCPU.(
如何编写有效的管理系统测试文档模板？项目管理
管理系统测试文档模板是确保软件质量和项目成功的关键工具。一个优秀的测试文档模板不仅能提高测试效率，还能促进团队协作，减少错误和疏漏。本文将深入探讨如何编写有效的管理系统测试文档模板，为研发项目管理从业者提供实用的指导和建议。测试文档模板的重要性在管理系统开发过程中，测试文档模板扮演着至关重要的角色。它不仅是测试过程的指南，更是项目质量的保证。一个设计良好的模板能够：1.标准化测试流程：通过统一的格
介绍gruntwork模块服务和体系结构目录 weixin_26755331 python linux java
Today,I’mexcitedtorevealthenewdesignoftheGruntworkInfrastructureasCodeLibrary(IaCLibrary):今天，我很高兴地将Gruntwork基础结构的新设计作为代码库(IaC库)予以揭示：TheGruntworkModuleCatalogBuildyourinfrastructurebymixing&matchinghun
解决方案之高效检测PDF文件中的XSS攻击问题
引言随着互联网的普及和数字化办公的推进，PDF（PortableDocumentFormat）文件已成为信息交换的重要载体。然而，PDF文件的安全性问题也日益凸显，尤其是跨站脚本攻击（Cross-SiteScripting,XSS）的威胁。XSS攻击通过在PDF文件中嵌入恶意脚本，当用户打开文件时，脚本会在其浏览器中执行，可能导致敏感信息泄露、会话劫持等严重后果。因此，高效检测PDF文件中的XSS
【Spring Boot】Spring AOP动态代理，以及静态代理 web13508588635 面试学习路线阿里巴巴 spring spring boot 后端
目录SpringAOP代理一.代理的概念二.静态代理三.JDK代理3.1重写invoke方法进?功能增强3.2通过Proxy类随机生成代理对象四.CGLIB代理4.1自定义类来重写intercept方法4.2通过Enhancer类的create方法来创建代理类五.AOP源码剖析总结(重中之重，精华)SpringAOP代理一.代理的概念根据前面的学习想必大家都已经对SpringAOP有所了解了，接下
在Linux系统上使用nmcli命令配置各种网络（有线、无线、vlan、vxlan、路由、网桥等） web13508588635 linux 网络服务器
1、更新于2024/5/13，新增VethPair配置2、更新于2024/5/19，修复NetworkManager接管网络配置无效的错误3、更新于2024/5/20，新增Ubuntu两种版本下NetworkManager接管网络的配置目录一、配置NetworkManager接管网络（选）安装Network-Manager并启动netplan管理网络的系统ifupdown管理网络的系统二、nmcl
深入理解Kafka—如何保证Exactly Once语义 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Kafka是一种高吞吐量、分布式、可分区、多副本的消息系统。它在使用上非常灵活，可以作为Pulsar、RabbitMQ的替代品。但同时也带来了一些复杂性和问题，比如ExactlyOnce语义。从本质上说，ExactlyOnce就是对消费者读取的数据只要不丢失，就一定能得到一次完整的处理，而且不会被重复处理。确保ExactlyOnce语义一直是企业级应用中必须考虑
DeepSeek与ChatGPT的全面对比测试者家园人工智能 ChatGPT DeepSeek ChatGPT DeepSeek 人工智能质量效能
在人工智能（AI）领域，生成式预训练模型（GPT）已成为推动技术革新的核心力量。OpenAI的ChatGPT自发布以来，凭借其卓越的自然语言处理能力，迅速占据市场主导地位。然而，近期中国AI初创公司DeepSeek推出的R1模型，以其高效性和低成本，迅速引起全球关注。本文将深入探讨DeepSeek与ChatGPT的技术差异、性能表现以及各自的应用前景，旨在为读者提供全新的视角和启发。一、技术架构与
【kafka系列】broker 漫步者TZ kafka 数据库分布式 kafka
目录Broker接收生产者消息和返回消息给消费者的流程逻辑分析Broker处理生产者消息的核心流程Broker处理消费者消息的核心流程关键点总结Broker接收生产者消息和返回消息给消费者的流程逻辑分析Broker处理生产者消息的核心流程接收请求Broker的SocketServer接收来自生产者的ProduceRequest（基于Reactor网络模型）。请求解析与验证解析请求头（Topic、P
音响坏了还能修吗——deepseek和chatgpt回答对比分享是一种传递，一种快乐学习
共享您说：音响坏了还能修吗ChatGPT说：ChatGPT音响是否能修理，取决于具体的故障原因和损坏程度。你可以按照以下步骤来判断是否值得维修：1.检查基础问题电源问题：确保音响电源连接正常，尝试更换电源插座或适配器。音频线故障：尝试更换或重新插拔音频线，检查是否是连接问题。音量或静音：检查音量是否调到最低或是否开启了静音模式。设备兼容性：如果是蓝牙音响，尝试重新配对。2.判断具体故障
使用 Canal 实时从 MySql 向其它库同步数据 m0_74823239 面试学习路线阿里巴巴 mysql 数据库
目前绝大多数项目还是采用mysql作为数据存储，对于用户访问量较高的网站来说，mysql读写性能有限，我们通常会把mysql中的数据实时同步到Redis、mongodb、elasticsearch等中间件中，应对高并发访问场景，减轻mysql压力，防止数据库宕机。在项目开发中，为了不会原有代码进行侵入，采用canal中间件实现mysql向其它库的实时同步，是一种很不错的方案。canal译意为水道/
WebRTC学习二：WebRTC音视频数据采集 m0_74823239 webrtc 学习音视频
系列文章目录第一篇基于SRS的WebRTC环境搭建第二篇基于SRS实现RTSP接入与WebRTC播放第三篇centos下基于ZLMediaKit的WebRTC环境搭建第四篇WebRTC学习一：获取音频和视频设备第五篇WebRTC学习二：WebRTC音视频数据采集文章目录系列文章目录前言一、获取音视频流1.设置请求的媒体流参数2.调用getUserMedia3.处理获取到的媒体流4.处理错误二、完整
Hadoop常用端口号海洋之心 Hadoop问题解决 hadoop hbase 大数据
Hadoop是一个由多个组件构成的分布式系统，每个组件都会使用一些特定的端口号来进行通信和交互。以下是Hadoop2.x常用的端口号列表：HDFS端口号：NameNode：50070SecondaryNameNode：50090DataNode：50010DataNode（数据传输）：50020YARN端口号：ResourceManager：8088NodeManager：8042MapReduc
用js代码实现贪吃蛇小游戏 guai_guai_guai javascript 前端开发语言
js已经学了大部分了，现在就利用我所学的js知识试试做贪吃蛇小游戏吧以下部分相关图片以及思路笔记均出自渡一陈老师的视频首先制作简单的静态页面，添加贪吃蛇移动的背景和相关图片，比如开始游戏等等将各个功能均封装在函数中，利用主函数调用分函数会使结构更清晰初始化游戏初始化地图地图坐标//1.初始化地图for(leti=0;i=td||newHead.y=tr){collideCheckInfo.isCo
DXF文件解析：详细的提取图形坐标数据说明 MotionHao DXF文件解析几何学数据结构自动化
目录DXF文件组成解析实体数据的思路POINTLINEARCCIRCLEPOLYLINELWPOLYLINEELLIPSE(椭圆)工业自动化领域通常需要导入CAD图形来加工，所以需要提取CAD文件的图行数据。本文介绍如何提取DXF文件中常用的图形的坐标数据，包括：POINT（点）、LINE（直线段）、ARC（圆弧）、CIRCLE（圆）、POLYLINE（多段线）、LWPOLYLINE（轻量多段线）
006-Docker 镜像加速小宝哥Code Docker docker 容器运维
在中国，由于网络限制，DockerHub的镜像拉取速度可能会非常慢。为了解决这个问题，可以通过配置Docker使用国内镜像加速器来提高镜像下载速度。1.使用国内镜像加速器以下是一些常用的Docker镜像加速器，你可以根据自己的需求选择使用：阿里云镜像加速器：https://.mirror.aliyuncs.com网易云镜像加速器：https://hub-mirror.c.163.comDaoClo
企业文件安全：防范内部人员数据泄露风险够快云库企业数据安全企业文件安全
在企业文件安全管理中，外部黑客攻击常常受到广泛关注，然而，内部人员造成的数据泄露风险同样不容忽视。内部人员可能因疏忽、不满或被利益诱惑等原因，导致企业敏感文件数据泄露，给企业带来巨大损失。一、内部人员数据泄露的现状与原因当前，企业内部人员数据泄露事件时有发生。一方面，部分员工安全意识淡薄，随意将文件存储在不安全的设备上，或通过不加密的渠道传输文件，增加了数据泄露的风险。另一方面，一些员工因对企业的
文件安全审计：追踪与监控数据访问行为的利器够快云库企业数据安全企业文件安全
随着企业数据资产的不断增长，文件安全已成为企业面临的重大挑战之一。无论是外部威胁还是内部操作失误，都可能导致敏感数据的泄露、篡改甚至丢失。因此，企业不仅需要有效的安全防护措施，还应具备强大的追踪与监控能力，以确保任何对文件的访问和操作行为都在安全控制之下。在这种背景下，文件安全审计成为企业管理中至关重要的工具，它为企业提供了全面的文件操作记录，帮助及时发现并应对潜在的安全威胁。1.文件安全审计的核
文件中台与安全：集成方案的探索与实践够快云库企业数据安全文件安全企业文件安全
在企业数字化转型加速的今天，文件中台已成为支撑数据共享与高效协作的关键基础设施。然而，随着企业文件需求的增多和内容复杂性的提升，文件的安全问题也日益突显。如何在构建强大文件中台的同时，保障文件数据的安全性，已成为企业亟需解决的课题。文件中台的核心功能文件中台是企业管理和存储各类文件资源的中枢系统，旨在通过统一的管理方式实现文件的集中存储、权限控制、搜索与共享。它通过整合不同来源的文件数据，实现了文
数据泄露后的安全重构：文件安全再思考够快云库企业数据安全文件安全企业文件安全
近年来，数据泄露事件频发，企业数据面临的风险急剧增加。每次数据泄露事件都在提醒企业，文件安全并非一次设定即可一劳永逸的防护体系。数据泄露不仅会造成经济损失，更会损害客户信任，带来声誉风险。因此，事件发生后的安全重构尤为重要。如何在数据泄露后有效地重构安全体系、提升文件保护能力，是企业保障未来文件安全的关键。数据泄露后的安全重构必要性数据泄露带来的直接影响包括敏感信息外泄、业务中断和法律风险，但更严
如何有效防止文件被非法篡改与删除够快云库企业数据安全安全
在数字化转型的大潮中，文件作为企业日常运营中的重要资产，扮演着关键的角色。然而，文件在生成、存储和共享过程中，面临着非法篡改与删除的风险。如果文件被未经授权的人员篡改，可能会造成企业数据的失真，影响决策的准确性。而文件的意外删除甚至恶意删除，则会导致数据丢失，进而影响企业的业务连续性和合规性。因此，如何有效防止文件被非法篡改与删除，成为确保企业数据安全的核心问题。1.文件篡改与删除的风险来源在信息
Python自学攻略：AI时代的高效学习法 —— 如何用大模型快速上手编程优化小秦人工智能
在AI技术爆发的今天，学习Python已不再是传统的“看书+敲代码”模式。借助大语言模型（如Deepseek、GPT、Claude、Kimi、豆包等），学习效率可以提升数倍。本文将结合实操路径、工具链和避坑指南，为你提供一套AI时代的Python速成方案。一、为什么AI能让Python学习效率飙升？实时纠错与解释传统学习：遇到报错需反复查资料，耗时且挫败感强AI辅助：直接将错误信息丢给大模型，1秒
【kafka系列】如何选择消息语义？漫步者TZ kafka kafka 分布式数据库大数据
目录业务权衡如何选择消息语义？业务权衡维度At-Most-OnceAt-Least-OnceExactly-Once消息丢失风险高低无消息重复风险无高无网络开销最低（无重试）中等（可能重试）最高（事务+协调）适用场景可容忍丢失的实时数据流不允许丢失的日志采集金融交易、精准统计如何选择消息语义？At-Most-Once：优先性能与低延迟，接受数据丢失（如实时监控）。At-Least-Once：优先可
Run-On-Arch GitHub Action：跨架构CI/CD的利器怀创宪
Run-On-ArchGitHubAction：跨架构CI/CD的利器run-on-arch-actionAGithubActionthatexecutesjobs/commandsonnon-x86cpuarchitectures(ARMv6,ARMv7,aarch64,s390x,ppc64le,riscv64)viaQEMU项目地址:https://gitcode.com/gh_mirror
PHP 流程控制与错误处理来恩1003 PHP 从入门到精通 php android 开发语言
PHP学习资料PHP学习资料PHP学习资料在PHP编程中，流程控制语句用于控制程序的执行顺序，而错误处理和异常处理机制则确保程序在遇到问题时能够稳定运行，并提供有意义的反馈。以下将详细介绍PHP中的条件语句、循环语句的使用，以及错误处理和异常处理机制。一、条件语句1.if-else语句if-else语句是最基本的条件判断结构，用于根据条件的真假来执行不同的代码块。$age=20;if($age>=
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s