不怕猫的耗子A

Python爬虫：BeautifulSoup库

Beautiful Soup的简介

Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：

1、Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序

2、Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了

3、Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度

安装BeautifulSoup

1、BeautifulSoup4通过PyPi发布，所以如果你无法使用系统包管理安装，那么也可以通过easy_install或pip来安装。包的名字是beautifulsoup4这个包兼容Python2和Python3

2、 pip install BeautifulSoup4==4.0.1

安装解析器

1、Beautiful Soup支持Python标准库中的HTML解析器，还支持一些第三方的解析器。其中一个是lxml

2、根据操作系统不同，可以选择pip方法来安装lxml：pip install lxml

各种解析器优缺点

Beautiful Soup支持Python标准库中的HTML解析器，还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐安装(pip install lxml)

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, “html.parser”)	Python的内置标准库、执行速度适中、文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器	BeautifulSoup(markup, “lxml”)	速度快、文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, [“lxml”, “xml”])或BeautifulSoup(markup, “xml”)	速度快、唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, “html5lib”)	最好的容错性、以浏览器的方式解析文档、生成HTML5格式的文档、不依赖外部扩展	速度慢

BeautifulSoup简介

1、将一段文档传入BeautifulSoup 的构造方法，就能得到一个文档的对象(beautifulsoup对象)。同时也可以传入一段字符串或一个文件句柄

2、首先，文档被转换成Unicode，并且HTML的实例都被转换成Unicode编码

3、然后Beautiful Soup选择最合适的解析器来解析这段文档，如果手动指定解析器，那么Beautiful Soup会选择指定的解析器来解析文档

例1：

from bs4 import BeautifulSoup #导入bs4库

html = """

 
  The Dormouse's story
  
  
  The Dormouse's story 
  Once upon a time there were three little sisters; and their names were 
    , Lacie and Tillie; and they lived at the bottom of a well. 
  ...
 

"""

soup = BeautifulSoup(html,"lxml")#指定解析器，返回一个beautifulsoup对象

print(type(soup))

HTML_prettify = soup.prettify() #打印一下soup对象的内容，格式化输出
print(HTML_prettify)


"""


 
  
   The Dormouse's story
  
 
 
  
   
    The Dormouse's story
   
  
  
   Once upon a time there were three little sisters; and their names were
   
    
   
   ,
   
    Lacie
   
   and
   
    Tillie
   
   ; and they lived at the bottom of a well.
  
  
   ...
  
 

"""

例1_1：使用HTML文件来创建beautifulsoup对象

from bs4 import BeautifulSoup

html = open("F:\\test.txt","r",encoding="utf-8")
soup = BeautifulSoup(html,features="lxml") #将本地文件打开，用它来创建soup对象

注：
1、BeautifulSoup()方法返回的是一个bs4.BeautifulSoup对象，我们可以根据这个对象来使用不同的方法来获得HTML中我们需要的数据

2、在BeautifulSoup()方法中感觉最好指定解析器(使用lxml解析器)，不然有时候会报错

3、上面例子中使用了prettify()方法：该方法用于格式化打印出获得的内容。这个函数经常用到所以要记住了

四大对象种类

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构，每个节点都是Python对象，所有对象可以归纳为4种：

对象名	描述
BeautifulSoup	文档自身：表示的是一个文档的全部内容
Tag	标签对：Tag对象与XML或HTML原生文档中的tag相同，即标签对
NavigableString	标签值：标签对中的字符串
Comment	注释：文档的注释部分

Tag对象

1、Tag即HTML或XML中的标签对：Tag对象与XML或HTML原生文档中的tag相同

2、HTML中tag是由尖括号包围的关键词，即HTML中的一个个标签。一般是成对出现的。比如

和

3、成对的tag里，第一个(不带"/"的)叫开始tag(又叫开放tag)，第二个叫结束tag(又叫闭合tag）

4、例如：The Dormouse's story或Elsie
   ⑴上面的title、a等等HTML标签加上里面包括的内容就是Tag
   ⑵在BeautifulSoup中可以利用beautifulsoup对象下面的方法返回这些标签数据，这些标签数据称为Tag对象(Tag对象指的是整个标签对：从开始标签到结束标签，包括里面的嵌套标签)
   ⑶获取到Tag对象后，可以继续使用其下面的属性(方法)来获取标签对中的具体数据

5、Tag有很多方法和属性，暂时先介绍一下tag对象中最重要的属性：name属性和attributes属性

获取Tag对象

1、从一个beautifulsoup对象中获取指定的Tag对象，可以使用：beautifulsoup对象.标签名
⑴要获取哪个标签的Tag对象，就传入哪个标签的标签名

2、注：这种方法返回的Tag对象是所有内容中第一个符合要求的标签
⑴即：文档中存在多个同名的标签时，使用"beautifulsoup对象.标签名"返回的始终是第一个符合的标签(至于查找所有符合要求的标签，后面介绍)

例2：

from bs4 import BeautifulSoup #导入bs4库

html = """
The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""

soup = BeautifulSoup(html,"lxml")#指定解析器
HTML_title = soup.title #获取title标签
print("获取到的title标签为：",HTML_title)

HTML_head = soup.head #获取header标签
print("获取到的header标签为：",HTML_head)

HTML_a = soup.a #获取a标签
print("获取到的a标签为：",HTML_a)

HTML_p = soup.p #获取p标签
print("获取到的p标签为：",HTML_p)
print("获取到的p标签类型为：",type(HTML_p))

"""
获取到的title标签为： The Dormouse's story
获取到的header标签为： The Dormouse's story
获取到的a标签为： 
获取到的p标签为： The Dormouse's story
获取到的p标签类型为： 
"""

注：
1、从上面例子中我们可以看出：可以使用soup对象加标签名轻松地获取这些标签的内容，返回的标签是一个" "，即Tag对象

2、不过需要注意的是：它查找的是在所有内容中的第一个符合要求的标签，如果要查询所有符合要求的标签，我们在后面进行介绍

tag对象的name属性

1、每个tag都有自己的名字，其成为tag对象的name属性(name属性：标签对的名称)

2、获取一个Tag对象的name属性，可以使用：Tag对象.name

例3：

from bs4 import BeautifulSoup #导入bs4库

html = """
The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""

soup = BeautifulSoup(html,"lxml")   #指定解析器
soup_tag_name = soup.name    #获取整个BeautifulSoup对象的name属性
title_tag_name = soup.title.name  #获取title标签对象的name属性
head_tag_name = soup.head.name  #获取head标签对象的name属性
a_tag = soup.a    #获取a标签对象
a_tag_name = a_tag.name #获取a标签对象的name属性

print("整个BeautifulSoup对象的name属性为：",soup_tag_name)
print("title标签对象的name属性为：",title_tag_name)
print("header标签对象的name属性为：",head_tag_name)
print("a标签对象为：",a_tag)
print("a标签对象的name属性为：",a_tag_name)

"""
整个BeautifulSoup对象的name属性为： [document]
title标签对象的name属性为： title
header标签对象的name属性为： head
a标签对象为： 
a标签对象的name属性为： a
"""

注：
1、对于soup对象来说：soup对象本身比较特殊，它的name即为[document]

2、对于其他内部标签：输出的值便为标签本身的名称(值类型为字符串)

3、不过感觉获取一个Tag对象的name属性意义不大，毕竟都是通过其标签名来获取的tag对象，然后再通过Tag对象去获取其name属性就显得多此一举了

tag对象的attrs属性

1、attrs属性：指的是一个标签的属性
⑴一个标签的属性一般是由键值对组成，属性名=值
⑵

Extremely bold

，其中的'class="boldest"'就是标签的属性

2、一个标签可能有很多个属性

3、获取一个Tag对象的attrs属性，可以使用：Tag对象.attrs

4、使用Tag对象的attrs属性可以把标签对的属性以字典形式返回
⑴ Tag对象无属性时返回的是一个空字典

例4：

from bs4 import BeautifulSoup #导入bs4库

html = """
The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""

soup = BeautifulSoup(html,"lxml")   #指定解析器
soup_tag_attrs = soup.attrs #获取整个BeautifulSoup对象的attrs属性
title_tag_attrs = soup.title.attrs #获取title Tag对象的attrs属性
head_tag_attrs = soup.head.attrs #获取head Tag对象的attrs属性
a_tag = soup.a      #获取a标签的Tag对象
a_tag_attrs = a_tag.attrs   #获取a Tag对象的attrs属性


print("BeautifulSoup对象的attrs属性为：",soup_tag_attrs)
print("titlea标签的Tag对象的attrs属性为：",title_tag_attrs)
print("heada标签的Tag对象的attrs属性为：",head_tag_attrs)
print("a标签的Tag对象为：",a_tag)
print("a标签的Tag对象的attrs属性为：",a_tag_attrs)

"""
BeautifulSoup对象的attrs属性为： {}
titlea标签的Tag对象的attrs属性为： {}
heada标签的Tag对象的attrs属性为： {}
a标签的Tag对象为： 
a标签的Tag对象的attrs属性为： {'id': 'link1', 'href': 'http://example.com/elsie', 'class': ['sister']}
"""

注：
1、从上面的输出结果可以看出对于soup对象、head标签对、title标签对来说返回的为空字典：其标签对里面没有属性值以及对应的值(key:value)

2、对应存在key:value的标签：使用attrs方法可以将其所有的属性打印输出了出来，得到的类型是一个字典

3、如果想要单独获取某个属性具体的值时，可以使用下面三种方法：
    ⑴使用字典方法：字典索引、字典get()方法
    ⑵使用tag对象的get()方法：soup对象.标签名.get(属性名)
    ⑶使用soup对象.标签名.属性名(键名)

例5：

from bs4 import BeautifulSoup #导入bs4库

# 单独的一个标签也是可以构造为BeautifulSoup对象的
html = """Tillie"""

soup = BeautifulSoup(html,"lxml")   #指定解析器
print("BeautifulSoup对象为：",soup)

print("--------")

a_tag_attrs = soup.a.attrs
print("a标签的tag对象的属性为：",a_tag_attrs)

a_tag_attrs_href_dict = a_tag_attrs["href"] #使用字典的索引
print("通过字典索引获取到的tag对象的属性",a_tag_attrs_href_dict)

print("--------")

a_tag_attrs_href_dict1 = soup.a.attrs.get("href") #使用字典的get方法
print("通过字典get方法获取到的tag对象的属性",a_tag_attrs_href_dict1)

print("--------")

a_tag_attrs_href_get = soup.a.get("href")#使用soup对象.标签名.get(属性名)
print(a_tag_attrs_href_get)

a_tag_attrs_href = soup.a["href"]#使用soup对象.标签名.属性名(键名)
print(a_tag_attrs_href )


"""
BeautifulSoup对象为： Tillie
--------
a标签的tag对象的属性为： {'class': ['sister'], 'href': 'http://example.com/tillie', 'id': 'link3'}
通过字典索引获取到的tag对象的属性 http://example.com/tillie
--------
通过字典get方法获取到的tag对象的属性 http://example.com/tillie
--------
http://example.com/tillie
http://example.com/tillie
"""

注：
1、从上面例子中可以看出要获得标签对中具体属性的值时，共有三种方法：
   ⑴使用字典的方法相对于其他两种来说多了一步，会显得麻烦。不过毕竟字典方法用得比较多，用来很熟悉
   ⑵使用使用soup对象.标签名.属性名方法时：需要注意，需要使用中括号将属性名括起来
   ⑶使用get方法，传入属性的名称，这种方法与上面一种第二种是等价的

多值属性

1、一般情况下，对于标签的属性都是以键值对存在的(一键一值，键=值)。但是某些属性可以存在多个值的情况(一键多值)。这种情况就称为多值属性

2、最常见的多值的属性是 class (一个tag可以有多个CSS的class)。还有一些属性rel , rev , accept-charset , headers , accesskey。在Beautiful Soup中多值属性的返回类型是列表

例5_1:

from bs4 import BeautifulSoup

soup = BeautifulSoup('',"lxml")

print("p标签的tag对象为",soup.p)

print("p标签的tag对象的属性为",soup.p.attrs)  #其值为一个字典
print("p标签的class属性为",soup.p.attrs.get("class"))


css_soup = BeautifulSoup('',"lxml")
print(css_soup.p['class'])

"""
p标签的tag对象为 
p标签的tag对象的属性为 {'class': ['body', 'strikeout']}
p标签的class属性为 ['body', 'strikeout']

['body']
"""

注：
1、如果某个属性看起来好像有多个值,但在任何版本的HTML定义中都没有被定义为多值属性,那么Beautiful Soup会将这个属性作为字符串返回

2、将tag转换成字符串时,多值属性会合并为一个值

3、如果转换的文档是XML格式,那么tag中不包含多值属性

例5_3:

from bs4 import BeautifulSoup

css_soup = BeautifulSoup('',"lxml")
print(css_soup.p['id'])


rel_soup = BeautifulSoup('Back to the homepage',"lxml")
print(rel_soup.a['rel'])


#如果转换的文档是XML格式,那么tag中不包含多值属性
xml_soup = BeautifulSoup('', 'xml')
print(xml_soup.p['class'])

"""
my id
['index']
body strikeout
"""

NavigableString

1、NavigableString对象：指的是标签对中的数据

2、字符串常被包含在tag内。BeautifulSoup用NavigableString类来包装tag中的字符串

3、获取一个Tag对象中的数据(NavigableString对象)，可以使用：Tag对象.string

4、使用"Tag对象.string"方法返回的数据的类型为NavigableString对象，可以使用str()方法将其转为字符串(Unicode字符串)
⑴也可以使用str()方法将一个Tag对象转为字符串

例6：

from bs4 import BeautifulSoup #导入bs4库

html = """
The Dormouse's story

The Dormouse's story A
Once upon a time there were three little sisters; and their names were
Tillie,
Lacie and
;
and they lived at the bottom of a well.
...
"""

soup = BeautifulSoup(html,"lxml")#指定解析器，创建beautifulsoup对象

head_string = soup.head.string
p_string = soup.p.string

a_tag = soup.a
a_tag_string = a_tag.string


print("header标签中的数据为：",head_string)
print("p标签中的数据为：",p_string)

print("a标签的tag对象为：",a_tag)
print("a标签中的数据为：",a_tag_string)
print("a标签中的数据的类型为为：",type(a_tag_string))

print("转换数据类型后为：",type(str(a_tag_string))) #使用str()方法将NavigableString对象转为字符串
print("转换数据类型后为--tag对象：",type(str(a_tag))) #使用str()方法将tag对象转为字符串
"""
header标签中的数据为： The Dormouse's story
p标签中的数据为： The Dormouse's story A
a标签的tag对象为： Tillie
a标签中的数据为： Tillie
a标签中的数据的类型为为： 
转换数据类型后为： 
转换数据类型后为--tag对象： 
"""

BeautifulSoup

BeautifulSoup 对象表示的是一个文档的全部内容。大部分时候可以把它当作Tag对象，是一个特殊的Tag，我们可以分别获取它的类型，名称，以及属性来感受一下

例7：

from bs4 import BeautifulSoup #导入bs4库

html = """
The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""

soup = BeautifulSoup(html,"lxml")#指定解析器，创建beautifulsoup对象

soup_name = soup.name
print(soup_name)
print(type(soup_name))

soup_attrs = soup.attrs
print(soup_attrs)

"""
[document]

{}
"""

Comment

Comment 对象是一个特殊类型的NavigableString对象，其实输出的内容仍然不包括注释符号，但是如果不好好处理它，可能会对我们的文本处理造成意想不到的麻烦

例8：找一个带注释的标签

from bs4 import BeautifulSoup #导入bs4库

html = """
The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""

soup = BeautifulSoup(html,"lxml")#指定解析器，创建beautifulsoup对象

print("a标签的tag对象为：",soup.a)
print("a标签内的数据为：",soup.a.string)  #a标签内的数据为一个注释
print("a标签内的数据的类型为：",type(soup.a.string))

"""
a标签的tag对象为： 
a标签内的数据为：  Elsie 
a标签内的数据的类型为： 
"""

注：a标签里的内容实际上是注释，但是如果我们利用 .string 来输出它的内容，我们发现它已经把注释符号去掉了，所以这可能会给我们带来不必要的麻烦

补充

获取Tag对象

获取某个指定的tag有两种情况：一种是获取指定的第一个标签(这种实际中用得很少)，另一种是获取指定的全部标签对

获取指定的第一个标签

获取指定的第一个标签就是使用前面介绍的"soup对象.标签名"

例9：soup对象.标签名

from bs4 import BeautifulSoup

html = """
The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""

soup = BeautifulSoup(html,"lxml")#一个

tag_p = soup.p
print("p标签对为：",tag_p)

tag_a = soup.a
print("a标签对为：",tag_a)

"""
p标签对为： The Dormouse's story
a标签对为： 
"""

注：由上面的结果可以看出
1、获取某个标签对可以使用：soup对象.标签名

2、只是使用这种方法：只能获得整个文档中第一个符合要求的标签(存在多个一样的标签对时只会返回第一个)

3、如果想要的标签对中镶嵌了其他标签对，那么也会把里面镶嵌的标签对一起返回

4、这种方法在实际运用中发现：不能把标签名定义成变量，就是不能通过变量来批量获得一些标签对，所以这种方法有比较大的局限性

获取指定的全部标签对

1、要获取一个文档中某个指定的所有标签，就需要使用find_all()方法：BeautifulSoup对象或Tag对象都可以使用find_all()或find()方法来找其下面的子标签(只是查找范围不一样：BeautifulSoup对象->整个xml对象内，Tag对象->该Tag对象内)

2、其参数可以是很多类型，最常用的是：传入需要获取的标签的标签名

3、find_all()方法返回的是一个由所有符合要求的标签组成的列表

4、find_all()方法这里只是简单的介绍了，后面会详细介绍

5、个人感觉：就是不管HTML或XML文档中有无重复的标签，都最好用find_all()方法来找对应的Tag对象

例9_1：find_all()

from bs4 import BeautifulSoup

html = """
The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""

soup = BeautifulSoup(html,"lxml")

tag_body = soup.find_all("p") #获取所有p标签的tag对象
print("p标签对为：",tag_body)

tag_a = soup.find_all("a")    #获取所有a标签的tag对象
print("a标签对为：",tag_a)

"""
p标签对为： [The Dormouse's story
, Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie;
and they lived at the bottom of a well.
, ...]
a标签对为： [, Lacie, Tillie]
"""

注：由上面的结果可以看出
1、find_all()方法用于返回整个文档中所有符合要求的标签对：返回值是由所有符合要求的tag对象组成的列表(遍历后就是一个个tsg对象)

2、同样的方法还有find()方法：只是说find()方法只是返回第一个符合要求的标签对

3、使用这种方法的话，就可以将标签名定义成变量，所以感觉这种方法比较好

tag对象的name和attrs属性

1、感觉解析过程就是：soup对象->Tag对象->通过tag对象的name、attrs和另外的string属性来获取想要的数据

2、只要是一个tag对象，就可以使用name、attrs和另外的string属性

例10：

from bs4 import BeautifulSoup

html = """

 
  The Dormouse's story
  
  
  The Dormouse's story 
  Once upon a time there were three little sisters; and their names were 
    Elsie, 
    Lacie and 
    Tillie; and they lived at the bottom of a well.
   
  ...
 


"""

soup = BeautifulSoup(html,"lxml")

tag_a_name = soup.a.name
print("a标签对name属性为：",tag_a_name)

tag_a_attrs = soup.a.attrs
print("a标签对attrs属性为：",tag_a_attrs)

"""
a标签对name属性为： a
a标签对attrs属性为： {'href': 'http://example.com/elsie', 'class': ['sister'], 'id': 'link1'}
"""

注：
1、可以使用：soup.标签名.attrs或soup.标签名.name来获得标签对的name和attrs属性
⑴其实分开来看就是先使用soup.标签名来返回tag对象，然后使用tag对象.name、tag对象.attrs来获得name和attrs，以及tag对象.string来获得标签对之间的数据

2、使用这种方法的话也是：只会返回第一个符合要求的标签名的name和attrs(因为返回的只有一个tag对象)

3、标签对的attrs属性返回值是一个字典，可以对其使用字典的方法

4、tag的属性可以被添加,删除或修改，与字典处理方法一致，如：tag['class'] = 'verybold'

例10_1：

from bs4 import BeautifulSoup

html = """
The Dormouse's story

Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""

soup = BeautifulSoup(html,"lxml")

def parse_msg(tagName):
    tags = soup.find_all(tagName) #find_all()返回的是一个由tag对象组成的列表，因此需要遍历
    for tag in tags:
        print("标签的tag对象为为：", tag)
        print("标签的名称为：",tag.name)
        print("标签的属性为：",tag.attrs)
        print("标签的数据为：", tag.string)

parse_msg("a")
parse_msg("p")


"""
标签的tag对象为为： 
标签的名称为： a
标签的属性为： {'class': ['sister'], 'href': 'http://example.com/elsie', 'id': 'link1'}
标签的数据为：  Elsie 
标签的tag对象为为： Lacie
标签的名称为： a
标签的属性为： {'class': ['sister'], 'href': 'http://example.com/lacie', 'id': 'link2'}
标签的数据为： Lacie
标签的tag对象为为： Tillie
标签的名称为： a
标签的属性为： {'class': ['sister'], 'href': 'http://example.com/tillie', 'id': 'link3'}
标签的数据为： Tillie

标签的tag对象为为： Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie;
and they lived at the bottom of a well.
标签的名称为： p
标签的属性为： {'class': ['story']}
标签的数据为： None
标签的tag对象为为： ...
标签的名称为： p
标签的属性为： {'class': ['story']}
标签的数据为： ...
"""

注：
1、上面的流程就是：先使用find_all()方法获取所有符合要求的tag对象组成的列表，然后遍历出每一个tag对象，最后获得每一个tag对象的name、attrs属性以及string

2、也可以可以使用soup.标签名["属性名"]来获取指定名字的attrs属性

2、这种嵌套在里面的标签对，如果返回的是外层的tag对象，那也只能获得外层tag对象的name和attrs属性

NavigableString对象

1、即可以遍历的字符串：就是被包含在tag内的字符串

例11：

from bs4 import BeautifulSoup

html = """ 

 
  The Dormouse's story
  
  
  The Dormouse's story 
  Once upon a time there were three little sisters; and their names were 
    Elsie, 
    Lacie and 
    Tillie; and they lived at the bottom of a well.
   
  ...
 

"""
soup = BeautifulSoup(html,"lxml")

tag_a_string = soup.a.string
print("第一个a标签对中的字符串：",tag_a_string)
print(type(tag_a_string))

for tag_a_name in  soup.find_all("a"):
    print("as标签对name属性为：",tag_a_name.string)

"""
第一个a标签对中的字符串： Elsie

as标签对name属性为： Elsie
as标签对name属性为： Lacie
as标签对name属性为： Tillie
"""

注：从上面的输出结果可以看出
1、获取标签对中的NavigableString对象，可以使用：soup对象.标签名.string的方法来获取(跟前面name或attrs一样，只是说这里的字符串属于另一个对象)。且这种方法只会返回第一个符合要求的标签对中的字符串

2、也可以先试用find_all()的方法先找出全部符合要求的标签对，然后遍历得到每一个标签对内的字符串

3、返回的是一个NavigableString对象：可以通过str()方法可以直接将NavigableString对象转换成Unicode字符串

4、如果想在Beautiful Soup之外使用NavigableString对象,需要调用str()方法,将该对象转换成普通的Unicode字符串,否则就算Beautiful Soup已方法已经执行结束,该对象的输出也会带有对象的引用地址.这样会浪费内存

5、tag中包含的字符串不能编辑,但是可以被替换成其它的字符串，用replace_with()方法(后面单独介绍吧)

解析XML文档

1、使用BeautifulSoup同样能解析XML文档，解析XML文档的方法、步骤与解析HTML文档一样

2、只是说在解析XML文档时最好指定解析器为"xml"

例12：

from bs4 import BeautifulSoup

html = """

 
  20200706  
   
    1  
    2008  
    11  
    141100  
    
    

"""

soup = BeautifulSoup(html, 'xml')   # 使用xml解析器，将一个文件或字符串转为BeautifulSoup对象
# print(type(soup)) #返回一个
# print(soup.prettify()) #格式化输出HTML文件

tag_year = soup.find_all("year")  # find_all()方法返回文档中全部的year标签组成的列表
print("year标签对有：", tag_year)
for i in tag_year:
    print("返回的标签类型为：", type(i))  # 返回的是一个字符串型的Tag对象，可以直接使用str()方法进行强转换
    print(i.name)   # 通过Tag对象的name属性来获得标签的名字
    print(i.attrs)  # 通过Tag对象的attrs属性来获得标签的属性(为属性名与属性值组成的字典)
    print(i.string)  # 通过Tag对象的string属性来获得标签对中的数据(值)

"""
year标签对有： [2008, 11]
返回的标签类型为： 
year
{'type': 'year'}
2008

返回的标签类型为： 
year
{'type': 'month', 'date': 'week'}
11
"""

例13：

from bs4 import BeautifulSoup

"""
解析目标：将标签名及其数据组成字典
[{标签名:值},{标签名:值}]
"""

msg = """

 
   
    Belgian Waffles  
    $5.95  
    two of our famous Belgian Waffles with plenty of real maple syrup  
    650 
    
   
    Strawberry Belgian Waffles  
    $7.95  
    light Belgian waffles covered with strawberries and whipped cream  
    
   

"""

def parse_msg(msg):
    soup = BeautifulSoup(msg, 'xml')
    # 通过xml可以看到，我们需要的数据都在"food"标签下面，且"food"标签可以存在一个或多个，
    # 因此可以先找到"food"标签，然后依次根据"food"标签来找其下面的子标签
    foods = soup.find_all("food")
    food_info_list = []
    for food in foods:
        # 获取所需标签值
        # food标签下name标签不会存在多个，因此使用find()方法比较方便，这里只是演示下find_all()方法
        food_name = food.find_all("name")[0].string
        food_price = food.find("price").string
        food_calories = food.find("calories").string
        food_info = {"name":food_name,"price":food_price,"calories":food_calories}
        food_info_list.append(food_info)
    return food_info_list

food_info_list = parse_msg(msg)
print(food_info_list)

"""
输出：
[{'name': 'Belgian Waffles', 'calories': '650', 'price': '$5.95'}, {'name': 'Strawberry Belgian Waffles', 'calories': None, 'price': '$7.95'}]
这里是找"标签名:值"，也可以用同样的方法来找"标签名:属性值"等等
"""

注：

本文是在按照Beautiful Soup 4.2.0 文档学习时记录的。只是为了方便自己以后学习和搜索的，文章中肯定会有错误或者遗漏的，因此如果有幸被您看到，可以直接参考其官方文档：

https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#string

你可能感兴趣的:(python：爬虫,python,beautifulsoup)

【学习笔记】Python基础-字典Dict和Set和List与Str扩展法迪 Python基础 python hashmap Dict set list
Dict使用大括号围起来，这里提供一种键值对的list表示方法1.Dict{}2.List[]3.turple()实例代码#!/usr/bin/envpython3#-*-coding:utf-8-*-#字典dict类似Java的HashMap#Dict{}#List[]#turple()mDict={"Lava":90,"Huawei":100,"Sony":60}print(mDict['La
python中的dict与set “光光” python
python内置字典：dict支持key-value存储方式，在放进去的时候，必须根据key算出value的存放位置，这样取出来的时候才能根据key拿到value。由于一个key只能对应一个value,所以，多次对一个key放入value,后面的值会将前面的值覆盖掉。如果key不存在，dict就会报错要避免key不存在的错误，有两种方法：1）通过in判断key是否存在>>>d=｛'a':'1'｝>
Python基础---Dict（字典） grace666 Python
1.字典以键值对组成，包含在{}中，字典的键必须为hashable，即不可变（字符串、元组、数字），并且唯一；值可以是任何类型#dict1={[1]:1}#报错：TypeError:unhashabletype:'list'#dict1={{1}:1}#报错：TypeError:unhashabletype:'set'dict1={(1,):1}print(dict1)#{(1,):1}dict1
Markdown 到 PowerPoint 转换工具——md2pptx 伍盛普Silas
Markdown到PowerPoint转换工具——md2pptxmd2pptxMarkdownToPowerPointconverter项目地址:https://gitcode.com/gh_mirrors/md/md2pptxmd2pptx是一个开源项目，它可以将Markdown格式的文本转换为PowerPoint演示文稿。该项目主要使用Python编程语言实现。项目基础介绍md2pptx是一个
Python网络爬虫-WebSocket数据抓取程序小勇 faiss 爬虫 python 网络协议 websocket 开发语言
目录前言1、WebSocket请求的分析通常涉及以下几个方面：2、利用WebSocket爬取数据总结最后，创作不易！非常感谢大家的关注、点赞、评论啦！谢谢三连哦！好人好运连连，学习进步！工作顺利哦！博主介绍：✌专注于前后端、机器学习、人工智能应用领域开发的优质创作者、秉着互联网精神开源贡献精神，答疑解惑、坚持优质作品共享。本人是掘金/腾讯云/阿里云等平台优质作者、擅长前后端项目开发和毕业项目实战，
python 山脊图_（数据科学学习手札98）纯Python绘制满满艺术感的山脊地图 weixin_39780255 python 山脊图
1简介下面的这幅图可能很多读者朋友们都看到过，这是英国摇滚乐队JoyDivision在1979年发行的其第一张录音室专辑UnknownPleasures的封面，由艺术家PeterSaville基于射电脉冲星信号的数据图创作而成，成为了一种流行文化的符号标志。图1类似图1的风格，在地图制作中也存在着一种山脊地图，基于记录地表海拔信息的高程数据，我们可以利用水平方向上的基于实际位置海拔高度的曲线，来对
【Python 学习 / 5】函数详解（定义、参数、作用域、lambda、内置函数）卜及中 Python基础 python 学习开发语言
文章目录一、函数1.定义函数1.1基本函数定义1.2带参数的函数1.3带返回值的函数2.参数传递2.1位置参数2.2默认参数2.3可变参数2.3.1使用`*args`2.3.2使用`**kwargs`2.4参数的混合使用3.作用域3.1局部和全局变量3.2`global`关键字输出：3.3`nonlocal`关键字输出：4.lambda表达式4.1基本用法4.2与`map()`、`filter()
leetcode简单(181-200)python 九日火 leetcode python
762.PrimeNumberofSetBitsinBinaryRepresentation(e-181)GiventwointegersLandR,findthecountofnumbersintherange[L,R](inclusive)havingaprimenumberofsetbitsintheirbinaryrepresentation.(Recallthatthenumberofs
PaddleOCR面板恢复python脚本--针对pdf的面板恢复 zsh669 paddlepaddle ocr 百度 python pdf
问题在做一个项目的时候，使用PaddleOCR提供的模型，实现对图片或者pdf进行面板恢复，并保存为.docx文档。但是，官方的文档只提供了针对图片进行面板恢复的python脚本，没有提供pdf进行面板恢复的python脚本，官方只提供了pdf面板恢复的命令行使用方法，因此，我去看了PaddleOCR的源码，将命令行方法转换为python脚本准备工作环境配置和文档请参考：\ppstructure/
Python库 - transformers 司南锤 PYTHON库 python机器学习 python 开发语言
transformers库是由HuggingFace开发的一个非常流行的Python库，用于自然语言处理（NLP）任务。它提供了大量的预训练模型，这些模型可以用于各种NLP任务，如文本分类、问答、翻译、摘要生成等。以下是关于transformers库的详细介绍：1.主要特点预训练模型：transformers库包含了多种预训练的语言模型，如BERT、GPT、T5、XLNet等。这些模型在大规模文本
【NLP-04】tranformers库保姆级使用教程---以BERT模型为例云天徽上 NLP bert 人工智能深度学习自然语言处理机器学习 numpy 信息可视化
安装要安装一个非常轻量级的Transformers库，您可以执行以下步骤：1、打开终端或命令提示符。2、运行以下命令来安装Transformers库：pipinstalltransformers这将使用pip工具从PythonPackageIndex（PyPI）下载并安装Transformers库。请确保您的计算机上已经安装了pip。然后，您可以在Python代码中导入Transformers库：
利用 OpenCV 进行棋盘检测与透视变换萧鼎 python基础到进阶教程 opencv 人工智能计算机视觉
利用OpenCV进行棋盘检测与透视变换1.引言在计算机视觉领域，棋盘检测与透视变换是一个常见的任务，广泛应用于摄像机标定、文档扫描、增强现实（AR）等场景。本篇文章将详细介绍如何使用OpenCV进行棋盘检测，并通过透视变换将棋盘区域转换为一个标准的矩形图像。我们将基于一段Python代码进行分析，代码的主要任务包括：读取图像并进行预处理（灰度转换、自适应直方图均衡化、去噪）检测边缘并提取棋盘区域计
conda更换环境版本（比如torch版本）挨打且不服66 python python
找到想要的torch版本pytorch官网torch过往的版本创建新环境condacreate--namemyenvpython=3.8condaactivatemyenvconda虚拟环境中安装CUDA和CUDNN深度学习用显卡训练的时候，需要安装与显卡对应的cuda和cudnn。但不同的项目所支持的pytorch版本是不一样的，而pytorch版本和cuda版本之间又是互相依赖的，所以如果可以
流行编程语言全解析：优势、应用与短板 a小胡哦 python java c++c语言 javascript swift r语言
Python：优势Python以其简洁、易读的语法闻名，新手能快速上手。丰富的库和框架，能极大地提高开发效率。适用领域数据科学与分析：处理和分析大规模数据集，进行数据可视化。典型示例：Google用Python进行数据分析，处理海量数据以支持各种业务决策。机器学习与人工智能：构建和训练模型。典型示例：OpenAI在很多人工智能项目中广泛使用Python，如GPT系列模型的研发。网络爬虫：轻松从网页
用conda虚拟环境解决py+torch环境问题 SevenZS Note anaconda python
要事先安装wheelpipinstallwheelcondainstallnb_conda安装nb_conda这样可以在shell切换虚拟环境启动jupyternotebook后切换到虚拟环境创建虚拟环境condacreate-npython36python=3.6condaactivatepython36加载后再pip安装torch1.4+cu101所有版本torch放在某个文件夹，比如桌面后p
【报错】ImportError: cannot import name ‘get_refined_artifact_map‘ from ‘basicsr.losses.loss_util‘ 之群害马 python 深度学习 pytorch
ImportError:cannotimportname'get_refined_artifact_map'from'basicsr.losses.loss_util'(xxx/lib/python3.10/site-packages/basicsr/losses/loss_util.py)解决办法：找到basicsr库网站缺失的部分如下，补充到原来的xxx/lib/python3.10/site
Python 用pytorch从头写Transformer源码，一行一解释；机器翻译实例代码；Transformer源码解读与实战医学小达人 NLP LLMs GPT 深度学习人工智能 transformer python 机器学习
1.Transformer简介Transformer模型被提出的主要动机是解决序列处理任务的长距离依赖问题。传统的RNN和LSTM虽然能够处理序列任务，但因为它们在处理序列时需要一步步前进，因此其他信息无法立即对其产生影响，当序列变长时，长距离依赖的信息很可能会被丢失。为了解决这个问题，Transformer模型被设计出来，内核思想是利用自注意力机制，这样模型可以直接对输入序列的任意两个位置建立直
python正则表达式快速入门_Python 正则表达式入门 weixin_39955938 python正则表达式快速入门
本文主要为没有使用正则表达式经验的新手入门所写。转载请写明出处引子首先说正则表达式是什么？正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语：RegularExpression，在代码中常简写为regex、regexp或RE)，计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那
python正则表达式必知必会的基础豆子前端 python基础 python 正则表达式
文章目录正则表达式re.match()和re.search()SRE_Matchobjectre.match()re.search()（重点）re.flags小结re.sub()re.split()re.findall()re.fullmatch()re.compile()小结方法分类注意细节正则表达式网站参考资料正则表达式本文主要讲的是正则表达式在python中的简单使用，只介绍关键的几个方法函
在conda虚拟环境中安装jupyter lab-----deepseek问答记录溯源006 deepseek回答记录 conda jupyter ide
在Conda虚拟环境中安装JupyterLab的步骤如下：1.创建并激活Conda虚拟环境如果你还没有创建虚拟环境，可以使用以下命令创建一个新的虚拟环境并激活它：condacreate-nmyenvpython=3.x#将`myenv`替换为你的环境名称，`3.x`替换为所需的Python版本condaactivatemyenv2.安装JupyterLab在激活的虚拟环境中，使用以下命令安装Jup
单片机、嵌入式Linux开发大学自学路径 Oriental Son 嵌入式 MCU 单片机单片机学习 stm32 mcu linux
笔者所修读的专业为物联网工程，物联网工程是一门新兴的、热门的专业，其所涉及的学科更是又多又杂，既有计算机方向的编程语言（如C、C++、Java、Python等）、数据结构与算法、操作系统、移动端应用开发、机器学习等；软硬结合的方向有数字电路单片机开发、嵌入式Linux开发等；硬件、电路方向有电路分析、数字电路、模拟电路、传感器原理、RFID、FPGA开发等；涉及信号处理的有信号与系统、通信原理等。
深入解析 Poetry：Python 项目依赖管理的新宠，安装、使用及最佳实践潘智祥 python java 人工智能
在Python的世界里，管理项目依赖和虚拟环境一直是一个令人头疼的问题。虽然有pip和virtualenv这样的工具，但随着项目的复杂性增加，它们的局限性也逐渐显露出来。这时候，Poetry作为一个现代化的依赖管理工具应运而生。它不仅解决了项目依赖管理的问题，同时也集成了虚拟环境管理、发布等功能，成为了Python开发者的新宠。Poetry是什么？Poetry是一个用于管理Python项目依赖和构
【JAVA工程师从0开始学AI】，第二步：从强类型到动态语言：Java工程师的Python语法避坑指南架构默片 JAVA工程师从0开始学AI python java windows
这是一篇介绍Python语法与JAVA语法区别文章，让我们以对比的方式，来学习一下Python的语法。首先我们看一下下面的Python代码，和具体在java当中分别代表了什么意思numbers=[1,2,3,4,5,6,7,8,9]#①创建数字列表（像Java的ArrayList，但不用写泛型）odd_numbers=[]#②准备装奇数的空列表（类似Java的newArrayListnumbers
052_爬虫_爬虫相关概念（引用《尚硅谷Python爬虫教程（小）小白零基础速通》052章）一个有趣的昵称 python 爬虫开发语言
爬虫解释：通过程序，根据url（http://taobao.com）进行网页的爬取获取有用的信息实用程序模拟浏览器，去向服务发送请求，获取响应信息爬虫的核心爬取网页：爬取整个网页包含了网页中所的内容解析数据：将网页中得到的数据进行解析难点：爬虫和但爬虫之间的博弈爬虫的类型实例通用爬虫百度，360，Google，搜狗等搜索引擎功能访问网页-》抓取数据-》数据储存-》数据处理-》提供检索服务robot
为一位经验丰富的程序员量身定制Python学习路线人工智能首选语言：python Python新技术小黄人软件 chatGPT python 学习人工智能
人工智能首选语言：python必学。解释型语言(无编译这个环节)，直接执行代码，面向对象，脚本语言没基础在这里学为一位经验丰富的程序员量身定制Python学习路线，主要应关注于深化已有的编程知识和技能，并探索Python特有的高级特性。以下是推荐的学习路线：基础复习：如果对Python基础不熟悉，先从Python的基础语法、数据类型、控制流程等开始复习。高级语言特性：深入理解装饰器、上下文管理器、
强化学习：原理、概念与代码实践 AndrewHZ 深度学习新浪潮人工智能深度学习强化学习机器学习算法 deepseek
一、引言强化学习（ReinforcementLearning）作为机器学习的一个重要分支，旨在通过智能体（agent）与环境的交互，学习到最优的行为策略，以最大化长期累积奖励。它在机器人控制、游戏、自动驾驶、资源管理等众多领域都取得了显著的成功。本文将深入介绍强化学习的数学原理、核心概念，并通过公式推导来加深理解，同时结合一个具体的实例，使用Python语言进行代码实现，帮助读者全面掌握强化学习的
【Python基础】Python闭包：如何让你的代码拥有‘读心术’？陈序不懂程序 python 服务器 apache 网络开发语言数据库学习
第1章闭包概念与背景1.1闭包定义与理论基础闭包，这一术语源自数学逻辑，如今在计算机科学中占据着核心地位，尤其在面向对象和函数式编程领域中发挥着无可替代的作用。它是一种特殊的函数对象，不仅包含自身的代码逻辑，还携带着其定义时所处环境的部分状态，即对外部自由变量的引用。这种独特的“携带状态”特性赋予了闭包强大的功能和灵活性，使其成为实现抽象、封装、数据隐藏以及控制程序执行的关键工具。1.1.1闭包的
python学习列表字典集合面对对象编程闭包装饰器函数式编程作用域异常处理 Scikit-learn 机器学习 python 算法 python 学习开发语言
SIGIA_4Ppython学习列表字典集合面对对象编程闭包装饰器函数式编程作用域异常处理本文连接简介SIGIA_4P网址a.课程OKRObjectivesandKeyResults即目标与关键成果法目标，Objectives：掌握AI领域的Python开发成果1KR1linux目录结构[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r864ykpN-16917885
尚硅谷爬虫note007 CSDNy666999 爬虫
一、urllib—异常1.urllib.error.HTTPError2.urllib.error.URLError#_*_coding:utf-8_*_#@Time:2025/2/1411:33#@Author:20250206-里奥#@File:demo26_异常#@Project:PythonProject10-14importurllib.requestimporturllib.error
【JAVA工程师从0开始学AI】，第四步：闭包与高阶函数——用Python的“魔法函数“重构Java思维架构默片 JAVA工程师从0开始学AI 人工智能 java python
副标题：当严谨的Java遇上"七十二变"的Python函数式编程历经变量战争、语法迷雾、函数对决，此刻我们将踏入Python最迷人的领域——函数式编程。当Java工程师还在用接口和匿名类实现回调时，Python的闭包已化身"智能机器人"，带着"记忆传承"的能力自由穿梭于代码之间。这里没有类的枷锁，函数既是武器又是盾牌，高阶函数组合出的"代码万花筒"，正是AI数据处理、模型训练的核心密码。本文将用J
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》