Eastmount

[Python从零到壹] 五.网络爬虫之BeautifulSoup基础语法万字详解

欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智能40篇、Python安全20篇、其他技巧10篇。您的关注、点赞和转发就是对秀璋最大的支持，知识无价人有情，希望我们都能在人生路上开心快乐、共同成长。

前一篇文章讲述了基于正则表达式的Python爬虫以及Python常用的爬虫模块，而Python强大的网络支持能力和丰富的扩展包是否也提供了相关的爬虫包呢？答案是肯定的。本篇文章主要讲解BeautifulSoup技术。BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库，一个分析HTML或XML文件的解析器。本章将介绍BeautifulSoup技术，包括安装过程和基础语法，并通过分析HTML实例来介绍BeautifulSoup解析网页的过程。

本文参考了作者CSDN的文章，链接如下：

https://blog.csdn.net/Eastmount
https://github.com/eastmountyxz/Python-zero2one

同时，作者新开的“娜璋AI安全之家”将专注于Python和安全技术，主要分享Web渗透、系统安全、人工智能、大数据分析、图像识别、恶意代码检测、CVE复现、威胁情报分析等文章。虽然作者是一名技术小白，但会保证每一篇文章都会很用心地撰写，希望这些基础性文章对你有所帮助，在Python和安全路上与大家一起进步。

文章目录

一.安装BeautifulSoup
- 1.安装过程
- 2.pip安装扩展包用法
二.快速开始BeautifulSoup解析
- 1.BeautifulSoup解析HTML
- 2.简单获取网页标签信息
- 3.定位标签并获取内容
三.深入了解BeautifulSoup爬虫
- 1.BeautifulSoup对象
- 2.遍历文档树
- 3.搜索文档树
四.BeautifulSoup简单爬取个人博客网站
五.本章小结

一.安装BeautifulSoup

BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python扩展库。BeautifulSoup通过合适的转换器实现文档导航、查找、修改文档等。它可以很好的处理不规范标记并生成剖析树（Parse Tree）；它提供的导航功能（Navigating），可以简单又快速地搜索剖析树以及修改剖析树。BeautifulSoup技术通常用来分析网页结构，抓取相应的Web文档，对于不规则的HTML文档，它提供了一定的补全功能，从而节省了开发者的时间和精力。本章将带领您走进BeautifulSoup爬虫的海洋，下面先简单介绍BeautifulSoup技术的安装过程。

1.安装过程

BeautifulSoup安装主要通过pip指令进行。如下图所示，在命令提示符CMD环境下，通过cd命令进入Python3.7安装目录的Scripts文件夹下，再调用“pip install bs4”命令安装，bs4即BeautifulSoup4。安装命令如下：

cd C:\Software\Program Software\Python37\Scripts
pip install bs4

当BeautifulSoup扩展包安装成功后，在Python3.7中输入“from bs4 import BeautifulSoup”语句导入该扩展包，测试安装是否成功，如果没有异常报错即安装成功，如下图所示。

输入代码如下：

from bs4 import BeautifulSoup

BeautifulSoup有两个常用版本：BeautifulSoup 3和BeautifulSoup 4（简称BS4）。BeautifulSoup 3目前已经停止开发，项目中使用更多的是BeautifulSoup 4，现已移植到BS4扩展包中。建议读者安装BeautifulSoup4，因为BeautifulSoup3已经停止更新；同时如果读者使用的是Anaconda等集成开发环境，它的BeautifulSoup扩展包是已经安装了的，可以直接使用。

BeautifulSoup支持Python标准库中的HTML解析器，还支持一些第三方的解析器，其中一个是 lxml，另一个可供选择的解析器是纯Python实现的html5lib，html5lib的解析方式与浏览器相同。Windows系统下调用pip或easy_install命令安装lxml，代码如下：

pip install lxml
easy_install lxml

下表列出了BeautifulSoup官方文档中主要的解析器和它们的优缺点。

2.pip安装扩展包用法

前面的安装过程调用pip命令，那么它究竟是什么呢？
pip是一个现代的、通用的Python包管理工具，提供了对Python包（Package）的查找、下载、安装及卸载功能。Python可以通过easy_install或者pip命令安装各种各样的包，其中easy_insall提供了“傻瓜式”的在线一键安装模块的方式，而pip是easy_install的改进版，提供更好的提示信息以及下载、卸载Python包等功能，常见用法如下表所示。

在Python2旧版本开发环境中使用pip命令之前，需要安装pip软件（下载pip-Win_1.7.exe软件直接安装），再调用pip命令对具体的扩展包进行安装，目前Python3已经内嵌pip工具供大家直接使用。

http://pypi.python.org/pypi/pip#downloads

Python2旧版本安装完pip工具后，它会在Python安装目录下添加Scripts目录。在Python2.7中，安装的扩展包会在目录Scripts文件夹下添加相应的文件，甚至需要将此目录（Scripts）加入环境变量中。安装pip成功后，通过命令“pip install bs4”安装BeautifulSoup 4软件。

下表显示了pip常用命令，其中最常用的命令是“install”和“uninstall”。

Usage:                    基本用法
  pip <command> [options]  command表示操作命令，options表示参数

Commands:                  操作命令
  install                  安装软件
  uninstall                卸载软件
  freeze                   按一定格式输出已安装软件列表  
  list                     列出已安装软件 
  show                     显示软件详细信息 
  search                   搜索软件  
  wheel                    根据要求建立wheel扩展包  
  zip                      打包（zip）单个扩展包，不推荐使用  
  unzip                    解压（unzip）单个扩展包，不推荐使用    
  help                     查看帮助提示

General Options:           常用选项
  -h, --help               显示帮助
  -v, --verbose            更多的输出，最多可以使用3次  
  -V, --version            显示版本信息然后退出
  -q, --quiet              最少的输出 
  --log-file <path>        以覆盖的方式记录详细的输出日志  
  --log <path>             以不覆盖的方式记录详细的输出日志.  
  --proxy <proxy>          指定端口号  
  --timeout <sec>          设置连接超时时间（默认15秒）
  --exists-action <action> 设置存在默认行为，可选参数包括：(s)witch、 (i)gnore、(w)ipe、(b)ackup
  --cert <path>            设置证书

最后推荐官方文档：

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
https://pypi.org/project/beautifulsoup4/

二.快速开始BeautifulSoup解析

下面这段HTML代码（test04_01.html）是关于李白的一首诗和描述，它将作为例子被多次使用。HTML主要采用节点对的形式进行编写，如< html>< /html>、< body>< /body>、< a>< /a>等。

<html>
	<head>
		<title>BeautifulSoup技术title>
	head>
	<body>
	<p class="title"><b>静夜思b>p>
	<p class="content">
		窗前明月光，<br />
		疑似地上霜。 <br />
		举头望明月，<br />
		低头思故乡。 <br />
	p>
	<p class="other">
		李白（701年－762年），字太白，号青莲居士，又号“谪仙人”，
		唐代伟大的浪漫主义诗人，被后人誉为“诗仙”，与
		<a href="http://example.com/dufu" class="poet" id="link1">杜甫a>
		并称为“李杜”，为了与另两位诗人
		<a href="http://example.com/lishangyin" class="poet" id="link2">李商隐a>、
		<a href="http://example.com/dumu" class="poet" id="link3">杜牧a>即“小李杜”区别，杜甫与李白又合称“大李杜”。
		其人爽朗大方，爱饮酒...p>
	<p class="story">...p>

通过浏览器打开该网页显示如下图所示。

1.BeautifulSoup解析HTML

下列代码是通过BeautifulSoup解析这段HTML网页，创建一个 BeautifulSoup对象，然后调用BeautifulSoup包的prettify()函数格式化输出网页。

# coding=utf-8
from bs4 import BeautifulSoup

#HTML源码
html = """

	
		BeautifulSoup技术
	
	
	静夜思
	
		窗前明月光，

		疑似地上霜。 

		举头望明月，

		低头思故乡。 

	
	
		李白（701年－762年），字太白，号青莲居士，又号“谪仙人”，
		唐代伟大的浪漫主义诗人，被后人誉为“诗仙”，与
		杜甫
		并称为“李杜”，为了与另两位诗人
		李商隐、
		杜牧即“小李杜”区别，杜甫与李白又合称“大李杜”。
		其人爽朗大方，爱饮酒...
	
	...
"""

#按照标准的缩进格式的结构输出
soup = BeautifulSoup(html)
print(soup.prettify())

代码输出结果如下所示，是网页的HTML源代码。soup.prettify()将soup内容格式化输出，用BeautifulSoup 解析HTML文档时，它会将HTML文档类似DOM文档树一样处理。

注意：前面定义的HTML源码标签对是缺少结束标签的，即没有和标签，但是使用prettify()函数输出的结果已经自动补齐了结束标签，这是BeautifulSoup的一个优点。BeautifulSoup即使得到了一个损坏的标签，它也产生一个转换DOM树，并尽可能和您原文档内容含义一致，这种措施通常能够帮助您更正确地搜集数据。另外，我们还可以用本地HTML文件来创建BeautifulSoup对象，代码如下所示：

soup = BeautifulSoup(open(‘test04_01.html’))

2.简单获取网页标签信息

当我们已经使用BeautifulSoup解析了网页之后，如果您想获取某个标签之间的信息，怎么实现呢？比如获取标签< title>和< /title>标题内容。下面的test02.py代码就将教大家使用BeautifulSoup技术获取标签信息的用法，更系统的知识将在第三部分介绍。

# coding=utf-8
from bs4 import BeautifulSoup

#创建本地文件soup对象
soup = BeautifulSoup(open('test04_01.html'), "html.parser")

#获取标题
title = soup.title
print('标题:', title)

该段代码获取HTML的标题，输出结果为“< title>BeautifulSoup技术< /title>”。同样，可以获取其他标签，如HTML的头部（head）。

#获取标题
head = soup.head
print('头部:', head)

输出结果为“< head>< title>BeautifulSoup技术< /title>< /head>”。再比如获取网页中的超链接，通过调用“soup.a”代码获取超链接（< a>）。

#获取a标签
ta = soup.a
print('超链接内容:', ta)

输出为“< a class=“poet” href=“http://example.com/dufu” id=“link1”>杜甫< /a>”。其中HTML中包括三个超链接，分别对应杜甫、李商隐、杜牧，而soup.a只返回第一个超链接。那么，如果想获取所有的超链接，怎么写代码实现呢？后面介绍的find_all()函数就可以实现。

最后给出输出第一个段落（< p>）的代码。

#获取p标签
tp = soup.p
print('段落内容:', tp)

输出结果为“< p class=“title”>< b>静夜思< /b>< /p>”，其中unicode()函数用于转码，否则输出中文乱码。上面代码输出内容如下图所示。

3.定位标签并获取内容

前面部分简单介绍了BeautifulSoup标签，可以获取title、p、a等标签内容，但是如何获取这些已经定位了的指定标签对应的内容呢？下面这段代码是获取网页中所有的超链接标签及对应的url内容。

#从文档中找到的所有标签链接
for a in soup.find_all('a'):
    print(a)

#获取的超链接
for link in soup.find_all('a'):  
    print(link.get('href'))

输出结果如下图所示。find_all(‘a’)函数是查找所有< a>标签，并通过for循环输出结果；第二个for循环是通过“link.get(‘href’)”代码获取超链接标签中的url网址。

比如“< a class=“poet” href=“http://example.com/dufu” id=“link1”>杜甫< /a>”，通过调用find_all(‘a’)函数获取所有超链接的HTML源码，再调用get(‘href’)获取超链接的内容，href属性对应的值为：http://example.com/dufu。如果想获取文字内容，则调用get_text()函数。

for a in soup.find_all('a'):
print a.get_text()

输出结果为< a>和< /a>之间的链接内容，即如下所示。

杜甫
李商隐
杜牧

后面文章将详细介绍具体的定位节点方法，结合实际例子进行分析讲解。

三.深入了解BeautifulSoup爬虫

第一部分我们介绍了BeautifulSoup爬虫的安装过程及简介，第二部分我们又快速学习了BeautifulSoup技术，而这部分将深入介绍BeautifulSoup技术的语法及用法。

1.BeautifulSoup对象

BeautifulSoup将复杂的HTML文档转换成一个树形结构，每个节点都是Python对象，BeautifulSoup官方文档将所有的对象归纳为以下四种：

Tag
NavigableString
BeautifulSoup
Comment

下面我们开始详细介绍。

1.Tag
Tag对象表示XML或HTML文档中的标签，通俗地讲就是HTML中的一个个标签，该对象与HTML或XML原生文档中的标签相同。Tag有很多方法和属性，BeautifulSoup中定义为soup.Tag，其中Tag为HTML中的标签，比如head、title等，其结果返回完整的标签内容，包括标签的属性和内容等。例如：

<title>BeautifulSoup技术title>
<p class="title"><b>静夜思b>p>
<a href="http://example.com/lishangyin" class="poet" id="link2">李商隐a>

上面HTML代码中，title、p、a等都是标签，起始标签（< title>、< p>、< a>）和结束标签（< /title>、< /p>、< /a>）之间加上内容就是Tag。标签获取方法代码如下：

通过BeautifulSoup对象读者可以轻松地获取标签和标签内容，这比我们前一章的正则表达式爬虫方便很多。同时注意，它返回的内容是所有标签中的第一个符合要求的标签，比如“print soup.a”语句返回第一个超链接标签。

下面这行代码是输出该对象的类型，即Tag对象。

print type(soup.html)
#

Tag有很多方法和属性，在遍历文档树和搜索文档树中有详细讲解。现在介绍一下Tag中最重要的属性：name和attrs。
（1）name
name属性用于获取文档树的标签名字，如果想获取head标签的名字，只要使用soup.head.name代码即可，对于内部标签，输出的值便为标签本身的名称。soup对象本身比较特殊，它的name为document，代码如下：

（2）attrs
attrs是属性（attributes）的英文简称，属性是网页标签的重要内容。一个标签（Tag）可能有很多个属性，例如上面的例子：

<a href="http://example.com/dufu" class="poet" id="link1">杜甫a>

它存在两个属性，一个是class属性，对应的值为“poet”；一个是id属性，对应的值为“link1”。Tag属性操作方法与Python字典相同，获取p标签的所有属性代码如下，得到一个字典类型的值，它获取的是第一个段落p的属性及属性值。

print(soup.p.attrs)
#{u'class': [u'title']}

如果需要单独获取某个属性，使用如下两种方法获取超链接的class属性值。

print(soup.a['class'])
#[u'poet']
print(soup.a.get('class'))
#[u'poet']

下图为HTML源代码，获取第一个超链接为class=‘poet’。

BeautifulSoup每个标签tag可能有很多个属性，可以通过“.attrs”获取属性，tag的属性可以被修改、删除或添加。下面举个简单的例子进行介绍，完整代码为test03.py文件。

# coding=utf-8
from bs4 import BeautifulSoup
soup = BeautifulSoup('Eastmount',"html.parser")
tag = soup.b
print(tag)
print(type(tag))

#Name
print(tag.name)
print(tag.string)

#Attributes
print(tag.attrs)
print(tag['class'])
print(tag.get('id'))

#修改属性 增加属性name
tag['class'] = 'abc'
tag['id'] = '1'
tag['name'] = '2'
print(tag)

#删除属性
del tag['class']
del tag['name']
print(tag)
print(tag['class'])
#KeyError: 'class'

输出结果如图所示，包括修改属性class、id，增加属性name，删除属性class、name等结果。

注意：HTML定义了一系列可以包含多个值的属性，最常见的可以包含多个值的属性是 class，还有一些属性如rel、rev、accept-charset、headers、accesskey等，BeautifulSoup中多值属性的返回类型是list，具体操作请读者在BeautifulSoup官网进行学习。

2.NavigableString
前面讲述了获取标签的Name和Attributes，那么如果想获取标签对应的内容，怎么实现呢？你可能已经猜到了，使用string属性即可获取标签<>与之间的内容。比如：

print(soup.a['class'])
#[u'poet']
print(soup.a['class'].string)
#杜甫

获取“< a href=“http://example.com/dufu” class=“poet” id=“link1”>杜甫< /a>”之间的内容，它是不是比前一篇文章介绍的正则表达式方便很多。

BeautifulSoup用NavigableString类来包装tag中的字符串，NavigableString表示可遍历的字符串。一个NavigableString字符串与Python中的Unicode字符串相同，并且支持包含在遍历文档树和搜索文档树中的一些特性。利用下述代码可以查看NavigableString的类型。

from bs4 import BeautifulSoup
soup = BeautifulSoup(open('test04_01.html'), "html.parser")
tag = soup.title
print(type(tag.string))
#

注意，旧版本Python2需要通过unicode()方法可以直接将NavigableString对象转换成Unicode字符串，再进行相关的操作。如果标签中包含的字符串不能编辑，但是可以被替换成其他的字符串，用replace_with()方法实现。代码如下：

tag.string.replace_with("替换内容")  
print(tag)
#替换内容

replace_with()函数将“< title>BeautifulSoup技术< /title>”中的标题内容由“BeautifulSoup技术”替换成了“替换内容”。NavigableString对象支持遍历文档树和搜索文档树中定义的大部分属性，而字符串不能包含其它内容（tag对象却能够包含字符串或是其它tag），字符串不支持“.contents”或“.string ”属性或find()方法。

官方文档提醒：在旧版本Python2中，如果想在BeautifulSoup之外使用NavigableString对象，需要调用unicode()方法，将该对象转换成普通的Unicode字符串，否则就算BeautifulSoup的方法已经执行结束，该对象的输出也会带有对象的引用地址，从而浪费内存。

3.BeautifulSoup
BeautifulSoup对象表示的是一个文档的全部内容，通常情况下把它当作Tag对象，该对象支持遍历文档树和搜索文档树中描述的大部分的方法，详见下一小节。下面代码是输出soup对象的类型，输出结果就是BeautifulSoup对象类型。

print(type(soup))
#

注意：因为 BeautifulSoup 对象并不是真正的HTML或XML的标签tag，所以它没有name和attribute属性。但有时查看它的“.name”属性是很方便的，故BeautifulSoup对象包含了一个值为“[document]”的特殊属性“soup.name”。下述代码即是输出BeautifulSoup对象的name属性，其值为“[document]”。

print(soup.name)
# u'[document]'

4.Comment
Comment对象是一个特殊类型的NavigableString对象，它用于处理注释对象。下面这个示例代码用于读取注释内容，代码如下：

markup = ""  
soup = BeautifulSoup(markup, "html.parser")
comment = soup.b.string  
print(type(comment)) 
# 
print(comment)  
# This is a comment code.

输出结果如下图所示：

2.遍历文档树

介绍完这四个对象后，下面简单介绍遍历文档树和搜索文档树及常用的函数。在BeautifulSoup中，一个标签（Tag）可能包含多个字符串或其它的标签，这些称为这个标签的子标签，下面从子节点开始介绍。

1.子节点
BeautifulSoup中通过contents值获取标签（Tag）的子节点内容，并以列表形式输出。以test04_01.html代码为例，获取标签子节点内容代码如下：

# coding=utf-8
from bs4 import BeautifulSoup
soup = BeautifulSoup(open('test04_01.html'), "html.parser")
print(soup.head.contents)
#['\n', BeautifulSoup技术, '\n']

由于标题间< title>和< /title>存在两个换行，所以获取的列表包括了两个换行，如个需要提取第二个元素，代码如下：

另一个获取子节点的方法是children关键字，但它返回的不是一个list，可以通过for循环来获取所有子节点内容。方法如下：

print(soup.head.children)
for child in soup.head.children:
    print(child)
#

前面介绍的contents和children属性仅包含标签的直接子节点，如果需要获取Tag的所有子节点，甚至是孙节点，则需要使用descendants属性，方法如下：

for child in soup.descendants:
    print(child)

输出如下图所示，所有的HTML标签都打印出来。

2.节点内容
如果标签只有一个子节点，需要获取该子节点的内容，则使用string属性，输出子节点的内容，通常返回最里层的标签内容。比如获取标题内容的代码如下：

print(soup.head.string)
# None
print(soup.title.string)
# BeautifulSoup技术

当标签包含多个子节点时，Tag就会无法确定string获取哪个子节点的内容，此时输出的结果就是None，比如获取< head>的内容，返回值就是None，因为包括了两个换行元素。如果需要获取多个节点内容时，则使用strings属性，示例代码如下：

for content in soup.strings:
    print(content)

但是输出的字符串可能包含多余的空格或换行，这里需要使用stripped_strings方法去除多余的空白内容，代码如下：

for content in soup.stripped_strings:
    print(content)

运行结果如图所示。

3.父节点
调用parent属性定位父节点，如果需要获取节点的标签名则使用parent.name，代码如下所示：

p = soup.p
print(p.parent)
print(p.parent.name)
#...
#body

content = soup.head.title.string
print(content.parent)
print(content.parent.name)
#BeautifulSoup技术
#title

如果需要获取所有的父节点，则使用parents属性循环获取，代码如下：

content = soup.head.title.string
for parent in content.parents:
    print(parent.name)

4.兄弟节点
兄弟节点是指和本节点位于同一级的节点，其中next_sibling 属性是获取该节点的下一个兄弟节点，previous_sibling 则与之相反，取该节点的上一个兄弟节点，如果节点不存在，则返回None。

print(soup.p.next_sibling)
print(soup.p.prev_sibling)

注意：实际文档中的tag的next_sibling 和previous_sibling 属性通常是字符串或空白，因为空白或者换行也可以被视作一个节点，所以得到的结果可能是空白或者换行。同理，通过next_siblings和previous_siblings属性可以获取当前节点的所有兄弟节点，再调用循环迭代输出。

5.前后节点
调用属性next_element可以获取下一个节点，调用属性previous_element可以获取上一个节点，代码举例如下：

print(soup.p.next_element)
print(soup.p.previous_element)

同理，通过next_siblings和previous_elements属性可以获取当前节点的所有兄弟节点，并调用循环迭代输出。注意，如果提示错误“TypeError: an integer is required”，则需要增加unicode()函数转换成中文编码输出。

3.搜索文档树

搜索文档树作者主要讲解find_all()方法，这是最常用的一种方法，而更多的方法与遍历文档树类似，包括父节点、子节点、兄弟节点等，推荐读者下来从官网自行学习。如果想从网页中得到所有的标签，使用find_all()方法的代码如下：

urls = soup.find_all('a')
for u in urls:
    print(u)
# 杜甫
# 李商隐
# 杜牧

输出结果如下图所示：

注意：如果你报错“‘NoneType’ object is not callable using ‘find_all’ in BeautifulSoup”，其原因是需要安装BeautifulSoup4版本或bs4，因为方法find_all()是属于该版本。而BeautifulSoup3使用的方法如下所示：

from BeautifulSoup import BeautifulSoup
soup.findAll(‘p’, align=“center”)

同样，该函数支持传入正则表达式作为参数，BeautifulSoup会通过正则表达式的match() 来匹配内容。下面例子中找出所有以b开头的标签示例：

import re
for tag in soup.find_all(re.compile("^b")):
print(tag.name)
# body
# b
# br
# br

其输出结果包括字母“b”的标签名，如body、b、br、br等。如果想获取标签a和标签b的值，则使用下面的函数：

soup.find_all([“a”, “b”])

注意find_all()函数是可以接受参数进行指定节点查询的，代码如下：

soup.find_all(id='link1')
# 杜甫

也可以接受多个参数，比如：

soup.find_all("a", class_="poet")
# 杜甫
# 李商隐
# 杜牧

讲到这里，BeautifulSoup基础知识及用法已经讲述完毕，接下来通过一个简单示例讲解BeautifulSoup爬取网络数据，这里抓取的是上一篇文章的那个示例，爬取作者个人博客的首页信息。同时，更多BeautifulSoup技术知识推荐大家去其官方网站学习，网址为：

http://beautifulsoup.readthedocs.io/zh_CN/latest/

四.BeautifulSoup简单爬取个人博客网站

上一篇文章讲述了正则表达式爬取个人博客网站的简单示例，下面讲解BeautifulSoup技术爬取个人博客网站内容。BeautifulSoup提供了一些方法以及类Python语法来查找一棵转换树，帮助你解析一棵树并定位获取你所需要的内容。作者的个人网站网址为：

http://www.eastmountyxz.com/

现在需要爬取博客首页中四篇文章的标题、超链接及摘要内容，比如标题为“再见北理工：忆北京研究生的编程时光”。

首先，通过浏览器定位这些元素源代码，发现它们之间的规律，这称为DOM树文档节点树分析，找到所需爬取节点对应的属性和属性值，如图所示。

标题位于< div class=”essay”>< /div>位置下，它包括一个< h1>< /h1>记录标题，一个< p>< /p>记录摘要信息，其余三篇文章节点为< div class=”essay1”>< /div>、< div class=”essay2”>< /div>和< div class=”essay3”>< /div>。现在需要获取第一篇文章标题、超链接和摘要的代码如下：

# -*- coding: utf-8 -*-
import re 
import urllib.request
from bs4 import BeautifulSoup

url = "http://www.eastmountyxz.com/"
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page, "html.parser")
essay0 = soup.find_all(attrs={
     "class":"essay"})
for tag in essay0:
    print(tag)
    print('')  #换行
    print(tag.a)
    print(tag.find("a").get_text())
    print(tag.find("a").attrs['href'])
    content = tag.find("p").get_text()
    print(content.replace(' ',''))
print('')

输出结果如下图所示，其中代码soup.find_all(attrs={“class”:“essay”})用于获取节点< div class=“essay”>的内容，然后采用循环输出，但该class类型只包括了一段内容。接着再定位div中的超链接，通过tag.find(“a”).get_text()获取内容，tag.find(“a”).attrs[‘href’]获取超链接url，最后获取段落摘要。

同理，爬取其余文章的代码如下，通过循环获取essay1、essay2、essay3内容，这些div布局中的格式都一样，包括一个标题和一个摘要信息，代码如下：

#整理输出
i = 1
while i<=3:
    num = "essay" + str(i)
    essay = soup.find_all(attrs={
     "class":num})
    for tag in essay:
        print(tag.find("a").get_text())
        print(tag.find("a").attrs['href'])
        content = tag.find("p").get_text()
        print(content.replace(' ',''))
    i += 1
    print('')

输出结果如下：

整个BeautifulSoup爬虫已经讲完了，是不是比前面的正则表达式方便很多，而且爬取的函数也更加智能。后面将结合案例深入讲解BeautifulSoup实际操作，包括爬取电影信息、存储数据库等内容。

五.本章小结

BeautifulSoup是一个可以从HTML或XML文件中提取所需数据的Python库，这里作者把它看作是一种技术。

一方面是它具有智能化爬取网页信息的强大功能，对比前面的正则表达式爬虫，您就能体会到它的便捷和适用性，BeautifulSoup通过载入整个网页文档并调用相关函数定位所需信息的节点，再爬取相关内容.
另一方面，BeautifulSoup使用起来比较简单，API非常人性化，采用类似于XPath的分析技术定位标签，并且支持CSS选择器，开发效率相对较高，被广泛应用于Python数据爬取领域。所以作者把它看作一种爬虫技术，接下来通过一个完整的爬虫案例加深读者的印象。

该系列所有代码下载地址：

https://github.com/eastmountyxz/Python-zero2one

前文赏析：

[Python从零到壹] 一.为什么我们要学Python及基础语法详解
[Python从零到壹] 二.语法基础之条件语句、循环语句和函数
[Python从零到壹] 三.语法基础之文件操作、CSV文件读写及面向对象
[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例
[Python从零到壹] 五.网络爬虫之BeautifulSoup基础语法万字详解

最后，真诚地感谢您关注“娜璋之家”公众号，感谢CSDN这么多年的陪伴，会一直坚持分享，希望我的文章能陪伴你成长，也希望在技术路上不断前行。文章如果对你有帮助、有感悟，就是对我最好的回报，且看且珍惜！2020年8月18日建立的公众号，再次感谢您的关注，也请帮忙宣传下“娜璋之家”，哈哈~初来乍到，还请多多指教。

感恩女神，感恩思远~

(By:娜璋之家 Eastmount 2020-11-08 夜于贵阳 https://blog.csdn.net/Eastmount )

参考文献如下：

作者书籍《Python网络数据爬取及分析从入门到精通》
作者博客：https://blog.csdn.net/Eastmount

你可能感兴趣的:(Python从零到壹,知识图谱,web数据挖掘及NLP,Python网络爬虫,Python从零到壹,网络爬虫,BeautifulSoup,基础知识,博客爬取)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动李蕾1229
为促进我校教师专业发展，发挥骨干教师的引领带头作用，11月6日下午，我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动。图片发自App会议由教师发展处李蕾主任主持，首先，由范校长宣读新老教师结对名单及双方承担职责。随后，两位新调入教师陈玉萍、莫正杰分别和他们的师傅鲍元美、刘召彬老师签订了师徒结对协议书。图片发自App图片发自App师徒拥抱、握手。有了师傅就有了目标有了方向，相信两位新教师在师
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
第一场雪岁月静好_nx
早晨起来，外面白茫茫的一片，总算是下雪了，这还是今年第一场雪呢！走在路上，踩着雪“咯吱咯吱”的，空气很湿润。树上、草坪上、屋顶上都落了白白的一层，天上还零星漂着几点雪。慢慢走在路上，呼吸着清新的空气，感受着冬天的美好，心情也好多了。
开心蒋泳频
从无比抗拒来上课到接受，感动，收获～看着波哥成长，晶晶幸福笑容满面。感觉自己做的事情很有意义，很开心！还有3个感召目标就是还有三个有缘人，哈哈。明天感召去明日计划：8：30-11：00小公益11：00-21点上班，感召图片发自App图片发自App图片发自App
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他