大师兄6668

【python爬虫】3.爬虫初体验（BeautifulSoup解析）

文章目录

前言
BeautifulSoup是什么
BeautifulSoup怎么用
- 解析数据
- 提取数据
对象的变化过程
总结

前言

上一关，我们学习了HTML基础知识，知道了HTML是一种用来描述网页的语言，又了解了HTML的基本结构。

认识了HTML中的常见标签和常见属性：

根据这些知识，我们成功修改了这个网页上原来所显示标题——“这个书苑不太冷”，改成了“蜘蛛侠大战网页”。

最后，还写了这样一段代码：即通过调用requests库，获取到了网页源代码，并将它写入到本地：

# 调用requests模块
import requests
# 获取网页源代码，得到的res是response对象。
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html') 
# 检测请求是否正确响应
print(res.status_code) 

# 新建一个名为book的html文档，你看到这里的文件没加路径，它会被保存在程序运行的当前目录下。
# 字符串需要以w读写。你在学习open()函数时接触过它。
file = open('book.html','w')
# res.text是字符串格式，把它写入文件内。
file.write(res.text) 
# 关闭文件
file.close()

今天这一关，如果用一句话来概括我们要学习的内容，那就是“品尝”一道美味的“浓汤” —— BeautifulSoup模块。

BeautifulSoup到底在爬虫中发挥着怎样的作用，能让我们单独拿出一个课程来学？一起来看看。

BeautifulSoup是什么

我们得先来回忆一下爬虫的四个步骤：

第0关的requests库帮我们搞定了爬虫第0步——获取数据；第1关的HTML知识，是进行爬虫必不可少的背景知识，能辅助我们解析和提取数据。

接下来，解析和提取的部分就交给灵活又方便的网页解析库BeautifulSoup。

那么，本关学习目标：学会使用BeautifulSoup解析和提取网页中的数据。

【解析数据】是什么意思呢？

我们平时使用浏览器上网，浏览器会把服务器返回来的HTML源代码翻译为我们能看懂的样子，之后我们才能在网页上做各种操作。

而在爬虫中，也要使用能读懂html的工具，才能提取到想要的数据。

这就是解析数据。

【提取数据】是指把我们需要的数据从众多数据中挑选出来。

我还想提醒一下：解析与提取数据在爬虫中，既是一个重点，也是难点。因为这一关要讲两步，信息量会比之前两关大，所以希望你在学习的时候，能做好一定的心理准备，投入更多精力。

不过，我对你有信心。O(∩_∩)O

那么接下来，我们就来正式学习BeautifulSoup是如何解析和提取数据的吧~

BeautifulSoup怎么用

BeautifulSoup库目前已经进阶到第4版（Beautiful Soup 4），由于它不是Python标准库，而是第三方库，需要单独安装它，不过，我们的学习系统已经安装好了。

如果你是在自己的电脑上运行，需要在终端输入一行代码运行：pip install BeautifulSoup4。（Mac电脑需要输入pip3 install BeautifulSoup4）

安装好之后，就可以使用了。

解析数据

BeautifulSoup解析数据的用法很简单，请看下图：

在括号中，要输入两个参数，第1个参数是要被解析的文本，注意了，它必须必须必须是字符串。

括号中的第2个参数用来标识解析器，我们要用的是一个Python内置库：html.parser。（它不是唯一的解析器，却是简单的那个）

我们看看具体的用法。仍然以网站这个书苑不太冷为例（url：https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html），假设我们想爬取网页中的书籍类型、书名、链接、和书籍介绍。

根据之前所学的requests.get()，我们可以先获取到一个Response对象，并确认自己获取成功：

# 调用requests库
import requests
# 获取网页源代码，得到的res是response对象
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html') 
# 检查请求是否正确响应
print(res.status_code)
# 把res的内容以字符串的形式返回
html = res.text 
# 打印html
print(html)

上面的代码是之前学过的内容，好，接下来就轮到BeautifulSoup登场解析数据了，请特别留意第3行和第6行新增的代码。

import requests
# 引入BS库，下面的bs4就是beautifulsoup4
from bs4 import BeautifulSoup
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html')
# 把网页解析为BeautifulSoup对象
soup = BeautifulSoup(res.text,'html.parser')

第3行是引入BeautifulSoup库。

第6行中的第0个参数，必须是字符串类型；括号中的第1个参数是解析器。

这就是解析数据的用法。

接下来，我们来打印看看soup的数据类型，和soup本身（第5行开始为新增代码）。

import requests
from bs4 import BeautifulSoup
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html') 
soup = BeautifulSoup( res.text,'html.parser')
# 查看soup的类型
print(type(soup)) 
# 打印soup
print(soup)

运行结果：

import requests
from bs4 import BeautifulSoup
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html') 
soup = BeautifulSoup( res.text,'html.parser')
# 查看soup的类型
print(type(soup)) 
# 打印soup
print(soup)

看看运行结果，soup的数据类型是，说明soup是一个BeautifulSoup对象。

下一行开始，就是我们打印的soup，它是我们所请求网页的完整HTML源代码。我们所要提取的书名、链接、书籍内容这些数据都在这里面。

可是疑点来了：如果有非常细心的同学，也许会发现，打印soup出来的源代码和我们之前使用response.text打印出来的源代码是完全一样的。

也就是说，我们好不容易用BeautifulSoup写了一些代码来解析数据，但解析出的结果，竟然和没解析之前一样。

你听我解释，事情是这样的：虽然response.text和soup打印出的内容表面上看长得一模一样，却有着不同的内心，它们属于不同的类：与。前者是字符串，后者是已经被解析过的BeautifulSoup对象。之所以打印出来的是一样的文本，是因为BeautifulSoup对象在直接打印它的时候会调用该对象内的str方法，所以直接打印 bs 对象显示字符串是str的返回结果。

我们之后还会用BeautifulSoup库来提取数据，如果这不是一个BeautifulSoup对象，我们是没法调用相关的属性和方法的，所以，我们刚才写的代码是非常有用的，并不是重复劳动。

到这里，你就学会了使用BeautifulSoup去解析数据：

from bs4 import BeautifulSoup
soup = BeautifulSoup(字符串,'html.parser')

完成了爬虫的第1步：解析数据，下面就是爬虫的第2步：提取数据。

提取数据

我们仍然使用BeautifulSoup来提取数据。

这一步，又可以分为两部分知识：find()与find_all()，以及Tag对象（标签对象）。

先看find()与find_all()。

find()与find_all()是BeautifulSoup对象的两个方法，它们可以匹配html的标签和属性，把BeautifulSoup对象里符合要求的数据都提取出来。

它俩的用法是一样的，区别在于它们工作量。

find()只提取首个满足要求的数据。find()方法将代码从上往下找，找到符合条件的第一个数据，不管后面还有没有满足条件的其他数据，停止寻找，立即返回。

而find_all()顾名思义（find all：查找全部），提取出的是所有满足要求的数据。代码从上往下找，一直到代码的最后，把所有符合条件的数据揣好，一起打包返回。

看两个例子你就清楚了。以这个网页为例（URL: https://localprod.pandateacher.com/python-manuscript/crawler-html/spder-men0.0.html）：

在网页的HTML代码中，有三个div元素（

），用find()可以提取出首个元素(只有一个)，而find_all()可以全部取出（三个）。

看代码（第7行为新增代码），然后尝试运行，查看结果：

import requests
from bs4 import BeautifulSoup
url = 'https://localprod.pandateacher.com/python-manuscript/crawler-html/spder-men0.0.html'
res = requests.get (url)
print(res.status_code)
soup = BeautifulSoup(res.text,'html.parser')
# 使用find()方法提取首个元素，并放到变量item里。
item = soup.find('div') 
# 打印item的数据类型
print(type(item))
# 打印item  
print(item)

运行结果：

200
<class 'bs4.element.Tag'>
<div>大家好，我是一个块</div>

看，运行结果正是首个div元素吧！我们还打印了它的数据类型：，说明这是一个Tag类标签对象。

再来试试find_all()吧，它可以提取出网页中的全部div元素（3个），请看代码（第7行为新增代码），然后点击运行。

import requests
from bs4 import BeautifulSoup
url = 'https://localprod.pandateacher.com/python-manuscript/crawler-html/spder-men0.0.html'
res = requests.get (url)
print(res.status_code)
soup = BeautifulSoup(res.text,'html.parser')
# 用find_all()把所有符合要求的数据提取出来，并放在变量items里
items = soup.find_all('div') 
# 打印items的数据类型
print(type(items)) 
# 打印items
print(items)

运行结果：

200
<class 'bs4.element.ResultSet'>
[<div>大家好，我是一个块</div>, <div>我也是一个块</div>, <div>我还是一个块</div>]

运行结果是那三个div元素，它们一起组成了一个列表结构。打印items的类型，显示的是，是一个ResultSet类的对象。其实是Tag对象以列表结构储存了起来，可以把它当做列表来处理。

下面，我想强调一下它们用法中的两个要点：

首先，请看举例中括号里的class_，这里有一个下划线，是为了和python语法中的类 class区分，避免程序冲突。当然，除了用class属性去匹配，还可以使用其它属性，比如style属性等。

其次，括号中的参数：标签和属性可以任选其一，也可以两个一起使用，这取决于我们要在网页中提取的内容。

如果只用其中一个参数就可以准确定位的话，就只用一个参数检索。如果需要标签和属性同时满足的情况下才能准确定位到我们想找的内容，那就两个参数一起使用。

再次总结一下find()与find_all()的用法：

这么多的内容，不太可能一下就记住，要想熟练使用，还需要大量练习。那么现在我们就来做个小练习吧，仍然以网站这个书苑不太冷为例：

（url：https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html），目标是爬取网页中的三本书的书名、链接、和书籍介绍。

打开网址，在网页上点击右键-检查，查看源代码，先看一看目标数据所对应的位置。

滑动一下网页，看见我们想要的每一本书的数据，分别存在了三个div元素中，并且有相同的属性：class=“books”，这个共同点就是我们去提取数据的关键。

我们可以先把这三个div元素提取出来，然后再进一步提取那些具体的书的类型、书名等等。

由于我们要找的不是一本书的数据，而是所有书的数据都要找，所以这时应该用find_all()。

接下来要考虑的就是，要用什么参数去查找和定位，标签，还是属性。此时，可以用到开发者工具的搜索功能，点击Ctrl+F，Mac电脑用command+F。

在搜索栏中输入div试试，搜索结果是：

一共找到了8个div元素，但我们只想找到3个，如果只用

来检索，就会把其它不需要的信息也提取出来。那有没有什么别的识别这3个div元素的方法呢？

有！还记得我们上节课提到的class元素吗，不同元素之间复用同一套样式，只需要给标签设置同一个class值就好了。而这三个设计书籍信息的div样式很显然是一样的，class值都为books。

我们用属性class="books"搜索看看，果然，整个HTML源代码中，只有我们要找的三个元素的属性满足，因此，我们这次就可以只使用这个属性来提取。

（注：点击右键-显示网页源代码，在这个页面里去搜索会更加准确，在这里我们是点击右键-检查，在这个页面里去搜索的）

现在，来看看代码怎么写，再点击运行：

# 调用requests库
import requests
# 调用BeautifulSoup库 
from bs4 import BeautifulSoup 
# 返回一个Response对象，赋值给res
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html')
# 把Response对象的内容以字符串的形式返回
html = res.text
# 把网页解析为BeautifulSoup对象
soup = BeautifulSoup( html,'html.parser') 
# 通过匹配标签和属性提取我们想要的数据
items = soup.find_all(class_='books') 
# 打印items
print(items) 
# 打印items的数据类型
print(type(items))

运行结果：

[<div class="books">
<h2><a name="type1">科幻小说</a></h2>
<a class="title" href="https://book.douban.com/subject/27077140/">《奇点遗民》</a>
<p class="info">本书精选收录了刘宇昆的科幻佳作共22篇。《奇点遗民》融入了科幻艺术吸引人的几大元素：数字化生命、影像化记忆、人工智能、外星访客……刘宇昆的独特之处在于，他写的不是科幻探险或英雄奇幻，而是数据时代里每个人的生活和情感变化。透过这本书，我们看到的不仅是未来还有当下。</p>
<img class="img" src="./spider-men5.0_files/s29492583.jpg"/>
<br>
<br>
<hr size="1"/>
</br></br></div>, <div class="books">
<h2><a name="type2">人文读物</a></h2>
<a class="title" href="https://book.douban.com/subject/26943161/">《未来简史》</a>
<p class="info">未来，人类将面临着三大问题：生物本身就是算法，生命是不断处理数据的过程；意识与智能的分离；拥有大数据积累的外部环境将比我们自己更了解自己。如何看待这三大问题，以及如何采取应对措施，将直接影响着人类未来的发展。</p>
<img class="img" src="./spider-men5.0_files/s29287103.jpg"/>
<br>
<br/>
<hr size="1"/>
</br></div>, <div class="books">
<h2><a name="type3">技术参考</a></h2>
<a class="title" href="https://book.douban.com/subject/25779298/">《利用Python进行数据分析》</a>
<p class="info">本书含有大量的实践案例，你将学会如何利用各种Python库（包括NumPy、pandas、matplotlib以及IPython等）高效地解决各式各样的数据分析问题。由于作者Wes McKinney是pandas库的主要作者，所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。</p>
<img class="img" src="./spider-men5.0_files/s27275372.jpg"/>
<br/>
<br/>
<hr size="1"/>
</div>]
<class 'bs4.element.ResultSet'>

现在，三本书的全部信息都被我们提取出来了。它的数据类型是，前面说过可以把它当做列表list来看待。

不过，列表并不是我们最终想要的东西，我们想要的是列表中的值，所以要想办法提取出列表中的每一个值。

用for循环遍历列表，就可以把这三个div元素取出来了。

请仔细阅读代码，然后点运行看看：

# 调用requests库
import requests 
# 调用BeautifulSoup库
from bs4 import BeautifulSoup 
# 返回一个Response对象，赋值给res
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html')
# 把Response对象的内容以字符串的形式返回
html= res.text
# 把网页解析为BeautifulSoup对象
soup = BeautifulSoup( html,'html.parser') 
# 通过定位标签和属性提取我们想要的数据
items = soup.find_all(class_='books') 
for item in items:
    # 打印item
    print('想找的数据都包含在这里了：\n',item)

运行结果：

想找的数据都包含在这里了：
 <div class="books">
<h2><a name="type1">科幻小说</a></h2>
<a class="title" href="https://book.douban.com/subject/27077140/">《奇点遗民》</a>
<p class="info">本书精选收录了刘宇昆的科幻佳作共22篇。《奇点遗民》融入了科幻艺术吸引人的几大元素：数字化生命、影像化记忆、人工智能、外星访客……刘宇昆的独特之处在于，他写的不是科幻探险或英雄奇幻，而是数据时代里每个人的生活和情感变化。透过这本书，我们看到的不仅是未来还有当下。</p>
<img class="img" src="./spider-men5.0_files/s29492583.jpg"/>
<br>
<br>
<hr size="1"/>
</br></br></div>
想找的数据都包含在这里了：
 <div class="books">
<h2><a name="type2">人文读物</a></h2>
<a class="title" href="https://book.douban.com/subject/26943161/">《未来简史》</a>
<p class="info">未来，人类将面临着三大问题：生物本身就是算法，生命是不断处理数据ç
                               过程；意识与智能的分离；拥有大数据积累的外部环境将比我们自己更了解自己。如何看待这三大问题，以及如何采取应对措施，将直接影响着人类未来的发展。</p>
<img class="img" src="./spider-men5.0_files/s29287103.jpg"/>
<br>
<br/>
<hr size="1"/>
</br></div>
想找的数据都包含在这里了：
 <div class="books">
<h2><a name="type3">技术参考</a></h2>
<a class="title" href="https://book.douban.com/subject/25779298/">《利用Python进行数据分析》</a>
<p class="info">本书含有大量的实践案例，你将学会如何利用各种Python库（包括NumPy、pandas、matplotlib以及IPython等）高效地解决各式各样的数据分析问题。由于作者Wes McKinney是pandas库的主要作者，所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。</p>
<img class="img" src="./spider-men5.0_files/s27275372.jpg"/>
<br/>
<br/>
<hr size="1"/>
</div>

程序运行很顺利，结果正是那三个div元素。

其实到这里，find()和find_all()的用法讲了，练习也做了，但是，我们现在打印出来的东西还不是目标数据，里面含着HTML标签，所以下面，我们要进入到提取数据中的另一个知识点——Tag对象。

咱们还以上面的代码为例，我们现在拿到的是一个个包含html标签的数据，还没达成目标。

这个时候，我们一般会选择用type()函数查看一下数据类型，因为Python是一门面向对象编程的语言，只有知道是什么对象，才能调用相关的对象属性和方法。

好，来打印一下：

# 调用requests库
import requests 
# 调用BeautifulSoup库
from bs4 import BeautifulSoup 
# 返回一个response对象，赋值给res
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html') 
# 把res的内容以字符串的形式返回
html = res.text
# 把网页解析为BeautifulSoup对象
soup = BeautifulSoup( html,'html.parser') 
# 通过定位标签和属性提取我们想要的数据
items = soup.find_all(class_='books') 
for item in items:
    # 打印item
    print('想找的数据都包含在这里了：\n',item) 
    print(type(item))

运行结果：

想找的数据都包含在这里了：
 <div class="books">
<h2><a name="type1">科幻小说</a></h2>
<a class="title" href="https://book.douban.com/subject/27077140/">《奇点遗民》</a>
<p class="info">本书精选收录了刘宇昆的科幻佳作共22篇。《奇点遗民》融入了科幻艺术吸引人的几大元素：数字化生命、影像化记忆、人工智能、外星访客……刘宇昆的独特之处在于，他写的不是科幻探险或英雄奇幻，而是数据时代里每个人的生活和情感变化。透过这本书，我们看到的不仅是未来还有当下。</p>
<img class="img" src="./spider-men5.0_files/s29492583.jpg"/>
<br>
<br>
<hr size="1"/>
</br></br></div>
<class 'bs4.element.Tag'>
想找的数据都包含在这里了：
 <div class="books">
<h2><a name="type2">人文读物</a></h2>
<a class="title" href="https://book.douban.com/subject/26943161/">《未来简史》</a>
<p class="info">未来，人类将面临着三大问题：生物本身就是算法，ç是不断处理数据的过程；意识与智能的分离；拥有大数据积累的外部环境将比我们自己更了解自己。如何看待这三大问题，以及如何采取应对措施，将直接影响着人类未来的发展。</p>
<img class="img" src="./spider-men5.0_files/s29287103.jpg"/>
<br>
<br/>
<hr size="1"/>
</br></div>
<class 'bs4.element.Tag'>
想找的数据都包含在这里了：
 <div class="books">
<h2><a name="type3">技术参考</a></h2>
<a class="title" href="https://book.douban.com/subject/25779298/">《利用Python进行数据分析》</a>
<p class="info">本书含有大量的实践案例，你将学会如何利用各种Python库（包括NumPy、pandas、matplotlib以及IPython等）高效地解决各式各样的数据分析问题。由于作者Wes McKinney是pandas库的主要作者，所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。</p>
<img class="img" src="./spider-men5.0_files/s27275372.jpg"/>
<br/>
<br/>
<hr size="1"/>
</div>
<class 'bs4.element.Tag'>

我们看到它们的数据类型是，是Tag对象，不知道你是否还记得，这与find()提取出的数据类型是一样的。

好，既然知道了是Tag对象，下一步，就是看看Tag类对象的常用属性和方法了。

上图是Tag对象的3种用法，咱们一个一个来讲。

首先，Tag对象可以使用find()与find_all()来继续检索。

回到我们刚刚写的代码：即爬取这个书苑不太冷网站中每本书的类型、链接、标题和简介，我们刚刚拿到的分别是三本书的内容，即三个Tag对象。现在，先把首个Tag对象展示在下面，方便我们阅读：

<div class="books">
    <h2><a name="type1">科幻小说</a></h2>
    <a href="https://book.douban.com/subject/27077140/" class="title">《奇点遗民》</a>
    <p class="info">本书精选收录了刘宇昆的科幻佳作共22篇。《奇点遗民》融入了科幻艺术吸引人的几大元素：数字化生命、影像化记忆、人工智能、外星访客……刘宇昆的独特之处在于，他写的不是科幻探险或英雄奇幻，而是数据时代里每个人的生活和情感变化。透过这本书，我们看到的不仅是未来还有当下。
    </p> 
    <img class="img" src="./spider-men5.0_files/s29492583.jpg">
    <br>
    <br>
    <hr size="1">
</div>

看第2行：书籍的类型在这里面；第3行：我们要取的链接和书名在里面；第4行：书籍的简介在里面。因为是只取首个数据，这次用find()就好。

先阅读下面的代码（从11行开始为新增代码）：

# 调用requests库
import requests 
# 调用BeautifulSoup库
from bs4 import BeautifulSoup 
# 返回一个response对象，赋值给res
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html')
# 把res的内容以字符串的形式返回
html = res.text
# 把网页解析为BeautifulSoup对象
soup = BeautifulSoup( html,'html.parser') 
# 通过定位标签和属性提取我们想要的数据
items = soup.find_all(class_='books') 
for item in items:
    # 在列表中的每个元素里，匹配标签提取出数据
    kind = item.find('h2') 
    # 在列表中的每个元素里，匹配属性class_='title'提取出数据
    title = item.find(class_='title')
    # 在列表中的每个元素里，匹配属性class_='info'提取出数据 
    brief = item.find(class_='info') 
    # 打印提取出的数据
    print(kind,'\n',title,'\n',brief) 
    # 打印提取出的数据类型
    print(type(kind),type(title),type(brief))

接下来，请你抄写上面的代码，然后点击运行，练习一下。
运行结果：

<h2><a name="type1">科幻小说</a></h2> 
 <a class="title" href="https://book.douban.com/subject/27077140/">《奇点遗民》</a> 
 <p class="info">本书精选收录了刘宇昆的科幻佳作共22篇。《奇点遗民》融入了科幻艺术吸引人的几大元素：数字化生命、影像化记忆、人工智能、外星访客……刘宇昆的独特之处在于，他写的不是科幻探险或英雄奇幻，而是数据时代里每个人的生活和情感变化。透过这本书，我们看到的不仅是未来还有当下。</p>
<class 'bs4.element.Tag'> <class 'bs4.element.Tag'> <class 'bs4.element.Tag'>
<h2><a name="type2">人文读物</a></h2> 
 <a class="title" href="https://book.douban.com/subject/26943161/">《未来简史》</a> 
 <p class="info">未来，人类将面临着三大问题：生物本身就是算法，生命是不断处理数据的过程；意识与智能的分离；拥有大数据积累的外部环境将比我们自己更了解自己。如何看待这三大问题，以及å¦何采取应对措施，将直接影响着人类未来的发展。</p>
<class 'bs4.element.Tag'> <class 'bs4.element.Tag'> <class 'bs4.element.Tag'>
<h2><a name="type3">技术参考</a></h2> 
 <a class="title" href="https://book.douban.com/subject/25779298/">《利用Python进行数据分析》</a> 
 <p class="info">本书含有大量的实践案例，你将学会如何利用各种Python库（包括NumPy、pandas、matplotlib以及IPython等）高效地解决各式各样的数据分析问题。由于作者Wes McKinney是pandas库的主要作者，所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。</p>
<class 'bs4.element.Tag'> <class 'bs4.element.Tag'> <class 'bs4.element.Tag'>

除了我们拿到的数据之外；运行结果的数据类型，又是三个，用find()提取出来的数据类型和刚才一样，还是Tag对象。接下来要做的，就是把Tag对象中的文本内容提出来。

这时，可以用到Tag对象的另外两种属性——Tag.text（获得标签中的值），和Tag[‘属性名’]（获得属性值）。

我们用Tag.text提出Tag对象中的文字，用Tag[‘href’]提取出URL。

只需要修改最后一行代码，我们想要的数据就都能成功提取出来了：

# 调用requests库
import requests 
# 调用BeautifulSoup库
from bs4 import BeautifulSoup 
# 返回一个response对象，赋值给res
res =requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html')
# 把res解析为字符串
html=res.text
# 把网页解析为BeautifulSoup对象
soup = BeautifulSoup( html,'html.parser')
# 通过匹配属性class='books'提取出我们想要的元素
items = soup.find_all(class_='books')  
# 遍历列表items
for item in items:       
    # 在列表中的每个元素里，匹配标签提取出数据               
    kind = item.find('h2')     
    #  在列表中的每个元素里，匹配属性class_='title'提取出数据          
    title = item.find(class_='title')  
    # 在列表中的每个元素里，匹配属性class_='info'提取出数据   
    brief = item.find(class_='info')      
    # 打印书籍的类型、名字、链接和简介的文字
    print(kind.text,'\n',title.text,'\n',title['href'],'\n',brief.text)

看看终端，拿出来啦_(≧▽≦)/此处应该有掌声，到这里，我们终于成功解析、提取到了所有的数据。
运行结果：

科幻小说 
 《奇点遗民》 
 https://book.douban.com/subject/27077140/ 
 本书精选收录了刘宇昆的科幻佳作共22篇。《奇点遗民》融入了科幻艺术吸引人的几大元素：数字化生命、影像化记忆、人工智能、外星访客……刘宇昆的独特之处在于，他写的不是科幻探险或英雄奇幻，而是数据时代里每个人的生活和情感变化。透过这本书，我们看到的不仅是未来还有当下。
人文读物 
 《未来简史》 
 https://book.douban.com/subject/26943161/ 
 未来，人类将面临着三大问题：生物本身就是算法，生命是不断处理数据的过程；意识与智能的分离；拥有大数据积累的外部环境将比我们自己更了解自己。如何看待这三大问题，以及如何采取应对措施，将直接影响着人类未来的发展。
技术参考 
 《利用Python进行数据分析》 
 https://book.douban.com/subject/25779298/ 
 本书含有大量的实践案例，你将学会如ä½利用各种Python库（包括NumPy、pandas、matplotlib以及IPython等）高效地解决各式各样的数据分析问题。由于作者Wes McKinney是pandas库的主要作者，所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。

这个层层检索的过程有点像是在超市买你想要的零食，比如一包糖果和一包薯片，首先要定位到超市的零食区，然后去糖果区找糖果，再去薯片区找薯片。

不过呢，每个网页都有自己的结构，我们写爬虫程序，还是得坚持从实际出发，具体问题具体分析哈。

我为你准备了一些习题，记得要去完成它们，你与爬虫大神的距离，还要靠一个一个练习去缩短。

走到这里，你已经学完了如何用BeautifulSoup库的相关知识来解析和提取数据。面对这扑面而来的新的知识，我们有必要来梳理一下：

对象的变化过程

其实说白了，从最开始用requests库获取数据，到用BeautifulSoup库来解析数据，再继续用BeautifulSoup库提取数据，不断经历的是我们操作对象的类型转换。

请看下图：

上一关，我们的操作对象从URL链接到了Response对象。而这一关，我们的操作对象是这样的：Response对象——字符串——BS对象。到这里，又产生了两条分岔：一条是BS对象——Tag对象；另一条是BS对象——列表——Tag对象。

而操作对象的转变，则是借由一些步骤完成的，在图中是由阿拉伯数字标注的内容：从Response对象到字符串，是通过response.text完成的，我就不赘述了，图上标示得很清楚。

在此刻，我尤其想要强调的是，学到现在的你炒鸡棒的，b(￣▽￣)d，而你记不全这些内容太太太正常了，因为编程从来都是一门强调实操实练的学科。

好，现在想请屏幕前的你深吸一口气，在椅子上一定坐稳了，千万不要晕倒，因为我对你隐瞒了一件事。

其实刚刚那个图还不完整，完整版的图示是这样的：

Python是一门面向对象编程的过程，图中用英文字母的序号来展示的是每一种对象的方法和属性。比如bs对象的方法有find()和find_all()。我也不赘述了。

这个流程其实对应的是爬虫四步的前3步：

这张图还挺重要的，可以作为你做练习、复习的一个关键参考信息。❀

不过梳理完之后，我们还是得来敲敲代码，光看不练可不行。所以，学完知识之后不只要去写作业，最好把本关的的代码全部再写一次，因为学习可是需要我们付出努力的噢。

总结

又到了一个关卡快要结束的时刻了。快速复习一下：

我们今天学习了用bs库解析数据和提取数据。

解析数据的方法是用BeautifulSoup()。

提取数据的方法是用find()与find_all()。

这一关中，除了学这些零碎的知识，最重要的是，我们要把所学的知识串成一条线：

这就是本关的全部内容了。

最后，我还想多说几句。在BeautifulSoup中，不止find()和find_all()，还有select()也可以达到相同目的。

其实，在bs的官方文档中，find()与find_all()的方法，其实不止标签和属性两种，还有这些：

不过，我们所教的这两种方法，足以胜任你的95%以上的html解析提取问题，以及风变编程中所有html解析与提取的问题。

为什么我不把所有知识都讲给你，因为，学BeautifulSoup就可能需要好多个关卡了，我们的目的只是带领你走一条快速入门的路。

学无止境，当这些知识都被你掌握，而且练习了更多的项目之后，就有余力去自学和拓展更多的知识了。

即便我只是挑了重点之中的重点为你讲解解析数据的方法，这一关的知识量还是有些大，在学完这个关卡之后，你必须再回过头复习一遍，这对你去理解和记忆这些知识，是相当有帮助的。

通过这一关的学习，你就搞明白了用bs库解析数据和提取数据的方法，只要数据在html里，你都可以拿到了。

下一关，我们会进行BeautifulSoup库的相关实操，务求咱们把所学的都用好~

你可能感兴趣的:(python,爬虫,开发语言)

【30天玩转python】项目实战：从零开始开发一个Python项目爱技术的小伙子 30天玩转python linux 运维服务器
项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python递推法_如何使用Python递归函数中的递推？热茶走 python递推法
我们大家都知道，一个函数可能存在多种不同的用法，很少是有函数只针对一个方式，那么基于一种函数，我们肯定要了解多个方式，今日针对递归函数里的递推内容给大家介绍哦~递归是什么？是指函数/过程/子程序在运行过程序中直接或间接调用自身而产生的重入现象。下面是个人理解：递归就是在函数内部调用自己的函数被称之为递归。实例：#直接调用自己：deffunc:print('fromfunc')funcFunc#间接
python递推式_Python 递推式构造列表(List Comprehensions) man One python递推式
你需要构造一个新的列表,列表中的元素是从一个已知列表中的元素计算而得到的.比如你要创建一个列表,里面的元素是另一个列表中的元素加23后得到的.使用递推式构造列表是最理想的方法:thenewlist=[x+23forxintheoldlist]如果你希望用一个列表中大于5的元素构造一个新的列表,使用递推式也是很方便的:thenewlist=[xforxintheoldlistifx>5]如果你希望将
Dash 简介 tankusa dash
Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
视频下载插件：yt-dlp 小怪兽长大啦 python
Yt-dlp插件使用下载方法方法一：Python插件下载使用pip工具安装即可:pipinstallyt-dlp.Python已经配置过环境变量，下载yt-dlp时不需要配置。方法二：直接下载EXE可执行文件网上下载yt-dlp应用程序：https://github.com/yt-dlp/yt-dlp/releases配置环境变量。常用使用命令（配置好环境变量后，控制台下输入命令即可）直接下载视频
Python __init__.py 模块详解鱼丸丶粗面 Python __init__.py
文章目录1概述2导入演示2.1执行顺序：先父后子2.2导入所有模块（含子模块）1概述1.工具:Pycharm场景:在创建一个PythonPackage时，会默认在该包下生成一个'__init__.py'文件2.目的:'进行一些初始化操作'(1)当importpackage时，"自动"执行'__init__.py'文件中的内容(2)常用于导入模块2导入演示2.1执行顺序：先父后子目录结构：目录结构简
Python __init__.py 愚昧之山绝望之谷开悟之坡 python init
Python__init__.py作用详解尼古拉苏关注12018.06.1012:57:34字数745阅读45,278转载于：https://www.cnblogs.com/tp1226/p/8453854.html__init__.py该文件的作用就是相当于把自身整个文件夹当作一个包来管理，每当有外部import的时候，就会自动执行里面的函数。1.标识该目录是一个python的模块包（modul
利用Java爬虫获取衣联网商品详情：实战指南 Jason-河山 java 爬虫开发语言
在电商领域，获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序，通过商品ID获取衣联网商品详情。一、准备工作（一）环境搭建Java安装：确保已安装Java开发环境，推荐使用JDK11或更高版本。开发工具配置：使用IntelliJIDEA或Eclipse等Java开发工具，创建一个新的Maven项目。依赖库添加：
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
有趣的学习Python-第十篇：Python的“魔法宝库”：标准库之旅王盼达有趣的学习Python 学习 python 开发语言
Python不仅是一门强大的编程语言，更像是一座充满宝藏的“魔法宝库”，里面装满了各种各样的“魔法工具”（标准库）。这些“魔法工具”可以帮助你轻松地完成各种任务，从文件操作到网络编程，从数据处理到性能优化。接下来，让我们一起探索Python的“魔法宝库”，看看这些“魔法工具”到底有多神奇！10.1操作系统接口：与“魔法世界”互动os模块就像是一个“魔法接口”，可以帮助你与操作系统进行互动。你可以用
有趣的学习Python-第八篇：Python的“魔法盾牌”：错误与异常处理王盼达有趣的学习Python 学习 python 开发语言
在Python的魔法世界里，即使是经验丰富的魔法师也可能遇到一些“魔法失误”。这些失误分为两种：语法错误和异常。别担心，Python为你准备了一面强大的“魔法盾牌”，帮助你应对这些挑战。8.1语法错误：魔法咒语写错了语法错误就像是你在念魔法咒语时，不小心说错了单词。这是学习Python过程中最常见的问题。比如，你可能忘记在while循环后面加上冒号：whileTrueprint('Hellowor
Python字符串操作 weixin_30871905 python
转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1='strcpy'sStr2=sStr1sStr1='strcpy2'printsStr2'''2.连接字符串'''#strcat(sStr1,sStr2)sStr1='strcat'sSt
零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
Python 字符串操作 iteye_13776 Python Python C C++C#
Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
【Python 第五篇章】数据类型蜗牛 | ICU Python 专栏 python windows 开发语言
一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
PySide2是 Qt 库的 Python 绑定之一 WwwwwH_PLUS #Qt qt python 开发语言
PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
Python学习第十一天 Leo来编程 Python学习 python
疑惑：有很多人不知道是不是也分不清什么是单核？什么是多核？什么是时间片？进程？线程？那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子：比如你是一个厨师（计算机）在一个厨房（CPU）里需要同时做3个菜（进程）、每个菜需要准备不同的调料以及协作（线程），那么这个厨师需要不断地切换时间（时间片）来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师，这样的例子太多了因为万物皆对象
python学习第三天 Leo来编程 Python学习 python 开发语言
条件判断条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。#条件判断age=18ifage0:#也可以写if(s>0)但是没必要因为python给个提示建议去掉保证代码的按照缩进来进行更加规范print("这个数字是大于0的数字!")#这行代码属于if语句的代码块elifs==0:print("这个数字是等于0的数字!")#这行代码属于elif语句的代码块else:pr
三种优化算法旅者时光算法算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
基于HarmonyNext的ArkTS高级实战：构建高性能跨平台应用 harmonyos-next
基于HarmonyNext的ArkTS高级实战：构建高性能跨平台应用引言随着HarmonyOSNext的发布，ArkTS作为其核心开发语言，为开发者提供了更强大的工具和更高效的开发体验。ArkTS基于TypeScript，结合了HarmonyOS的分布式能力，使得开发者能够轻松构建高性能、跨平台的应用。本文将深入探讨如何使用ArkTS在HarmonyNext平台上进行高级开发，通过实战案例讲解如何
使用 Python 合并微信与支付宝账单，生成财务报告 python后端
最近用思源笔记记东西上瘾，突然想每个月存一份收支记录进去。但手动整理账单太麻烦了，支付宝导出一份CSV，微信又导出一份，格式还不一样，每次复制粘贴头都大。干脆写了个Python脚本一键处理，核心就干两件事：把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown（直接拖进思源就能渲染）代码主要折腾了这些：支付宝账单前24行都是废话，直接skiprows=24跳过去，GBK编码差点让我栽跟
Python Flask 在网页应用程序中处理错误和异常 dowhileprogramming python flask 开发语言
PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常在我们所有的代码示例中，我们没有注意如何处理用户在浏览器中输入错误的URL或向我们的应用程序发送错误的参数集的情况。这不是设计意图，但目的是首先关注网页应用程序的关键组件。网页框架的美妙之处在于，它们通常默认支持错误处理。如果发生任何错误，将自
农业生产模拟和农业政策分析：WOFOST模型与PCSE模型安装、运行、数据准备；农田农作物生长模拟和产量预测等 WangYan2022 作物模型农业 WOFOST模型 PCSE模型农田生态系统作物模型农业生产模拟
WOFOST（WorldFoodStudies）和PCSE（PythonCropSimulationEnvironment）是两个用于农业生产模拟的模型：WOFOST是一个经过多年开发和验证的模型，被广泛用于全球的农业生产模拟和农业政策分析；采用了模块化的结构，可以对不同的农作物和环境条件进行参数化和适应；WOFOST可用于长期模拟，能够模拟整个作物生长周期，包括播种、生长、收获等各个阶段；WOF
基于Python+Vue开发的电影订票管理系统源码+运行步骤冷琴1996 Python系统设计 python vue.js 开发语言
项目简介该项目是基于Python+Vue开发的电影订票管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Python的电影订票管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习之路主要功能影片管理：管理系统可以录入、修改和查询影片的基本信息，如
Python通过YOLO格式TXT标签文件在图像中画框 CHERISH_KDX python YOLO 人工智能
使用场景检测数据集标注是否有误：在目标检测算法中需要标注自己的数据集，为了更加方便的检查数据集标注是否有误，可以使用该工具将标注结果绘制在图像中并查看。美化识别结果中的检测框：在一些目标检测场景中，YOLO检测算法原始的检测框绘制会导致重叠、颜色冲突、字体过大等问题。可以使用该工具进行修改。代码importosimportcv2classcheck_label:def__init__(self,c
基于llama_cpp 调用本地模型（llama）实现基本推理月光技术杂谈大模型初探 llama llama.cpp python LLM 集成显卡本地模型 AI
零基础实践本地推理模型基本应用：基于llama_cpp的本地模型调用。本文先安装llama_cpppython库，再编写程序，利用其调用llama-2-7b-chat.Q4_K_M.ggu模型。背景llama_cpp是一个基于C++的高性能库（llama.cpp）的Python绑定，支持在CPU或GPU上高效运行LLaMA及其衍生模型（如LLaMA2），并通过量化技术（如GGUF格式）优化内存使用
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1