Re:fused

BeautifulSoup用法讲解

BeautifulSoup的使用讲解

文章转自：python beautiful soup库的超详细用法

1. Beautiful Soup 简介

简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

2. Beautiful Soup 安装

Beautiful Soup 3 目前已经停止开发，推荐在现在的项目中使用Beautiful Soup 4，不过它已经被移植到BS4了，也就是说导入时我们需要 import bs4 。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4)，另外据说 BS4 对 Python3 的支持不够好，不过我用的是 Python2.7.7，如果有小伙伴用的是 Python3 版本，可以考虑下载 BS3 版本。

可以利用 pip 或者 easy_install 来安装，以下两种方法均可


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     easy_install beautifulsoup4
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     pip install beautifulsoup4

如果想安装最新的版本，请直接下载安装包来手动安装，也是十分方便的方法。下载完成之后解压，运行下面的命令即可完成安装

sudo python setup.py install

然后需要安装 lxml


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     easy_install lxml
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     pip install lxml

另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同,可以选择下列方法来安装html5lib:


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     easy_install html5lib
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     pip install html5lib

Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐安装。

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, “html.parser”)	Python的内置标准库执行速度适中文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器	BeautifulSoup(markup, “lxml”)	速度快文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, [“lxml”, “xml”]) BeautifulSoup(markup, “xml”)	速度快唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, “html5lib”)	最好的容错性以浏览器的方式解析文档生成HTML5格式的文档	速度慢不依

3. 创建 Beautiful Soup 对象

首先必须要导入 bs4 库

from bs4 import BeautifulSoup

我们创建一个字符串，后面的例子我们便会用它来演示


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     html = """
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <html>
     
     <head>
     
     <title>The Dormouse's story
     
     title>
     
     head>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <body>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <p class="title" name="dromouse">
     
     <b>The Dormouse's story
     
     b>
     
     p>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <p class="story">Once upon a time there were three little sisters; and their names were
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <a href="http://example.com/elsie" class="sister" id="link1">
     
     
     
     a>,
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <a href="http://example.com/lacie" class="sister" id="link2">Lacie
     
     a> and
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <a href="http://example.com/tillie" class="sister" id="link3">Tillie
     
     a>;
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     and they lived at the bottom of a well.
     
     p>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <p class="story">...
     
     p>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     """

创建 beautifulsoup 对象

soup = BeautifulSoup(html)

另外，我们还可以用本地 HTML 文件来创建对象，例如

soup = BeautifulSoup(open('index.html'))

上面这句代码便是将本地 index.html 文件打开，用它来创建 soup 对象。下面我们来打印一下 soup 对象的内容，格式化输出

print soup.prettify()

指定编码：当html为其他类型编码（非utf-8和asc ii），比如GB2312的话，则需要指定相应的字符编码，BeautifulSoup才能正确解析。


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     htmlCharset = 
     
     "GB2312"
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     soup = BeautifulSoup(respHtml, fromEncoding=htmlCharset)


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #!/usr/bin/python
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     # -*- coding: UTF-8 -*-
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     from bs4 
     
     import BeautifulSoup
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     import re
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #待分析字符串
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     html_doc = 
     
     """
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
         The Dormouse's story
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
         
    
    
      
      
      
      

   
   
     
     
     
     

    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
             The Dormouse's story
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
         
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     Once upon a time there were three little sisters; and their names were
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
         Elsie,
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
         Lacie 
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
         and
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
         Tillie;
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
         and they lived at the bottom of a well.
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     ...
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     """
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     # html字符串创建BeautifulSoup对象
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     soup = BeautifulSoup(html_doc, 
     
     'html.parser', from_encoding=
     
     'utf-8')
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #输出第一个 title 标签
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.title
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #输出第一个 title 标签的标签名称
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.title.name
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #输出第一个 title 标签的包含内容
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.title.string
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #输出第一个 title 标签的父标签的标签名称
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.title.parent.name
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #输出第一个  p 标签
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.p
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #输出第一个  p 标签的 class 属性内容
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.p[
     
     'class']
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #输出第一个  a 标签的  href 属性内容
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.a[
     
     'href']
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     '''
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     soup的属性可以被添加,删除或修改. 再说一次, soup的属性操作方法与字典一样
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     '''
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #修改第一个 a 标签的href属性为 http://www.baidu.com/
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     soup.a[
     
     'href'] = 
     
     'http://www.baidu.com/'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #给第一个 a 标签添加 name 属性
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     soup.a[
     
     'name'] = 
     
     u'百度'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #删除第一个 a 标签的 class 属性为
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     del soup.a[
     
     'class']
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     ##输出第一个  p 标签的所有子节点
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.p.contents
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #输出第一个  a 标签
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.a
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #输出所有的  a 标签，以列表形式显示
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.find_all(
     
     'a')
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #输出第一个 id 属性等于  link3 的  a 标签
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.find(id=
     
     "link3")
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #获取所有文字内容
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     print(soup.get_text())
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #输出第一个  a 标签的所有属性信息
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.a.attrs
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     for link 
     
     in soup.find_all(
     
     'a'):
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     #获取 link 的  href 属性内容
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
         print(link.get(
     
     'href'))
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #对soup.p的子节点进行循环输出    
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     for child 
     
     in soup.p.children:
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
         print(child)
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #正则匹配，名字中带有b的标签
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     for tag 
     
     in soup.find_all(re.compile(
     
     "b")):
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
         print(tag.name)

import bs4#导入BeautifulSoup库
Soup = BeautifulSoup(html)#其中html 可以是字符串，也可以是句柄
需要注意的是，BeautifulSoup会自动检测传入文件的编码格式，然后转化为Unicode格式
通过如上两句话，BS自动把文档生成为如上图中的解析树。

4. 四大对象种类

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

1. Tag
2. NavigableString
3. BeautifulSoup
4. Comment

（1）Tag

Tag 是什么？通俗点讲就是 HTML 中的一个个标签，例如


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <title>The Dormouse's story
     
     title>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <a class="sister" href="http://example.com/elsie" id="link1">Elsie
     
     a>

上面的 title a 等等 HTML 标签加上里面包括的内容就是 Tag，下面我们来感受一下怎样用 Beautiful Soup 来方便地获取 Tags

下面每一段代码中注释部分即为运行结果


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.title
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #The Dormouse's story
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.head
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #The Dormouse's story
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.a
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.p
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #The Dormouse's story

利用 soup加标签名轻松地获取这些标签的内容，是不是感觉比正则表达式方便多了？不过有一点是，它查找的是在所有内容中的第一个符合要求的标签，如果要查询所有的标签，我们在后面进行介绍。 soup.title 得到的是title标签，soup.p 得到的是文档中的第一个p标签，要想得到所有标签，得用find_all函数。 find_all 函数返回的是一个序列，可以对它进行循环，依次得到想到的东西.。

我们可以验证一下这些对象的类型


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print type(soup.a)
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #

对于 Tag，它有两个重要的属性，是 name 和 attrs

name


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.name
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.head.name
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #[document]
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #head

soup 对象本身比较特殊，它的 name 即为 [document]，对于其他内部标签，输出的值便为标签本身的名称。

attrs


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.p.attrs
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #{'class': ['title'], 'name': 'dromouse'}

在这里，我们把 p 标签的所有属性打印输出了出来，得到的类型是一个字典。如果我们想要单独获取某个属性，可以这样，例如我们获取它的 class 叫什么


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.p[
     
     'class']
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #['title']

还可以这样，利用get方法，传入属性的名称，二者是等价的


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.p.get(
     
     'class')
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #['title']

我们可以对这些属性和内容等等进行修改，例如


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     soup.p[
     
     'class']=
     
     "newClass"
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.p
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #The Dormouse's story

还可以对这个属性进行删除，例如


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     del soup.p[
     
     'class']
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.p
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #The Dormouse's story

不过，对于修改删除的操作，不是我们的主要用途，在此不做详细介绍了，如果有需要，请查看前面提供的官方文档


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     head = soup.find(
     
     'head')
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #head = soup.head
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #head = soup.contents[0].contents[0]
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print head
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     html = soup.contents[
     
     0]       
     
     #  ... 
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     head = html.contents[
     
     0]       
     
     #  ... 
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     body = html.contents[
     
     1]       
     
     #  ...

可以通过Tag.attrs访问，返回字典结构的属性。

或者Tag.name这样访问特定属性值，如果是多值属性则以列表形式返回。

（2）NavigableString

既然我们已经得到了标签的内容，那么问题来了，我们要想获取标签内部的文字怎么办呢？很简单，用 .string 即可，例如


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.p.string
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #The Dormouse's story

这样我们就轻松获取到了标签里面的内容，想想如果用正则表达式要多麻烦。它的类型是一个 NavigableString，翻译过来叫可以遍历的字符串，不过我们最好还是称它英文名字吧。来检查一下它的类型


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print type(soup.p.string)
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #

（3）BeautifulSoup

BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象，是一个特殊的 Tag，我们可以分别获取它的类型，名称，以及属性来感受一下


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print type(soup.name)
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.name 
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     # [document]
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.attrs 
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #{} 空字典

（4）Comment

Comment 对象是一个特殊类型的 NavigableString 对象，其实输出的内容仍然不包括注释符号，但是如果不好好处理它，可能会对我们的文本处理造成意想不到的麻烦。

我们找一个带注释的标签


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.a
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.a.string
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print type(soup.a.string)

运行结果如下


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     class="sister" href="http://example.com/elsie
     
     " id="link1
     
     ">
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
      Elsie

a 标签里的内容实际上是注释，但是如果我们利用 .string 来输出它的内容，我们发现它已经把注释符号去掉了，所以这可能会给我们带来不必要的麻烦。

另外我们打印输出下它的类型，发现它是一个 Comment 类型，所以，我们在使用前最好做一下判断，判断代码如下


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     if type(soup.a.string)==bs4.element.Comment:
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     print soup.a.string

上面的代码中，我们首先判断了它的类型，是否为 Comment 类型，然后再进行其他操作，如打印输出。

5. 遍历文档树

（1）直接子节点

Tag.Tag_child1：直接通过下标名称访问子节点。
Tag.contents：以列表形式返回所有子节点。
Tag.children：生成器，可用于循环访问：for child in Tag.children

要点：.contents .children 属性

.contents

tag 的 .content 属性可以将tag的子节点以列表的方式输出。可以使用 [num] 的形式获得。使用contents向后遍历树，使用parent向前遍历树


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.head.contents 
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #[The Dormouse's story]

输出方式为列表，我们可以用列表索引来获取它的某一个元素


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.head.contents[
     
     0]
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #The Dormouse's story

.children

它返回的不是一个 list，不过我们可以通过遍历获取所有子节点。我们打印输出 .children 看一下，可以发现它是一个 list 生成器对象。

可以使用list可以将其转化为列表。当然可以使用for 语句遍历里面的孩子。


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.head.children
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #

我们怎样获得里面的内容呢？很简单，遍历一下就好了，代码及结果如下


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     for child 
     
     in  soup.body.children:
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     print child


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <p class="title" name="dromouse">
     
     <b>The Dormouse's story
     
     b>
     
     p>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <p class="story">Once upon a time there were three little sisters; and their names were
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <a class="sister" href="http://example.com/elsie" id="link1">
     
     
     
     a>,
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <a class="sister" href="http://example.com/lacie" id="link2">Lacie
     
     a> and
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <a class="sister" href="http://example.com/tillie" id="link3">Tillie
     
     a>;
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     and they lived at the bottom of a well.
     
     p>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <p class="story">...
     
     p>

（2）所有子孙节点

知识点：.descendants 属性

.descendants

.contents 和 .children 属性仅包含tag的直接子节点，.descendants 属性可以对所有tag的子孙节点进行递归循环，和 children类似，我们也需要遍历获取其中的内容。

Tag.descendants：生成器，可用于循环访问：for des inTag.descendants


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     for child 
     
     in soup.descendants:
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     print child

运行结果如下，可以发现，所有的节点都被打印出来了，先生成最外层的 HTML标签，其次从 head 标签一个个剥离，以此类推。


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <html>
     
     <head>
     
     <title>The Dormouse's story
     
     title>
     
     head>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <body>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <p class="title" name="dromouse">
     
     <b>The Dormouse's story
     
     b>
     
     p>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <p class="story">Once upon a time there were three little sisters; and their names were
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <a class="sister" href="http://example.com/elsie" id="link1">
     
     
     
     a>,
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <a class="sister" href="http://example.com/lacie" id="link2">Lacie
     
     a> and
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <a class="sister" href="http://example.com/tillie" id="link3">Tillie
     
     a>;
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     and they lived at the bottom of a well.
     
     p>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <p class="story">...
     
     p>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     body>
     
     html>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <head>
     
     <title>The Dormouse's story
     
     title>
     
     head>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <title>The Dormouse's story
     
     title>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     The Dormouse's story
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <body>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <p class="title" name="dromouse">
     
     <b>The Dormouse's story
     
     b>
     
     p>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <p class="story">Once upon a time there were three little sisters; and their names were
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <a class="sister" href="http://example.com/elsie" id="link1">
     
     
     
     a>,
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <a class="sister" href="http://example.com/lacie" id="link2">Lacie
     
     a> and
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <a class="sister" href="http://example.com/tillie" id="link3">Tillie
     
     a>;
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     and they lived at the bottom of a well.
     
     p>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <p class="story">...
     
     p>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     body>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <p class="title" name="dromouse">
     
     <b>The Dormouse's story
     
     b>
     
     p>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <b>The Dormouse's story
     
     b>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     The Dormouse's story
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <p class="story">Once upon a time there were three little sisters; and their names were
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <a class="sister" href="http://example.com/elsie" id="link1">
     
     
     
     a>,
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <a class="sister" href="http://example.com/lacie" id="link2">Lacie
     
     a> and
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <a class="sister" href="http://example.com/tillie" id="link3">Tillie
     
     a>;
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     and they lived at the bottom of a well.
     
     p>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     Once upon a time there were three little sisters; and their names were
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <a class="sister" href="http://example.com/elsie" id="link1">
     
     
     
     a>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
      Elsie 
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     ,
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <a class="sister" href="http://example.com/lacie" id="link2">Lacie
     
     a>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     Lacie
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
      and
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <a class="sister" href="http://example.com/tillie" id="link3">Tillie
     
     a>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     Tillie
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     ;
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     and they lived at the bottom of a well.
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     <p class="story">...
     
     p>
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     ...

（3）节点内容

知识点：.string 属性

Tag.String：Tag只有一个String子节点是，可以这么访问，否则返回None
Tag.Strings：生成器，可用于循环访问：for str in Tag.Strings

如果tag只有一个 NavigableString 类型子节点,那么这个tag可以使用 .string 得到子节点。如果一个tag仅有一个子节点,那么这个tag也可以使用 .string 方法,输出结果与当前唯一子节点的 .string 结果相同。通俗点说就是：如果一个标签里面没有标签了，那么 .string 就会返回标签里面的内容。如果标签里面只有唯一的一个标签了，那么 .string 也会返回最里面的内容。如果超过一个标签的话，那么就会返回None。例如


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.head.string
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #The Dormouse's story
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.title.string
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #The Dormouse's story

如果tag包含了多个子节点,tag就无法确定，string 方法应该调用哪个子节点的内容, .string 的输出结果是 None


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.html.string
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     # None

（4）多个内容

知识点： .strings .stripped_strings 属性

.strings

获取多个内容，不过需要遍历获取，比如下面的例子


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     for string 
     
     in soup.strings:
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
         print(repr(string))
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u"The Dormouse's story"
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u'\n\n'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u"The Dormouse's story"
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u'\n\n'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u'Once upon a time there were three little sisters; and their names were\n'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u'Elsie'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u',\n'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u'Lacie'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u' and\n'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u'Tillie'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u';\nand they lived at the bottom of a well.'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u'\n\n'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u'...'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u'\n'

.stripped_strings
输出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白内容


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     for string 
     
     in soup.stripped_strings:
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
         print(repr(string))
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u"The Dormouse's story"
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u"The Dormouse's story"
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u'Once upon a time there were three little sisters; and their names were'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u'Elsie'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u','
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u'Lacie'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u'and'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u'Tillie'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u';\nand they lived at the bottom of a well.'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u'...'

（5）父节点

知识点： .parent 属性

使用parent获取父节点。

Tag.parent：父节点
Tag.parents：父到根的所有节点


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     body = soup.body
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     html = body.parent             
     
     # html是body的父亲


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     p = soup.p
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print p.parent.name
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #body
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     content = soup.head.title.string
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print content.parent.name
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #title

（6）全部父节点

知识点：.parents 属性

通过元素的 .parents 属性可以递归得到元素的所有父辈节点，例如


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     content = soup.head.title.string
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     for parent 
     
     in  content.parents:
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     print parent.name
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     title
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     head
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     html
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     [document]

（7）兄弟节点

知识点：.next_sibling .previous_sibling 属性

使用nextSibling, previousSibling获取前后兄弟

Tag.next_sibling
Tag.next_siblings

Tag.previous_sibling
Tag.previous_siblings

兄弟节点可以理解为和本节点处在统一级的节点，.next_sibling 属性获取了该节点的下一个兄弟节点，.previous_sibling 则与之相反，如果节点不存在，则返回 None。

注意：实际文档中的tag的 .next_sibling 和 .previous_sibling 属性通常是字符串或空白，因为空白或者换行也可以被视作一个节点，所以得到的结果可能是空白或者换行


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.p.next_sibling
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #       实际该处为空白
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.p.prev_sibling
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #None   没有前一个兄弟节点，返回 None
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.p.next_sibling.next_sibling
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #Once upon a time there were three little sisters; and their names were
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #,
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #Lacie and
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #Tillie;
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #and they lived at the bottom of a well.
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #下一个节点的下一个兄弟节点是我们可以看到的节点

.next方法：只能针对单一元素进行.next，或者说是对contents列表元素的挨个清点。


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     比如
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     soup.contents[
     
     1]=
     
     u'HTML'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     soup.contents[
     
     2]=
     
     u'\n'

则soup.contents[1].next等价于soup.contents[2]


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     head = body.previousSibling    
     
     # head和body在同一层，是body的前一个兄弟
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     p1 = body.contents[
     
     0]          
     
     # p1, p2都是body的儿子，我们用contents[0]取得p1
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     p2 = p1.nextSibling            
     
     # p2与p1在同一层，是p1的后一个兄弟, 当然body.content[1]也可得到

contents[]的灵活运用也可以寻找关系节点,寻找祖先或者子孙可以采用findParent(s), findNextSibling(s), findPreviousSibling(s)

（8）全部兄弟节点

知识点：.next_siblings .previous_siblings 属性

通过 .next_siblings 和 .previous_siblings 属性可以对当前节点的兄弟节点迭代输出


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     for sibling 
     
     in soup.a.next_siblings:
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
         print(repr(sibling))
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u',\n'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # Lacie
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u' and\n'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # Tillie
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # u'; and they lived at the bottom of a well.'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
          
     
     # None

（9）前后节点

知识点：.next_element .previous_element 属性

与 .next_sibling .previous_sibling 不同，它并不是针对于兄弟节点，而是在所有节点，不分层次。比如 head 节点为

<head><title>The Dormouse's storytitle>head>

那么它的下一个节点便是 title，它是不分层次关系的


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     print soup.head.next_element
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #The Dormouse's story

（10）所有前后节点

知识点：.next_elements .previous_elements 属性

通过 .next_elements 和 .previous_elements 的迭代器就可以向前或向后访问文档的解析内容,就好像文档正在被解析一样


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     for element 
     
     in last_a_tag.next_elements:
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
         print(repr(element))
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     # u'Tillie'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     # u';\nand they lived at the bottom of a well.'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     # u'\n\n'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     # ...
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     # u'...'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     # u'\n'
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     # None

以上是遍历文档树的基本用法。

6.搜索文档树

最常用的是find_all()函数

（1）find_all( name , attrs , recursive , text , **kwargs )

find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件

1）name 参数

name 参数可以查找所有名字为 name 的tag,字符串对象会被自动忽略掉


 
 
   
   
   
   
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #第一个参数为Tag的名称 
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     tag.find_all(‘title’)  
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #得到”&%^&*”,结果为一个列表  
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
       
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     第二个参数为匹配的属性
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
       
       
       
       
     
     tag.find_all(“title”,
     
     class=”sister”) 
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #得到如”<title class = “sister”>%^*&title>  
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     # 第二个参数也可以为字符串，得到字符串匹配的结果
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     tag.find_all(“title”,”sister”)  
    
    
      
      
      
      
   
   
     
     
     
     
    
    
    
    
   
   
     
     
     
     
    
    
      
      
      
      
   
   
     
     
     
     
   
   
     
     
     
     
    
    
      
      
      
      
     
     #得到如”<title class = “sister”>%^*&title>

A.传字符串

最简单的过滤器是字符串.在搜索方法中传入一个字符串参数,Beautiful Soup会查找与字符串完整匹配的内容,下面的例子用于查找文档中所有的标签

soup.find_all( 'b')

# [The Dormouse's story]

print soup.find_all( 'a')

#[, Lacie, Tillie]

B.传正则表达式

如果传入正则表达式作为参数,Beautiful Soup会通过正则表达式的 match() 来匹配内容.下面例子中找出所有以b开头的标签,这表示和标签都应该被找到

import re

for tag in soup.find_all(re.compile( "^b")):

print(tag.name)

# body

# b

C.传列表

如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回.下面代码找到文档中所有标签和标签

soup.find_all([ "a", "b"])

# [The Dormouse's story,

# Elsie,

# Lacie,

# Tillie]

D.传 True

True 可以匹配任何值,下面代码查找到所有的tag,但是不会返回字符串节点

for tag in soup.find_all( True):

print(tag.name)

# html

# head

# title

# body

# p

# b

# p

# a

# a

E.传方法

如果没有合适过滤器,那么还可以定义一个方法,方法只接受一个元素参数 [4] ,如果这个方法返回 True 表示当前元素匹配并且被找到,如果不是则反回 False。下面方法校验了当前元素,如果包含 class 属性却不包含 id 属性,那么将返回 True:

def has_class_but_no_id(tag):

return tag.has_attr( 'class') and not tag.has_attr( 'id')

将这个方法作为参数传入 find_all() 方法,将得到所有
标签:

soup.find_all(has_class_but_no_id)

# [
The Dormouse's story
,

#
Once upon a time there were...
,

#
...
]

2）keyword 参数

注意：如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字tag的属性来搜索,如果包含一个名字为 id 的参数,Beautiful Soup会搜索每个tag的”id”属性

soup.find_all(id= 'link2')

# [Lacie]

如果传入 href 参数,Beautiful Soup会搜索每个tag的”href”属性

soup.find_all(href=re.compile( "elsie"))

# [Elsie]

使用多个指定名字的参数可以同时过滤tag的多个属性

soup.find_all(href=re.compile( "elsie"), id= 'link1')

# [three]

在这里我们想用 class 过滤，不过 class 是 python 的关键词，这怎么办？加个下划线就可以

soup.find_all( "a", class_= "sister")

# [Elsie,

# Lacie,

# Tillie]

有些tag属性在搜索不能使用,比如HTML5中的 data-* 属性

data_soup = BeautifulSoup( '
foo!
')

data_soup.find_all(data-foo= "value")

# SyntaxError: keyword can't be an expression

但是可以通过 find_all() 方法的 attrs 参数定义一个字典参数来搜索包含特殊属性的tag

data_soup.find_all(attrs={ "data-foo": "value"})

# [
foo!
]

3）text 参数

通过 text 参数可以搜搜文档中的字符串内容.与 name 参数的可选值一样, text 参数接受字符串 , 正则表达式 , 列表, True

soup.find_all(text= "Elsie")

# [u'Elsie']

soup.find_all(text=[ "Tillie", "Elsie", "Lacie"])

# [u'Elsie', u'Lacie', u'Tillie']

soup.find_all(text=re.compile( "Dormouse"))

[ u"The Dormouse's story", u"The Dormouse's story"]

4）limit 参数

find_all() 方法返回全部的搜索结构,如果文档树很大那么搜索会很慢.如果我们不需要全部结果,可以使用 limit 参数限制返回结果的数量.效果与SQL中的limit关键字类似,当搜索到的结果数量达到 limit 的限制时,就停止搜索返回结果.

文档树中有3个tag符合搜索条件,但结果只返回了2个,因为我们限制了返回数量

soup.find_all( "a", limit= 2)

# [Elsie,

# Lacie]

5）recursive 参数

调用tag的 find_all() 方法时,Beautiful Soup会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 recursive=False 。一段简单的文档:

</div> </div></li> <li> <div class="hljs-ln-numbers"> <div class="hljs-ln-line hljs-ln-n"></div> </div> <div class="hljs-ln-code"> <div class="hljs-ln-line"> The Dormouse <span class="hljs-string"><span class="hljs-string">'s story</span></span> </div> </div></li> <li> <div class="hljs-ln-numbers"> <div class="hljs-ln-line hljs-ln-n"></div> </div> <div class="hljs-ln-code"> <div class="hljs-ln-line"> <span class="hljs-string">

...

是否使用 recursive 参数的搜索结果:

soup.html.find_all( "title")

# [The Dormouse's story]

soup.html.find_all( "title", recursive= False)

# []

（2）find(name=None, attrs={}, recursive=True, text=None, **kwargs)

它与 find_all() 方法唯一的区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果。

.find('p'),.findAll('p')：find返回的是字符串值，而且是返回从头查找到的第一个tag对。但是如果这第一个tag对包括大量的内容，父等级很高，则同时其内部所包含的，此级标签也全部都find。findAll返回值是个列表，如果发现了一个同名标签内含多个同名标签，则内部的标签一并归于该父标签显示，列表其他元素也不再体现那些内含的同名子标签。即findAll会返回所有符合要求的结果，并以list返回。

soup.findAll(οnclick= 'document.location...')

soup.findAll(attrs={ 'style': r'outline:none;'}) #用来查找属性中有style='outline:none;的标签体。 # 搜索所有tag

tag搜索

find(tagname) # 直接搜索名为tagname的tag 如：find('head')

find(list) # 搜索在list中的tag，如: find(['head', 'body'])

find(dict) # 搜索在dict中的tag，如:find({'head':True, 'body':True})

find(re.compile( '')) # 搜索符合正则的tag, 如:find(re.compile('^p')) 搜索以p开头的tag

find( lambda) # 搜索函数返回结果为true的tag, 如:find(lambda name: if len(name) == 1) 搜索长度为1的tag

find( True) # 搜索所有tag

attrs搜索

find(id= 'xxx') # 寻找id属性为xxx的

find(attrs={id=re.compile( 'xxx'), algin= 'xxx'}) # 寻找id属性符合正则且algin属性为xxx的

find(attrs={id= True, algin= None}) # 寻找有id属性但是没有algin属性的

resp1 = soup.findAll( 'a', attrs = { 'href': match1})

resp2 = soup.findAll( 'h1', attrs = { 'class': match2})

resp3 = soup.findAll( 'img', attrs = { 'id': match3})

text搜索

文字的搜索会导致其他搜索给的值如：tag, attrs都失效。方法与搜索tag一致

print p1.text

# u'This is paragraphone.'

print p2.text

# u'This is paragraphtwo.'

# 注意：1，每个tag的text包括了它以及它子孙的text。2，所有text已经被自动转为unicode，如果需要，可以自行转码encode(xxx)

recursive和limit属性

recursive= False表示只搜索直接儿子，否则搜索整个子树，默认为 True。

当使用findAll或者类似返回list的方法时，limit属性用于限制返回的数量，

如:findAll( 'p', limit= 2)：返回首先找到的两个tag

（3）find_parents() find_parent()

find_all() 和 find() 只搜索当前节点的所有子节点,孙子节点等. find_parents() 和 find_parent() 用来搜索当前节点的父辈节点,搜索方法与普通tag的搜索方法相同,搜索文档搜索文档包含的内容

（4）find_next_siblings() find_next_sibling()

这2个方法通过 .next_siblings 属性对当 tag 的所有后面解析的兄弟 tag 节点进行迭代, find_next_siblings() 方法返回所有符合条件的后面的兄弟节点,find_next_sibling() 只返回符合条件的后面的第一个tag节点

（5）find_previous_siblings() find_previous_sibling()

这2个方法通过 .previous_siblings 属性对当前 tag 的前面解析的兄弟 tag 节点进行迭代, find_previous_siblings()方法返回所有符合条件的前面的兄弟节点, find_previous_sibling() 方法返回第一个符合条件的前面的兄弟节点

（6）find_all_next() find_next()

这2个方法通过 .next_elements 属性对当前 tag 的之后的 tag 和字符串进行迭代, find_all_next() 方法返回所有符合条件的节点, find_next() 方法返回第一个符合条件的节点

（7）find_all_previous() 和 find_previous()

这2个方法通过 .previous_elements 属性对当前节点前面的 tag 和字符串进行迭代, find_all_previous() 方法返回所有符合条件的节点, find_previous()方法返回第一个符合条件的节点
注：以上（2）（3）（4）（5）（6）（7）方法参数用法与 find_all() 完全相同，原理均类似，在此不再赘述。
7. CSS选择器

在写 CSS 时，标签名不加任何修饰，类名前加点，id名前加 #

在这里我们也可以利用类似的方法来筛选元素，用到的方法是 soup.select()，返回类型是 list

（1）通过标签名查找

print soup.select( 'title')

#[The Dormouse's story]

print soup.select( 'a')

#[, Lacie, Tillie]

print soup.select( 'b')

#[The Dormouse's story]

（2）通过类名查找

print soup.select( '.sister')

#[, Lacie, Tillie]

（3）通过 id 名查找

print soup.select( '#link1')

#[]

（4）组合查找
组合查找即和写 class 文件时，标签名与类名、id名进行的组合原理是一样的，例如：查找 p 标签中，id 等于 link1的内容，二者需要用空格分开

print soup.select( 'p #link1')

#[]

直接子标签查找

print soup.select( "head > title")

#[The Dormouse's story]

（5）属性查找
查找时还可以加入属性元素，属性需要用中括号括起来，注意属性和标签属于同一节点，所以中间不能加空格，否则会无法匹配到。

print soup.select( 'a[class="sister"]')

#[, Lacie, Tillie]

print soup.select( 'a[href="http://example.com/elsie"]')

#[]

同样，属性仍然可以与上述查找方式组合，不在同一节点的空格隔开，同一节点的不加空格

print soup.select( 'p a[href="http://example.com/elsie"]')

#[]

以上的 select 方法返回的结果都是列表形式，可以遍历形式输出，然后用 get_text() 方法来获取它的内容。

soup = BeautifulSoup(html, 'lxml')

print type(soup.select( 'title'))

print soup.select( 'title')[ 0].get_text()

for title in soup.select( 'title'):

print title.get_text()

这就是另一种与 find_all 方法有异曲同工之妙的查找方法，是不是感觉很方便？

print soup.find_all( "a", class_= "sister")

print soup.select( "p.title")

# 通过属性进行查找

print soup.find_all( "a", attrs={ "class": "sister"})

# 通过文本进行查找

print soup.find_all(text= "Elsie")

print soup.find_all(text=[ "Tillie", "Elsie", "Lacie"])

# 限制结果个数

print soup.find_all( "a", limit= 2)

Python学习心得两大编程思想 lifegoesonwjl python 开发语言 pycharm 前端 c语言
一、两大编程思想：1.面向过程：功能上的封装典型代表：C语言2.面向对象：属性和行为上的封装典型代表：Python、Java二、面向过程与面向对象的异同点：1.区别：面向过程：事物比较简单，可用线性的思维去解决面向对象：事务比较复杂，使用简单的线性思维无法解决2.共同点：（1）面向过程和面向对象都是解决实际问题的一种思维方式；（2）二者相辅相成，并不是对立的；（3）解决复杂问题，通过面向对象方式便
Linux升级Anacodna并配置jupyterLab 伪_装环境部署 linux 服务器 Anaconda python jupyter
在使用Anaconda的过程中，随着项目和需求的发展，可能需要升级Anaconda的Base环境中的Python版本。本文将详细介绍如何安全地进行升级，包括步骤、代码示例与最终流程图。升级Python一、环境准备在进行任何升级之前，建议先检查当前的Python版本以及各个库的兼容性。我们可以通过以下命令检查当前的Python版本：condainfo你会看到类似以下的输出，其中包含了当前Python
【Linux】删除Conda虚拟环境不是伍壹 Linux linux conda 运维
1、查看当前系统的conda虚拟环境condainfo--envscondaenvlist2、创建虚拟的环境condacreate-n（你的环境名字）python=（你需要的版本号，如（3.7,3.8,3.10））3、查看安装了哪些包condalist4、删除虚拟环境condaremove-nname--all5、删除虚拟环境中的包condaremove--name$（需要删除的环境名字）$（需要
动态规划之背包问题--python版本我是小码搬运工 #python基础动态规划背包问题 python版本
动态规划之背包问题–python版本问题已知一个最大量的背包，给定一组给定固定价值和固定体积的物品，求在不超过最大值的前提下，能放入背包中的最大总价值。解题思路该问题是典型的动态规划问题，分为三种不同的类型（0-1背包问题、完全背包和多重背包问题）解题关键–状态转移表达式：B(k,C)=max(B(k−1,C),B(k−1,C−ci)+vi)B(k,C)=max(B(k-1,C),B(k-1,C-
Centos7 搭建 Jupyter + Nginx 服务某龙兄 python nginx linux centos
JupyterNotebook（此前被称为IPythonnotebook）是一个交互式笔记本，支持运行40多种编程语言。JupyterNotebook的本质是一个Web应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。本文讲述如何搭建Jupyter+Nginx服务,仅供学习与交流，请勿用于商业用途一
动态规划之背包问题的Python实现名侦探debug Python 数据结构 python 数据结构动态规划求解
目录1.问题描述2.动态规划之网格法3.python实现1.问题描述题目来源于《算法图解》第9章练习题9.2，如下图所示。对于背包问题，通常的做法有列举法、贪婪算法和动态规划（1）列举法：列举出所有的可能情况，再选择最优解，但当情况很多时，这种算法复杂度很高（2）贪婪算法：在容量允许范围内，每次都拿剩余物品中价值最高的，贪婪算法能够快速解决复杂度很高的问题，但通常得到的是次优解，但就对这个题目而言
总结10个Python赚钱的接单平台兼职月入5000+ begefefsef 面试学习路线阿里巴巴 android 前端后端
前言“如果说当下什么编程语言最靠谱或者比较适合搞副业？”答案肯定100%是：Pythonpython是所有语法中最简单易上手的语言，不需要特别的的英语词汇量，逻辑思维也不需要很差就能上手。而且学会了之后就能编写代码爬取各种数据，制作各种图表，提升工作效率。而且还能利用业余时间接点私活，一个月轻松收入过万不是问题，这样的生活他不香吗？今天就给大家盘点几个基本入门接私活的资源，让你轻松学python，
大学生学完python靠几个接单网站兼职，实现经济独立「已注销」 python 开发语言
大学生学完python靠几个接单网站兼职，实现经济独立程序员就是当今时代的手艺人，程序员可以通过个人的技术来谋生。而在工作之余接私单可以作为一种创富的途径，受到程序员的广泛认可。说句实在话，现在这个时代，很多人仅靠主业顶多维持基本生活，想让自己、家人生活好一点很难。我接的私活并不算多，加起来也就几万左右，只能算一半，我想把一些经验分享出来，毕竟现在生活都不容易，能赚一点是一点。一、程序员接活、新手
Python wifi 安装手机app yichengace python
目的当测试机数量越来越多时，测试包的安装会成为一个问题，用wifi安装来解决这个问题，并且用脚本语言来批量控制思路思路就是py调用pc端的adb命令，向手机发送请求，无线是因为，如果未来测试机越来越多，一台电脑的usb接口数量肯定不够准备工具python，adb，pycharm，测试用app，这里选择qq（https://qd.myapp.com/myapp/qqteam/AndroidQQ/mo
深度学习之目标检测的常用标注工具铭瑾熙人工智能机器学习深度学习深度学习目标检测目标跟踪
1LabelImgLabelImg是一款开源的图像标注工具，标签可用于分类和目标检测，它是用Python编写的，并使用Qt作为其图形界面，简单好用。注释以PASCALVOC格式保存为XML文件，这是ImageNet使用的格式。此外，它还支持COCO数据集格式。2labelmelabelme是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Label
Python 舆论风向分析爬虫：全流程数据获取、清洗与情感剖析西攻城狮北 python 爬虫开发语言实战案例
引言在当今信息爆炸的时代，互联网上充斥着海量的用户言论和观点。了解舆论风向对于企业、政府机构以及研究者等具有重要的意义，可以帮助他们及时把握公众情绪、调整策略与决策。Python作为一种强大的编程语言，在数据爬取与分析方面具有得天独厚的优势，能够助力我们高效地实现舆情监测与深入剖析。一、环境搭建与目标确定1.环境搭建为了顺利完成爬虫与数据分析任务，首先需要确保你的开发环境已经安装了以下Python
PyCharm 集成 DeepSeek：本地运行 or API 直连？打造你的 AI 编程神器！ AI云极【AI智能系列】pycharm 人工智能 ide deepseek
在AI赋能编程的时代，如何让AI辅助写代码，提升开发效率？DeepSeek作为一款开源、强大、免费的AI编程助手，结合PyCharm，能够大幅提升Python编程体验。今天，我们就来详细讲解如何在PyCharm中接入DeepSeek，无论你想使用本地部署的DeepSeek，还是官方API版本，都能轻松实现！为什么选择DeepSeek+PyCharm？DeepSeekR1采用6710亿参数的MoE（
Python3.5源码分析-sys模块及site模块导入小屋子大侠 python Python分析 python源码
Python3源码分析本文环境python3.5.2。参考书籍>python官网Python3的sys模块初始化根据分析完成builtins初始化后，继续分析sys模块的初始化，继续分析_Py_InitializeEx_Private函数的执行，void_Py_InitializeEx_Private(intinstall_sigs,intinstall_importlib){...sysmod=
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
基于python使用scanpy分析单细胞转录组数据探序基因单细胞分析 python 开发语言
探序基因肿瘤研究院整理相关后缀的格式介绍：.h5ad：是一种用于存储单细胞数据的文件格式，可以通过anndata库在Python中处理.loom：高效的数据存储格式（.loom文件），使得用户可以轻松地存储、查询和分析大规模的单细胞数据集。Loompy的设计目标是提供一个快速、灵活且易于使用的工具，以支持生物信息学家和研究人员在单细胞水平上进行数据分析。python的单细胞转录组数据结构说明：da
本地搭建小型 DeepSeek 并进行微调非著名架构师大模型知识文档智能硬件人工智能大数据大模型 deepseek
本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/deepseek-ai/deepseek.gitcddeepseek3.安装依赖bash复制pipinstall
使用Python和OpenCV实现图像像素压缩与解压东方佑量子变法 python opencv 开发语言
在本文中，我们将探讨如何使用Python和OpenCV库来实现一种简单的图像像素压缩算法。我们将详细讨论代码的工作原理，并提供一个具体的示例来演示该过程。1.引言随着数字媒体的普及，图像处理成为了一个重要的领域。无论是为了减少存储空间还是加快网络传输速度，图像压缩技术都扮演着至关重要的角色。这里，我们提出了一种基于像素重复模式的简单压缩算法，它适用于具有大量连续相同像素值的图像。2.技术栈介绍2.
【Python系列】Python 解释器的站点配置 Kwan的解忧杂货铺@新空间代码工作室 s1 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
python做一个注册界面_python如何做一个登录注册界面 weixin_39824033 python做一个注册界面
python做一个登录注册界面的方法：首先初始化一个window界面，并使用画布实现欢迎的logo；然后用代码实现登录和注册按钮；接着并进行登录判断代码；最后完成注册界面即可。【相关学习推荐：python视频教程】python做一个登录注册界面的方法：一、登录界面1、首先初始化一个window界面window=tk.Tk()window.title('WelcometoMofanPython')w
python读取zip包内文件_Python模块学习：zipfile zip文件操作 weixin_40001634 python读取zip包内文件
最近在写一个网络客户端下载程序，用于下载服务器上的数据。有些数据(如文本，office文档)如果直接传输的话，将会增加通信的数据量，使下载时间变长。服务器在传输这些数据之前先对其进行压缩，客户端接收到数据之后进行解压，这样可以减小网通传输数据的通信量，缩短下载的时间，从而增加客户体验。以前用C#做类似应用程序的时候，我会用SharpZipLib这个开源组件，现在用Python做类似的工作，只要使用
python制作登陆窗口_python登陆界面 weixin_39758494 python制作登陆窗口
广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！print(账号密码错误！请重试。)returnfalsebutton(master,text=登陆,width=10,command=test).grid(row=3,column=0,sticky=w,padx=10,pady=5)button(master,text=退出,wid
如何使用零配置的Sphinx生成Python文档？潮易 sphinx 全文检索搜索引擎
如何使用零配置的Sphinx生成Python文档？在Python编程中，编写文档是非常重要的。一个好的文档可以帮助其他开发者理解和使用你的代码。Sphinx是一个用于生成Python项目的文档的静态网页生成器，它支持多种文档格式，包括ReStructuredText和Markdown。以下是使用零配置的方式来使用Sphinx生成Python文档的详细步骤：1.首先，确保你已经安装了Sphinx。打
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？潮易 python 开发语言
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？这个问题涉及到Python编程中的MQTT（MessageQueuingTelemetryTransport）库的使用，该库允许我们创建客户端订阅和发布消息到MQTT服务器。以下是一个简单的步骤：1.安装MQTT库：可以使用pip安装`paho-mqtt`库。```pythonpipinstallpaho-mqtt```2.创建一个MQTT客
Python-tkinter自制登录界面（含注册） GCHEK python 开发语言
简单的用户登录、注册界面importtkinterastkimporttimeimportsubprocessimportsysimportosimporttkinter.messageboxwindow=tk.Tk()window.title('GCHEK')window.geometry('400x300')#设置储存用户信息的容器，这里用的txt。ifnotos.path.exists('U
Python爬虫requests(详细) dme. Python爬虫零基础入门爬虫 python
本文来学爬虫使用requests模块的常见操作。1.URL参数无论是在发送GET/POST请求时，网址URL都可能会携带参数，例如：http://www.5xclass.cn?age=19&name=dengres=requests.get(url="https://www.5xclass.cn?age=19&name=deng")res=requests.get(url="https://www
使用python计算等比数列求和的方法 HAMYHF windows
在python中，计算Sum=m+mm+mmm+mmmm+.....+mmmmm.....,输入两个数m,n。m的位数累加到n的值，列出算式并计算出结果：#为了打印出算式，并计算出结果，将m,mm这些放入到列表中#定义列表中的m初始值为0,用Ele来代表m,mm....Ele=0#定义总和为0Sum=0#定义一个空列表List=[]#输入两个值n=int(input("inputadigit：")
Python+Playwright常用元素定位方法 HAMYHF python 功能测试
CSSselector选择器在CSS中，定位元素主要通过选择器完成，以下是几种常见的CSS选择器定位方法：标签选择器(element):直接使用HTML元素名称来定位，例如p会选择所有段落元素。属性选择器(attribute):选择所有具有指定属性的元素，无论该属性的值是什么。例如，[title]会选择所有包含title属性的元素。选择具有指定属性，并且该属性值完全等于给定值的元素。例如，[typ
Python中的 redis keyspace 通知_python 操作redis psubscribe(‘__keyspace@0__ ‘) 2301_82243733 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C

BeautifulSoup用法讲解

BeautifulSoup的使用讲解

1. Beautiful Soup 简介

2. Beautiful Soup 安装

3. 创建 Beautiful Soup 对象

4. 四大对象种类

（1）Tag

（2）NavigableString

（3）BeautifulSoup

（4）Comment

5. 遍历文档树

（1）直接子节点

（2）所有子孙节点

（3）节点内容

（4）多个内容

（5）父节点

（6）全部父节点

（7）兄弟节点

（8）全部兄弟节点

（9）前后节点

（10）所有前后节点

6.搜索文档树

（1）find_all( name , attrs , recursive , text , **kwargs )

（2）find(name=None, attrs={}, recursive=True, text=None, **kwargs)

（3）find_parents() find_parent()

（4）find_next_siblings() find_next_sibling()

（5）find_previous_siblings() find_previous_sibling()

（6）find_all_next() find_next()

（7）find_all_previous() 和 find_previous()

7. CSS选择器

（1）通过标签名查找

（2）通过类名查找

（3）通过 id 名查找

（4）组合查找

（5）属性查找

你可能感兴趣的:(Python)