一、介绍
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间,官网推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4,安装模块如下:

# pip3 install beautifulsoup4
#pip3 install LXML


二、用法

from bs4 import BeautifulSoup
html_doc = """
The Dormouse's story

asdf
    
        The Dormouse's story总共
        

f

    
Once upon a time there were three little sisters; and their names were     Elsfie,     Lacie and     Tillie; and they lived at the bottom of a well.