1、BeautifulSoup4模块简介:
- 本质:python的一个第三方库
- 作用:在获取到网页源代码的前提下,在HTML文件或者XML文件中提取数据。
- 安装指令:pip install BeautifulSoup4
- 安装说明:除了上面的指令安装之外,还可以用pycharm中的图形化安装界面安装
- 使用BeautifulSoup方法针对网页源代码进行文档解析,返回一个BeautifulSoup对象(本质:树结构),这个解析过程需要解析器。
2、示例代码:
html_str = """
The Dormouse's story
The Dormouse's story
Once upon a time there were three little sisters; and their names were