02_BeautifulSoup4模块简介与使用

1、BeautifulSoup4模块简介:

  • 本质:python的一个第三方库
  • 作用:在获取到网页源代码的前提下,在HTML文件或者XML文件中提取数据。
  • 安装指令:pip install BeautifulSoup4
  • 安装说明:除了上面的指令安装之外,还可以用pycharm中的图形化安装界面安装
  • 使用BeautifulSoup方法针对网页源代码进行文档解析,返回一个BeautifulSoup对象(本质:树结构),这个解析过程需要解析器。

2、示例代码:

html_str = """

    
        The Dormouse's story
    
    
        

The Dormouse's story

Once upon a time there were three little sisters; and their names were

你可能感兴趣的:(python爬虫,python)