爬虫学习2:如何引入Beautiful Soup

我们第一步利用request包拉出了网页的源代码:


下面我们需要引入一个Beautiful Soup来提取代码中我们想要的数据。首先跟安装requests一样,在cmd命令行里输入“pip install beautiful4”,安装即可。然后在编辑器引入“from bs4 import BeautifulSoup”,如果这个库没有被用,是呈灰色,并显示Unused import statement,指的是这个库没有在下列的编程文件中起作用。

问题1:我在使用BeautifulSoup的方法时,发现报错:


这个错误的意思是指解析器不对,需要在BeautifulSoup的函数中,添加对应的解析。一般添加"html5lib"即可,但需要现在cmd命令行中“pip install html5lib”文件,添加后就不会有warning出现了。


这样后,再运行就会发现一切正常了。

你可能感兴趣的:(爬虫学习2:如何引入Beautiful Soup)