近期在使用BeautifulSoup对网页进行解析,想要获取网页的数据,如下代码:
soup = BeautifulSoup( resp.text, 'lxml' )
结果发现根据特定的id找不到对应那个标签,还出现找到了标签,但是标签结构破坏的情况,比如下面这个例子:
这是网页内容,我要循环每个tr标签,得到th里的文本,关键代码如下:
最终输入出的结果为:
可以看到前面输出的内容都没有错,而到“张自忠路”这里,竟然把标签也打印出来了,不难发现,因为这里的标签缺失了“<”,所以没有找到th的截止标签,而让BeautifulSoup认为这一整块都是th标签里的内容。为什么会出现这样的情况呢?
在网上查了一下资料,可能是因为我使用的解析器为“lxml”,需要解析的文档太大,解析器的缓存不够而导致了数据的丢失。
所以二话不说,把解析器换成“html.parser”,如下代码:
soup = BeautifulSoup( resp.text, 'html.parser' )
问题解决!